静かなる名辞

pythonとプログラミングのこと

2019/03/22:TechAcademyがteratailの質問・回答を盗用していた件
2019/03/26:TechAcademy盗用事件 公式発表と深まる疑念



統計

【python】statsmodelsでt検定する方法

この前はscipyでやる方法をまとめたわけですが、片側のオプションほしいなーと思ったのでstatsmodelsに浮気することにしました。

【python】scipyでt検定する方法まとめ

概要 いっっっつも使い方を忘れて調べているので、自分で備忘録を書いておくことにしました。 t検定の概要 2群の標本の平均に差異があるかどうかを検定します。帰無仮説は「両者の平均に差はない」、対立仮説は「両者の平均に差がある」です。 詳しいことはw…

【python】scipyで階層型クラスタリングするときの知見まとめ

はじめに scipyの階層型クラスタリングを使う機会がありましたが、使い方がわかりづらいと思ったのでまとめておきます。 目次 はじめに 関数がいっぱいある 使い方 linkage fcluster cophenet dendrogram 実践編 データを作る 手法を選ぶ クラスタに分ける …

scipy.interpolate.griddataの内挿方法による違いを比較

はじめに 以前、3次元のサンプルデータを内挿してmatplotlibでうまくプロットする方法について記事にしました。www.haya-programming.com この記事では内挿のアルゴリズムをデフォルトのlinearにして使いましたが、他の方法ではどうなるのか気になったので実…

scipyで確率分布のサンプルと確率密度関数を生成する

乱数データと確率密度関数を一緒にplotしてみたかったので、メモ。 概要 scipy.statsでは様々な統計用のユーティリティが提供されています。大抵の分布はあるし、パラメータも好きに設定できます。Statistical functions (scipy.stats) — SciPy v0.16.1 Refe…

【python】sklearnのPCAでloading(主成分負荷量)を計算する

PCA(主成分分析)のloading*1がほしいときがあります。 sklearnでは一発では出ません。 ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう 罠だった …

【python】sklearnで因子分析を試す

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

【python】pythonで主成分分析のバイプロット

バイプロット(Biplot)という主成分分析(PCA)の結果の可視化方法があります。 すごく大雑把に言うと、PCAによる写像の前の空間の各特徴(軸)が写像先の空間のどこに向いているかを可視化する方法です。 具体的には、主成分ベクトル(因子負荷量などを使…

【python】numpyで主成分分析を実装してみた

numpyでPCA(principal component analysis:主成分分析)を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。 目次 概要 実装 結果 まとめ 概要 主成分分析…

【python】scipy.statsのzscoreで警告が出るときの対策

概要 z得点を計算しようとしたとき、このような警告を見かけることがあります。 RuntimeWarning: invalid value encountered in true_divide これが出た場合、結果にはnanが含まれています。なので後段の分析で落ちたりします。 >>> import numpy as np >>> …

【python】混合ガウスモデル (GMM)でハード・ソフトクラスタリング

ソフトクラスタリングの有名な手法としては混合ガウスモデル(混合正規分布モデル)を使った手法があります。この手法はデータが「複数の正規分布から構成されている」と仮定し、その正規分布のパラメタをEMアルゴリズム(expectation–maximization algorith…

【python】正準相関分析(Canonical Correlation Analysis)を試してみる

正準相関分析を使うと、2つの多次元データ同士の関連性を分析できるらしい。 面白そうなので試してみた。ちなみに正準相関はsklearn.cross_decomposition.CCAで使える。正準相関自体の解説はしないので、文中のリンクを参考にして欲しい*1。 目次 ノイズに埋…

【python】95%信頼楕円/確率楕円を描画する

「ライブラリあるやろw」と思ったら、なくて顔面蒼白になった。 しょうがないから調べて実装した。 理論的なもの ちゃんと数式を書いて説明する気概がないので、アバウトに説明する。 適当な二次元正規分布のデータがあるとする。PCAと同じ要領で分散共分散…