【python】matplotlibのboxplotで外れ値を表示しないようにする

はじめに matplotlibのboxplotを使うと簡単に箱ひげ図が描けます。ただし、デフォルト設定では外れ値が黒い円で表示されます。どんなデータでも、サンプル数が多いと一定数の外れ値は出てしまいます。ただ、図を見る人は気にするところですし、外れ値がたく…

2019-07-21

【python】相関係数行列をstatsmodelsを使って描く

python statsmodels 可視化統計 Tips

はじめに相関係数行列を描く方法としては、pandasとseabornを使う方法などが一般的です。しかし、statsmodelsで行う方法も実は存在します。pandas+seabornでやる場合 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seabo…

2019-07-18

pythonで相関係数を計算する方法いろいろ3種類

python Tips numpy scipy pandas 統計

はじめに pythonで相関係数を計算する方法はいろいろあります。確認したら、主要ライブラリだけで3つありました。いろいろあるということは用途によって使い分けられるということなので、淡々と書いていきます。なお、念のために断っておくと、ここで書い…

2019-07-14

scikit-learnで目的変数を対数変換したりするTransformedTargetRegressor

python 機械学習統計 sklearn Tips 回帰

はじめに経済系の分析などで、目的変数を対数変換して分析するというケースがあります。scikit-learnはそのようなケースもサポートしています。どうやったらいいのかわからなくて、自分で変数を変換している人も中にはいるかと思いますが、モデル構築まで…

2019-07-07

ロジスティック回帰が線形分離不可能な分類問題を解けないことの説明

統計雑記ロジスティック回帰

はじめにロジスティック回帰が線形分離不可能な分類問題を解けないことは有名な話です。だけど、「いや解けるだろ」「なんで解けないの？？？」と言われてしまうことがあるので*1、それができないことを説明しておこうと思います。なお、この記事はこちら…

2019-07-05

コサイン距離は距離じゃないんだから、勘違いしないでよねっ！

雑記統計ネタ・小ネタ機械学習データ前処理自然言語処理可視化

自然言語処理などでお馴染みのコサイン類似度。これを1から引いたものを「コサイン距離」と称している文献も散見されますが、この「コサイン距離」は距離としての性質を満たしません。それがどういうことなのかをこの記事で説明していきます。

2019-06-30

【python】ロジスティック回帰で確率値で学習させる

python statsmodels Tips 統計ロジスティック回帰

はじめにロジスティック回帰は回帰という名前なのにほとんど二項判別に使われますが、たまに本当に回帰に使うときもあります。0.1とか0.4とか0.6のような目的変数を使ってモデルを作る、というケースです。ちょっとした目的で必要になるかもしれないと思っ…

2019-05-24

【python】statsmodelsでt検定する方法

python 統計 Tips statsmodels

statsmodelsは統計処理に特化したPythonのライブラリです。statsmodelsを使うと、t検定を簡単に行うことができます。この記事ではその方法を説明します。

2019-05-17

【python】scipyでt検定する方法まとめ

python scipy 統計 Tips

t検定の中でもよく使われるのが2群の標本の平均に差異があるかどうかの検定です。t検定はscipyを使うと簡単に実施することができます。その方法を紹介します。

2019-02-11

【python】scipyで階層型クラスタリングするときの知見まとめ

python scipy クラスタリング統計機械学習可視化

はじめに scipyの階層型クラスタリングを使う機会がありましたが、使い方がわかりづらいと思ったのでまとめておきます。目次はじめに関数がいっぱいある使い方 linkage fcluster cophenet dendrogram 実践編データを作る手法を選ぶクラスタに分ける …

2018-12-14

scipy.interpolate.griddataの内挿方法による違いを比較

python scipy matplotlib 統計回帰機械学習可視化

はじめに以前、3次元のサンプルデータを内挿してmatplotlibでうまくプロットする方法について記事にしました。xyzの点データを内挿してmeshgridにしmatplotlibでプロットする - 静かなる名辞この記事では内挿のアルゴリズムをデフォルトのlinearにして使い…

2018-12-02

scipyで確率分布のサンプルと確率密度関数を生成する

python Tips scipy numpy matplotlib 統計

scipy.statsでは様々な統計用のユーティリティが提供されています。大抵の分布はあるし、パラメータも好きに設定できます。numpyにも充実したrandomモジュールがありますが、こちらは分布に従うデータの生成や、データのサンプリングなどしかできません。「…

2018-03-31

【python】sklearnのPCAでloading（主成分負荷量）を計算する

python sklearn 統計主成分分析機械学習

PCA（主成分分析）のloading*1がほしいときがあります。 sklearnでは一発では出ません。ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.21.2 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう罠だった …

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-28

【python】pythonで主成分分析のバイプロット

python 主成分分析 matplotlib 統計次元削減機械学習可視化

バイプロット（Biplot）という主成分分析（PCA）の結果の可視化方法があります。すごく大雑把に言うと、PCAによる写像の前の空間の各特徴（軸）が写像先の空間のどこに向いているかを可視化する方法です。具体的には、主成分ベクトル（因子負荷量などを使…

2018-03-28

【python】numpyで主成分分析を実装してみた

python numpy 主成分分析統計 sklearn 次元削減機械学習可視化

numpyでPCA（principal component analysis：主成分分析）を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。目次概要実装結果まとめ概要主成分分析…

2018-03-20

【python】scipy.statsのzscoreで警告が出るときの対策

python scipy 統計

概要 z得点を計算しようとしたとき、このような警告を見かけることがあります。 RuntimeWarning: invalid value encountered in true_divide これが出た場合、結果にはnanが含まれています。なので後段の分析で落ちたりします。 >>> import numpy as np >>> …

2018-03-06

【python】混合ガウスモデル (GMM)でハード・ソフトクラスタリング

python sklearn 統計クラスタリング主成分分析機械学習

ソフトクラスタリングの有名な手法としては混合ガウスモデル（混合正規分布モデル）を使った手法があります。この手法はデータが「複数の正規分布から構成されている」と仮定し、その正規分布のパラメタをEMアルゴリズム（expectation–maximization algorith…

2018-02-16

【python】正準相関分析（Canonical Correlation Analysis）を試してみる

python sklearn 統計主成分分析機械学習

正準相関分析を使うと、2つの多次元データ同士の関連性を分析できるらしい。面白そうなので試してみた。ちなみに正準相関はsklearn.cross_decomposition.CCAで使える。正準相関自体の解説はほとんどしないので、文中のリンクを参考にして欲しい*1。目次一…

2018-02-14

【python】95%信頼楕円/確率楕円を描画する

python scipy numpy 統計 matplotlib 主成分分析

「ライブラリあるやろｗ」と思ったら、なくて顔面蒼白になった。しょうがないから調べて実装した。理論的なものちゃんと数式を書いて説明する気概がないので、アバウトに説明する。適当な二次元正規分布のデータがあるとする。PCAと同じ要領で分散共分散…