pandas - 静かなる名辞

DataFrameをprintしたときヘッダの日本語の列名がずれないようにする

2020-04-10T06:05:32+09:00

　日本語の列名のDataFrameを扱うことは、日本人のpandasユーザにとってはありがちな展開だと思うのですが、問題はprintするとヘッダがずれてしまうことです。

>>> import pandas as pd
>>> pd.DataFrame({"あああ":[1, 2], "いいい":[3, 4], "ううう":[5, 6], "えええ":[7, 8]})
   あああ  いいい  ううう  えええ
0    1    3    5    7
1    2    4    6    8

　ASCIIの等幅文字を前提にしているからこんなものなのだろうと諦めていましたが、実はよしなに表示するオプションがありました。teratailでこの件の質問を見かけて、ふと久々にリファレンスを見たら見つけました。こういうことがあるからQAサイトは楽しいのです。

Some East Asian countries use Unicode characters whose width corresponds to two Latin characters. If a DataFrame or Series contains these characters, the default output mode may not align them properly.
（中略）
Enabling display.unicode.east_asian_width allows pandas to check each character’s “East Asian Width” property. These characters can be aligned properly by setting this option to True. However, this will result in longer render times than the standard len function.
Options and settings — pandas 1.0.3 documentation

　うまく表示してもらうためには、

pd.set_option('display.unicode.east_asian_width', True)

　を打ちます。東アジアで使われている文字幅で表示してあげますよというオプション名。要するに我々のためにあるようなものなので、ありがたく使わせてもらいましょう。

　このようにうまくいきます。

>>> pd.set_option('display.unicode.east_asian_width', True)
>>> pd.DataFrame({"あああ":[1, 2], "いいい":[3, 4], "ううう":[5, 6], "えええ":[7, 8]})
   あああ  いいい  ううう  えええ
0       1       3       5       7
1       2       4       6       8

（といいつつ、ブラウザ環境次第ですがこのブログ記事上ではうまく見えていない可能性が高いです。全角文字をきっちり半角文字二文字分の幅で表示してくれる環境で確認してください。）

　なお、これはPythonを起動する度に毎回設定する必要があります。永続化させるために、Pythonのスタートアップ時にpandasをimportして走らせる方法が公式では推奨されています。

Options and settings — pandas 1.0.3 documentation

　素のCPythonならPYTHONSTARTUP、IPythonなら$IPYTHONDIR/profile_default/startupなどに仕掛けておけとのことですが、そのためだけにpandasをimportさせるのも微妙な感じですね。そこだけは残念なところです。

1. コマンドラインと環境 — Python 3.8.2 ドキュメント
 PYTHONSTARTUP で Python のインタラクティブシェルを便利にする | まくまくPythonノート
 IPython起動時にいつも使うモジュールをimportする設定 - Qiita

pandasで年月日時刻の列を結合して一列にする（datetime64で）

2019-12-01T23:55:28+09:00

概要

　ローデータ（生データ）を取り込むと、年月日が独立して入っている感じの嫌なデータになっていることがあります。

年,月,日
1996,8,1
1998,12,2
2012,05,3

　こういうのは嬉しくないので、できるだけ単一のdatetime風の型に変換しておきたいのですが、意外と難しかったりします。

文字列操作として考える

　以下のように読み込みます（io.StringIOを使っていますが実際はCSVファイルだと思ってください）。

import io
import pandas as pd

data = """
年,月,日
1996,8,1
1998,12,2
2012,05,3
"""

df = pd.read_csv(io.StringIO(data), dtype={k:object for k in "年月日"})

　型をobject型にしておくのがミソで、整数型にされると文字列操作で変換できません。読み込んでからastypeで変換してもいいですが、二度手間ですね。

df["DateTime"] = pd.to_datetime(df["年"].str.cat([df["月"], df["日"]], sep=" "))
print(df)
""" =>
      年   月  日   DateTime
0  1996   8  1 1996-08-01
1  1998  12  2 1998-12-02
2  2012  05  3 2012-05-03
"""

　これはこれでできるのですが、文字列を介すると二度手間感が否めません。

時刻もある場合

　とにかくそれっぽいフォーマットに無理矢理仕立てれば、この方法でできます（というかできるはずです）。

import io
import pandas as pd

data = """
年,月,日,時,分
1996,8,1,12,5
1998,12,2,4,12
2012,05,3,23,56
"""

df = pd.read_csv(io.StringIO(data), dtype={k:object for k in "年月日時分"})
df["DateTime"] = pd.to_datetime(df["年"].str.cat([df["月"], df["日"], df["時"]], sep=" ").str.cat(df["分"], sep=":"))
print(df)
""" =>
      年   月  日   時   分            DateTime
0  1996   8  1  12   5 1996-08-01 12:05:00
1  1998  12  2   4  12 1998-12-02 04:12:00
2  2012  05  3  23  56 2012-05-03 23:56:00
"""

　やはりスマートではない。

内包表記でdatetimeっぽい型のリストにすればいいんだよ

　そう、普通はそうしたいところ。

　型で迷うと思いますが、たぶんTimestampでいいと思います。

pandas.Timestamp — pandas 0.25.3 documentation

import io
import pandas as pd

data = """
年,月,日,時,分
1996,8,1,12,5
1998,12,2,4,12
2012,05,3,23,56
"""

df = pd.read_csv(io.StringIO(data))
df["DateTime"] = [
    pd.Timestamp(
        year=row["年"], month=row["月"], day=row["日"],
        hour=row["時"], minute=row["分"])
    for i, row in df.iterrows()]

print(df)
""" =>
      年   月  日   時   分            DateTime
0  1996   8  1  12   5 1996-08-01 12:05:00
1  1998  12  2   4  12 1998-12-02 04:12:00
2  2012   5  3  23  56 2012-05-03 23:56:00
"""

　読み込みで文字列にしないといけない、二度手間、といった微妙さがなくなりました。わーい。

　これはこれで上手くいきます。が、スマートなはずなのにスマートに見えない。キーワード引数の指定が汚すぎるからですね。

　ダブルアスタリスクのアンパックを使えば……とか一瞬は思いましたが、そのためには列名を変えたdfをコピーして作らないといけません。

import io
import pandas as pd

data = """
年,月,日,時,分
1996,8,1,12,5
1998,12,2,4,12
2012,05,3,23,56
"""

df = pd.read_csv(io.StringIO(data))
df_d = df[["年", "月", "日", "時", "分"]].copy()
df_d.columns = ["year", "month", "day", "hour", "minute"]
df["DateTime"] = [pd.Timestamp(**row)
                  for i, row in df_d.iterrows()]

print(df)
""" =>
      年   月  日   時   分            DateTime
0  1996   8  1  12   5 1996-08-01 12:05:00
1  1998  12  2   4  12 1998-12-02 04:12:00
2  2012   5  3  23  56 2012-05-03 23:56:00
"""

　こっちの方が多少スマートかな。上の書き方でも別に困ることはないです。

まとめ

　普通にTimestampのiterableを突っ込めばいいだけだけど、このやり方が調べても出てこなくて、できないのかなとか思って焦りつつやってみたらできたので記事にしました。

　日付時刻の扱いは割と面倒ですが、けっきょくのところ素直に組んでいけば良いはず。

参考

Pandasでの日付・時間周りのちょっとしたチートシート - Qiita
　これと同じようなことをやっています。

【python】機械学習でpandas.get_dummiesを使ってはいけない

2019-08-17T18:45:27+09:00

はじめに

　「pandasのget_dummiesでダミー変数が作れるぜ」という記事がとてもたくさんあって初心者を混乱させているのですが、これは「データ分析」には使えても「機械学習」には向きません。もう少し正確に言い換えると「訓練データからモデルを作り、未知のデータの予測を行うタスク」には使い勝手が悪いものです。

　機械学習に使ってはいけないというのは大げさかもしれませんが、でも間違った使い方をよく見かけますし、こう言い切った方がぶっちゃけ良いと思います。

　この記事では「こういうときにはget_dummies使うんじゃねえ！」ということと、どういう問題があるのかと、代替方法について書きます。

pandas.get_dummies — pandas 0.25.1 documentation

問題点

　こんなデータを考えましょう。

>>> import pandas as pd
>>> df = pd.DataFrame({"A":["hoge", "fuga"], "B":["a", "b"]})
>>> df
      A  B
0  hoge  a
1  fuga  b
>>> pd.get_dummies(df)
   A_fuga  A_hoge  B_a  B_b
0       0       1    1    0
1       1       0    0    1

　問題なさそうに見えますか？

　でも、複数のデータに対して適用しようとするととたんに大問題が発生します。普通、kaggleのコンペとかならtrainとtestのデータはあるわけですよね。

>>> df_train = pd.DataFrame({"A":["hoge", "fuga"], "B":["a", "b"]})
>>> df_test = pd.DataFrame({"A":["hoge", "piyo"], "B":["a", "c"]})
>>> pd.get_dummies(df_train)
   A_fuga  A_hoge  B_a  B_b
0       0       1    1    0
1       1       0    0    1
>>> pd.get_dummies(df_test)
   A_hoge  A_piyo  B_a  B_c
0       1       0    1    0
1       0       1    0    1

　shapeは同じ。だけど、各カラムの意味するものは異なっています。一致しているのはB_aだけという惨状です。

　ユニークな要素は6つあるので、下のようになればまずまずの結果と言っていいかもしれません。

# trainに対して
   A_fuga  A_hoge  A_piyo  B_a  B_b  B_c  
0       0       1       0    1    0    0
1       1       0       0    0    1    0
# testに対して
   A_fuga  A_hoge  A_piyo  B_a  B_b  B_c
0       0       1       0    1    0    0
1       0       0       1    0    0    1

　実際は学習データに含まれない値なんて落ちてくれて構わない（逆に落ちないと厄介）ので、理想的な結果はこうでしょうか。

# trainに対して
   A_fuga  A_hoge  B_a  B_b
0       0       1    1    0
1       1       0    0    1
# testに対して
   A_fuga  A_hoge  B_a  B_b
0       0       1    1    0
1       0       0    0    0

　ドキュメントを軽く読んでいろいろ試した感じ、これをget_dummiesで得るのは無理っぽいです。つかえねー。
（私が見落としているだけかもしれないので、「できるよ」という人はコメントで教えて下さい。確認した上で記事に反映させていただきます。）
（↑さっそくコメントを頂いて、追記させていただきました。この章の末尾を御覧ください。）

　こういう問題があるので、get_dummiesはダメと言っています。

　なお、先に示した6列のデータなら、pandas.concatしてから変換すれば得ることができます。

>>> ret = pd.get_dummies(pd.concat([df_train, df_test]))
   A_fuga  A_hoge  A_piyo  B_a  B_b  B_c
0       0       1       0    1    0    0
1       1       0       0    0    1    0
0       0       1       0    1    0    0
1       0       0       1    0    0    1
>>> ret = pd.get_dummies(pd.concat([df_train, df_test]))
>>> X_train, X_test = ret.iloc[:2], ret.iloc[2:]
>>> X_train
   A_fuga  A_hoge  A_piyo  B_a  B_b  B_c
0       0       1       0    1    0    0
1       1       0       0    0    1    0
>>> X_test
   A_fuga  A_hoge  A_piyo  B_a  B_b  B_c
0       0       1       0    1    0    0
1       0       0       1    0    0    1

　これをやっているコードも見かけたことがありますが、「予測モデル側で学習データぜんぶ持っておくの？」ということを考えると現実的なソリューションではないでしょう。おすすめしません。

追記
　列をpandas.Categorical型とすれば、明示的にカテゴリを指定することで変換が可能なようです。

df_train = pd.DataFrame({"A": ["hoge", "fuga"], "B": ["a", "b"]})
df_test = pd.DataFrame({"A": ["hoge", "piyo"], "B": ["a", "c"]})
df_test["A"] = pd.Categorical(df_test["A"], categories=["hoge", "fuga"])
df_test["B"] = pd.Categorical(df_test["B"], categories=["a", "b"])
pd.get_dummies(df_test)

テナジマ様コメントより

　scikit-learnでやるのと比べて記述は増えますが、pandasの枠組みの中で取り扱うこと自体は可能なようです。

　pandas.Categorical — pandas 0.25.1 documentation

代替する方法

　sklearnのOneHotEncoderで変換すれば一発です。

sklearn.preprocessing.OneHotEncoder — scikit-learn 0.21.3 documentation

>>> from sklearn.preprocessing import OneHotEncoder
>>> ohe = OneHotEncoder(handle_unknown="ignore", sparse=False)
>>> ohe.fit(df_train)
OneHotEncoder(categorical_features=None, categories=None, drop=None,
              dtype=<class 'numpy.float64'>, handle_unknown='ignore',
              n_values=None, sparse=False)
>>> ohe.transform(df_train)
array([[0., 1., 1., 0.],
       [1., 0., 0., 1.]])
>>> ohe.transform(df_test)
array([[0., 1., 1., 0.],
       [0., 0., 0., 0.]])

　一撃で理想的な結果を得られています。scikit-learnは偉大ですね。

　pandasなんて最初から要らなかった。

　これはscikit-learnのモデルなので、Pipelineなどと組み合わせて使うのにも親和性が高いです。というか、そのように使ってください（Pipelineにすることで、transformするべきところでfit_transformするといった凡ミスを防げます）。

　使い方についてはこっちの記事も参照してください。

【python】sklearnでのカテゴリ変数の取り扱いまとめ LabelEncoder, OneHotEncoderなど - 静かなる名辞

　ColumnTransformerと組み合わせると使い方の幅が広がります。カテゴリ変数だけ投げて数値変数はそのまま通すといった処理が可能になります。

scikit-learnのColumnTransformerを使ってみる - 静かなる名辞

　あとこれは完全に余談ですが、その気になればnanもsklearnの中で落とせます。前処理からすべてscikit-learnの枠組みの中で書けるので、pandasの出る幕はCSVの読み込みと探索的データ分析でやる各種プロットとか以外にはないと言っても過言ではないでしょう。

5.4. Imputation of missing values — scikit-learn 0.21.3 documentation

　……え、結果がpandasのDataFrameになってないのがいやだって？　そしたら、結果を改めてDataFrameに変換すればいいんじゃないでしょうか。こんな感じですね。

>>> pd.DataFrame(ohe.transform(df_test), columns=[c + "_" + x for lst, c in zip(ohe.categories_, "AB") for x in lst])
   A_fuga  A_hoge  B_a  B_b
0     0.0     1.0  1.0  0.0
1     0.0     0.0  0.0  0.0

まとめ

　pandasは基本的にこういう用途には向いていないので、安易に使わないほうが良いという話です。機械学習ライブラリとして枠組みを整備してくれているscikit-learnは偉大なツールなので、積極的にこっちを活用していけばいいと思います。

pythonで相関係数を計算する方法いろいろ3種類

2019-07-18T04:16:46+09:00

はじめに

　pythonで相関係数を計算する方法はいろいろあります。確認したら、主要ライブラリだけで3つありました。

　いろいろあるということは用途によって使い分けられるということなので、淡々と書いていきます。

　なお、念のために断っておくと、ここで書いている「相関係数」はすべて「ピアソンの積立相関係数」です。順位相関などはまた別に調べてください（ただしpandasを使う方法だと出せます）。

はじめに
データの確認
numpyでやる
pandasでやる
scipyを使う
あと思ったこととか
まとめ

データの確認

　予め以下のようなデータを定義しておきます。

>>> import numpy as np
>>> np.random.seed(0)
>>> x = np.arange(0, 10, 0.1)
>>> y = x + np.random.normal(size=x.shape)

　散布図にプロットして確認。

>>> import matplotlib.pyplot as plt
>>> plt.scatter(x, y)
<matplotlib.collections.PathCollection object at 0x7f31aa415f28>
>>> plt.savefig("fig.png")

fig.png

　もう少しサンプル数が少なくても良かったような気もしますが、せっかく定義したのでこれでやります。

numpyでやる

　numpyの場合はnp.corrcoefで相関係数「行列」を出してくれます。

>>> np.corrcoef(x, y)
array([[1.        , 0.94129622],
       [0.94129622, 1.        ]])

　0.9以上なので強い相関があるみたいです。「行列」が出てくるので、単に相関係数がほしいときは適当に取り出します。

>>> np.corrcoef(x, y)[0, 1]
0.9412962237004372

　あまりスマートではないので、本当に相関係数「行列」がほしいときに使います。

numpy.corrcoef — NumPy v1.17 Manual

pandasでやる

　pandasでもnumpyと同じことができるようです。

>>> import pandas as pd
>>> df = pd.DataFrame({"x":x, "y":y})
>>> df.corr()
          x         y
x  1.000000  0.941296
y  0.941296  1.000000

　行と列に名前がついて使いやすくなったと思います。また、ピアソン以外の相関係数も、kendall, spearmanをmethod引数に渡すことができ、なんならcallableで任意の関数で計算することもできるといった使いやすさがあります。多機能ですね。

pandas.DataFrame.corr — pandas 0.25.1 documentation

　あと、相関係数「行列」がほしいときはpandasを経由した方が便利でしょうか。seabornに投げて可視化するときに、行・列の名前を考慮してくれるので、便利そうです。

pandas.DataFrameの各列間の相関係数を算出、ヒートマップで可視化 | note.nkmk.me

scipyを使う

　漢は黙ってscipy、という価値観が私にはあります。

>>> from scipy import stats
>>> stats.pearsonr(x, y)
(0.941296223700437, 5.153124094421605e-48)

　勝手に両側検定をやってp値を出してくれています（結果のtupleの0から数えて1つめ）。

scipy.stats.pearsonr — SciPy v1.3.0 Reference Guide

　検定やってくれるのはいいですね。普通は別途やる必要があると思います。

あと思ったこととか

なんで標準のstatisticsで用意されてないの
statsmodelsは高度な機能はいろいろ提供しているくせに、ただの相関係数の出し方がいくらググっても出てこないのはなんで。リファレンスすごく読みづらいし。あるかもしれないけど諦めた

まとめ

　まあ、3つあればいいか……行列がほしいときは楽そうなのはpandas、単に数字がほしければscipyという使い分けになりそうですね。

【python】pandasのto_sqlを試してみる

2019-05-03T04:33:34+09:00

はじめに

　気軽にDataFrameをデータベーステーブルに変換できそうなto_sqlなるものがあるので、試してみます。

pandas.DataFrame.to_sql — pandas 0.23.4 documentation

sqliteを使いたかった

　ドキュメントではSQLAlchemyを使ってSQLiteを叩いているようですが、SQLAlchemy*1は素人なので、ここでのファイルの指定方法がいまいち謎です。

　とりあえず、

データベースエンジン — SQLAlchemy 0.6.5 ドキュメント (和訳)

　をざっと眺めて適当にやったら、エラーが出ました。

sqlalchemy.exc.ArgumentError: Invalid SQLite URL: sqlite://test.db
Valid SQLite URL forms are:
 sqlite:///:memory: (or, sqlite://)
 sqlite:///relative/path/to/file.db
 sqlite:////absolute/path/to/file.db

　あ、なるほど、相対パスならスラッシュ3つ、絶対パスならスラッシュ4つにするんですね。すごくどうでも良いところでハマりました。

実行して確認してみる

　何はともあれ、こんなコードを実行します。

import pandas as pd
from sqlalchemy import create_engine

df = pd.DataFrame({"A":["hoge", "fuga"],
                   "B":[1, 2],
                   "C":[1.0, 2.0]})

engine = create_engine('sqlite:///test.db', echo=False)
df.to_sql("df1", engine)

　lsしてtest.dbが生成されたことを確認したら、コンソールからsqliteでつなぎます。

$ sqlite3 test.db
sqlite> .tables
df1
sqlite> .schema df1
CREATE TABLE df1 (
	"index" BIGINT, 
	"A" TEXT, 
	"B" BIGINT, 
	"C" FLOAT
);
CREATE INDEX ix_df1_index ON df1 ("index");
sqlite> select A, B, C from df1;
hoge|1|1.0
fuga|2|2.0

　まずはできてるっぽくて安心。型はよくわからないけど、こんなものだと思います。

複数回実行

　問題になりそうなのは複数回呼んだときにどうなるかです。DataFrameを更新してテーブルにも反映する・・・といった処理を想定しています。

　デフォルトの挙動は「エラーになる」です。

ValueError: Table 'df1' already exists.

　ただしまったく使えないという訳ではなく、ドキュメントに書いてあることですが、

if_exists : {‘fail’, ‘replace’, ‘append’}, default ‘fail’

　というパラメータがあって、これで調整できます。

　dfの定義を書き換えて、if_exists="replace"にして実行してみます。

import pandas as pd
from sqlalchemy import create_engine

df = pd.DataFrame({"A":["aa", "hoge", "fuga"],
                   "B":[-100, 1, 2],
                   "C":[-100.0, 1.0, 2.0]})

engine = create_engine('sqlite:///test.db', echo=False)
df.to_sql("df1", engine, if_exists="replace")

　実行してから中身を見ます。

$ sqlite3 test.db
sqlite> select A, B, C from df1;
aa|-100|-100.0
hoge|1|1.0
fuga|2|2.0

　テーブルの形が変わっても同様のことができます。

import pandas as pd
from sqlalchemy import create_engine

df = pd.DataFrame({"A":["aa", "hoge", "fuga"],
                   "B":[-100, 1, 2],
                   "C":[-100.0, 1.0, 2.0],
                   "D":[1, 2, 3]})

engine = create_engine('sqlite:///test.db', echo=False)
df.to_sql("df1", engine, if_exists="replace")

sqlite> select A, B, C, D from df1;
aa|-100|-100.0|1
hoge|1|1.0|2
fuga|2|2.0|3

　一回消して作り直しているのと同じようなものと考えるべき・・・でしょうか。

　続けてappendを試します。

append: Insert new values to the existing table.

　いまいちよくわからない説明なので、念の為に新しいテーブルを作って試します。

import pandas as pd
from sqlalchemy import create_engine

df = pd.DataFrame({"A":["aa", "hoge", "fuga"],
                   "B":[-100, 1, 2],
                   "C":[-100.0, 1.0, 2.0],
                   "D":[1, 2, 3]})

engine = create_engine('sqlite:///test.db', echo=False)
df.to_sql("df1", engine, if_exists="append")

sqlite> select * from df2;
0|aa|-100
1|hoge|1

　一回目は普通。

　もう一回実行すると、下みたいになります。

sqlite> select * from df2;
0|aa|-100
1|hoge|1
0|aa|-100
1|hoge|1

　なんとなく納得しました。

　列を追加すると、どうなるんでしょうね。

import pandas as pd
from sqlalchemy import create_engine

df = pd.DataFrame({"A":["aa", "hoge"],
                   "B":[-100, 1],
                   "C":[0.1, 0.2]})

engine = create_engine('sqlite:///test.db', echo=False)
df.to_sql("df2", engine, if_exists="append")

　なんとなく予想していたことですが、エラーを吐かれました。

sqlalchemy.exc.OperationalError: (sqlite3.OperationalError) table df2 has no column named C
[SQL: INSERT INTO df2 ("index", "A", "B", "C") VALUES (?, ?, ?, ?)]
[parameters: ((0, 'aa', -100, 0.1), (1, 'hoge', 1, 0.2))]
(Background on this error at: http://sqlalche.me/e/e3q8)

　便利に変更部分だけ反映してくれたりはしないので、使いみちは限られると言えます。それがしたければif_exists="replace"の方が良いのですが、頻繁にやると遅くなるのでなにか考えた方が良いでしょう。

まとめ

　ちょっと微妙・・・

　使い方次第でしょうね。pandasデータフレームを何も考えずにデータベースに突っ込めるので、そういうことをしたいときに重宝するでしょう。だけど、積極的にデータベースと連携させるために使うかというと、それは違う気がします。

*1:ところで、こういうタイピングに苦痛を伴う命名はやめてほしい

【python】sklearn 0.20でclassification_reportの仕様が変わっていた

2019-03-18T05:20:35+09:00

はじめに

　遅まきながら、sklearn 0.20でclassification_reportの仕様が変わったことに気づきました。

　基本的な使い方は変わりませんが、それなりに大きな変化になります。

変更点

　まず0.19の引数と出力のフォーマット。

sklearn.metrics.classification_report(y_true, y_pred,
    labels=None, target_names=None, 
    sample_weight=None, digits=2)

>>> print(classification_report(y_true, y_pred, target_names=target_names))
             precision    recall  f1-score   support

    class 0       0.50      1.00      0.67         1
    class 1       0.00      0.00      0.00         1
    class 2       1.00      0.67      0.80         3

avg / total       0.70      0.60      0.61         5

sklearn.metrics.classification_report — scikit-learn 0.19.2 documentation

　個人的に使い慣れていたのはこちらです。

　次に0.20の引数と出力のフォーマット。

sklearn.metrics.classification_report(y_true, y_pred, 
    labels=None, target_names=None, 
    sample_weight=None, digits=2, output_dict=False)

>>> print(classification_report(y_true, y_pred, target_names=target_names))
              precision    recall  f1-score   support

     class 0       0.50      1.00      0.67         1
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.67      0.80         3

   micro avg       0.60      0.60      0.60         5
   macro avg       0.50      0.56      0.49         5
weighted avg       0.70      0.60      0.61         5

sklearn.metrics.classification_report — scikit-learn 0.20.4 documentation

　変わっていますね。まず、output_dictという引数が追加されています。使い方は容易に想像がつき、ドキュメントにも説明がある通りですが辞書を返してくれるようになります。

　また、全体の結果のとりまとめのところでマイクロ平均、マクロ平均、重み付き平均を返してくれるようになりました。これらの意味については以前記事にしたので、そちらを見てください。

【python】分類タスクの評価指標の解説とsklearnでの計算方法 - 静かなる名辞

output_dictを試す

　大きな変更点はここなので、試してみましょう。ドキュメントと同様の例で打ち込んでいます。

>>> from sklearn.metrics import classification_report
>>> d = classification_report([0,1,2,2,2], [0,0,2,2,1],
...         target_names = ['class 0', 'class 1', 'class 2'],
...         output_dict=True)
>>> 
>>> from pprint import pprint
>>> pprint(d)
{'class 0': {'f1-score': 0.6666666666666666,
             'precision': 0.5,
             'recall': 1.0,
             'support': 1},
 'class 1': {'f1-score': 0.0, 'precision': 0.0, 'recall': 0.0, 'support': 1},
 'class 2': {'f1-score': 0.8,
             'precision': 1.0,
             'recall': 0.6666666666666666,
             'support': 3},
 'macro avg': {'f1-score': 0.48888888888888893,
               'precision': 0.5,
               'recall': 0.5555555555555555,
               'support': 5},
 'micro avg': {'f1-score': 0.6, 'precision': 0.6, 'recall': 0.6, 'support': 5},
 'weighted avg': {'f1-score': 0.6133333333333334,
                  'precision': 0.7,
                  'recall': 0.6,
                  'support': 5}}

　これはpandasデータフレームに変換できます。

>>> import pandas as pd
>>> df = pd.DataFrame(d)
>>> df
            class 0  class 1   class 2  macro avg  micro avg  weighted avg
f1-score   0.666667      0.0  0.800000   0.488889        0.6      0.613333
precision  0.500000      0.0  1.000000   0.500000        0.6      0.700000
recall     1.000000      0.0  0.666667   0.555556        0.6      0.600000
support    1.000000      1.0  3.000000   5.000000        5.0      5.000000

　なのでデータフレームを介して記録しておきパラメータチューニングに使うとか、TeXの表やビジュアル的なグラフなど任意のフォーマットに吐き出すといった処理が行いやすくなっています。

まとめ

　気づくのが遅れましたが、健全な方向に改良されたと思います。使いやすくなった反面、これで済むようになると他のsklearn.metricsの関数を叩かなくなるので、使い方を忘れるかも・・・という懸念があります（笑）。

numpyやpandasでThe truth value of ... is ambiguous.のようなエラーが出たときの対処

2019-03-15T23:52:59+09:00

概要

　条件式を使って生成したようなboolのnumpy配列を使っていると、次のようなエラーが出ることがあります。

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

　また、pandasのSeriesやDataFrameでも同様のエラーが発生する場合があります。

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

　この記事では、こういったエラーの原因と対処法について説明します。

概要
原因
対処
まとめ
関連記事

原因

　numpyやpandasのような複数のboolを格納できる配列・コレクションなどは、そのまま全体をbool値に変換できないことになっています。

　なぜか？　というと、そういったケースではコレクション全体の真理値は曖昧（ambiguous）だからです。個別の要素の値は間違いなくTrue or Falseなのですが、全体としては値が定まらないということです。

　ValueErrorのメッセージでは以下のような変換が提案されています。

a.any()かa.all()を使う

　anyは要素すべてのOR、allは要素すべてのANDです。このような方法で変換するのが適切であれば、そうしてくれということです。

a.empty（pandasのオブジェクトのみ）

　空であるかどうか。

a.bool()（pandasのオブジェクトのみ）

　ブール型の単一の要素を持つ場合、その真理値が返ります。それ以外のケースではValueErrorになるようです。

a.item()（pandasの）

　要素数1のSeriesに対してその唯一の要素を返します。

　なんとなく雰囲気がつかめてきましたね。何らかの方法で1つにまとめるなり、1つだけ取り出すなりしてくれと言っている訳です。でもまあ、この通りにすればよいかというと必ずしもそうではなく、ケースバイケースで対処する必要があります。

　余談ですが、このような挙動をするのは私が確認した範囲ではnumpyやpandasのコレクション型のみで、組み込みのlist型などではこの挙動にはなりません。どうなるかというと、皆さんよくご存知の標準的なpythonと同等の真理値判定が行われます。空リストならFalse、それ以外はTrueとかですね。

4. 組み込み型 — Python 3.6.9 ドキュメント

　numpyやpandasの実装は、大雑把に言えば__bool__が例外を送出するようにしてあるというだけのものです。たとえばpandasはこんな感じ↓です。

https://github.com/pandas-dev/pandas/blob/master/pandas/core/generic.py#L1498

　どうしてわざわざこんなことをしているのか？　というと、素のpythonと同等の判定だと（たとえば空だとFalseとか）中身のデータに対する真理値だと思いこんで処理する人が出てきたときにバグが発生するので、配慮して__bool__を潰してあるのだと思われます。

　要するに、こんな親切なメッセージまで出してくれるのは「優しさ」なので、「なんだこの腹立つエラーは」とか思ってはいけません。

対処

　対処法ははっきり言ってケースバイケースです。このエラーはいろいろな原因で発生するので、状況にあった対処をする必要があります。

　よくある（であろう）ケースを幾つか紹介してみます。

if文の条件式にそのまま書いた

　if文は内部で条件式のbool値への変換を行います。ということは、このエラーが発生する可能性があります。

if numpyやpandasの配列・DataFrame、Seriesなど:
    ....

　これに関しては、はっきり言ってこういうことをやろうとするのが悪いです。何かしら考えが間違っていると思います。要素を一つ一つループで取り出すべきかもしれませんし、indexingで処理するべき状況の可能性もあります。あるいはそもそも期待と違うものが変数に代入されている可能性もあります。コードを全般的にデバッグしてください。

andやorを使った

　andやorなどの演算子は「pythonのbool」に対して働くので、numpy配列、pandasのSeriesやDataFrameに対して使うのは基本的に不適当です。これらは内部の判定時にboolへの変換を行うので、この記事で取り上げているエラーを発生させる要因になります。

print(np.array([True, False]) and np.array([True, True]))
# => ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

　この場合、期待しているものは&演算子と|演算子で得られるかと思われます。

print(np.array([True, False]) & np.array([True, True]))
# => [ True False]

　他にも~や^も使えます。それぞれ論理否定（NOT）と排他的論理和（XOR）です。

　なお少し補足しておくと、&, |などは本来はスカラーのビットOR, ビットAND演算子として用いるために用意されていますが、numpy, pandasなどはこの演算子が使われたときに呼ばれるメソッドを独自に定義することで、boolean arrayに対する演算子として活用しています。面白い工夫だと思うのですが、そのせいで次の節で触れる問題も手てきます。

複数の条件式の組み合わせで発生した

　このケースは割と上級者の人でも、ハマるときはハマります。

　上述の通り、配列同士の論理演算は&や|などでできるのですが、これは==のような比較演算子より優先順位が強い演算子になります。まあ、本来はビット演算用の演算子なのを流用しているので仕方ないのですが、結果的に評価の順序が狂ってエラーになるケースがあります。

6. 式 (expression) — Python 3.7.4 ドキュメント

a = np.array([0,1,2])
b = np.array([3,4,5])
print(a == 1 | b == 3)
# => ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

　これはこう書いたのと同じです。

print(a == (1 | b) and (1 | b) == 3)

　pythonの比較演算子の仕様がちょっと特殊で、連結するとandで連結したのと同じになることに留意。

x < y <= z は x < y and y <= z と等価になります
6. 式 (expression) — Python 3.7.4 ドキュメント

　幸い、かっこを付けることで、比較的容易に優先順序（評価の順番）を制御できます。

a = np.array([0,1,2])
b = np.array([3,4,5])
print((a == 1) | (b == 3)) # => [ True  True False]

　しかしまあ、ちょっと困った話です。けっきょくpythonの世界であれこれ処理しようとするとこういう細かい齟齬が出てくるので、pandasにqueryメソッドがあったりするのもむべなるかなという感があります。かといってqueryの書き方を覚えるのも面倒くさいんですが。

まとめ

　割とよく見かけるエラーですが、基本的に何かがおかしくなってしまったときに出るもので、ケースバイケースで対応することになるからかあまり掘り下げた解説がなかったので、書いてみました。この記事でどこまで深く掘り下げられているかというと少し微妙な感がありますが・・・

　とにかく「複数の値が入っているから真理値が一意に決められない（ことになっている）」というのがミソなので、それだけは覚えておきましょう。

【python】その矛盾した__eq__は・・・ - 静かなる名辞
　Pythonの比較演算子==の挙動についてもう少し掘り下げた記事です。

【python】pandasのgroupbyで結果をlistにする

2018-09-05T17:24:03+09:00

　pandasのgroupbyを使って、平均や標準偏差を計算する方法は検索するとすぐ出てきます。

　ただ、「そういうの良いから、項目ごとに使いやすいイテレータにしてまとめてくれよ！」と思うときがありますよね。

>>> import pandas as pd
>>> df = pd.DataFrame({"A":[c for _ in range(5) for c in ["a", "b"]], "B":range(10)})
>>> df
   A  B
0  a  0
1  b  1
2  a  2
3  b  3
4  a  4
5  b  5
6  a  6
7  b  7
8  a  8
9  b  9
>>> df.groupby("A")
<pandas.core.groupby.DataFrameGroupBy object at 0x7fd0742ec4e0>  # よくわからない

　とりあえず愚直にlistにしてみます。

>>> list(df.groupby("A"))
[('a',    A  B
0  a  0
2  a  2
4  a  4
6  a  6
8  a  8), ('b',    A  B
1  b  1
3  b  3
5  b  5
7  b  7
9  b  9)]

　それぞれがデータフレームか。悪くはないけど、グルーピング対象の項目は要らないかな。

　というか、特定の列だけあれば良いシチュエーションの方が多いでしょう。

>>> list(df.groupby("A")["B"])
[('a', 0    0
2    2
4    4
6    6
8    8
Name: B, dtype: int64), ('b', 1    1
3    3
5    5
7    7
9    9
Name: B, dtype: int64)]

　けっこうそれらしくなってきた？　辞書にしてみましょう。

>>> dict(list(df.groupby("A")["B"]))["a"]
{'a': 0    0
2    2
4    4
6    6
8    8
Name: B, dtype: int64, 'b': 1    1
3    3
5    5
7    7
9    9
Name: B, dtype: int64}
>>> dict(list(df.groupby("A")["B"]))["a"]
0    0
2    2
4    4
6    6
8    8
Name: B, dtype: int64

　Seriesはそんなに好きになれないので、スマートなコードでリストにできないか……と思って検索したら、こんなのがありました。

python - grouping rows in list in pandas groupby - Stack Overflow

>>> df.groupby("A")["B"].apply(list)
A
a    [0, 2, 4, 6, 8]
b    [1, 3, 5, 7, 9]
Name: B, dtype: object

　なるほどねー。これで良いでしょう。df.groupby("A")["B"].apply(list)["a"]とかで取り出せるみたいだし。

【python】sklearnのVarianceThresholdを試してみる

2018-06-13T16:33:47+09:00

はじめに

　VarianceThresholdは名前の通り、分散がしきい値以下の特徴量を捨てます。

sklearn.feature_selection.VarianceThreshold — scikit-learn 0.20.2 documentation

　これといってすごいところはありませんが、気楽に使えそうなので試してみました。

はじめに
とりあえず試す
分類を試してみる
まとめ

とりあえず試す

　しきい値の設定でどれだけ特徴量のshapeが減るか見てみました。

　データは20newsgroupsです。
Pipelineにしてあるのは、あとでこれを使って分類のチューニングをしてみるためです。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_selection import VarianceThreshold
from sklearn.pipeline import Pipeline

def test_shape():
    news20 = fetch_20newsgroups()
    cv = CountVectorizer(min_df=0.005,
                         max_df=0.5,
                         stop_words="english")
    vth = VarianceThreshold()
    pl = Pipeline([("cv", cv), ("vth", vth)])
    for v in [0.0,0.05,0.1,0.15]:
        pl.set_params(vth__threshold=v)
        print(pl.fit_transform(news20.data).shape)

if __name__ == "__main__":
    test_shape()

　結果は、

(11314, 3705)
(11314, 1476)
(11314, 859)
(11314, 573)

　なるほど。
　（実際にはいろいろ試してちょうど良いshapeの減り具合になる値を探しています。これを使うならそういう作業が必要になると思います）

分類を試してみる

　これをうまく設定すると、分類精度が上がったりするのでしょうか？

import pandas as pd
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import FunctionTransformer
from sklearn.feature_selection import VarianceThreshold
from sklearn.naive_bayes import GaussianNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

def convert(x):
    return x.toarray()
def test_best_v():
    news20 = fetch_20newsgroups()
    cv = CountVectorizer(min_df=0.005,
                         max_df=0.5,
                         stop_words="english")
    vth = VarianceThreshold()
    sparse_to_dense = FunctionTransformer(func=convert,
                                          accept_sparse=True)
    gnb = GaussianNB()
    pl = Pipeline([("cv", cv),
                   ("vth", vth),
                   ("s2d", sparse_to_dense),
                   ("gnb", gnb)])
    
    params = {"vth__threshold":[0.0,0.05,0.1,0.15]}
    
    clf = GridSearchCV(pl, params, 
                       return_train_score=False,
                       n_jobs=-1)
    clf.fit(news20.data, news20.target)
    cv_result_df = pd.DataFrame(clf.cv_results_)
    df = cv_result_df[["param_vth__threshold", 
                       "mean_score_time", 
                       "mean_test_score"]]
    print(df)

if __name__ == "__main__":
    test_best_v()

　ただ単にナイーブベイズに入れて性能を見ているだけですが、かなり色々なテクニックを使っているコードなので、初見だと読みづらいと思います。

FunctionTransformer：

　ナイーブベイズが疎行列を受け付けてくれないので変換している。こんな関数ラムダ式で良いじゃんと思う向きもあるかもしれませんが、GridSearchCVでn_jobs=-1を指定するためにはトップレベル関数として定義してあげる必要があります（中でpickleを使うので）

GridSearchCV：

　return_train_score=Falseにすると速くなります。

pd.DataFrame

　GridSearchCV.cv_results_はそのままpandas.DataFrameに変換できるとドキュメントに書いてあるので、それを使ってpandasで取り扱っています。

　走らせた結果は、

  param_vth__threshold  mean_score_time  mean_test_score
0                    0         9.646958         0.656178
1                 0.05         4.504278         0.587149
2                  0.1         2.804257         0.512551
3                 0.15         1.909767         0.453244

　改善する訳ではない。CountVectorizerのmin_dfで予めゴミ変数を削っていること、スパースな空間なので分散が低くてもそれはそれで構わず、ナイーブベイズが意外とスパースに強いのも相まって優秀に働いていることが原因でしょう。

　それより注目すべきはmean_score_timeで、今回のデータで変数を削っていくと、しきい値を0.05上げるたびに、0.07ポイントくらいの性能低下と引き換えに半減するような傾向です。性能と時間のトレードオフになったときは、これをいじって調整する手はあるのかも。

まとめ

　微妙といえば微妙だし、データによっては効くのかもしれない気もします。とりあえず確実に速くはなります。

　性能はあまり重視していないとき、気楽に変数を捨てて速くするのに使えそうです。

【python】pandasのDataFrameをLaTeX出力

2018-05-31T02:00:09+09:00

　そんな機能があるらしい。DataFrame.to_latex()という名前のメソッドである。

pandas.DataFrame.to_latex — pandas 0.21.1 documentation

　これが使えると何かの役に立つかもしれないので、使い物になるかどうか確認してみる。

お試し

　とりあえず、てきとーにdfを作ってみる。中身に意味はないけど、意味のないdfをできるだけ手っ取り早く作りたかったのでnumpy配列から作っている。*1

>>> import numpy as np
>>> import pandas as pd
>>> df = pd.DataFrame(np.arange(32).reshape(8,4), columns=list("abcd"))
>>> df
    a   b   c   d
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
4  16  17  18  19
5  20  21  22  23
6  24  25  26  27
7  28  29  30  31

　そのまま何も考えず、to_latex()を呼ぶ。strで返っても都合が悪いのでprintしてみる。

>>> print(df.to_latex())
\begin{tabular}{lrrrr}
\toprule
{} &   a &   b &   c &   d \\
\midrule
0 &   0 &   1 &   2 &   3 \\
1 &   4 &   5 &   6 &   7 \\
2 &   8 &   9 &  10 &  11 \\
3 &  12 &  13 &  14 &  15 \\
4 &  16 &  17 &  18 &  19 \\
5 &  20 &  21 &  22 &  23 \\
6 &  24 &  25 &  26 &  27 \\
7 &  28 &  29 &  30 &  31 \\
\bottomrule
\end{tabular}

　そしたらこれを別途作ったTeXのソースに貼る。ドキュメント曰く、

Render an object to a tabular environment table. You can splice this into a LaTeX document. Requires \usepackage{booktabs}.

　（強調は僕が勝手に付けたもの）

　ということらしい。とにかく次のようなTeXファイルを作ってみた。

\documentclass{jsarticle}
\usepackage{booktabs}

\begin{document}

\begin{table}[h]
\begin{tabular}{lrrrr}
\toprule
{} &   a &   b &   c &   d \\
\midrule
0 &   0 &   1 &   2 &   3 \\
1 &   4 &   5 &   6 &   7 \\
2 &   8 &   9 &  10 &  11 \\
3 &  12 &  13 &  14 &  15 \\
4 &  16 &  17 &  18 &  19 \\
5 &  20 &  21 &  22 &  23 \\
6 &  24 &  25 &  26 &  27 \\
7 &  28 &  29 &  30 &  31 \\
\bottomrule
\end{tabular}
\end{table}

\end{document}

　TeXとかよくわからないけど、これでコンパイルできてこんな結果が得られた。

　なるほど、できてますね。

　フォーマットは、論文でよく見かける罫線の少ない表です。カッコいい気もするし、罫線多めのちょいダサな表の方が安心感があって良いような気もするという、人によって好みの分かれる奴です。

カスタマイズしてみよう

　たかがto_latex()なのに、なんかいろいろ引数があります。公式をまとめておきます。

bold_rows : boolean, default False

　インデックス列の文字がboldになる

column_format : str, default None

　\begin{tabular}{}の{}の中に入る列の書式を文字列で渡す

longtable : boolean, default will be read from the pandas config module Default: False

　TeXのlongtableだって。参考（外部サイト）：[LaTeX]長い表を表示する - Qiita

escape : boolean, default will be read from the pandas config module Default: True.

　エスケープがうまく効くかどうかにかかってくるんだと思う

encoding : str, default None

　何も指定しないとpython2はascii, python3はutf-8になるらしい。

decimal : string, default ‘.’

　Character recognized as decimal separator, e.g. ‘,’ in Europe.
　（説明を読んでもよくわからん）

multicolumn : boolean, default True

Use multicolumn to enhance MultiIndex columns. The default will be read from the config module.

multicolumn_format : str, default ‘l’

The alignment for multicolumns, similar to column_format The default will be read from the config module.

multirow : boolean, default False

Use multirow to enhance MultiIndex rows. Requires adding a \usepackage{multirow} to your LaTeX preamble. Will print centered labels (instead of top-aligned) across the contained rows, separating groups via clines. The default will be read from the pandas config module.

　上の3つは使い方がよくわからない。まあ、たぶん使えば使えるんだろう。

　せっかくなので、インデックス列bold、罫線多めな表を作ってみようと思う。見た目がダサくなるはずだ。

>>> print(df.to_latex(bold_rows=True, column_format="|l|l|l|l|"))
\begin{tabular}{|l|l|l|l|}
\toprule
{} &   a &   b &   c &   d \\
\midrule
\textbf{0} &   0 &   1 &   2 &   3 \\
\textbf{1} &   4 &   5 &   6 &   7 \\
\textbf{2} &   8 &   9 &  10 &  11 \\
\textbf{3} &  12 &  13 &  14 &  15 \\
\textbf{4} &  16 &  17 &  18 &  19 \\
\textbf{5} &  20 &  21 &  22 &  23 \\
\textbf{6} &  24 &  25 &  26 &  27 \\
\textbf{7} &  28 &  29 &  30 &  31 \\
\bottomrule
\end{tabular}

\documentclass{jsarticle}
\usepackage{booktabs}

\begin{document}

\begin{table}[h]
\begin{tabular}{|l|l|l|l|l|}
\toprule
{} &   a &   b &   c &   d \\
\midrule
\textbf{0} &   0 &   1 &   2 &   3 \\
\textbf{1} &   4 &   5 &   6 &   7 \\
\textbf{2} &   8 &   9 &  10 &  11 \\
\textbf{3} &  12 &  13 &  14 &  15 \\
\textbf{4} &  16 &  17 &  18 &  19 \\
\textbf{5} &  20 &  21 &  22 &  23 \\
\textbf{6} &  24 &  25 &  26 &  27 \\
\textbf{7} &  28 &  29 &  30 &  31 \\
\bottomrule
\end{tabular}
\end{table}

\end{document}

　結果は、

　なんか思ってたのと違う・・・\*rule系と縦罫線の相性が悪いので、\hlineに変えてみる（TeXソースを直接いじって）。

\documentclass{jsarticle}
\usepackage{booktabs}

\begin{document}

\begin{table}[h]
\begin{tabular}{|l|l|l|l|l|}
\hline
{} &   a &   b &   c &   d \\
\hline
\textbf{0} &   0 &   1 &   2 &   3 \\
\textbf{1} &   4 &   5 &   6 &   7 \\
\textbf{2} &   8 &   9 &  10 &  11 \\
\textbf{3} &  12 &  13 &  14 &  15 \\
\textbf{4} &  16 &  17 &  18 &  19 \\
\textbf{5} &  20 &  21 &  22 &  23 \\
\textbf{6} &  24 &  25 &  26 &  27 \\
\textbf{7} &  28 &  29 &  30 &  31 \\
\hline
\end{tabular}
\end{table}

\end{document}

　これは期待通りの結果だが、わざわざpandasが出力されるものをいじってこうしたいか？　と考えると、デフォルトで吐き出されたものをそのまま使った方が潔いかもしれない。

まとめ

　使えるか？　というと、とても微妙な機能ですが、考えようによっては、データをDataFrameに入れさえすれば、TeXの表組みと格闘する必要が一切なくなります。
（デフォルトで出てきた表の見た目に満足できれば）

　なので、それなりにおすすめです。

*1:pandasの機能を試すときって、試すためのdf作るのがそもそも面倒くさいということが往々にしてある。みんなはどうやってるんだろうか

【python】pandasでデータを標準得点（z得点）に変換

2018-04-24T22:36:26+09:00

　データの正規化（標準化）をpandasでもやってみる。

　正規化、標準化とは、データを分散1、平均0に変換する操作である。

　自分で書いてもできるが、scipyの関数を使うと簡単にできる。

>>> import pandas as pd
>>> df = pd.DataFrame([[1,2,3,4,5,6],
                       [6,5,4,3,2,1],
                       [0,1,2,3,4,5],
                       [5,4,3,2,1,0]], columns=[*"ABCDEF"])
>>> df.apply(stats.zscore, axis=0)
          A         B         C         D         E         F
0 -0.784465 -0.632456  0.000000  1.414214  1.264911  1.176697
1  1.176697  1.264911  1.414214  0.000000 -0.632456 -0.784465
2 -1.176697 -1.264911 -1.414214  0.000000  0.632456  0.784465
3  0.784465  0.632456  0.000000 -1.414214 -1.264911 -1.176697
>>> df.apply(stats.zscore, axis=1)
         A        B        C        D        E        F
0 -1.46385 -0.87831 -0.29277  0.29277  0.87831  1.46385
1  1.46385  0.87831  0.29277 -0.29277 -0.87831 -1.46385
2 -1.46385 -0.87831 -0.29277  0.29277  0.87831  1.46385
3  1.46385  0.87831  0.29277 -0.29277 -0.87831 -1.46385

　axis=0だと列で計算した標準得点、axis=1で行で計算した標準得点になる。

【python】pandasでDataFrameの平均と標準偏差を計算する方法

2018-04-24T22:19:33+09:00

概要

　DataFrameから平均と標準偏差を計算する方法をメモしておきます。

概要
列の平均と標準偏差を計算したい
行の平均と標準偏差を計算したい
特定の列・行だけ取り出してから計算する
describeメソッドで全体の雰囲気を掴む

列の平均と標準偏差を計算したい

　とても簡単にできます。

>>> import pandas as pd
>>> df = pd.DataFrame([[1,2,3,4,5,6],
                       [6,5,4,3,2,1],
                       [0,1,2,3,4,5],
                       [5,4,3,2,1,0]], columns=[*"ABCDEF"])
>>> df.mean()
A    3.0
B    3.0
C    3.0
D    3.0
E    3.0
F    3.0
dtype: float64
>>> df.std()
A    2.943920
B    1.825742
C    0.816497
D    0.816497
E    1.825742
F    2.943920
dtype: float64

　何も考える必要はないのだった。

　リファレンス：
pandas.DataFrame.mean — pandas 0.24.2 documentation
pandas.DataFrame.std — pandas 0.24.2 documentation

行の平均と標準偏差を計算したい

　「転置しとけば？」という天の声が聞こえたのを無視してやります。

　numpy配列のようにaxisを指定するだけなのでこれも簡単です。

>>> import pandas as pd
>>> df = pd.DataFrame([[1,2,3,4,5,6],
                       [6,5,4,3,2,1],
                       [0,1,2,3,4,5],
                       [5,4,3,2,1,0]], columns=[*"ABCDEF"])
>>> df.mean(axis=1)
0    3.5
1    3.5
2    2.5
3    2.5
dtype: float64
>>> df.std(axis=1)
0    1.870829
1    1.870829
2    1.870829
3    1.870829
dtype: float64

　よくできてますね。

特定の列・行だけ取り出してから計算する

　基本的なindexing操作と組み合わせて使うことで、特定の行・列だけに対して計算するということも可能です。

　A, Bに対してのみ出力させたい場合。

>>> df[["A", "B"]].mean()
A    3.0
B    3.0
dtype: float64

describeメソッドで全体の雰囲気を掴む

　describeメソッドを使うと様々な統計量を勝手に出してくれます。

>>> df.describe()  # 列ごとに
             A         B         C         D         E        F
count  4.00000  4.000000  4.000000  4.000000  4.000000  4.00000
mean   3.00000  3.000000  3.000000  3.000000  3.000000  3.00000
std    2.94392  1.825742  0.816497  0.816497  1.825742  2.94392
min    0.00000  1.000000  2.000000  2.000000  1.000000  0.00000
25%    0.75000  1.750000  2.750000  2.750000  1.750000  0.75000
50%    3.00000  3.000000  3.000000  3.000000  3.000000  3.00000
75%    5.25000  4.250000  3.250000  3.250000  4.250000  5.25000
max    6.00000  5.000000  4.000000  4.000000  5.000000  6.00000
>>> df.T.describe()  # describeで行ごとに処理したい場合は転置する
              0         1         2         3
count  6.000000  6.000000  6.000000  6.000000
mean   3.500000  3.500000  2.500000  2.500000
std    1.870829  1.870829  1.870829  1.870829
min    1.000000  1.000000  0.000000  0.000000
25%    2.250000  2.250000  1.250000  1.250000
50%    3.500000  3.500000  2.500000  2.500000
75%    4.750000  4.750000  3.750000  3.750000
max    6.000000  6.000000  5.000000  5.000000

　参考：
pandas.DataFrame.describe — pandas 0.24.2 documentation
pandasのdescribeで各列の要約統計量（平均、標準偏差など）を取得 | note.nkmk.me

【python】クラスタリング結果を積み上げ棒グラフで可視化する

2018-03-15T05:35:55+09:00

はじめに

　ラベル付きデータをクラスタリングすることがよくあります（そんな頻繁にあるか？　まあ、クラスタリングの使い方次第でたまにはあるからこうして記事にしている訳ですが）。

　各クラスタの中身がどんなラベルで構成されているのか、知りたくなります。積み上げ棒グラフで出てくれると嬉しいですね（嬉しさがわからない方も読み進めて頂ければわかるので大丈夫）。

　pythonでの積み上げ棒グラフの描きをググると、matplotlibを駆使した怖い（大変そうな）描き方がいくらでも出てくるのですが、そんなことで苦労したくないので簡単なやり方でやります。

やりかた

　こちらを参考にしました。
python - pandasのデータフレームから積み上げ棒グラフを作りたい - スタック・オーバーフロー
　ぜんぶpandasの機能でできるらしいです。素敵。要するにクロス集計してplotしてやれば良い、ということのようです。

やってみた

　irisとdigitsをクラスタリングし、上の方法を参考にグラフ化してみます。

　ソースコード

# coding: UTF-8

import numpy as np
import pandas as pd

from sklearn.datasets import load_digits, load_iris
from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

def visualize(y_true, y_cl, y_names, filename="result.png"):
    y_true = np.array([y_names[y] for y in y_true])

    df = pd.crosstab(y_cl, y_true, 
                     rownames=["cluster number"], colnames=["true label"])
    print(df)

    plt.figure()
    df.plot(kind='bar',stacked=True, legend=False)
    plt.legend(bbox_to_anchor=(1.13, 1), loc="upper right")
    plt.savefig(filename)

def main():
    iris = load_iris()
    km = KMeans(n_clusters=3, n_init=30, max_iter=1000)
    cluster_labels = km.fit_predict(iris.data)
    print("iris")
    visualize(iris.target, cluster_labels, 
              iris.target_names, filename="iris.png")

    digits = load_digits()
    km = KMeans(n_clusters=10, n_init=30, max_iter=1000)
    cluster_labels = km.fit_predict(digits.data)
    print("digits")
    visualize(digits.target, cluster_labels, 
              digits.target_names, filename="digits.png")

if __name__ == "__main__":
    main()

　とりあえず、クロス集計した結果のDFをテキストで吐いてみたので、そっちから見せます。

iris
true label      setosa  versicolor  virginica
cluster number                               
0                   50           0          0
1                    0          48         14
2                    0           2         36
digits
true label        0    1    2    3    4    5    6    7    8    9
cluster number                                                  
0               177    0    1    0    0    0    1    0    0    0
1                 0   24  148    0    0    0    0    0    3    0
2                 0    0    3    7   10    0    0  177    5    8
3                 1    0    0    0  166    2    0    0    0    0
4                 0    1   13  155    0    2    0    0    2    6
5                 0    1    0    2    0  136    0    0    4    5
6                 0    2    0    0    0    1  177    0    2    0
7                 0    0    2   12    0   41    0    0   51  140
8                 0  100    8    7    2    0    3    2  101    1
9                 0   54    2    0    3    0    0    0    6   20

　なるほど。まあ、なんとなくどんな状態になっているのかはこの表からもわかります。

　そしてお待ちかねのグラフはこちら。

iris

digits

　わかりやすいですね。この記事で言いたいことは、この絵を簡単に得られるpandasは便利、ということだけです。

　一応グラフの説明をすると、このグラフは各クラスタに割り振られたデータのラベルの件数を表しています。そして、たとえばirisのグラフからは、setosaは完全に一つのクラスタを形成していますが、versicolorとviriginicaは綺麗にクラスタには分かれず混ざる、ということがわかります。versicolorとviriginicaが似ている、というかベクトル空間上で近くにいる、という知見が得られる訳です。

まとめ

　pandasは独自の世界観があって正直苦手なんですが、たまに便利に使えることがあるなぁと思いました（小並感）。

pandas - 静かなる名辞

DataFrameをprintしたときヘッダの日本語の列名がずれないようにする

pandasで年月日時刻の列を結合して一列にする（datetime64で）

概要

文字列操作として考える

時刻もある場合

内包表記でdatetimeっぽい型のリストにすればいいんだよ

まとめ

参考

【python】機械学習でpandas.get_dummiesを使ってはいけない

はじめに

問題点

代替する方法

まとめ

pythonで相関係数を計算する方法いろいろ3種類

はじめに

データの確認

numpyでやる

pandasでやる

scipyを使う

あと思ったこととか

まとめ

【python】pandasのto_sqlを試してみる

はじめに

sqliteを使いたかった

実行して確認してみる

複数回実行

まとめ

【python】sklearn 0.20でclassification_reportの仕様が変わっていた

はじめに

変更点

output_dictを試す

まとめ

numpyやpandasでThe truth value of ... is ambiguous.のようなエラーが出たときの対処

概要

原因

対処

if文の条件式にそのまま書いた

andやorを使った

複数の条件式の組み合わせで発生した

まとめ

関連記事

【python】pandasのgroupbyで結果をlistにする

【python】sklearnのVarianceThresholdを試してみる

はじめに

とりあえず試す

分類を試してみる

まとめ

【python】pandasのDataFrameをLaTeX出力

お試し

カスタマイズしてみよう

まとめ

【python】pandasでデータを標準得点（z得点）に変換

【python】pandasでDataFrameの平均と標準偏差を計算する方法

概要

列の平均と標準偏差を計算したい

行の平均と標準偏差を計算したい

特定の列・行だけ取り出してから計算する

describeメソッドで全体の雰囲気を掴む

【python】クラスタリング結果を積み上げ棒グラフで可視化する

はじめに

やりかた

やってみた

まとめ