tf-idf - 静かなる名辞

【python】sklearnのfetch_20newsgroupsで文書分類を試す(5)

Wed, 15 May 2019 23:24:29 +0900

はじめに

　ずっと放置していたシリーズですが、その後新たに得られた知見が出てきたので、更新しておこうと思います。

得られた知見

　いろいろ勉強した結果、以下のような考えに至りました。

そもそもデータ数が多いので、高級な分類器であればあるほど速度的に厳しい
MultinomialNB（多項分布ナイーブベイズ）の性能は意外と良いのでそれでいい
その場合、tfidfとか使うべき。また、パラメタチューニングを真面目にやるべき
疎行列型をうまく使うと大規模データでも高速処理が可能

　ということで、この方針でやります。

実験

　まず以下のコードで軽く回します。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

def main():
    news20_train = fetch_20newsgroups(subset="train")
    news20_test = fetch_20newsgroups(subset="test")
    y_train = news20_train.target
    y_test = news20_test.target
    
    vectorizer = TfidfVectorizer(
        stop_words="english", max_df=0.03, min_df=0.0005)
    nb = MultinomialNB(alpha=1e-1)
    pl = Pipeline([("v", vectorizer), ("nb", nb)])
    
    params = {"v__max_df":[0.3, 0.1, 0.03],
              "v__min_df":[0.01, 0.003, 0.001, 0.0003],
              "nb__alpha":[1e-0, 1e-1, 1e-2, 1e-3]}
    clf = GridSearchCV(pl, params, cv=4, scoring="f1_macro", 
                       n_jobs=-1)
    clf.fit(news20_train.data, y_train)

    print("result of gridsearch")
    print("best score", clf.best_score_)
    print("best parameter", clf.best_params_)
    y_pred = clf.predict(news20_test.data)
    print(classification_report(
        y_test, y_pred, target_names=news20_test.target_names, digits=4))

if __name__ == "__main__":
    main()

　見ての通り、ざっくりグリッドサーチしています。これでそれなりに良くなるはず。

　特徴選択のモデルもPipelineで同時にチューニングしますので、これでだいたい

取るべき次元数を決めるパラメタ
NBのalpha

　についてはわかるはずです。

　結果

result of gridsearch
best score 0.903351987953267
best parameter {'nb__alpha': 0.01, 'v__max_df': 0.3, 'v__min_df': 0.0003}
                          precision    recall  f1-score   support

             alt.atheism     0.8366    0.8025    0.8192       319
           comp.graphics     0.6568    0.7378    0.6949       389
 comp.os.ms-windows.misc     0.7079    0.6396    0.6720       394
comp.sys.ibm.pc.hardware     0.6522    0.7270    0.6876       392
   comp.sys.mac.hardware     0.8281    0.8260    0.8270       385
          comp.windows.x     0.8388    0.7772    0.8068       395
            misc.forsale     0.7614    0.8103    0.7851       390
               rec.autos     0.8943    0.8763    0.8852       396
         rec.motorcycles     0.9244    0.9523    0.9381       398
      rec.sport.baseball     0.9491    0.9395    0.9443       397
        rec.sport.hockey     0.9559    0.9774    0.9665       399
               sci.crypt     0.9035    0.9217    0.9125       396
         sci.electronics     0.8066    0.7430    0.7735       393
                 sci.med     0.8886    0.8258    0.8560       396
               sci.space     0.8734    0.8934    0.8833       394
  soc.religion.christian     0.8562    0.9422    0.8971       398
      talk.politics.guns     0.7788    0.9093    0.8390       364
   talk.politics.mideast     0.9642    0.9309    0.9472       376
      talk.politics.misc     0.7734    0.6387    0.6996       310
      talk.religion.misc     0.7418    0.6295    0.6810       251

               micro avg     0.8309    0.8309    0.8309      7532
               macro avg     0.8296    0.8250    0.8258      7532
            weighted avg     0.8322    0.8309    0.8301      7532

　けっこういい感じです。すでに過去のシリーズの最高スコアです。

　ここから更に詰めていくため、RandomizedSearchCVを使います。

　参考：
【python】sklearnのRandomizedSearchCVを使ってみる - 静かなる名辞

　分布に関しては多少手抜きをして、max_dfとmin_dfは区間を適当に区切った一様分布、alphaのみ指数分布としています。妥当なものは他に考えられるかもしれませんが、これでいきます。

from scipy import stats

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import classification_report

def main():
    news20_train = fetch_20newsgroups(subset="train")
    news20_test = fetch_20newsgroups(subset="test")
    y_train = news20_train.target
    y_test = news20_test.target
    
    vectorizer = TfidfVectorizer(
        stop_words="english", max_df=0.03, min_df=0.0005)
    nb = MultinomialNB(alpha=1e-1)
    pl = Pipeline([("v", vectorizer), ("nb", nb)])

    max_df_dist = stats.uniform(0.1, 0.5)
    min_df_dist = stats.uniform(0.00007, 0.001)
    alpha_dist = stats.expon(scale=1e-2)
    
    params = {"v__max_df":max_df_dist,
              "v__min_df":min_df_dist,
              "nb__alpha":alpha_dist}
    clf = RandomizedSearchCV(pl, params, cv=4, scoring="f1_macro", 
                             n_iter=100, n_jobs=-1)
    clf.fit(news20_train.data, y_train)

    print("result of gridsearch")
    print("best score", clf.best_score_)
    print("best parameter", clf.best_params_)
    y_pred = clf.predict(news20_test.data)
    print(classification_report(
        y_test, y_pred, target_names=news20_test.target_names, digits=4))

if __name__ == "__main__":
    main()

　結果

result of gridsearch
best score 0.9078423646680397
best parameter {'nb__alpha': 0.008635226675407684, 'v__max_df': 0.14464593949316493, 'v__min_df': 0.00010360792392347633}
                          precision    recall  f1-score   support

             alt.atheism     0.8355    0.7962    0.8154       319
           comp.graphics     0.6659    0.7326    0.6977       389
 comp.os.ms-windows.misc     0.6983    0.6345    0.6649       394
comp.sys.ibm.pc.hardware     0.6386    0.7168    0.6755       392
   comp.sys.mac.hardware     0.8165    0.8208    0.8187       385
          comp.windows.x     0.8250    0.7519    0.7868       395
            misc.forsale     0.7628    0.8000    0.7810       390
               rec.autos     0.9143    0.8889    0.9014       396
         rec.motorcycles     0.9270    0.9573    0.9419       398
      rec.sport.baseball     0.9467    0.9395    0.9431       397
        rec.sport.hockey     0.9509    0.9699    0.9603       399
               sci.crypt     0.9084    0.9268    0.9175       396
         sci.electronics     0.7941    0.7557    0.7744       393
                 sci.med     0.8849    0.8157    0.8489       396
               sci.space     0.8707    0.9061    0.8881       394
  soc.religion.christian     0.8514    0.9497    0.8979       398
      talk.politics.guns     0.7778    0.9038    0.8361       364
   talk.politics.mideast     0.9669    0.9335    0.9499       376
      talk.politics.misc     0.7812    0.6452    0.7067       310
      talk.religion.misc     0.7524    0.6295    0.6855       251

               micro avg     0.8295    0.8295    0.8295      7532
               macro avg     0.8285    0.8237    0.8246      7532
            weighted avg     0.8307    0.8295    0.8287      7532

　パラメータチューニング時のスコアは改善しますが、実際の予測では少し下がる結果に。まあ、これくらいが限界に近いのでしょう（この特徴量の作り方と分類器の組み合わせでは）。パラメータチューニングのときと本予測のときとでけっこうスコアが違うのでなんとなく過学習してるような気もしますが、理由がよくわからん。

　若干後味が悪いですが、数字は悪くないのでこれでよしとします。

まとめ

　これで次はない・・・かも。

過去の回

【python】sklearnのfetch_20newsgroupsで文書分類を試す(1) - 静かなる名辞
 【python】sklearnのfetch_20newsgroupsで文書分類を試す(2) - 静かなる名辞
 【python】sklearnのfetch_20newsgroupsで文書分類を試す(3) - 静かなる名辞
 【python】sklearnのfetch_20newsgroupsで文書分類を試す(4) - 静かなる名辞

【python】TF-IDFで重要語を抽出してみる

Mon, 09 Jul 2018 19:08:19 +0900

概要

　すでに語り尽くされた感のあるネタですが、TF-IDFで文書の重要な単語（重要語、あるいは特徴語）を抽出してみます。

　numpyとsklearnを使うと、10行程度のコードで実現できるので簡単です。

コードの書き方

　とりあえず、対象データとしては20newsgroupsを使います。関数一つで読み込めて便利だからです。

　sklearn.datasets.fetch_20newsgroups — scikit-learn 0.20.1 documentation

　自然言語処理の技術紹介などの記事で、Webスクレイピングなどをしてデータを作っているケースをよく見かけますが、こちらの方が手間がかからなくて、再現性も高いです*1。使えるデータは使いましょう。

　あとはTfidfVectorizerに入れて、いきなりTF-IDFのベクトルに変換します。

　sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.20.1 documentation

　詳しい使い方は、ドキュメントやCountVectorizerの記事を読んでいただければ良いです（CountVectorizerと使い方はほぼ同じ）。

　使い方のコツとして

min_dfオプションを適当に指定してゴミ単語を削った方が良いこと
基本的にtransformした返り値がsparse matrix型なのでtoarray()メソッドで密行列に変換して取り扱ってやる必要があること

　が挙げられます。それ以外は、とりあえず使うだけならそれほど気は配らなくても良いはず。

　ここまでの記述をコードにすると、こんな感じです。

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups

news20 = fetch_20newsgroups()
vectorizer = TfidfVectorizer(min_df=0.03)
tfidf_X = vectorizer.fit_transform(news20.data[:1000]).toarray()  # ぜんぶで1万データくらいあるけど、そんなに要らないので1000件取っている

　ここからどうするんじゃい、ということですが、スマートに書くためには、ちょっとしたnumpy芸が要求されます。

index = tfidf_X.argsort(axis=1)[:,::-1]

　tfidf_X.argsort(axis=1)でソートした結果のindexを返します。[:,::-1]はreverseです。これによって、各文書のTF-IDF値にもとづいて降順ソートされたindexが得られます。

　次に、このindexに基づいて単語を復元することを考えます。TfidfVectorizer.get_feature_names()で、特徴抽出時に使ったindexの順に並んだ単語のリストが得られるのですが*2、リストだとnumpy芸が使えないのでnumpy配列にしておきます。あとは、一気に変換します。

feature_names = np.array(vectorizer.get_feature_names())
feature_words = feature_names[index]

　numpyのこの機能を使っているコードはあまり見かけないのですが、実は

>>> import numpy as np
>>> a = np.array(["hoge","fuga","piyo"])
>>> b = np.array([[0,0,0],[2,1,0],[0,2,0]])
>>> a[b]
array([['hoge', 'hoge', 'hoge'],
       ['piyo', 'fuga', 'hoge'],
       ['hoge', 'piyo', 'hoge']], dtype='<U4')

　こういう仕様になっておりまして、意図した通りの変換が一発でできています。知らないと戸惑いますね。

　あとは配列から適当に取り出せばオッケーです。各文書ベクトル（というか単語の順列）の先頭n次元を取ると、それがそのままn個目までの重要語になっています。

やってみた

　コード全文を以下に示します。

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups

news20 = fetch_20newsgroups()
vectorizer = TfidfVectorizer(min_df=0.03)
tfidf_X = vectorizer.fit_transform(news20.data[:1000]).toarray()

index = tfidf_X.argsort(axis=1)[:,::-1]
feature_names = np.array(vectorizer.get_feature_names())
feature_words = feature_names[index]

n = 5  # top何単語取るか
m = 15  # 何記事サンプルとして抽出するか
for fwords, target in zip(feature_words[:m,:n], news20.target):
    # 各文書ごとにtarget（ラベル）とtop nの重要語を表示
    print(news20.target_names[target])
    print(fwords)

　結果は、

rec.autos
['car' 'was' 'this' 'the' 'where']
comp.sys.mac.hardware
['washington' 'add' 'guy' 'speed' 'call']
comp.sys.mac.hardware
['the' 'display' 'anybody' 'heard' 'disk']
comp.graphics
['division' 'chip' 'systems' 'computer' 'four']
sci.space
['error' 'known' 'tom' 'memory' 'the']
talk.politics.guns
['of' 'the' 'com' 'to' 'says']
sci.med
['thanks' 'couldn' 'instead' 'file' 'everyone']
comp.sys.ibm.pc.hardware
['chip' 'is' 'fast' 'ibm' 'bit']
comp.os.ms-windows.misc
['win' 'help' 'please' 'appreciated' 'figure']
comp.sys.mac.hardware
['the' 'file' 'lost' 've' 'it']
rec.motorcycles
['00' 'org' 'the' 'out' 'and']
talk.religion.misc
['the' 'that' 'may' 'to' 'is']
comp.sys.mac.hardware
['hp' 'co' 'com' 'tin' 'newsreader']
sci.space
['the' 'power' 'and' 'space' 'nasa']
misc.forsale
['10' 'very' 'and' 'reasonable' 'sale']

　まあ、それなりにうまくいってるんじゃね？　という結果が得られました*3。

　車のカテゴリやコンピュータのカテゴリ、宇宙のカテゴリなんかは割とわかりやすいですが、talk.religion.misc（宗教に関する話題？）だと['the' 'that' 'may' 'to' 'is']になっていたりするのは面白いです。この文書だけがたまたまとても抽象的だったのか、このカテゴリ自体こんな感じなのかはよくわかりません。

　ということで、文書ごとにやってうまく結果が出るのはわかったので、次は各カテゴリ（ラベル）ごとに特徴的な単語を出してみようと思ったのですが、これはちょっとめんどいのでとりあえずパス。そのうち気が向いたら追記します。

まとめ

　特徴抽出とTF-IDFの計算を自分で書いて、重要語への変換も自分で書いてという感じでやるとかなり手間がかかるのですが、sklearnとnumpyのちからに頼ると簡潔に書けて嬉しいですね。

　TF-IDFの上位数件くらいは、それなりに文書の特徴を反映するような単語と言って良いと思うので、ざっくり内容を把握したいとか、ざっくり特徴抽出したいというときはこういう方法も良いと思います。

*1:sklearnが仕様変更しない限り再現できる

*2:つまりindexと特徴ベクトルの次元が対応

*3:それなりに「まとも」な結果になっているのはTfidfVectorizerのオプションでmin_df=0.03を指定しているからで、これをやらないと見事にdfが低すぎるゴミ単語ばっかり引っかかる結果になる。注意しましょう

【python】tfidfは分類精度を向上させるのか？→向上しなかった

Mon, 19 Mar 2018 12:54:36 +0900

はじめに――長年の疑問
検証
結果
tf-idfは死んだのか？
まとめ

はじめに――長年の疑問

　自然言語処理でテキスト分類などに、よくtf-idfが使われます（最近はそうでもないのかもしれないが）。一般には、tf-idfを使うことで分類精度の向上効果があると認識されているようです。

　このことを長年疑問に思っていました。tf-idfのうち、tfは文書中の単語の出現回数（あるいは相対頻度）ですから、単なるBag of Wordsと変わりません。また、idfは文書全体でのその単語の出現する文書数の対数みたいなものですから、文書集合全体で各単語に1つのidfが定まります。

　けっきょく、tfi-dfはBoWにidfの列ベクトルをかけたものとみなせそうです。ということは、とても単純な線形変換ですから、こんなもので本当に分類精度が上がるんかいな？　という疑問をずっと抱いてました。分類器のアルゴリズムによってはある程度効果は期待できるかもしれないが（特に単純なものなら：k近傍法とか）、たとえば確率分布として取り扱うナイーブベイズや、線形変換をかけまくって分類できる軸を探すLDA(Linear Discriminant Analysis：線形判別分析）、あるいは決定木で分類に有効な特徴を探し出すRandomForestのような手法ではまったく効かないんじゃないの、という仮説をずっと考えていました。

　せっかくなので検証してみます。

検証

　検証用のデータは、sklearnのdatasetsから使える20newsgroupsにしました。fetch_20newsgroupsで使えます。

　ただし、このデータは量が多くて（1.1万件ほど）処理を回すのが大変なので、全体のだいたい40%をランダムサンプリングすることにしました。

　また、min_df=0.03, max_df=0.5, stop_words="english"を指定し、予め次元数を501次元にしています。ここがスタートラインです。

　このデータから4種類の方法で特徴量を作りました。

単語の出現回数（CountVectorizerで直接作成）
1をl2ノルムで割って正規化したもの
tf-idf（TifdfVectorizerで生成。norm=Noneを指定して正規化なしの条件でやる）
正規化tf-idf（norm="l2"を指定）

　これらに対し、以下の分類器で交差検証を回して分類スコアを計算しました。

ナイーブベイズ（Gaussian Naive Bayes）
k近傍法（K Nearest Neighbors）
線形判別分析（Linear Discriminant Analysis）
SVM（Support Vector Machine）
ランダムフォレスト（RandomForest Classifier）

　以下に検証に使ったソースコードを載せておきます。

▶クリックで展開

# coding: UTF-8
import numpy as np
import pandas as pd

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.naive_bayes import GaussianNB as GNB
from sklearn.neighbors import KNeighborsClassifier as KNC
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.svm import SVC
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import precision_recall_fscore_support as prf

def main():
    news20 = fetch_20newsgroups()

    cv = CountVectorizer(min_df=0.03, max_df=0.5, stop_words="english")
    tfidfv = TfidfVectorizer(min_df=0.03, max_df=0.5,
                             stop_words="english", norm=None)

    tfidfv_norm = TfidfVectorizer(min_df=0.03, max_df=0.5,
                                  stop_words="english", norm="l2")
    
    count_data = cv.fit_transform(news20.data).toarray()
    count_norm_data = count_data/np.c_[np.linalg.norm(count_data, axis=1)]
    tfidf_data = tfidfv.fit_transform(news20.data).toarray()
    tfidf_norm_data = tfidfv_norm.fit_transform(news20.data).toarray()
    
    print(count_data.shape)
    print(count_norm_data.shape)
    print(tfidf_data.shape)
    print(tfidf_norm_data.shape)

    data_idx = np.random.rand(count_data.shape[0]) > 0.6
    count_data = count_data[data_idx]
    count_norm_data = count_norm_data[data_idx]
    tfidf_data = tfidf_data[data_idx]
    tfidf_norm_data = tfidf_norm_data[data_idx]
    target = news20.target[data_idx]

    print(count_data.shape)
    print(count_norm_data.shape)
    print(tfidf_data.shape)
    print(tfidf_norm_data.shape)

    nb = GNB()
    knc = KNC(n_jobs=-1)
    lda = LDA()
    svm = SVC(C=10, gamma=0.05)
    rfc = RFC(n_estimators=500, n_jobs=-1)

    estimators = zip(["nb", "knc", "lda", "svm", "rfc"],
                     [nb, knc, lda, svm, rfc])

    df = pd.DataFrame([], columns=["classifier", "data type", 
                                   "precision", "recall", "F1-measure"])
    for cname, clf in estimators:
        for dname, data in zip(
                ["count", "count norm", "tfidf", "tfidf norm"], 
                [count_data, count_norm_data, tfidf_data, tfidf_norm_data]):
            trues = []
            preds = []
            for train_index, test_index in StratifiedKFold(
                    shuffle=True, random_state=0).split(data, target):
                clf.fit(data[train_index], target[train_index])
                trues.append(target[test_index])
                preds.append(clf.predict(data[test_index]))

            score = prf(np.hstack(trues), np.hstack(preds), average="macro")[:-1]
            print(cname, dname)
            print("p:{0:.6f} r:{1:.6f} f1:{2:.6f}".format(*score))
            s = pd.Series([cname, dname, *score], index=df.columns)
            df = df.append(s, ignore_index=True)
    print(df)
    print(df.to_latex())

if __name__ == "__main__":
    main()

結果

　次のような結果になりました。

　分類器別に端的にまとめると、

ナイーブベイズ：正規化効果あり。tf-idf効果なし
k近傍：正規化、tf-idfともに効果あり
線形判別分析：正規化効果あり。tf-idf効果なし
SVM：正規化効果あり。正規化なしtf-idfまったくダメ。正規化+tf-idfは効いてる可能性あり
ランダムフォレスト：正規化、tf-idfともに恐らく効果なし。効果があるとしても1%以下

　という結果になりました。要するに、

tf-idfは基本的に無力
tf-idfをする暇があったらl2ノルムで割る。こっちの方が効く
ただし一番精度を出せてるRandomForestでは、l2ノルムで割る正規化すら大して効いていないので、どこまで意味があるかは正直微妙

　という結論です。

tf-idfは死んだのか？

　少なくとも文書分類における特徴抽出手法としては死んだ、と言って構わないでしょう。

　このことは仮説の通りだったので、驚きはあまりないです。tf-idfは『分類精度を上げる目的』ではほとんど使えないというのが結論です。

　ではなぜtf-idfがこれまでもてはやされてきたのか？　相対頻度への変換や正規化によって、生BoW（単語の出現回数数えただけ）より良い結果が得られてきたためではないでしょうか。肝心のidfによる重み付けは「ちっとも意味がない」と言わざるを得ないと思います。

　では、tf-idfは使えない子なのか？　分類に使う特徴量としては上記の通り無意味ですが、tf-idfは特徴語抽出に使えます。tf-idf（の文書集合内の平均）が高すぎず低すぎない単語を抜き出すことで、文書の特徴をよく表す単語を抽出するという使い方です。これは教師なしで計算の軽い特徴選択手法として利用できますから、そっちでは役に立つでしょう、たぶん。

まとめ

　思った通り向上しませんでした。

【python】sklearnのCountVectorizerの使い方

Sun, 25 Feb 2018 04:45:25 +0900

　sklearnのCountVectorizerを使うとBoW(Bag of Words)の特徴量が簡単に作れます。

　ただし、指定するパラメタが多かったり、デフォルトで英語の文字列を想定していたりして若干とっつきづらい部分もあります。

　この記事ではCountVectorizerの使い方を簡単に説明します。

参考　sklearn公式ページ
sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.20.1 documentation

何も考えずに使う
出現頻度の低すぎる・高すぎる単語を消す
stop wordの除去
n-gramの特徴量にする
名詞だけでBoWを作る。更にstemmingも行う
日本語で使う
似たようなもの
まとめ

何も考えずに使う

　英語の入力文なら何も考えずに使うことも可能です。とりあえず入力データとして文字列のリストを作る必要があるので、pythonの英語版wikipediaの冒頭の文章を使うことにします。無駄な脚注を取り除き、一文ずつ改行します。

Python is an interpreted high-level programming language for general-purpose programming.
Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, and a syntax that allows programmers to express concepts in fewer lines of code,notably using significant whitespace.
It provides constructs that enable clear programming on both small and large scales.
Python features a dynamic type system and automatic memory management.
It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Python interpreters are available for many operating systems.
CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations.
CPython is managed by the non-profit Python Software Foundation.

　これをsource.txtというファイル名で適当なディレクトリに保存し、そのディレクトリ上のシェルでpythonインタプリタを起動します。このファイルを読み込み、改行でsplitしてリストを作ります。

>>> source_list = [x for x in txt.split("\n") if x != ""]
>>> with open("source.txt", "r") as f:
...     txt = f.read()
... 
>>> source_list = [x for x in txt.split("\n") if x != ""]

　ファイル末尾の改行のせいで空文字列が入るので、対策をしています。

　後はCountVectorizerをimportし、インスタンス化してfit_transform一発でDocument-Term Matrixが得られます。

>>> from sklearn.feature_extraction.text import CountVectorizer as CV
>>> cv = CV()
>>> matrix = cv.fit_transform(source_list)
>>> matrix
<8x98 sparse matrix of type '<class 'numpy.int64'>'
	with 122 stored elements in Compressed Sparse Row format>

　おおっ、spicyのsparse matrixを吐きやがった！　と思った人は正しいです。これは仕様なので仕方ありません。嫌なら.toarray()してnumpy配列に変換してください。sparse matrixの方がありがたいときとnumpy配列の方がありがたいとき、どちらもあるので、どっちにしておくのが良いかは一概には言えません。

　とりあえず形は8*98ということで、確かに8行のテキストなので上手くいっているようです。全データ中の異なり語数は98となり、100次元弱のBoW特徴量が得られました。

出現頻度の低すぎる・高すぎる単語を消す

　全文書中に1回とか2回しか出てこない単語、要らないですよね*1。逆に、全文書にまんべんなく出現する単語も要らない気がします*2。

　CountVectorizerにはmin_df,max_dfというパラメータがあります。dfはDocument Frequencyのことで、tf-idfのアレです。要するに（何回出てくるかは置いておいて）全文書中の何%にその単語が出現するかの指標です。それを使って特徴をフィルタリングできます。

　今回は8文書なので、うっかり変な数字を指定するとまったく効果がなかったり、何も残らなかったりするのが難しいところです。とりあえず出現する文書が2文書以上、6文書以下くらいの特徴を取ってみることにします。min_df=2/8=0.25, max_df=6/8=0.75とすれば良さそうですが、比較がgreater | less than or equalなのか単にgreater | less thanなのかよくわからないので、安全を見てmin_df=0.24, max_df=0.76としておきます。

>>> cv = CV(min_df=0.24, max_df=0.76)
>>> matrix = cv.fit_transform(source_list)
>>> matrix
<8x14 sparse matrix of type '<class 'numpy.int64'>'
	with 38 stored elements in Compressed Sparse Row format>

　14次元まで減りました。特徴の名前（残っている単語）を見てみます。リストの0個目の単語が0次元目の特徴に・・・という形で対応しているはずです（たぶん）。

>>> cv.get_feature_names()
['and', 'by', 'cpython', 'for', 'has', 'is', 'it', 'large', 'of', 'programming', 'python', 'software', 'that', 'the']

　たぶんこんなものでしょう。

stop wordの除去

　byとかforとかthatとか要らないですよね*3。stop_wordsというパラメータがあり、「こんなの要らないよ」って単語のリストを渡すと除去してくれます。また、文字列"english"を渡すこともでき、その場合は「built-in stop word list for English」を使ってくれます。凄い。ちなみに「built-in stop word list for Japanese」はありません。残念。

　とりあえず"english"を指定してみます。

>>> cv = CV(min_df=0.24, max_df=0.76, stop_words="english")
>>> matrix = cv.fit_transform(source_list)
>>> cv.get_feature_names()
['cpython', 'large', 'programming', 'python', 'software']

　思ったより何も残らなかったので、min_dfを下げてみます。

>>> cv = CV(min_df=0.12, max_df=0.76, stop_words="english")
>>> matrix = cv.fit_transform(source_list)
>>> cv.get_feature_names()
['1991', 'allows', 'automatic', 'available', 'based', 'clear', 'code', 'community', 'comprehensive', 'concepts', 'constructs', 'cpython', 'created', 'design', 'development', 'dynamic', 'emphasizes', 'enable', 'express', 'features', 'fewer', 'foundation', 'functional', 'general', 'guido', 'high', 'imperative', 'implementation', 'implementations', 'including', 'interpreted', 'interpreters', 'language', 'large', 'level', 'library', 'lines', 'managed', 'management', 'memory', 'model', 'multiple', 'nearly', 'non', 'notably', 'object', 'open', 'operating', 'oriented', 'paradigms', 'philosophy', 'procedural', 'profit', 'programmers', 'programming', 'provides', 'purpose', 'python', 'readability', 'reference', 'released', 'rossum', 'scales', 'significant', 'small', 'software', 'source', 'standard', 'supports', 'syntax', 'systems', 'type', 'using', 'van', 'variant', 'whitespace']

　ソースリストの下のスクロールバーが凄いことになってますが、どうせ誰も見たくもないでしょうし、対策はしていません。見たい人は頑張ってスクロールしてください。とりあえずこんなものだろうという結果は得られました。

n-gramの特徴量にする

　ngram_rangeというパラメータがあります。これはタプルで渡す必要があり、(1,1)とか(1,2)といった風に指定します。

The lower and upper boundary of the range of n-values for different n-grams to be extracted. All values of n such that min_n <= n <= max_n will be used.

　要するに(1,1)なら1-gram(ただの単語), (1,2)なら1-gramと2-gram、(1,3)なら1~3-gram、(2,3)なら2~3-gramという形でぜんぶ作り、まとめて一つの特徴空間にしてくれるようです。(1,2)を試してみます。

>>> cv = CV(ngram_range=(1,2))
>>> cv = CV(ngram_range=(1,2))
>>> matrix = cv.fit_transform(source_list)
>>> cv.get_feature_names() 
['1991', '1991 python', 'all', 'all of', 'allows', 'allows programmers',... 
# 多いので途中で省略

　期待通り動いているようです。

名詞だけでBoWを作る。更にstemmingも行う

　これはCountVectorizerだけではできません（CountVectorizer内部でPOS taggingを行っていないため）。

　そこでnltkを使います。まず、次のような関数を定義します。

>>> def noun_stem_analyzer(string):
...     st = nltk.stem.lancaster.LancasterStemmer()
...     return [st.stem(word) for word, pos in nltk.pos_tag(
...             nltk.word_tokenize(string)) if pos == "NN"]
...

　nltkを入れていない人は入れてください。また、一回目の呼び出しでは処理に必要なリソースがないというエラーが出るので、エラーメッセージの案内通りにコマンドを打ち、リソースをダウンロードしてください。

　使ってみます。

>>> string = "Python is an interpreted high-level programming language for general-purpose programming."
>>> noun_stem_analyzer(string)
['high-level', 'program', 'langu', 'program']

　pythonが入ってないのが微妙なので、POSタグをちゃんと見てみます。

>>> nltk.pos_tag(nltk.word_tokenize(string))
[('Python', 'NNP'), ('is', 'VBZ'), ('an', 'DT'), ('interpreted', 'JJ'), ('high-level', 'NN'), ('programming', 'NN'), ('language', 'NN'), ('for', 'IN'), ('general-purpose', 'JJ'), ('programming', 'NN'), ('.', '.')]

　NNPは固有名詞・・・かな。これを踏まえて関数を修正。

>>> def noun_stem_analyzer(string):
...     st = nltk.stem.lancaster.LancasterStemmer()
...     return [st.stem(word) for word, pos in nltk.pos_tag(
...             nltk.word_tokenize(string)) if pos == "NN" or pos == "NNP"]
... 
>>> noun_stem_analyzer(string)
['python', 'high-level', 'program', 'langu', 'program']

　これなら期待通りです。stemmingの結果に若干納得できないような気もしますが、今回はこのまま行きます。

　この関数をどうやってCountVectorizerと組み合わせて使うのかというと、analyzer引数に渡してあげます。

>>> cv = CV(analyzer=noun_stem_analyzer)
>>> matrix = cv.fit_transform(source_list)
>>> cv.get_feature_names()
['cod', 'cpython', 'design', 'develop', 'found', 'guido', 'high-level', 'impl', 'langu', 'libr', 'man', 'mem', 'model', 'paradigm', 'philosoph', 'program', 'python', 'read', 'ref', 'ross', 'softw', 'sourc', 'standard', 'syntax', 'system', 'typ', 'van', 'whitespac']

　こうやって使える訳です。

　ちなみに、似たような引数にpreprocessorとtokenizerがあります。ありますが、ドキュメントを何回読んでもなんとなくしかわからなかったので、説明はしません。とりあえず、analyzerを指定すれば大抵の場合問題はないでしょう。

　なお、analyzerはcallableならなんでも渡せるので、たとえば(lambda x:x)を渡し、

>>> cv = CV(analyzer=lambda x:x)
>>> matrix = cv.fit_transform(
...              [noun_stem_analyzer(string) for string in source_list])

　こうしても上と同じ結果になります。どうしてわざわざこんなことを書いたのかというと、これを使ってテキストの前処理を事前にまとめて行っておくという方針が使えるからです。実際にテキスト分析をやったことのある方ならご存知かと思いますが、大量のデータに形態素解析などをかけるのはそれ自体けっこうヘビーな処理になるので、一度データを丸ごと形態素解析してファイルにダンプするとか、DBに入れるとかして処理を行うことが多い訳です。そういうデータも、わざわざ分かち書きに戻したりしなくても上記の方法で解析できます。

日本語で使う

　上の例を見て分かる通り、analyzerには好きなものが渡せます。ということは、日本語形態素解析器を突っ込んでやればCountVectorizerは日本語でも使える訳です。pythonの日本語版wikipediaから以下の文章を取ってきました。

Python（パイソン）は、汎用のプログラミング言語である。
コードがシンプルで扱いやすく設計されており、C言語などに比べて、さまざまなプログラムを分かりやすく、少ないコード行数で書けるといった特徴がある。
文法を極力単純化してコードの可読性を高め、読みやすく、また書きやすくしてプログラマの作業性とコードの信頼性を高めることを重視してデザインされた、汎用の高水準言語である。
反面、実行速度はCに比べて犠牲にされている。
核となる本体部分は必要最小限に抑えられている。
一方で標準ライブラリやサードパーティ製のライブラリ、関数など、さまざまな領域に特化した豊富で大規模なツール群が用意され、インターネット上から無料で入手でき、自らの使用目的に応じて機能を拡張してゆくことができる。
またPythonは多くのハードウェアとOS (プラットフォーム) に対応しており、複数のプログラミングパラダイムに対応している。
Pythonはオブジェクト指向、命令型、手続き型、関数型などの形式でプログラムを書くことができる。

　source2.txtとして保存し、さきほどと同様に読み込みます。

>>> with open("source2.txt", "r") as f:
...     txt = f.read()
... 
>>> source2_list = [x for x in txt.split("\n") if x != ""]

　日本語形態素解析器にはMeCabを使います。次のようにanalyzerを定義します。

>>> import MeCab
>>> tagger = MeCab.Tagger("")
>>> def japanese_analyzer(string):
...     result_list = []
...     for line in tagger.parse(string).split("\n"):
...         splited_line = line.split("\t")
...         if len(splited_line) >= 2 and "名詞" in splited_line[1]:
...             result_list.append(splited_line[0])
...     return result_list

　色々妥協して書いたので、このコードは実用的な用途には転用しないでください（する人もいないだろうけど）。とにかくCountVectorizerにこれを入れます。

>>> cv = CV(analyzer=japanese_analyzer)
>>> matrix = cv.fit_transform(source2_list)
>>> cv.get_feature_names()
['(', ')', 'C', 'OS', 'Python', 'こと', 'さまざま', 'インターネット', 'オブジェクト', 'コード', 'サード', 'シンプル', 'ツール', 'デザイン', 'ハードウェア', 'パイソン', 'パーティ', 'プラットフォーム', 'プログラマ', 'プログラミング', 'プログラミングパラダイム', 'プログラム', 'ライブラリ', '上', '作業', '使用', '信頼', '入手', '化', '単純', '可読性', '命令', '型', '多く', '大', '実行', '対応', '形式', '必要', '性', '手続き', '拡張', '指向', '数', '文法', '最小限', '本体', '核', '標準', '機能', '汎用', '無料', '特', '特徴', '犠牲', '用意', '目的', '群', '自ら', '行', '製', '複数', '規模', '言語', '設計', '豊富', '速度', '部分', '重視', '関数', '領域', '高水準']

　最初の半角カッコが目立ちますが、mecabのデフォルトの挙動では半角記号は「名詞,サ変接続」に割り当てるのでこれで間違っていません。それを除けば、それほど悪くない感じになっていると思います。

似たようなもの

　CountVectorizerに似たものとして、

TfidfVectorizer
HashingVectorizer

　があります。

　参考　公式ドキュメント
sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.20.1 documentation
sklearn.feature_extraction.text.HashingVectorizer — scikit-learn 0.20.1 documentation

　Tfidfの方はその名の通り、出力される行列をidfで重み付けします。Hashingの方ではfeature hashingという手法を使い、次元数が膨れ上がるのを抑制してくれるようです。

まとめ

　素晴らしく簡単に使えます。テキストの特徴量が必要になったときには、使ってみては如何でしょうか。

*1:今回はデータが小さいのでそうも言い切れない部分があるが・・・

*2:これはタスク依存。著者推定のようなタスクではまんべんなく出現する単語の頻度を見るので重要だったりする

*3:ぶっちゃけタスク依存（ry