静かなる名辞

pythonとプログラミングのこと



nltk

【python】nltkで英語のStemmingとLemmatization

Stemming(ステミング)は単語の語幹を取り出したいとき、Lemmatization(レンマ化、敢えてカタカナ表記するとレンマタイゼーション)はカテゴリごとにグルーピングしたりしたいときに使う。 公式ドキュメントはここ。 nltk.stem package — NLTK 3.2.5 docum…

【python】nltkで英語の形態素解析

POS taggingというタスクです。日本語の解析ではmecabやjumanを使うと思いますが、英語だとnltkに入っているものが使えるので楽です。 使い方 凝ったやり方は幾らでもある(と思う)のですが、簡単のために次の二つを使います。 nltk.word_tokenize nltk.pos…