SVMのsupport vectorを可視化してみた

python 機械学習可視化 SVM matplotlib 主成分分析

はじめに SVMはヒンジ関数を使ってマージン最大化を行い、境界付近のデータに基づいて分離超平面を決定する……ということはよく言われています。でも、実際のデータで確認している図はあまり見たことがありません。 sklearnのSVMのドキュメントを読んでいたら…

2019-06-22

sklearnとmatplotlibでiris（3クラス）の予測確率を可視化した話

python Tips matplotlib 次元削減主成分分析 sklearn 可視化

はじめによく分類器の性質などを把握するために、2次元で可視化している図があります。特に予測確率なんかを平面的に出せるとかっこいいですよね。つまり、こういうのです。Classifier comparison — scikit-learn 0.21.3 documentation以前の記事より君はK…

2019-05-24

【python】高次元の分離境界をなんとか2次元で見る

python sklearn 機械学習 matplotlib SVM ランダムフォレスト主成分分析次元削減

はじめに分類器の特性を把握するために2次元データで分離境界を見るということが行われがちですが、高次元空間における分離器の特性を正確に表している訳ではありません。ということがずっと気になっていたので、なんとか高次元空間で分類させて2次元で見…

2019-05-14

【python】PCAと非負値行列因子分解のバイプロットを見比べる

python 機械学習次元削減 sklearn matplotlib 主成分分析

はじめに非負値行列因子分解は負の値が出現しないような行列に対して行える分解で、主成分分析とか因子分析に似ています。参考：非負値行列因子分解（NMF）をふわっと理解する - Qiita 上の記事によると、いいところとしては、非負なので現実のデータに…

2019-01-26

本当は怖いSVMと交差検証

python SVM sklearn 機械学習ネタ・小ネタ交差検証ランダムフォレスト主成分分析可視化

概要 SVMと交差検証を組み合わせて使うと、たとえ交差検証で高いスコアが出て汎化性能確保できた！と思っても想像とかけ離れた分離超平面になっていることがままある。なのでこの組み合わせは少し怖いということを説明する。コード irisを分類します。二…

2018-12-14

【python】sklearnのOneClassSVMを使って外れ値検知してみる

python sklearn SVM 機械学習主成分分析

はじめに OneClassSVMというものがあると知ったので使ってみます。「1クラスSVM？」と思われると思いますが、要するに異常検知・外れ値検出などで使う手法です。信頼区間を出すのに似ていますが、複雑な分布だったりそもそも分布が想定できないようなデータ…

2018-12-10

【python】sklearnのFeatureAgglomerationを使ってみる

python sklearn 次元削減機械学習特徴抽出クラスタリング主成分分析データ前処理

はじめに FeatureAgglomerationは階層的クラスタリングを用いた教師なし次元削減のモデルです。特徴量に対して階層的クラスタリングを行い（つまり通常のサンプルに対するクラスタリングと縦横の向きが入れ替わる）、似ている特徴量同士をマージします。マー…

2018-11-17

【python】sklearnのSparsePCAを使ってみる

主成分分析 sklearn python 次元削減機械学習

はじめに SparsePCAというものがあることを知ったので、使ってみようと思います。 SparsePCAとは？その名の通り、スパースな主成分分析です。スパースな主成分ベクトルを推定します。Sparse PCA - Wikipedia 原理などは理解しないで、カジュアルに使えるか…

2018-06-18

GridSearchCV『の』パラメータ・チューニング高速化中心に

python 機械学習 sklearn Tips 交差検証速度計測シリーズ Pipeline 主成分分析

はじめに機械学習でパラメータ・チューニングをしたい場合、グリッドサーチを行うのが定石とされています。sklearnではグリッドサーチはGridSearchCVで行うことができます。sklearn.model_selection.GridSearchCV — scikit-learn 0.21.2 documentation それ…

2018-05-28

【python】MeanShiftのbandwidthを変えるとどうなるか実験してみた

python sklearn MeanShift クラスタリング主成分分析機械学習

前回の記事ではMeanShiftクラスタリングを試してみました。www.haya-programming.com このMeanShiftにはbandwidthというパラメータがあり、クラスタ数を決定する上で重要な役割を果たしているはずです。いまいち結果に納得がいかないというとき、bandwidth…

2018-05-27

【python】sklearnのMeanShiftクラスタリングを試してみる

python sklearn クラスタリング MeanShift Pipeline 主成分分析機械学習データ前処理

はじめに MeanShiftはクラスタリングアルゴリズム。クラスタ数を自動で決定してくれるという長所がある。理論的には最急降下法で各クラスタの極大点を探していく感じらしいです。わかりやすい解説があったので、リンクを張っておきます（ただし私自身はすべ…

2018-05-15

【python】複数の特徴をまとめるFeatureUnion

python sklearn 次元削減 Pipeline 機械学習 Tips 特徴抽出主成分分析線形判別分析

単一の入力データから、複数の処理方法で幾つもの異なる特徴量が得られる・・・というシチュエーションがある。この場合、「どれが最善か」という観点でどれか一つを選ぶこともできるけど、そうすると他の特徴量の情報は捨ててしまうことになる。総合的な性…

2018-05-07

複数の目的変数で回帰を行う方法

python sklearn 機械学習回帰ランダムフォレスト主成分分析

はじめに回帰分析を行う際、複数の目的変数に対して回帰をしたい場合があります。普通のモデルではできないのでちょっと面食らいますが、やり方は色々あるようです。目次はじめに目的変数の数だけ回帰モデルを作る方法複数の目的変数に対応したモデルを…

2018-04-07

【python】SOMのライブラリSomocluはかなりおすすめ

python 機械学習次元削減クラスタリング Tips 主成分分析可視化

SOM(Self-organizing maps：自己組織化写像)は割と古めの、データの可視化手法です（それ以外にも使えると思いますが）。今回はpythonのSOMライブラリSomocluを使ってみたら、けっこう良かったというネタです。目次 SOMの概要ライブラリがないそれでも頑…

2018-03-31

【python】sklearnのPCAでloading（主成分負荷量）を計算する

python sklearn 統計主成分分析機械学習

PCA（主成分分析）のloading*1がほしいときがあります。 sklearnでは一発では出ません。ドキュメントはここ。 sklearn.decomposition.PCA — scikit-learn 0.21.2 documentation 目次 PCA.components_は確かにあるけど・・・ loadingを計算しよう罠だった …

2018-03-31

【python】sklearnで因子分析を試す

python sklearn 統計次元削減 Pipeline 主成分分析機械学習可視化

pythonで因子分析をやる人はあまりいないようだが、sklearnにはしっかりモデルが存在している。ついさっき気づいた。sklearn.decomposition.FactorAnalysis — scikit-learn 0.20.1 documentation 因子分析自体は前からどんなものなのか興味があり、かといっ…

2018-03-28

【python】pythonで主成分分析のバイプロット

python 主成分分析 matplotlib 統計次元削減機械学習可視化

バイプロット（Biplot）という主成分分析（PCA）の結果の可視化方法があります。すごく大雑把に言うと、PCAによる写像の前の空間の各特徴（軸）が写像先の空間のどこに向いているかを可視化する方法です。具体的には、主成分ベクトル（因子負荷量などを使…

2018-03-28

【python】numpyで主成分分析を実装してみた

python numpy 主成分分析統計 sklearn 次元削減機械学習可視化

numpyでPCA（principal component analysis：主成分分析）を実装してみました。自分の理解を深めるためです。 sklearnに実装されているものと同じ結果を出すことを目標にしました。最終的には上手く行きました。目次概要実装結果まとめ概要主成分分析…

2018-03-28

【python】カーネル主成分分析を試してみる

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化

カーネル主成分分析（Kernel PCA）はカーネル法と主成分分析を組み合わせて用い、データを非線形次元圧縮する方法です（こんな説明で良いのか・・・）。カーネル法のことは勉強中・・・というか正直勉強しようとしてもよくわからないで跳ね返されるのをこれ…

2018-03-27

【python】sklearnのPCAで相関行列を使う

python sklearn 主成分分析次元削減 Pipeline 機械学習可視化データ前処理

主成分分析には共分散行列を用いる方法、相関行列を使う方法がある。 sklearnのPCAを見ると、これに対応するオプションは存在しない。sklearn.decomposition.PCA — scikit-learn 0.20.1 documentation ずっと不思議に思っていたが、ググってたらこんなものを…

2018-03-26

【python】sklearnのfetch_20newsgroupsで文書分類を試す(4)

python 自然言語処理 20newsgroups sklearn 主成分分析線形判別分析次元削減 Pipeline 機械学習ランダムフォレスト CountVectorizer

前回は性能を追い求めると次元がでかくなりすぎて・・・というところで終わっていた。今回はもうちょっと頑張って次元を減らしてみる。目次ストップワードの除去 PCA（主成分分析）とLDA（線形判別分析）分類ソースコード結果とまとめ次回過去の回ス…

2018-03-24

【python】matplotlibで3次元データを描画し、回転アニメーションにする

python matplotlib 主成分分析機械学習

3次元くらいのデータを描画したいときがある。簡単に散布図にできると便利。データの用意 sklearnのload_irisなどで取得できるデータセットを入力にする前提の次のような関数を作った。 from sklearn.decomposition import PCA def gen_3d_data(dataset): p…

2018-03-20