静かなる名辞

pythonとプログラミングのこと

2019/03/22:TechAcademyがteratailの質問・回答を盗用していた件
2019/03/26:TechAcademy盗用事件 公式発表と深まる疑念



【python】setのandとorには要注意

はじめに結論 and/orではなく&/|演算子を使う 概要 setに対して積集合・和集合を計算したいときがあると思うのですが、うっかり&/|の代わりにand, orを使ってしまうとひどい目に遭います。 たとえばこんな感じ。 >>> a = {0,1,2,3} >>> b = {1,3,5,7} >>> a …

【python】scipyでt検定する方法まとめ

概要 いっっっつも使い方を忘れて調べているので、自分で備忘録を書いておくことにしました。 t検定の概要 2群の標本の平均に差異があるかどうかを検定します。帰無仮説は「両者の平均に差はない」、対立仮説は「両者の平均に差がある」です。 詳しいことはw…

emacsでpythonを書くための設定 2019年版

概要 emacsライトユーザーの私が、新規環境にemacs25を導入してpythonを書くにあたってやった設定を書いておきます。目的はpythonを書くことだけです。 前提として、以下の記事のように環境を作っています(読まなくてもなんとかなります)。www.haya-progra…

【python】sklearnのfetch_20newsgroupsで文書分類を試す(5)

はじめに ずっと放置していたシリーズですが、その後新たに得られた知見が出てきたので、更新しておこうと思います。 得られた知見 いろいろ勉強した結果、以下のような考えに至りました。 そもそもデータ数が多いので、高級な分類器であればあるほど速度的…

【python】PCAと非負値行列因子分解のバイプロットを見比べる

はじめに 非負値行列因子分解は負の値が出現しないような行列に対して行える分解で、主成分分析とか因子分析に似ています。 参考: qiita.com 上の記事によると、いいところとしては、 非負なので現実のデータに向く 非負なので解釈が楽 さらにスパースにな…

UbuntuのFirefoxでWebページが英語で表示されるのを直す

UbuntuにはデフォルトでFirefoxが入っているので、特別な理由がなければこれを使う人が多いと思います。しかし、ネットを見ているとたまに英語で表示されてしまうページがあることに気づいたりします。 これはFirefoxが「こいつは英語ユーザだ」という情報を…

nan同士の同値性比較はFalseになる

nanをイコールで比較しようとしてもうまくいきません。nanはなにと比較しても(自分同士の比較でも)Falseになるような性質を持っているからです。 >>> import numpy as np >>> np.nan == np.nan False pythonに限らず、おそらく大半のプログラミング言語で…

scikit learnのモデルに疎行列(csr_matrix)を渡したときの速度

はじめに sklearnのモデルには疎行列を取れるものもたくさんありますが、この場合速度差があったりするのでしょうか。 ごく簡単に検証してみます。 実験1 簡単のためにdigitsを使います。分類器は SVC RandomForestClassifier MultinomialNB GradientBoostin…

【python・ネタ】exit()ではなくexitで終了できるexitコマンドを作る

概要 むしゃくしゃして書いた。冷静に考えたら疲れてた。 問題点 >>> exit Use exit() or Ctrl-Z plus Return to exit ウザい! exitで落ちるようにしたい! 実装 簡単に書けます。5行くらい。 import sys class Exit: def __repr__(self): sys.exit() exit …

Ubuntu 18.04 LTSにvenvでミニマムなPython3.7仮想環境を構築

概要 まっさらなパソコンを開発環境として立ち上げることになり、表題の通りのことをやる必要があったのでまとめておきます。 venvを使うつもりなので、作業量としては少ないはずです。 Python3.7の導入 Ubuntu 18.04はデフォルトでpython2が導入されていま…

【python】pandasのto_sqlを試してみる

はじめに 気軽にDataFrameをデータベーステーブルに変換できそうなto_sqlなるものがあるので、試してみます。pandas.DataFrame.to_sql — pandas 0.23.4 documentation sqliteを使いたかった ドキュメントではSQLAlchemyを使ってSQLiteを叩いているようですが…

numpy配列に文字列を格納した場合の型と挙動

numpy配列に文字列を格納した場合、どう扱われるのか知らなかったので、調査してみました。 まず基本。 >>> import numpy as np >>> a = np.array(["a", "b"]) >>> a array(['a', 'b'], dtype='<U1') >>> type(a[0]) <class 'numpy.str_'> 配列そのものは「</class></u1')>

【python】threadingでsleep中に即座にスレッドを止める

pythonのスレッド活用というと、こんなコードがすぐに思い浮かびます。 # エンターされるまでは数字を更新して、 # エンターされたら終了する(つもり) import time import threading flag = True def th(): i = 0 while flag: print("\r{}:".format(i), en…

もう参照の値渡しとは(無条件では)言わせない

注意:この記事では「参照の値渡し」がどういうものか、という点については説明しません。あくまで「参照の値渡し」を理解している方が対象読者です。 概要 「参照の値渡し」という言葉がありますが、この言葉に関してはずっとモヤモヤ感を抱いていました。 …

AdaBoostとRandomForestの比較

はじめに 個人的にAdaBoostの性質がまだよくわかっていないので、比較を行ってみようと思います。 参考文献 大元はsklearnのこの記事です。scikit-learn.org また、コードを1から書き上げるほどの情熱が今回沸かなかったので、自分の過去記事からコピペして…

【python】sklearnのAdaBoostをデフォルトパラメータで使ってはいけない

はじめに sklearnのAdaBoostを使う機会がありましたが、デフォルトパラメータのまま使ってみたら性能が悪すぎて驚きました。 対策を書きます。 症状 何も考えずに使うとこんな感じです。 from sklearn.datasets import load_digits from sklearn.ensemble im…

【python】MeCabバインディングのparseToNodeでBOS/EOSを除外

はじめに mecab-pythonで以下のようなコードを書くことがよくあると思います。 import MeCab s = "吾輩は猫である。" tagger = MeCab.Tagger("") tagger.parse("") node = tagger.parseToNode(s) while node: print(node.surface, node.feature) node = node…

はてなブログの独自ドメイン化でカバレッジが切り替わらないときの対処

はじめに 去年の秋頃、このブログを独自ドメイン化しましたが、今年に入ってもSearch Console上で古いサイトのインデックス・カバレッジが大量(数百件とか)に残ったままでした。 思いついた方法を試したところ、さほど重要でないページ数件*1を残してカバ…

TechAcademyのその後

はじめに 以前このような記事を書きました。www.haya-programming.com www.haya-programming.com TechAcademyに問い合わせたところまでで終わっていましたが、その後すこし私生活がバタバタしていたので、ブログを更新する暇がありませんでした。少し落ち着…

TechAcademy盗用事件 公式発表と深まる疑念

TechAcademyマガジンで、teratailの質問・回答の盗用疑惑があり、前回の記事で取り上げました。私が書いたその記事はTwitterやはてブ経由で拡散して多くの方に見ていただき、TechAcademyマガジンの運営上の問題が多くのインターネットユーザに共有されました…

TechAcademyがteratailの質問・回答を盗用していた件

はじめに 私はteratailというQAサイトで回答をしていて、pythonカテゴリ総合一位だったりします。あちこちのサイトを見ていたら、TechAcademyというサイトがteratailの質問と回答を盗用しているという話を見つけました。図々しいと思いながらも情報をまとめ…

【python】複数のlist(など)を対象にmapを使う

組み込みのmapは実は複数のiterableを引数に取れるように定義されています。 追加の iterable 引数が渡されたなら、 function はその数だけの引数を取らなければならず、全てのイテラブルから並行して取られた要素に適用されます。複数のイテラブルが与えら…

【python】__slots__は速度的にどうなのか

概要 __slots__を使うとメモリをケチれるという話はよく見かけますが、属性アクセスの速度については話を聞かないので調べてみました。 実験コード import timeit class A_slots: __slots__ = ["a"] def __init__(self): self.a = 42 class A_attr: def __in…

【python】辞書で複数の値を一つのキーにする

概要 複数の値を一つのキーにまとめて、結果と対応させたいというケースがあります。 >>> d = {1,2:"hoge", 3,4:"fuga"} # こんな感じ? 残念ながらこれはエラーになります。 File "<stdin>", line 1 d = {1,2:"hoge", 3,4:"fuga"} ^ SyntaxError: invalid syntax </stdin>…

【python】sklearn 0.20でclassification_reportの仕様が変わっていた

はじめに 遅まきながら、sklearn 0.20でclassification_reportの仕様が変わったことに気づきました。 基本的な使い方は変わりませんが、それなりに大きな変化になります。 変更点 まず0.19の引数と出力のフォーマット。 sklearn.metrics.classification_repo…

【python】print関数を使いこなそう

ぼくたちは本当のprintを知らない pythonのprint関数については、たかがprintと思っている人も多いと思いますが、しかしオプションをすべて言える人はあまりいないと思います。把握しておくと出力の細かい制御をしたいとき役立ちます。 そこで、printの使い…

【python】sklearnのRandomizedSearchCVを使ってみる

はじめに RandomizedSearchCVなるものがあるということを知ったので、使ってみます。うまく使うとグリッドサーチよりよい結果を生むかもしれないということです。sklearn.model_selection.RandomizedSearchCV — scikit-learn 0.20.3 documentation 比較実験 …

numpyやpandasでThe truth value of ... is ambiguous.のようなエラーが出たときの対処

概要 条件式を使って生成したようなboolのnumpy配列を使っていると、次のようなエラーが出ることがあります。 ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all() また、pandasのSeriesやDataFrame…

ファイルオブジェクトのcloseはflushも行う。確実にしたければfsync

以前、「ファイルオブジェクトのcloseメソッドは同時にflushも行う」ことを知りました。 どうやらcloseするときは内部でflushメソッドが呼ばれるようです。 このストリームをフラッシュして閉じます。 io --- ストリームを扱うコアツール — Python 3.7.3rc1 …

scipy.optimize.curve_fitを使っていろいろな関数にフィットさせてみる

はじめに scipy.optimize.curve_fitを使うと曲線あてはめができます。いろいろな関数にフィッティングさせてみて、うまくいくかどうか試してみます。scipy.optimize.curve_fit — SciPy v1.2.1 Reference Guide f(x) = x + a ただの足し算。 import numpy as …