soy-curd's blog

へぼプログラマーです [https://twitter.com/soycurd1]

太宰治小説のTF-IDFを計算した

http://takuti.me/note/tf-idf/

を参考に、太宰治小説のTF-IDFを計算した。以下、値が上位のものから単語だけ30個並べると、

いちど,謂わ,依っ,要ら,つらい,やたら,ご存じ,在っ,先日,おそろしく,だいいち,
あがっ,ゆるし,下さっ,おそろしい,落ちつき,青森,あいだ,くるしい,おそく,ちかく,
おまえ,ごはん,大笑い,具合い,判ら,ちまい,のこのこ,としの,三鷹,やけくそ,たいてい,
れい,だめ,無かっ,ちゃんと,逢う,津軽,あらわれ,繰りかえし,わびし,あれこれ,わかい,
うつむい,みじん,いやらしい,わがまま,ふるさと,於い,在る,口調,なんにも,捨て,
無学,ッ,なさっ,だいたい,概念,判る,長兄,生家,安易,素知らぬ,金木,したため,熱狂,
あいそ,のろのろ,ごちそう,わるい,芸術,ばん,之,落ちつい,まじめ,ことし,敗北,自重,
たのしみ,めいわく,長編,ロマンス,かたち,悪癖,言える,記さ,あからめ,知合い,滅茶,
とたんに,あやしい,心掛け,判っ,くさく,高潔,まごつい,侘び,あたらしく,甲府,ひくく,
むだ,瞬時,ふっと,酔っ,大  声,きらい,内心,おのれ,ゆえ,ふたり,おめでとう

のようになる。ネガティブな単語が多く含まれていて、非常に満足度が高い。

https://github.com/soy-curd/Dazai/blob/master/doc/flayer.png

ついでに文学フリマ用のビラもできたので、ひと安心。