太宰治小説のTF-IDFを計算した
を参考に、太宰治小説のTF-IDFを計算した。以下、値が上位のものから単語だけ30個並べると、
いちど,謂わ,依っ,要ら,つらい,やたら,ご存じ,在っ,先日,おそろしく,だいいち, あがっ,ゆるし,下さっ,おそろしい,落ちつき,青森,あいだ,くるしい,おそく,ちかく, おまえ,ごはん,大笑い,具合い,判ら,ちまい,のこのこ,としの,三鷹,やけくそ,たいてい, れい,だめ,無かっ,ちゃんと,逢う,津軽,あらわれ,繰りかえし,わびし,あれこれ,わかい, うつむい,みじん,いやらしい,わがまま,ふるさと,於い,在る,口調,なんにも,捨て, 無学,ッ,なさっ,だいたい,概念,判る,長兄,生家,安易,素知らぬ,金木,したため,熱狂, あいそ,のろのろ,ごちそう,わるい,芸術,ばん,之,落ちつい,まじめ,ことし,敗北,自重, たのしみ,めいわく,長編,ロマンス,かたち,悪癖,言える,記さ,あからめ,知合い,滅茶, とたんに,あやしい,心掛け,判っ,くさく,高潔,まごつい,侘び,あたらしく,甲府,ひくく, むだ,瞬時,ふっと,酔っ,大 声,きらい,内心,おのれ,ゆえ,ふたり,おめでとう
のようになる。ネガティブな単語が多く含まれていて、非常に満足度が高い。
https://github.com/soy-curd/Dazai/blob/master/doc/flayer.png
ついでに文学フリマ用のビラもできたので、ひと安心。