pythonを用いた文学フリマ参加サークル名の分析
はじめに
2014年11月24日に開催される第19回文学フリマの参加サークルが発表されたので、参加サークルの名前の傾向を分析してみた。
分析
まずは結果から。
単語 | 出現回数 |
---|---|
会 | ****************************************************************** |
の | *************************************************************** |
研究 | ************************* |
文芸 | ************************ |
部 | *********************** |
文学 | ********************** |
と | ********************* |
社 | ***************** |
書房 | ************ |
- | ************ |
短歌 | *********** |
文庫 | *********** |
/ | ********** |
堂 | ********** |
誌 | ********* |
. | ******** |
舎 | ******** |
編集 | ******** |
! | ******** |
た | ******* |
な | ******* |
人 | ****** |
ん | ****** |
工房 | ****** |
室 | ****** |
同人 | ****** |
委員 | ****** |
に | ****** |
( | ****** |
少女 | ****** |
出版 | ***** |
' | ***** |
屋 | ***** |
する | ***** |
) | ***** |
大 | ***** |
現代 | ***** |
は | ***** |
派 | ***** |
も | ***** |
大学 | ***** |
新 | ***** |
め | ***** |
+ | ***** |
早稲田大学 | ***** |
お | ***** |
サークル | ***** |
亭 | **** |
で | **** |
星 | **** |
SF | **** |
製作 | **** |
月 | **** |
世界 | **** |
書店 | **** |
を | **** |
: | **** |
ね | **** |
創作 | **** |
犬 | **** |
青 | **** |
館 | **** |
る | **** |
倶楽部 | **** |
花 | **** |
研究所 | **** |
ー | **** |
猫 | **** |
アトリエ | **** |
夢 | **** |
文藝 | *** |
同盟 | *** |
幻想 | *** |
音 | *** |
未来 | *** |
喫茶 | *** |
G | *** |
小説 | *** |
り | *** |
想 | *** |
友の会 | *** |
_ | *** |
黒 | *** |
ま | *** |
号 | *** |
むし | *** |
ほし | *** |
園 | *** |
通信 | *** |
文化 | *** |
A | *** |
少年 | *** |
町 | *** |
日本 | *** |
同好 | *** |
支部 | *** |
D | *** |
か | *** |
百 | *** |
華 | *** |
日 | *** |
が | *** |
よ | ** |
チーム | ** |
詩 | ** |
とる | ** |
幻 | ** |
ふ | ** |
愛 | ** |
ふみ | ** |
一 | ** |
生 | ** |
色彩 | ** |
? | ** |
虹 | ** |
画 | ** |
我 | ** |
メディア | ** |
新聞 | ** |
はなし | ** |
紫苑 | ** |
もの | ** |
庵 | ** |
成城大学 | ** |
第 | ** |
ぽ | ** |
建築 | ** |
ら | ** |
けん | ** |
ゆき | ** |
青年 | ** |
です | ** |
え | ** |
刊行 | ** |
風 | ** |
感覚 | ** |
目 | ** |
つき | ** |
空間 | ** |
団 | ** |
稀 | ** |
2 | ** |
盲目 | ** |
ドロップス | ** |
Project | ** |
呼吸 | ** |
ぬ | ** |
旧 | ** |
ない | ** |
早稲田 | ** |
Chaos | ** |
科学 | ** |
ろ | ** |
評論 | ** |
ばる | ** |
* | ** |
書 | ** |
MOZA | ** |
性 | ** |
v | ** |
生産 | ** |
立教 | ** |
読書 | ** |
苑 | ** |
くら | ** |
アニメ | ** |
み | ** |
現象 | ** |
物 | ** |
き | ** |
横浜 | ** |
六 | ** |
計画 | ** |
ナカ | ** |
命 | ** |
尾 | ** |
14 | ** |
3 | ** |
刊 | ** |
ち | ** |
木 | ** |
結社 | ** |
& | ** |
的 | ** |
本棚 | ** |
草 | ** |
天使 | ** |
be | ** |
だ | ** |
njet | ** |
s | ** |
無 | ** |
部屋 | ** |
う | ** |
嘘 | ** |
しろ | ** |
西瓜 | ** |
同志 | ** |
て | ** |
季刊 | ** |
外 | ** |
法政大学 | ** |
企画 | ** |
com | ** |
パン | ** |
せら | ** |
実行 | ** |
小屋 | ** |
から | ** |
籠 | ** |
夜 | ** |
梨 | ** |
秘密 | ** |
夜行 | ** |
灰 | ** |
惑星 | ** |
かぶ | ** |
近 | ** |
九 | ** |
studio | ** |
気づいたこと
結論
無事にサークル名被りを避けることができた
おまけ
以下、コード。
#!/usr/bin/python3 # -*- coding: utf-8 -*- import MeCab import re def main(): print("文学フリマ参加サークル一覧") #ファイル読み込み str = openFile("./txt/bunfuri.txt") #改行とタブでデータを分割 splitedStr = str.split("\n") tabSplitedStr = [] for x in splitedStr: tabSplitedStr.append(x.split("\t")) #Mecabで形態素解析 lWords = [] for x in tabSplitedStr: if len(x) >= 2: for y in listString(parseString(x[2])): lWords.append(y) lSurface = [x[0] for x in lWords] #ソートして頻度分布を取得 Dic = {key: lSurface.count(key) for key in set(lSurface)} hist = [[k, v] for k, v in sorted(Dic.items(), key=lambda x:x[1], reverse=True)] #整形して表示 print("|単語|出現回数|\n|----|----|") for x in hist: if x[1] > 1: print("|" + x[0] + "|" + "*" * x[1] + "|") def listString(parsedString): rows = [row.split('\t') for row in parsedString.split('\n') if row != '' and row != 'EOS' and not("記号" in row)] return rows def parseString(string): mecab = MeCab.Tagger("-Ochasen") parsedStr = mecab.parse(string) return parsedStr def openFile(filename): try: f = open(filename, 'r', encoding='utf-8') str = f.read() f.close() except IOError: raise except TypeError: print("You maybe do this script by python2.x.") raise except UnicodeDecodeError: print("This file maybe utf-8 or EUC.") raise print("str type: ", type(str)) return str if __name__ == "__main__": main()
さいごに
ps.「西瓜社」さん、「西瓜鯨油社」さん、名前被ってますよ!