soy-curd's blog

へぼプログラマーです [https://twitter.com/soycurd1]

PyCon JP 2015 カンファレンス二日目のメモ

pyconカンファレンス二日目のメモ。

keynote

BeProud、名刺に『魔法使い』とか役職を書くのがクレイジーで良い。 また、エンジニアが不安を乗り越える方法として、『技術力を身につける』というのが、 実践的だと感じた。

パネルディスカッション

えふしんさんとかが登壇。pythonを使い続けてエンジニアとしての市場価値が上がるか、など。 pythonレバレッジかける、とか言っていて、そういう言い方が最近流行っているのかな、と思った。 perlの転職エコシステムの説明で、perlの人はオンザエッジとmixiはてなの間だけで転職する、みたいな 話が面白かった。

カンファレンス

以下はスライドのメモ。公開されてるかどうかはまだチェックしてない。

Python で作って学ぶ形態素解析

janomeの話。

  • Janomeとは

    • Pure Pythonで書かれた、辞書内包の形態素解析器。
    • 辞書、言語モデルmecab-ipadicを使用
    • だいたいMeCabと同じ結果になる
    • 標準ライブラリのみを使用
    • ユーザ辞書サポート
      • 単語追加が試せる
  • 形態素解析

    • 形態素の列に分割し、それぞれの品詞を判別する
  • アルゴリズム

    • 辞書と言語モデルmecab-ipadicから借用
    • Janomeでは解析エンジン部分を実装している
      • 辞書引き
      • 解析実行
  • 辞書引き

    • ハッシュマップでもいいが...
    • Janomeは顧問プレフィックスマッチを用いている ("さくら"という文字列から"さ"、"さく"、... 等を一度に引くことができるデータ構造)

    • パトリシア木(JUMAN)

    • ダブル配列(Chasen
    • FST(Kuromoji, Lucene, Janome
  • FST

    • FSTを図解していた。
  • 解析

  • 開発

    • FST & 内包システム辞書の実装
    • FSTは「辺のあつまり」と見てバイナリにする。
      • 辞書エントリの詳細情報はFSTとは別ファイルにもつ
    • 隣接コストは二次元配列にして保存
  • 辞書サイズ

    • 13MB
  • 遅いところ

    • 辞書引き
    • 隣接コスト検索
    • ラティスのノード作成
  • 2/3系

    • string, bytesの非互換対応をすれば2系対応できた。

セカイノカオ by チーム・カオ

アート * Python

  • 東京都現代美術館

    • 会田誠と組んでやっている
    • 映像 + お面
  • Marsface Project

    • 火星に顔を探すプロジェクト
  • たくさんの顔が欲しい

    • TSVの47.7GBのCreativeCommons画像データがある。
  • カオ解析プロセス

    • カオ検出
    • 表情検出
      • CNNs(Convolutional Nerral Networks)
  • 地図上に表示

    • Leaflet:JSの地図データ関連のライブラリ
    • Folium = Python + Leaflet
    • -> 地図上に笑顔、泣き顔、怒り顔の分布が可視化されてる!(やばい)

アドネットワークのデータ解析チームを支える技術

VOYAGE GROUPの人。 + Zucksを作っている。

Ad Networkとは

  • 広告主とメディアを束ねて配信する仕組み。
  • Zucks Ad Network
    • コンバージョンがあると、CPC課金が生じる

データ解析チームの業務

  • 配信ロジックの改良
  • コンバージョン率を求めたい

    • マルチタスク学習、転移学習
    • 広告枠と相性の良い広告を探す:多腕バンディッド問題
    • 人と相性の良い広告を探す:CTR予測、ロジスティック回帰
    • 広告予算の有効活用:線形計画問題
  • 業務内容

    • 基盤構築
    • 施策検討
  • Pythonの使いところ

    • データ取り込み
    • 調査・実験・レポート
    • Ansible

分析基盤の構築

  • 方針

    • とりあえずGoogle BigQuery(DBサービス)に入れる
    • 配信システムに影響を与えないようにする
      • AWSのアカウントを分離
    • 雑に作り、雑に動かす
  • 稼働後にリリースされたもの

    • Embulk
    • ...
  • pandas.io.gbq

    • 一瞬でPandasの世界に行ける
  • 画面

    • BigQueryのWebUI

調査・実験

レポート

  • クリックログについて確率分布を比較
  • .ipynbファイルをGitHUbにpushするだけ(GitHub上でレンダリングされるようになった)

おわりに

トレンドを追えた雰囲気を感じれたので良かった。来年も参加したい。最後にPyConに参加してたゆるキャラの写真を貼って終わります。