Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NLP若手の会シンポジウム行ってきた & Chainer使ってみた

3,181 views

Published on

NLP勉強会 #4(http://tokyoscrapper.connpass.com/event/19402/)でLT発表した際の資料です。Recurrent Neural Networkを用いた言語非依存の言語モデル生成例。

Published in: Software
  • Be the first to comment

NLP若手の会シンポジウム行ってきた & Chainer使ってみた

  1. 1. NLP若手の会シンポジウム行ってきた & Chainer 使ってみた 2015/09/23 NLP勉強会 #4
  2. 2. 自己紹介 • かきはらよしゆき • Twitter: @1664riffs • GitHub: ykakihara • 物理学・経営学 • 音声認識、自然言語処理などなどを 使った英会話アプリのスタートアッ プをやっています • http://www.joyz.co.jp/
  3. 3. NLP若手の会(YANS)シンポジウム 行ってきた • 自然言語処理の研究成果を発表する場 • 100人規模、学生・社会人が半々ぐらい • 10回目 • 今年は2泊3日の合宿形式@石川県 • 9/3-5
  4. 4. 和倉温泉 • 金沢駅から特急で1時間ほど • 東京からは北陸新幹線が便利です
  5. 5. 内容 • 2時間のポスター発表セッション x3 • 招待講演 x 2名 • 企業発表 x 8社 • 交流企画もろもろ
  6. 6. 行ってよかった • 最先端の研究成果 • 気合の入ったデモ(対話システム等)もあって見応えありま す • 全国のNLPerと友だちになれます • 交流企画がすばらしかった • 技術の話はやっぱり楽しい
  7. 7. 来年は大阪で開催予定だ そうです
  8. 8. Chainer • 深層学習OSS • Preferred Networks が開発 • All Python • Numpy, CUDA を活用して高速化 • AWS GPU Instance 使って楽に時 間の節約ができる • $ pip install chainer
  9. 9. ツイッター予測器 • Twitterから自分の全ツイートを取得(公式機能) • Recurrent Neural Network (RNN) • LSTM • Character-wise(エンコーディングは考慮するが文節・単語 の区切りは考慮しない)
  10. 10. Recurrent Neural Network • 可変長の入力系を扱える • 時系列データに向いている • 言語 • 音 • センサー • 今回は言語モデル生成に活用
  11. 11. 学習データ • Twitter公式データがCSV→ツイート だけ抜き出してテキストファイルに書 き出す • ∼11K Tweets、1.2MB • URLや@など、特徴的なフレーズを含 む • 日本語と英語(記事のシェア)が ちゃんぽん
  12. 12. Chainerでやってみた • Python 3.4 • Core i7, 8GB (MBP 13inch) • https://github.com/yusuketomoto • Byte-wise だったところを Character-wise になるように変更 • 日本語対応 • あとは基本デフォルト
  13. 13. 学習経過1 堂びいなじる撮じとすいじにっいみた、プイイウ味ろみ。の あ。こかるでがえ。。表放もした。ん思んすふときってがき い。ス語換ほらきれら仕ン多んのオン達して だな、ー互でけダルネ合るう。18操むしこがのどんいと何本ス ル書ねなさい。っっていりてな ♪希でに高無愚にを買るて、 「覚伊ラこ的なめか。茶よにウセンわしたもい。こっだけがな るも行っえよ。%やこみうさしけっ @Pttkr.c
  14. 14. 学習経過2 サニーツないと通張維見てやってるさんで帰り予化でが強く @nadugo ましいの反動ごってない RT @veliva: 夢語に漠簿する。 @ogymok Lisn I. http://tor.... 凄めの久にぶりで言った. . - Thee NASE 3)IkR!w""1 thoming. L.ニューデョェーバとな倒った。 @sskskyo だわなんだけど、中外って抜きたに出っている。 プラブ面半狭かってみた。っよ。昨にごけず来てゃないもうと
  15. 15. 学習経過3 楽しく苦いだけ 地同園に新大果の結限系。前期人は多いから http://t.co/ kvwRNARCHW 事身共開向ころ曲の半見ぐみたいなんて稼uOS、チャンカイプ 化ないとははそれやちゃんちょと怖い。 @19621 ブログって分つかって。 結局出来るインタムは素曜に進めましょうななぁ! 自分のトオーンまだ方黒スタート。。
  16. 16. 学習経過4 自動車の写真大崎だと… 原うといえば俺の毛だとパックパッケー感つんちゃいけなり、 工続かまってくる #Himie'll* Windows Baper pecoral laten is going at all-realf @isbhiro おつか… ハードロース。 RT @sixocu_i: おもとりあえず、帰ったら勉強会い! 久々に久々にMac95で良い演れた。
  17. 17. 次にやってみたいこと • 精度向上のための前処理 → 日本語限定 & かな化 • キメラ言語の生成(e.g. フランス語+スペイン語) • ニュース記事の内容をもとにコメントを予測してみたい • 他、既存論文の追試 • 懇親会でネタ出ししたいです
  18. 18. まとめ • NLP若手の会シンポジウムは濃密・研究と実用をつなぐ素晴 らしい会 • Chainerは導入も記述も楽 • データが小さい(∼数MB)ならノートPCのCPUでも1時間 程度で学習して遊べる • RNNベースの言語モデルは前処理が軽く実験しやすい →  ニューラルネットの入門に良いかも
  19. 19. 参考文献 • The Unreasonable Effectiveness of Recurrent Neural Networks • Recurrent Neural Networks

×