Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

もちょブログ解析入門

4,386 views

Published on

アイマスハッカソンでやった一発ネタです。
P.S:KeynoteとSlideShareの相性が悪すぎて発狂してた

Published in: Data & Analytics
  • Be the first to comment

もちょブログ解析入門

  1. 1. もちょブログ解析入門 一家に一人、麻倉ももを。
  2. 2. 自己紹介 職業 属性 これすき:JavaScript/五十嵐響子/箱崎星梨花/伊吹翼 • JavaScriptが好きな理由:名前がJSなのでかわいいから • プログラミングしょしんしゃ
  3. 3. アイマス開発は以前やったものの・・・
  4. 4. お察しください
  5. 5. 突然ですが皆さん
  6. 6. 一家に一人、箱崎星梨花さんが ほしくないですか?
  7. 7. ほしい→なら作ろう!
  8. 8. 箱崎星梨花さんをつくろう • ミリオン5thにて気づいてしまった 箱崎星梨花を作っている重要な要素
 →声 • 箱崎星梨花さんの声を演じている麻倉ももさんを作るし かない!
  9. 9. 麻倉ももを再現しよう • ある意味有名な麻倉ももの ブログのデーターを使えば、 麻倉ももを再現できるので は!? • 実際に試してみた ここすき ここすき ここすき ここすき ここすき ここすき
  10. 10. もちょブログのやばさ ・ 
 →機械学習させて無茶苦茶な文が出てもそれっぽいから許されるのでは!?
  11. 11. 下準備 まずブログの全データーが必 要 • JavaScriptでサクッとスクレ イピングスクリプトを書いて 使用。 • 379個のテキストファイルに • これを使い学習させていく
  12. 12. テキストを解析 • 頻出動詞は終わりだよ~の終わる を除けば「食べる」であった • 名詞では「みなさん」「びっくり」 が多い模様 • 形容詞は「楽しい」「いい」「す ごい」 • →ポジティブの化身
  13. 13. 「痛い」がちょくちょくあって心配 頑張りすぎないで
  14. 14. まぁそれはそれとして
  15. 15. 自然言語処理による文章生成の手法 • マルコフ連鎖を用いた方法
 文節同士をランダムでつなげてるだけ • 深層学習(LSTMなど)を使った方法
 文字のつながりを深層学習させ生成させる方法
  16. 16. マルコフ連鎖とは • わたし は を も が なら しか ・・・ ランダムで決定 食べる ガチャる ねる ○す 麻倉もも 箱崎星梨花 横山奈緒 ・・・ です だ だが だけど なので だよ と ・・・ 。 、 ! ? 「わたし」からつながる単語 「は」からつながる単語 「箱崎星梨花」からつながる単語 「です」からつながる単語 結果的に「わたしは箱崎星梨花です!」という文が生成される
  17. 17. マルコフ連鎖の実装 • 先程ダウンロードしたデーター をmecabで形態素解析し、そ れをJSONの配列に変換 • JavaScriptでJSONを読み込 み配列を検索することにより 簡易的に実装
  18. 18. 右上に続く 続き もちょブログ特有
 のクソ長い改行
  19. 19.
  20. 20. • 文章の終わりと始まりを学習させ、もちょ度をあげた
  21. 21.
  22. 22. ←じつはこの間にクソ長い改行 実際もちょが書いたって言われても 違和感ない・・・
  23. 23. ”うどん”で抜き出してみた
  24. 24. •もちょブログのここがダメ • ちゃんと学習されてるか正直よくわからない
  25. 25. JCの箱崎星梨花とJavasCriptの相性は最高! JavasCriptで麻倉ももを作ろう!
  26. 26. 追伸 ・助けてくれ

×