Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う

3,187 views

Published on

第八回ニコニコ学会βデータ研究会 ~人工知能と根性で挑むコンテンツの世界~
http://niconicodatasig8.peatix.com/?lang=ja
の発表資料です。

Published in: Data & Analytics
  • Be the first to comment

ShangriLa Anime APIを利用してアニメ関連のビッグデータ解析を最速で行う

  1. 1. 秋葉原IT戦略研究所 野田純一
  2. 2. 自己紹介 所属 GMOインターネット 業務分野 ビッグデータ、機械学習 アドテク
  3. 3. 秋葉原IT戦略研究所のご紹介 形態 アニメに関するデータ解析が主体の 同人サークル 兼 ITコミュニティ メンバー 現在11名 活動 オープンソースカンファレンス出展、コミケC89出展、デブサミ等のイベ ントで発表 合計7回
  4. 4. 2/18-19 目黒雅叙園 デブサミ2016
  5. 5. デブサミ2016の出展も大盛況
  6. 6. コミュニティコンセプト オタク業界のIT化促進 ビッグデータからアニメに関するトピックを解析する際に必要と なる今期アニメ作品のマスターが取得できるAPIの開発。今まで の手作業を自動化。 オタク産業のIT化は黒船企業に勝ちたい 「僕(日本人)が一番アニメをうまく扱えるんだ!!」 IT界のトレンド技術のアニメへの適用 ビッグデータ、機械学習、AIを使った解析
  7. 7. Anime APIの必要性について Wikipediaやまとめサイトから今期のアニメのタイトル名 、タイトル略称、ハッシュタグなどを取得 今期の人気アニメを解析、統計、レポート出力 5時間
  8. 8. Anime APIの必要性について Anime API で今期のアニメのタイトル名、タイト ル略称、ハッシュタグなどを取得 今期の人気アニメを解析、統計、レポート出力 10秒
  9. 9. ShangriLa Anime API curl http://api.moemoe.tokyo/anime/v1/master/2016/2 | jq . 2016年2期(春期)の アニメの情報を取得
  10. 10. ShangriLa Ruby Gem Module 2016年2期(春期)の アニメタイトルと公式URLを表示 gem install shangrila
  11. 11. Anime Follower Ranking
  12. 12. Anime Follower Ranking 2016年1期(冬期)のアニメで 「このすば」が一番人気が出たのが データから証明できる
  13. 13. 2016 春アニメ Ranking 単純なランキングでは 続編作品が強くなってしまう 続編 新作 新作
  14. 14. 新作のみで比較が可能 「Re:ゼロ」がこれからの3ヶ月で どこまで伸びるかに注目
  15. 15. Pixiv Anime tag Ranking
  16. 16. 2016/02/08 ~ 2016/03/25のタグ増加数 僕街▶
  17. 17. 人気作品に絞って再度比較
  18. 18. Pixivの僕街イラコンの締切のためバーストしていた http://www.pixiv.net/info.php?id=3664
  19. 19. 僕街を除外すると「このすば」が一番人気 2016年1期(冬期)のアニメで 「このすば」が一番人気が出たのが データから証明できる
  20. 20. 目的:これのアニメ版が作りたい
  21. 21. 作ったシステム http://tv-anime.biz/
  22. 22. ご注文は何のアニメですか?
  23. 23. 今回のシステム「tippy」
  24. 24. • HadoopのMapReduceとは別アプローチ(DAG)での並列分 散集計処理を行う • インメモリー処理 • Hadoopエコシステムの一部として扱われるがHadoopと直 接的な関係はない • APIを利用できる言語はScala, Java, Python Sparkについて
  25. 25. • 機械学習用のSparkライブラリ • 協調フィルタリングやAssociation Ruleなどが簡単に使える ようになっている。 • Sparkクラスタを構築し実行することでビッグデータに対し て機械学習演算を処理できるようになる。 Spark MLlibについて
  26. 26. •TwitterのStreamingAPIで今期アニメ作品43作品に 関するワードを拾ってくる。 •とりあえずCSVに記録 •1ヶ月半で4G、1500万レコード程度 status.getId() status.getUser().getScreenName() status.getText() status.getSource() status.getRetweetCount() status.getFavoriteCount() status.getCreatedAt() 記録した要素 Twitterからデータを収集
  27. 27. UserName Tweet tanaka おそ松さん面白い mika ガンダム面白い tanaka おそ松最高 daken ガンダム面白い mika ラブライブ見る UserID Product Rate 1 1 2 2 2 1 2 3 1 3 2 1 • 協調フィルタリングに読み込ませるため右表のフォーマットに BigQueryで加工する。(AmazonMLもAzureMLなどもこの形式) • SparkMLlibがUserIDがIntでないといけないという制限があるため TwitterIDは内部的にシーケンスな番号を付ける。 データの加工
  28. 28. Spark MLlib code
  29. 29. Spark MLlib code モデルを作成
  30. 30. Spark MLlib code モデルを使って予測(predict)
  31. 31. Sparkクラスタで実行 ./bin/spark-submit --master spark://managerhost:7077 --executor-memory 25G --conf spark.driver.memory=4G anime_collaborative_filtering_assembly-1.0.jar /var/data/anime.csv
  32. 32. Spark WEB UI
  33. 33. 80万Twitterユーザー x 43 (2015年冬期アニメ作品数) 3440万レコードが推薦データとしてMySQLに格納 されている MLlibで処理した結果 UserID ProductID Rate 354796 242 1.8322849817902473 354796 243 -2.5666437672644378 354796 244 0.385125554296764 354796 245 0.9550722901486512
  34. 34. 実演
  35. 35. 実演 補足
  36. 36. 検証結果 • とらのあなは「うたわれるもの」を作っているアクアプラスと業務 提携しているので発言数が多くなっている。▶それなりの正しい推薦 であることが確認できた。
  37. 37. 結論:今年は高橋李依がくる!
  38. 38. 声優のTwitterフォロワーランキング
  39. 39. 3月1日から3月26日までのフォロワー数の伸び TOP10 声優名 フォロワー増加数 南條愛乃 16021 三森すずこ 15715 井上麻里奈 12401 高橋李依 9625 新田 恵海 9066 内田彩 8665 飯田里穂 7914 Pile 7613 竹達 彩奈 7410 徳井青空 6996
  40. 40. 企業コラボやアニメ作品で「高橋李依」 を起用したい時のマーケ担当者の場合 「プリキュア+めぐみん+リゼロがあるから 高橋李依は当たる!」 ▶アニオタの妄言 「フォロワーのデータの伸びがこれだけあり他 の声優と比較しても桁違いだから当たる!」 ▶データでの説得力があるビジネスマン の発言
  41. 41. まとめ 秋葉原IT戦略研究所はビッグデータからアニメに関するデータ を解析するのに便利なツール(API)を提供しています。 またAPIを使い以下のデータを蓄積解析しています。
  42. 42. 伝えたいこと アニメ関連のデータ解析が必要だったら ご連絡ください 土日プログラマー集団ですが、お手伝いできます データが必要なアニメ関連のイベント があれば誘ってください 用意できるデータであれば用意し発表します パトロン企業を募集しています 恒久的にAnimeAPIを提供するため
  43. 43. 4/9「IT x アニメ」で勉強会します http://akibalab.connpass.com/event/28293/
  44. 44. IT系同人誌売ってます
  45. 45. デモ+プロダクト リンク集 製品名 サブカテゴリ URL Twitterフォロワーラ ンキング https://twitter.com/anime_follower/ つぶやきビッグデー タ 2015年秋期アニメ http://tv-anime.xyz/ 2016年冬期アニメ http://akiba-net.com/5/ ラブライブ http://lovelive-net.com/5/ 東京テレビ局 http://telev.net/5/ アニメ推薦エンジン http://tv-anime.biz/ 声優フォロワーラン キング http://data.akiba-net.com/ Pixiv投稿数ランキン グ TOP http://pix.akiba-net.com/

×