Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

"マルチメディア機械学習" の取り組み

3,441 views

Published on

2018年3月29日開催
サイバーエージェントにおけるデータ活用とその技術についての勉強会「春の機械学習祭り 〜Data Engineering & Data Analysis WS#4〜」での登壇資料
(秋葉原ラボ所属 藤坂祐介)

https://cyberagent.connpass.com/event/80969/

Published in: Technology
  • Follow the link, new dating source: ❤❤❤ http://bit.ly/2ZDZFYj ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating direct: ❤❤❤ http://bit.ly/2ZDZFYj ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

"マルチメディア機械学習" の取り組み

  1. 1. “マルチメディア機械学習”の 取り組み Yusuke FUJISAKA, CyberAgent, inc.
  2. 2. 自己紹介 ● 藤坂 祐介(ふじさか ゆうすけ) ○ 秋田県出身 ● 技術本部 秋葉原ラボ所属 ● 2012年新卒入社 ○ からずっと秋葉原ラボ ● 開発案件 ○ 検索エンジン ○ →Content Moderationシステム ○ →画像その他認識基盤 2
  3. 3. CAのメディアサービス 決算資料より抜粋 3
  4. 4. CAのメディアサービス ● 各サービスとメディア種類の関係性 📃テキスト/🎨画像/🎥動画 🎥動画 📃テキスト/🎨画像 🎥動画 ♫音楽 4
  5. 5. CAのメディアサービス ● 各サービスとメディア種類の関係性 📃テキスト/🖼画像/🎥動画 🎥動画 📃テキスト/🎨画像 🎥動画 ♫音楽 ● 多種多様なサービスが存在 ● メディアの種類も多種多様 ● サービスからの要望も様々 ○ ひとつの方法で解決できるわけでもない 5
  6. 6. 今までのマルチメディア機械学習の取り組み [サービスイン] ● アメブロ画像のカテゴライズ ● スパム画像検知 [検証段階] ● ピグアバター生成 ● マッチングプロフィール評価 ● 楽曲の盛り上がり検知 [知識習得] ● 全社ゼミ→深層学習ゼミ 6
  7. 7. プロジェクト1: アメブロ画像カテゴライズ(1/4) [課題] ● Ameba公式ジャンル https://blogger.ameba.jp/ のカテゴライズを 自動化したい →自然言語解析+投稿画像解析 7
  8. 8. プロジェクト1: アメブロ画像カテゴライズ(2/4) [概念図] × 300k + 🔖(64) +🔖 ResNet-18 人力による ラベル付与 API 学習 推論 🔖 8
  9. 9. プロジェクト1: アメブロ画像カテゴライズ(2/4) [概念図] 🖼 + 🔖(64) +🔖 🔖 ResNet-18 API 投稿/画像抽出 Category Text classification テキスト解析と 組合わせてカテゴライズ × 300k 9
  10. 10. プロジェクト1: アメブロ画像カテゴライズ(3/4) ● ラベル付け管理ツール(内製) 10
  11. 11. プロジェクト1: アメブロ画像カテゴライズ(4/4) [結果] ● 右図: t-SNE ● Top-1 accuracy: 82.73% ○ Top-5: 97.12% ● 判然としないカテゴリもあるが 概ね良好な結果 ○ プロデューサー側とのカテゴリの すり合わせが必要 11
  12. 12. プロジェクト2: スパム画像検知(1/6) カスタマーサービスに関わる種々の問題を解決する [課題1] ● Content moderation(コンテンツ健全化)のシステムも担当している ● スパム画像(エログロなど)の検出を自動化したい ○ 一般にスパム画像が全投稿画像に占める割合は0.1%前後 ○ しかしそのために多くの画像を有人でチェックしなければならない 0.15 % 12
  13. 13. [概念図] 1: スパム画像フィルタ プロジェクト2: スパム画像検知(2/6) 🖼 👮 ⭕ ❌ 🔖🔖 ResNet API {“score”: 0.01234…} Thresholding ⭕/❌ 13 DB監視システム
  14. 14. [概念図] 1: スパム画像フィルタ プロジェクト2: スパム画像検知(2/6) 🖼 👮 ⭕ ❌ 🔖 DB 🔖 ResNet 🖼 API {“score”: 0.01234…} Thresholding ⭕/❌ 有人監視 4年分/約400万枚 14
  15. 15. [概念図] 1: スパム画像フィルタ プロジェクト2: スパム画像検知(2/6) 🖼 👮 ⭕ ❌ 🔖 DB 🔖 ResNet 🖼 API {“score”: 0.01234…} Thresholding ⭕/❌ 監視オペレータの補助 15
  16. 16. プロジェクト2: スパム画像検知(3/6) [結果] ● 右図: t-SNE SPAM(エログロ)/HAM ○ 判然としない… ○ スパムと一口に言っても幅広い ● →データセットの整備が難しい ● →後述する類似画像検知も使える? 16
  17. 17. プロジェクト2: スパム画像検知(4/6) [概要2] ● マッチングアプリ等において、プロフィール画像を使いまわすユーザを 検知したい ○ 事例1: 一般人を騙って登録し、弊社アプリから他社アプリに誘導する者 ○ 事例2: 悪質な出会い目的で複数のアカウントを駆使する者 業者画像DB 👨 業者判定に利用 ? 17
  18. 18. プロジェクト2: スパム画像検知(5/6) [概念図] 2: 類似画像フィルタ ⭕ / ❌DB 64次元のベクトルに圧縮 (dhash) Thresholding 18
  19. 19. プロジェクト2: スパム画像検知(5/6) [概念図] 2: 類似画像フィルタ ⭕ / ❌DB Thresholding ベクトルのHamming距離で 類似画像かどうか判断 19
  20. 20. プロジェクト2: スパム画像検知(6/6) [結果] ● 実験により、ハミング距離= 7 or 8 bitでF値最大 ○ n=17,849 ● 悪質な業者のあぶり出しに貢献 20
  21. 21. プロジェクト3: 楽曲の盛り上がり検知(1/3) [課題] ● 楽曲のサビ部分を自動で検出したい ● 楽曲の波形情報を活用する方法を探る 21 Free Planでは 30秒だけ再生
  22. 22. プロジェクト3: 楽曲の盛り上がり検知(2/3) [概念図] 🎶 音楽データ+タグ 🔪 STFT 〰 周波数強度 Decode 〰 波形 % 出力(カテゴリ確率) CNN 12層 22
  23. 23. プロジェクト3: 楽曲の盛り上がり検知(2/3) [概念図] 🎶 音楽データ+タグ 🔪 STFT 〰 周波数強度 Decode 〰 波形 % 出力(カテゴリ確率) CNN 12層 start,0.5564 tempo,108 i,0 c,8 l,40 v,56 b,88 t,104 c,108 l,140 v,156 ... --- タグ×100曲 23
  24. 24. プロジェクト3: 楽曲の盛り上がり検知(2/3) [概念図] 🎶 音楽データ+タグ 🔪 STFT 〰 周波数強度 Decode 〰 波形 % 出力(カテゴリ確率) CNN 12層 24
  25. 25. プロジェクト3: 楽曲の盛り上がり検知(3/3) [結果] ● 3クラス(メロディ・サビ・その他)の分類について調査 ● サンプル周波数その他を色々いじる ● →分類精度 51% ❌ ● 高精度化したいけど… Intro Verse Bridge Inter- lude Chorus Verse Bridge Chorus Elision Chorus Outro 25
  26. 26. まとめ☺ ● マルチメディア(主に画像・音楽の)機械学習の実例を示した ● 今後も同様の機械学習に対する需要は伸びていくと考えられる ○ 動画に関わる機械学習(AbemaTV, FRESH!, OpenREC, etc.) ○ マルチメディア検索 ○ 最新技術のキャッチアップ ○ 既存のレコメンドなどの高精度化 ○ などなど… 26
  27. 27. Thank you! 27

×