Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「最近傍検索とその応用」#yjdsw2

991 views

Published on

http://yahoo-ds-event.connpass.com/event/22045/

Published in: Technology
  • Be the first to comment

「最近傍検索とその応用」#yjdsw2

  1. 1. 最近傍検索 ∼UGC不正マルチポスト検知への応用∼ Yahoo! Japan データ&サイエンスソリューション本部 ソリューション技術 田中 康之
  2. 2. P2自己紹介 名前:田中 康之(たなか やすゆき) 所属:ソリューション技術  メディア、決済金融系サービスの技術的な課題解決/チームリーダー 経歴: –  2012年∼:電機メーカーよりYahoo! Japan中途入社 •  検索エンジン開発チーム, そしてチームリーダー –  2015年∼:ソリューション本部 •  データとサイエンスを事業の課題に応用する スキル: –  C/C++ 低レイヤーの設計・開発が得意 –  情報検索、自然言語処理、画像処理、広く浅く知っている
  3. 3. キーワード検索 と 最近傍検索
  4. 4. P4キーワード検索と最近傍検索 キーワード検索 探したいキーワードに関連したドキュメントを探し出す 検索エンジンヤフー Base6 1. ヤフーの社食Base6 2. Base6とはYahoo... 3. ヤフーの... ... .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. .............. ..............
  5. 5. P5 素性 ベクトル 最近傍検索 探したい素性(特徴)ベクトルに近いドキュメントを探し出す オススメ キーワード検索と最近傍検索 検索エンジン .............. .............. .............. .............. .............. .............. .............. .............. 素性 ベクトル .............. .............. .............. .............. 購入履歴 興味 ... カテゴリ 特徴語 ... カテゴリ 特徴語 ... ユースケース レコメンデーションシステム 広告引き当てシステム
  6. 6. 本題 UGC不正マルチポスト検知応用
  7. 7. P7UGCとは    UGC (User-Generated Contents) ユーザーによって生成されたコンテンツ <UGCサービス> Yahoo!知恵袋(Q&A), Yahoo!ブログ, textream(掲示板), ... <サービス内UGC> Yahoo!ニュース コメント, ... .............. .............. .............. ..............
  8. 8. P8 残念ながらいい投稿だけでは無い...
  9. 9. P9課題   これらを ほぼ 同じ内容でたくさん投稿してくる しかも、機械的な対策を回避してくる... マルチポスト問題 誹謗中傷 パクリ 商用リンク文意不明
  10. 10. P10例: 投稿例1. 投稿例2. 投稿例3. 自分が使ってる優良出会い系サイトは、次の6つのみ! ハッピーメール、ワクワクメール、イククル、YYC、PCMAX、ASOBO 参考までに。 是非、あなたも頑張って下さい! 自分が使ってる優良出会い系サイトは、次の6つのみ! ハッピーメール、ワクワクメール、イククル、YYC、PCMAX、ASOBO 参考までに。 是非、頑張って下さい! 48歳、既婚の男性です。 自分が使ってる出会い系サイトは、次の6つです。 ハッピーメール、ワクワクメール、イククル、YYC、PCMAX、ASOBO 参考までに。 良い出逢いがあると良いですね(^-^)
  11. 11. P11 1サービス1日あたりの投稿数 数1,000 ∼ 数100,000件
  12. 12. P12 1サービス1日あたりの投稿数 数1,000 ∼ 数100,000件 1サービス1日あたり人力でも 数100∼数1000件 対策している
  13. 13. P13では機械学習で... 一般的な機械学習導入ステップ 1.  正例/負例タグ付け、データ収集 2.  素性選択、学習アルゴリズム検討 3.  モデル精度評価 4.  精度未達なら、2に戻る ...
  14. 14. P14では機械学習で... 一般的な機械学習導入ステップ 1.  正例/負例タグ付け、データ収集 2.  素性選択、学習アルゴリズム検討 3.  モデル精度評価 4.  精度未達なら、2に戻る ... 「spammer の傾向は変化が早い」 最初の導入、スピード感が間に合わない 変化に対応するための再学習コストが見合わない
  15. 15. P15 同じような特徴がある投稿は 再近傍検索でマルチポストの検知ができるのでは 素性 ベクトル検索エンジン .............. .............. .............. .............. .............. .............. .............. .............. 素性 ベクトル .............. .............. .............. .............. マルチポスト投稿 過去の投稿 新規投稿
  16. 16. P16 マルチポスト文章 何を素性ベクトルとする? 類似度の指標は?
  17. 17. P17素性ベクトル化と類似度 あしひきの山鳥の尾のしだり尾の 長々し夜をひとりかも寝む   思へども思ひもかねつ足引の山 鳥の尾の長き今宵を   類似度 Jaccard係数 = (A B)/(A B) *1.0 に近づくほど類似 類似度:0.89 類似度:0.12 あしびきの山鳥の尾のしだり尾の 長々し夜をひとりかも寝む  類似度:1.0 {  あし,  しび,  びき,  きの,  の山,   山鳥,  鳥の,  の尾,  尾の,  のし,   しだ,  だり,  り尾,  の長,  長々 ,  々し,  し夜,  夜を,  をひ,  ひと,   とり,  りか,  かも,  も寝,  寝む }   ... ベクトル化(bi-gram) あしびきの山鳥の尾の しだり尾の長々し夜を ひとりかも寝む
  18. 18. P18 事業のエンジニアはサイエンティストじゃない 理解しやすく、効果の高い手法から始める
  19. 19. P19導入事例 •  Yahoo!知恵袋(Q&A) への導入ステップ 1.  課題ヒアリング 2.  プロトタイプ作成 •  動作検証 3.  サービス導入検討(以降、サービス開発メンバーと一緒に) •  技術説明 •  工数管理 4.  対策ツール設計・開発 •  既存のシステムやデータ設計 5.  効果測定
  20. 20. P20Yahoo!知恵袋への導入効果 検知精度:約77% マルチポスト判定されたもののうち、実際に対策されたもの
  21. 21. P21Yahoo!知恵袋への導入効果   サービスの違反対応数 1.7倍      導入前1週間平均 導入日
  22. 22. P22Yahoo!知恵袋への導入効果 "いままで見えてなくて削除できなかったものが 削除できるようになった 対策担当者より
  23. 23. P23まとめ キーワード検索と最近傍検索の違い マルチポスト検知の事例を紹介 提案だけじゃない、開発だけじゃない取り組み データとサイエンスで事業の課題解決しています

×