Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ビッグデータとクラウドソーシング

2,514 views

Published on

ビッグデータとクラウドソーシング

Published in: Technology
  • Be the first to comment

ビッグデータとクラウドソーシング

  1. 1. Copyright (C) 2012 Yahoo Japan Corporation. All Rights Reserved. ビッグデータとクラウドソーシング 第33回データマイニング+WEB@東京 ヤフー(株) 事業戦略統括本部 Yahoo! JAPAN研究所 清水伸幸
  2. 2. P2自己紹介 清水伸幸 2011年- ヤフー(株) 事業戦略統括本部 Yahoo! JAPAN研究所。ク ラウドソーシング企画、自然言語処理、機械学習およびデータ マイニングの研究開発に従事。 博士 (情報工学) 2010年- 東京大学情報基盤センター特任講師。 2007年- 東京大学情報基盤センター特任助教。 2006年 ニューヨーク州立大学オルバニー校にて博士課程修了。
  3. 3. ヤフー株式会社 設立 : 1996年1月31日 資本金 : 80億2,200万円 売上高 : 3,429億8,900万円 従業員数 : 3,842人 (2013年3月31日現在) 売上構成比: マーケティングソリューション事業 68% コンシューマ事業 31% その他事業 2% (2012年度) 東証一部、ジャスダック 上場 ソフトバンク 35.44% ヤフーインク 34.74% ほか
  4. 4. P4アウトライン クラウドソーシングとは 現在のクラウドソーシング・ランドスケープ Crowdfunding, Collective Knowledge/Creativity, Open Innovation, Crowd Labor クラウドソーシング市場の成長率 クラウドソーシング具体例1 Open Innovation: Netflix Prize ビッグデータを用いた機械学習で成果を出すまでに必要な タスク設定・改良プロセス クラウドソーシング具体例2 Crowd Labor: Amazon Mechanical Turk, Yahoo!クラウドソーシング マイクロタスク型クラウドソーシングにおける課題 クラウドソーシング全体のまとめ
  5. 5. P5クラウドソーシングとは 2005年 Wired magazine の編集者 ジェフ・ハウによって提唱される 2006年6月 Wired magazine に The Rise of Crowdsourcing 記事が掲載 インターネットで不特定多数の人間との コミニュケーションが容易になったことで、 ビジネスが、以前であれば特定の人物を 雇用して行なっていた作業を、 不特定多数の人物に依頼するように なってきているのではないだろうか? Crowd(群衆) Sourcing(調達先の選定、確保) 著作権が 存在するため削除
  6. 6. P6現在のクラウドソーシング業界 著作権が 存在するため削除 http://www.crowdsourcing.org/document/2011-crowdsourcing-industry-landscape-infographic-/4111
  7. 7. P7クラウドソーシング ランドスケープ ・Crowdfunding 募金を募って商品化を支援 Kickstarter ・Tools クラウドソーシングを行うツール、 アイディアの投稿・投票を管理する プラットフォームを提供 IdeaScale ・ Crowd Labor お金を払って作業をしてもらうタイプの クラウドソーシング Amazon Mechanical Turk ・ Civic Engagement 草の根活動や、災害時の対応支援 Crisis Commons ・ Collective Knowledge 皆の知識を集めて役立てる Wikipedia, CNN iReport ・ Collective Creativity ロゴのデザインや、写真などのアート系 iStockphoto, 99designs ・Community Building (アート以外の)同じ趣味の仲間を 集めて何かを作る Flying Dog Brewery--Open Source Beer ・Open Innovation エキスパートを集めて問題に チャレンジする Netflix Prize, Kaggle
  8. 8. P8クラウドソーシング市場の成長率 Source: crowdsourcing.org 著作権が 存在するため削除 http://www.crowdsourcing.org/editorial/enterprise-crowdsourcing-research-report-by-massolution/11736
  9. 9. P9仕事領域別 成長率 Source: crowdsourcing.org 著作権が 存在するため削除 http://online.wsj.com/article/SB10001424052970204653604577251293100111420.html
  10. 10. Confidential :Discussion purpose only Copyright (C) 2012 Yahoo Japan Corporation. All Rights Reserved. クラウドソーシング具体例1 Open Innovation: Netflix Prize
  11. 11. P11Open Innovationの具体例 著作権が 存在するため削除
  12. 12. P12ネットフリックス・プライズ 2006年10月 Netflix Prize 米国オンラインDVDレンタル会社のNetflixが機械学習 アルゴリズムのコンテストを開始。 100万人分の映画レーティングを提供し、自社の現行リコメンデーション エンジン「Cinematch」の精度を10%以上高めたアルゴリズムのうち、最 高精度を出したチームに賞金$1ミリオン(100万ドル、約一億円)を支払 うと発表。 提出されたアルゴリズムの所有権は、開発チームに帰属するが、Netflixとは必ず ライセンス契約をしなければならない。このライセンス契約は非排他的なものに とどまる。 年ごとにパフォーマンスの最大向上者に賞金50万ドル。 ただし、前年よりも1%の向上を満たすことが最低条件。 まさにビッグデータ解析のクラウドソーシング
  13. 13. P13ネットフリックス・プライズ 終了への道のり 2006年10月 Netflix Prize 米国オンラインDVDレンタル会社のNetflixが機械学習アルゴリズムのコンテストを開始。 2009年7月 世界中のプログラマーを巻き込み、186カ国の5169チームが挑んだ 3年にわたる開発競争を経て優勝者が決定し、コンテスト終了 コンテスト開始後、 2週間程度で、4%までの改善は達成 一年あまりで8.43%までの向上を実現 そこからの向上が困難だった。 多様なモデルを混ぜたアンサンブル学習を行うことが有効である ことが徐々に判明、当初、ライバルだったチームが協力関係へ。 2000時間以上の労力をかけ、最終的に107アルゴリ ズムの組み合わせからできたモデルが勝者となった
  14. 14. P14ネットフリックス・プライズ その後 2009年8月 Netfix Prizeの成功から続編を発表するも、プライバシー問題から実施 にいたらなかった。 これは、匿名化された位置情報が付与される予定だったものが、複数の データを統合することでプライバシーが侵害される恐れがあり、米連邦取 引委員会の調査を受けたほか、法律家による訴訟も起こされたため。 また、 Netflixのビジネスのモデルが、DVDの郵送から、ビデオのスト リーミング配信に急速に変わり、予測の条件が大幅に変わったため、 最も効果的だった以下の2つのモデル以外はサービスに実装されな かった Singular Value Decomposition (SVD) and Restricted Boltzmann Machines (RBM) クラウドソーシング自体は非常に有用だが、 課題を浮き彫りにする結果となった。
  15. 15. Confidential :Discussion purpose only Copyright (C) 2012 Yahoo Japan Corporation. All Rights Reserved. タスク設定・改良プロセス ビッグデータを用いた機械学習で 成果を出すまでに必要な
  16. 16. P16Open Innovationとビッグデータ解析 ビッグデータを用いた機械学習で成果を出すまでに必要な タスク設定・改良プロセス Open Innovation 型のクラウドソーシングを行うプロセス 社外公開のメリット • 社外にしか存在しない、分野を超えた専門知識の利用が推 進される。 参加者増加による競争の促進 社外公開のデメリット • プライバシーポリシー、知財、競争優位性(?)など 同じ
  17. 17. P17機械学習したモデルを現場で使う、とは? ビッグデータから機械学習したモデルを現場で使う、とは どういうことか? ? 本番のシステム 近傍アイテムの 提示など アドホックな手法 ライブテスト 本番のシステム ログから機械学習 訓練データから学習 テストデータで試験 従来の手法 機械学習の応用 研修医 開業医 医大生 過去問で勉強 医師国家試験 お医者さんの例
  18. 18. P18KPI 重要業績評価指標 KPI: サービスで最大化したい数値 機械学習で言えば二乗誤差などの評価指標 KPI = Key Performance Indicators =重要業績評価指標 =組織の目標達成の度合いを定義する指標 例:収益、ページビュー数、クリック率、その他 機械学習では AUC(Area Under the ROC Curve) 二乗誤差 適合率 再現率 などが使われる
  19. 19. P19サービスを改善する2つのポイント ポイント1 – 現実的な「サービスでのKPI」と「オフラインの 機械学習のKPI」を決める 「そのサービスが何を目指すのか?」の定義 ポイント2 – 大量のログデータに対してオフラインで 「実験、(KPIによる)評価、検討」 のサイクルを回す 高速に回して、オフラインKPIの改善のトライアルの回数を 増やす
  20. 20. P20サービスのKPI vs 機械学習のKPI サービスのKPI 機械学習評価指標 オフラインのKPI データセットによって度合いは異なるが 機械学習のKPIが良ければ、サー ビスのKPIも良いという比例関係 が重要。 機械学習の改善に注力すれば サービスも改善する この状況を早期 に確定することが プロジェクト成功 に非常に重要
  21. 21. P21機械学習導入の手順 ログから機械学習で モデルを作る オフライン評価を行う ライブテストを行う ログデータを集める オフラインKPIを決める サービスのKPIを決める 収益とユーザビリティ、満足度の トレードオフをうまくとることが重要 AUC/二乗誤差など 学習データ構築方式 素性チューニング 学習器パラメータチューニング
  22. 22. P22機械学習導入の手順 ログから機械学習で モデルを作る オフライン評価を行う ライブテストを行う ログデータを集める オフラインKPIを決める サービスのKPIを決める 収益とユーザビリティ、満足度の トレードオフをうまくとることが重要 AUC/二乗誤差など 学習データ構築方式 素性チューニング 学習器パラメータチューニング クラウドソーシング でできる部分 比例関係を早期 にチェック
  23. 23. P23機械学習導入の手順 ログから機械学習で モデルを作る オフライン評価を行う ライブテストを行う ログデータを集める オフラインKPIを決める サービスのKPIを決める ライブテストしてみたらイメージと違った → サービスのKPIの修正 こんな改善じゃ満足できない オフラインのKPIは良いのに、ライブ テストでKPIが上がってなかった → オフラインKPIの修正
  24. 24. P24機械学習導入の手順 ログから機械学習で モデルを作る オフライン評価を行う ライブテストを行う ログデータを集める オフラインKPIを決める サービスのKPIを決める ライブテストしてみたらイメージと違った → サービスのKPIの修正 こんな改善じゃ満足できない オフラインのKPIは良いのに、ライブ テストでKPIが上がってなかった → オフラインKPIの修正 ここをどれだけ高速回転できるか がポイント。時間のかかるライブ テストを含まないので、トライアル の回数を大幅に増やせる。
  25. 25. P25クラウドソーシング部分 ログから機械学習で モデルを作る オフライン評価を行う ライブテストを行う ログデータを集める オフラインKPIを決める サービスのKPIを決める ここを何回も回転 数多く回す必要性が最も高く、 簡単なのは クラウドソーシング可能な部分 クラウドソーシング部分を切 り出して大勢で共有する。 人的リソースが並列、分散 処理できるようになり、かつ、 明確な目標へ向けて意識が 統一されるため、改善速度 は大幅に上昇する
  26. 26. P26本手法のメリット • チーム共通の客観的ゴールが設定できる • 声の大さではなく、客観的な評価が高いものを採用できる。 公平。(新人にもチャンスあり!) • 「計画→実験→評価」のサイクルを高速に回せる • ライブテストでは、数百の方式の比較しかできない。 • オフラインで評価は数万のパラメータのチューニングも可能 • おまけ • ライブテストなどの実配信のシステムを開発をする前に 「何を開発するべきか」がわかる (ログデータから、実配信で本当に必要になるデータがわかる)
  27. 27. Confidential :Discussion purpose only Copyright (C) 2012 Yahoo Japan Corporation. All Rights Reserved. クラウドソーシング具体例2 Crowd Labor: Amazon Mechanical Turk, Yahoo!クラウドソーシング
  28. 28. P28Crowd Labor の具体例 著作権が 存在するため削除
  29. 29. P29Amazon Mechanical Turk タスクの電子市場 • 商品説明ページの重複を見つ けるために、当初はアマゾン社 内用に開発、その後、外部に 開放 • ユーザーインターフェースのカ スタマイズにより、非常に安い 価格で様々なタスクを投稿可 能 • タスクは一般に単純な繰り返 し作業の類であり、ワーカーの 収入は1タスクに2~3 セント であることも • 手数料10% マイクロタスクと呼ばれる単純なタスクのクラウドソーシング 著作権が 存在するため削除
  30. 30. P30Yahoo!クラウドソーシングとは 2013年1月にスタートしたマイクロタスク型のクラウドソーシング2013年1月にスタートしたマイクロタスク型のクラウドソーシング 累計で20万人以上の登録ユーザーにより 1,400万件を超えるタスクが実施される 累計で20万人以上の登録ユーザーにより 1,400万件を超えるタスクが実施される オンラインのユーザーに一定の作業をしてもらうことで、 時間、場所にとらわれず、世の中の課題を インターネットを通じ利用者の力で解決していくサービス オンラインのユーザーに一定の作業をしてもらうことで、 時間、場所にとらわれず、世の中の課題を インターネットを通じ利用者の力で解決していくサービス サービス開始から1年足らずで国内最大級のク ラウドソーシングサービスに サービス開始から1年足らずで国内最大級のク ラウドソーシングサービスに
  31. 31. P31Yahoo!クラウドソーシング事例紹介 住所と名称を提示して、同一かど うか目視で判定 住所と名称を提示して、同一かど うか目視で判定 名寄せ名寄せ 2時間2時間87時間87時間 7,000件の名寄せ作業の場合 作業時間 お問い合わせは crowdsourcing-owner-master@mail.yahoo.co.jp https://www.facebook.com/YahooJPCrowdSourcing 作業したユーザーは謝礼としてTポイントを獲得
  32. 32. P32Y!クラウドソーシング FAQ Q 登録者数は? A 現在では20万人以上となっております。 Q 1日にできるタスクの数が少ないです。 A 非常に多くの皆様にご利用いただいており、なるべく 幅広いユーザーの方に 実施いただけるよう、一人 あたりの実施できる件数を少なくしております。 Q Yahoo! クラウドソーシングサービスの法的位置づけは どんなものですか? A 懸賞広告となっております。
  33. 33. P33筑波大学とY!クラウドソーシングの共同研究スタート Yahoo! JAPANを運営するヤフー株式会社(以下、Yahoo! JAPAN)と国立 大学法人筑波大学(以下、筑波大学)は、5年間の計画で、クラウドソーシング におけるマイクロタスクの高度化・実用化を目指し、共同研究を開始いたしま した。 本共同研究では、Yahoo! JAPANがクラウドソーシング事業で得られる様々 な情報を筑波大学に提供し、マイクロタスクを用いたクラウドソーシングの研 究で日本の第一人者である図書館情報メディア系 森嶋厚行教授と、Yahoo! JAPAN研究所を中心とした研究チームがクラウドソーシングで解決できる新 たなタスクの検討・実験などを行います。Yahoo! JAPANはその研究成果を 活用して、クラウドソーシングを "より高度な分業"という便利な仕組みとして進 化させていくことで、世の中の課題解決につなげてまいります。 Yahoo! JAPANを運営するヤフー株式会社(以下、Yahoo! JAPAN)と国立 大学法人筑波大学(以下、筑波大学)は、5年間の計画で、クラウドソーシング におけるマイクロタスクの高度化・実用化を目指し、共同研究を開始いたしま した。 本共同研究では、Yahoo! JAPANがクラウドソーシング事業で得られる様々 な情報を筑波大学に提供し、マイクロタスクを用いたクラウドソーシングの研 究で日本の第一人者である図書館情報メディア系 森嶋厚行教授と、Yahoo! JAPAN研究所を中心とした研究チームがクラウドソーシングで解決できる新 たなタスクの検討・実験などを行います。Yahoo! JAPANはその研究成果を 活用して、クラウドソーシングを "より高度な分業"という便利な仕組みとして進 化させていくことで、世の中の課題解決につなげてまいります。 http://blogs.yahoo.co.jp/yj_pr_blog/24823176.html ~高度な分業による世の中の課題解決を目指して~~高度な分業による世の中の課題解決を目指して~ クラウドソーシングでの産学連携も始まるクラウドソーシングでの産学連携も始まる
  34. 34. Confidential :Discussion purpose only Copyright (C) 2012 Yahoo Japan Corporation. All Rights Reserved. マイクロタスク型 クラウドソーシングにおける課題 成果物の質に対する不安を取り除くこと 適切なタスク設定を見つけること 実験を効率化するプラットフォームとなること
  35. 35. P35成果物の質に対する不安を取り除くこと 日本のマイクロタスクをこなすユーザー(Y!用語:エージェント)は、 概して真面目で、きちんとタスクをこなす人が大半だが、ポイ ント狙いで数をこなそうとして、不注意になるエージェントや、 スクリプトなどで自動化しようとするスパマーも存在する 対策 ・ダミー問題 – タスクに答えがわかっているクイズを混ぜてエージェントがまじめにやっ ているか判別する ・複数エージェントによる評価 – 同じタスクを複数のエージェントにしてもらうことで精度を上げる ・役割を分けた段階的なチェックの仕組み – タスク1で投稿してもらったのち、タスク2の投票で良し悪しを判断する ・機械学習によるノイズ・スパマー除去 ・メカニズムデザインによるインセンティブ設計 等
  36. 36. P36適切なタスク設定を見つけること タスク設定の難しさ タスクの設問を考えるユーザー(Y!用語:オーナー)は、厳密な ガイドラインを設定しないため、つい、自分の意図しない解釈 が存在したり、曖昧な質問をしがち – 設問が曖昧なのに、自分が期待しない答えが多数になるとスパマーを 疑ったりする結果になる – これに気づくためには試行錯誤による市場との対話が必要 試行錯誤の自動化・効率化 試行錯誤を効率的に行う手法は未解決の問題 – タスクを設定するオーナーの手間を省き、 – タスクを行うエージェントに迷惑にならないよう、 – 複雑なタスクの作り込みや、試行錯誤を自動化したい
  37. 37. P37タスクの意図を正確に伝えることの難しさ 固有名詞抽出の技術を評価するため、抽出したある名詞X につ いて、クラウドソーシングで「X は飲食店の名前ですか?」と、 質問する。結果は少なくとも以下の3つの解釈が混じったもの となる。 – (1)店としての存在の有無にかかわらず、文字列として飲食店らしい かどうかで判断すればよい、という解釈。 – (2)検索などで、店として現実に開店していることを確認して答えを出 す、という解釈。 – (3)よくある店の知名度調査だと解釈し、店の名前を以前に聞いたこ とがあるかないかで返答すれば良い、という解釈。 一見単純そうな質問でも、タスク依頼者の意図とタスクを行う ユーザーの解釈が分かれる事態は頻繁に起こる。 クラウドとの対話が必要 37
  38. 38. P38実験を効率化するプラットフォームとなること 成果物の質に対する不安を 取り除くこと – ダミー問題や複数チェック – 事後的に機械学習でノイズ やスパムを取り除く – メカニズムデザインでスパム のインセンティブを減らす 適切なタスク設定を見つけ 出すこと – 成功:大勢のエージェントか ら結果を得られる – 失敗:無駄な労力をする人 が増える 薬の効き目に対する不安を 取り除くこと – 被験者のランダム化 – プラシーボ – コントロール・グループ 化学物質の効能を発見する こと – 成功:大勢の病で苦しんで いる人を治癒できる – 失敗:副作用で苦しむ人が 増える 成果物を得るまでの試行錯誤 新薬発見のプロセス
  39. 39. P39マイクロタスク 課題まとめ 誰でも「タスクを行うエージェント」になり、スキマ時間などを有効 活用できる一方、誰でも「有効なタスクを設定するオーナー」に なるにはハードルがまだ高い タスク設定の困難さと、成果物への不安から、(エージェントの数 と比較すると)タスクが枯渇しがちで、ポイント設定も低めにな りがち 誰にでも簡単にできる、タスク設定の試行錯誤を自動化するプ ロセスが必要とされているが、これはまだ未解決の問題
  40. 40. P40クラウドソーシング全体のまとめ 利用プロセス 誰にでも作業ができるよう、 目的を明確にし、作業の やり方やデータをシェア するプロセス 同じ クラウドソーシング クラウドソーシングの隠れた導入コストは、新人研修のシステム を設定して準備するコストに似ている • このハードルを下げるのがプラットフォームの課題 一度、利用の準備ができて、クラウドが作業の面で貢献できる ようになると、一気に高い成果を得られるようになる
  41. 41. P41ご清聴ありがとうございました お問い合わせは crowdsourcing-owner-master@mail.yahoo.co.jp https://www.facebook.com/YahooJPCrowdSourcing
  42. 42. P42サーベイドクター

×