• Like

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

データ活用からビックデータの彼方へ-技術的特異点(Technology Singularity)その二つのFace

  • 3,609 views
Uploaded on

「データ活用からビックデータの彼方へ-技術的特異点(Technology Singularity)その二つのFace」(森 正弥)

「データ活用からビックデータの彼方へ-技術的特異点(Technology Singularity)その二つのFace」(森 正弥)

More in: Design
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
3,609
On Slideshare
0
From Embeds
0
Number of Embeds
8

Actions

Shares
Downloads
13
Comments
0
Likes
4

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • The two faces というところにも関わっているのですが
  • 数学者ハリ・セルダン、心理歴史学 気体分子運動論 において、個々の分子の運動は予測できないが、集団の気体ということなら平均の運動は計算できるという事の アナロジー 1万2千年続いた銀河帝国。その崩壊が迫っている。 崩壊を防ぐことはできないが、その後の数万年の暗黒時代を、 1000 年に縮め、その後に強固な第二帝国を復興させることができる、と 心理歴史学とそれに基づいた組織「ファウンデーション」を設立。このシリーズはファウンデーションの人々が様々な苦難に立ち向かい、セルダン・プランの成就を目指していくストーリー。
  • Named “Rakuten SuperDB”. … for the growth of e-commerce.
  • … , we deploy it in many services of Rakuten, as you can see.
  • This is a graph drawn by Information Explosion project in Japan, showing the amount of digital data human kind has. You know, … . Along with this, … That is called “…”.
  • ビッグデータというのは違う概念である
  • The 3 rd is …. from RIT. Recently, ….. real world and net service everywhere, especially by using new device technologies . In this presentation, we will show some …… …. enjoy it.
  • わかりやすい例。
  • わかりやすい例。
  • 2005 年にアメリカ国立標準技術研究所( NIST )後援で開催された、米国立標準技術研究所後援の機械翻訳コンテスト 難解かつ独特なアラビア語の大量の記事を、いかに正確に英文記事へと翻訳できるか、その翻訳精度の高さを競う大会このコンテストは、アラビア語を英語に。 アルゴリズムの精度を測るもので、「そこに初めて Google が参戦し圧倒的勝利を収めたのだが、 グーグルチームは、アラビア語がわかるメンバーが一人もいなかったそうです。 「彼らは、自然言語処理モデルもアルゴリズムもつくることもしなかった。何をしたかというと、単に web 上でグーグルの検索にあてただけ。大量のデータを適用したことにより、精度の高い翻訳分析ができてしまった。大量データを使えば使うほど価値を生み出し、できなかったことができるようになることが証明された結果、ビッグデータという概念が生まれ世界が注目するようになった」。そう説明するのは、楽天技術研究所の森正弥所長だ。 彼らは自然言語処理技術を使用せず、 Web 上にあるデータから言葉と言葉の関連性の距離を計算し、距離の近いものを当てはめて翻訳していくという手法をとった。これはつまり、理論がなくともデータが大量にあれば、精度の高い分析ができてしまうという世界がくることを意味した。これがビッグデータの本質であろう。」(森氏)。
  • わかりやすい例。
  • ワトソンは、アメリカ合衆国のクイズ番組「ジェパディ ! 」( Jeopardy! )で人間と対戦するためのコンピュータ・システムで、 2009 年 4 月に IBM により発表された [1] 。 これは 1997 年に、当時のチェス世界チャンピオンのガルリ・カスパロフに勝利した IBM のコンピュータ・システムであるディープ・ブルーに次ぐプロジェクトである。しかし、クイズ番組では自然言語で問われた質問を理解して、文脈を含めて質問の趣旨を理解し、人工知能として大量の情報の中から適切な回答を選択し、回答する必要がある。 IBM はこの技術を、将来的には医療、オンラインのヘルプデスク、コールセンターでの顧客サービスなどに活用できるとしている。 2011 年 1 月 13 日にはトーマス・ J ・ワトソン研究所でワトソンの公開と対戦デモが行われた。ワトソンは、 10 台のラックに搭載された Power Systems 750 で構成され、 2880 個の POWER7 プロセッサ・コアを搭載し、オペレーティングシステムは Linux 、処理性能は 80 テラ FLOPS(TFLOPS) で、インターネットには接続されておらず、本・台本・百科事典( Wikipedia を含む)などの 2 億ページ分のテキストデータ( 70GB 程度、約 100 万冊の書籍に相当)をスキャンして取り込んだ [2][3] 。 2011 年 2 月 14 日からの本対戦では、 15 日と 16 日に試合が行われ、初日は引き分け、総合ではワトソンが勝利して賞金 100 万ドルを獲得した。賞金は全額が慈善事業に寄付される [4] 。 IBM の事実上の創立者、トーマス・ワトソンより。
  • わかりやすい例。
  • わかりやすい例。
  • http://news.mynavi.jp/articles/2010/10/12/akara/002.html   10 年 10 月。コンピュータ将棋「あから」が女流王将のプロ棋士に勝利した。あからで使っているプログラムは、将棋初心者の化学者が開発したものだ。 ビッグデータ技術は、時には人間を上回る判断力や知性を生み出す。コンピュータ将棋「あから」で使っている Bonanza というプログラムは、過去のプロ棋士による対局の棋譜から自動的にパターンを見つけ出す。膨大な棋譜データを学習することで、盤面でどの手を指すのが最も効果的かを判断する「大局観」を自ら生み出した。結果的に、プロ棋士を負かすほどの実力を身に付けたのだ。 2010 年 4 月 2 日、情報処理学会は、会長の白鳥則郎(東北大学客員教授)名義にて「 35 年の開発の末名人に伍する力ありと情報処理学会が認める迄に強いコンピューター将棋を完成致しました」と宣言し、日本将棋連盟に挑戦状を渡した。将棋連盟はこれに対し、米長会長名義で「その度胸と不遜な態度に感服した」として挑戦状を受理。最初の対戦相手として女流の清水市代(対局決定時女流王位・女流王将の二冠)を指名した [22][23] 。 2010 年 5 月 ?7 月に、第 2 回週刊将棋アマ COM 平手戦が週刊将棋の連載として開催された。対戦相手は東京大学将棋部 5 名。それぞれ 2 回、合計 10 回対戦が行われ、棚瀬将棋が 1 敗して、コンピュータ側の 9 勝 1 敗であった。参加したコンピュータは、激指・ Bonanza Feliz ・ YSS ・棚瀬将棋・ GPS 将棋。持ち時間は 1 回目が 30 分(秒読み 60 秒)、 2 回目が 10 分(秒読み 30 秒)。 2010 年 8 月 23 日に、清水市代との対局の詳細が発表され、持ち時間はチェスクロック使用による 3 時間( 1 分未満の考慮時間も計測される)、使い切ったあとは 1 手 1 分というマイナビ女子オープン五番勝負と同様の条件となった。また、コンピュータ側のハードウェアはクラスタなし( Intel Xeon W3680 3.33GHz 6 コア)を中心に、 GPS 将棋が提供した東京大学のクラスタマシン( Intel Xeon 2.80GHz 4 コア: 109 台・ Intel Xeon 2.40GHz 4 コア: 60 台・合計 169 台 676 コア)を併用する形で、ソフトウェアは「激指」「 GPS 将棋」「 Bonanza 」「 YSS 」の 4 種類のソフトが電気通信大学伊藤研究室の開発するマネージャの管制の下で多数決を行う合議制がそれぞれ採用された。このシステムは、 10 の 224 乗という、将棋の全局面数 10 の 226 乗に近い数を示す語をとって、「あから 2010 」と名付けられた。 合議制の重み付けは以下の通り。クラスタなしが合計 7.7 、クラスタありが合計 1.3 とクラスタなしを優先している。 クラスタなし - Intel Xeon W3680 3.33GHz 6 コア 激指 - 2.9 Bonanza - 1.9 GPS 将棋 - 1.0 YSS - 1.9 クラスタあり - Intel Xeon 4 コア、合計 169 台、 676 コア 激指 - 0.1 Bonanza - 0.1 GPS 将棋 - 1.0 YSS - 0.1 清水市代とあから 2010 の対局は 2010 年 10 月 11 日に東京大学工学部で指され、 86 手で後手のあから 2010 が勝利した。
  • ワトソンは、アメリカ合衆国のクイズ番組「ジェパディ ! 」( Jeopardy! )で人間と対戦するためのコンピュータ・システムで、 2009 年 4 月に IBM により発表された [1] 。 これは 1997 年に、当時のチェス世界チャンピオンのガルリ・カスパロフに勝利した IBM のコンピュータ・システムであるディープ・ブルーに次ぐプロジェクトである。しかし、クイズ番組では自然言語で問われた質問を理解して、文脈を含めて質問の趣旨を理解し、人工知能として大量の情報の中から適切な回答を選択し、回答する必要がある。 IBM はこの技術を、将来的には医療、オンラインのヘルプデスク、コールセンターでの顧客サービスなどに活用できるとしている。 2011 年 1 月 13 日にはトーマス・ J ・ワトソン研究所でワトソンの公開と対戦デモが行われた。ワトソンは、 10 台のラックに搭載された Power Systems 750 で構成され、 2880 個の POWER7 プロセッサ・コアを搭載し、オペレーティングシステムは Linux 、処理性能は 80 テラ FLOPS(TFLOPS) で、インターネットには接続されておらず、本・台本・百科事典( Wikipedia を含む)などの 2 億ページ分のテキストデータ( 70GB 程度、約 100 万冊の書籍に相当)をスキャンして取り込んだ [2][3] 。 2011 年 2 月 14 日からの本対戦では、 15 日と 16 日に試合が行われ、初日は引き分け、総合ではワトソンが勝利して賞金 100 万ドルを獲得した。賞金は全額が慈善事業に寄付される [4] 。 IBM の事実上の創立者、トーマス・ワトソンより。
  • 数学者ハリ・セルダン、心理歴史学 気体分子運動論において、個々の分子の運動は予測できないが、集団の気体ということなら平均の運動は計算できるという事のアナロジー 1万2千年続いた銀河帝国。その崩壊が迫っている。 崩壊を防ぐことはできないが、その後の数万年の暗黒時代を、 1000 年に縮め、その後に強固な第二帝国を復興させることができる、と 心理歴史学とそれに基づいた組織「ファウンデーション」を設立。このシリーズはファウンデーションの人々が様々な苦難に立ち向かい、セルダン・プランの成就を目指していくストーリー。
  • 大量の学習データを正確にどうつくるかで、クラウドソーシングの利用というのがある。
  • あるいは、ヒューマンコンピュテーション。 クラウドソーシングと機械学習 www.geocities.jp/kashi_pong/publication/JSAI_crowds.pdf 大量の学習データを正確にどうつくるかで、クラウドソーシングの利用というのがある。

Transcript

  • 1. Data utilization toward BigData’s edgethe two faces of Technology SingularityRakuten Inc. Masaya Mori
  • 2. • 森 正弥 (もり まさや)• 楽天株式会社 執行役員• 開発アーキテクチャ部 部長• ビッグデータ部 副部長 Masaya Mori• 楽天技術研究所 所長 Twitter: @emasha• 職掌 – 開発部署のマネジメント – 研究開発の推進・統括
  • 3. Janus the god of transition: end and beginning ローマ神話 終わりと始まりの神 1月(January)の語源 過去と未来の間に立つ 2つの顔から明暗も示す 本講演との関わりは後ほど...
  • 4. What is BigData? 55 timesBigData = データ活用 4
  • 5. Foundation’s Edge (1951~) アイザック・アシモフ ファウンデーション・シリーズ 数学者ハリ・セルダンと 彼が作った心理歴史学 膨大な人間集団の行動は予測 できるとする学問 本作品以降、ファウンデーション・ シリーズとロボット・シリーズの融合 が図られたが、これも後ほど BigData = データ活用 5
  • 6. Rakuten’s caseBigData = データ活用 (集合知含む) 6
  • 7. 1997 → 2013創業の理念: Empowerment!日本を元気に 7
  • 8. 日本の小売の特徴 • 地方毎に特産品がある、コアな趣味を持つ人が多い 日本は • 販売者もロングテール、購入者もロングテールロングテール • 常識ではかれないものが飛ぶように売れる じゃばらドリンク じゃばら 8
  • 9. モバイルは若者が中心モバイルは •PC世代では購入しなかったものもモバイルでは売れるパーソナル •モバイルはもっとロングテール(パーソナル)といえる「SILVER BULLET http://www.rakuten.co.jp/silver-bullet/ 」■業界のモバイル化に成功した事例 『これからはアイデアとフットワークを持った 「個人商店の時代」がくる! 』1年間だけで月商1億突破(2006年11月)子供服から「お兄系」と称される若年層メンズ服に転換、モバイル注力がブレイクポイント11月売上のモバイル構成比は70%を越える。 「モバイルで服を買おうよ」 と道筋をつけてあげただけ 2,000万円分の福袋が即日完売! 「お色気SUMMER」こそ、究極のモバイル戦略の現れ モバイルは「戻る」より「先に進む」アクションを促すのがカギ。 女性スタッフが書くメルマガは「ギャル語」が好評。 9
  • 10. 干しいも 10
  • 11. 楽天グループ(国内)のサービス E-Commerce Portal and Media Securities Banking Travel Credit CardTelecommunications Professional Sports E-money 11
  • 12. スーパーDB•多様なビジネスがもたらす、バラエティ に富んだ、多様なデータを、ひとつの巨 大なデータウェアハウスに格納 多様なビジネスデータ Rakuten Super DB 12 That is our important core generating revenue.
  • 13. 全体像 会員属性 集約 加工・集計・分析 デモグラフィック 購入履歴 (基本属性) ジオグラフィックアンケート 楽天 (地理情報)カード情報 スーパーDB ビヘイビア (行動)スーパーポイント サイコグラフィック データ提供 (心理的属性) アプリケーション楽天クーポン ・パーソナライズ ・リコメンデーション ログイン ・行動ターゲティング広告 ファイル ファイル ファイル ・営業支援 外部データ (Mosaic 等) ・・・・ 利用 13
  • 14. 顧客クラスタリング 顧客クラスタリングの考え方顧客の属性データや購買履歴を利用し、顧客をいくつかのグループ に分類する。→楽天会員全員をクラスタリング 家事は お手軽 お任せ グルメ ビューティー D 大好き D I I E H G E H G C C F FA A B J B J 本・CD・ゲーム 家でじっくり派 おしゃれメンズ 14
  • 15. レコメンデーションエンジン楽天市場 DVD レンタルブックス ダウンロード 15
  • 16. Rakuten EntameNavi: データ × 集合知 16
  • 17. AR-HITOKE: データ × 集合知 × 拡張現実 他にも、AR-HITOKE という拡張現実型の集合知サービスも開発し ています。これは、実店舗にある商品をスマートフォンで覗くことで、 人気商品かどうか、他の顧客や友人の評判はどうなのかを視覚的 に確認することができ、他のSNSサービスとも連携しながら、ショッ ピングを支援するサービスです。 商品を覗くと、どれだけ人気があるか、 評判はどうかを視覚的に確認できる。 17
  • 18. BigDataじゃなくて、むしろ Small Dataじゃない? 18
  • 19. BigData ≠ データ活用本当はもっと壮大な話 19
  • 20. Mankind history has 2 parts. BB and AB 20
  • 21. B.B. Knowledge is Power. (Model is power.) Observing Modeling Understanding Controlling 21
  • 22. A.B. It’s revolution. Data is Power. AI creates model. 22
  • 23. 従来の学問の危機• CASBS スタンフォード大学での行動科学の会合• 従来のリーダー分析、組織分析が機能しない現代。• 社会科学、人文科学、自然科学の各領域を統合し、新 しい社会分析・価値創出の地平を目指す。 http://www.casbs.org/ 23
  • 24. We are the 99%.Occupy Wall Street. A variety of ideology A variety of belief A variety of religion 24
  • 25. 正規分布とロングテール(べき乗分布) VS 制約ない所では、 人はロングテールとなる (特定の集団ではなくなる) 25
  • 26. Complex System 管理する中央はなくただ個々のダイナミズムがあるのみ 70億に70億通りのサービスを 26
  • 27. Out of the box ブレークスルーが必要 ビッグデータが解決の鍵に 機械学習 27
  • 28. The BigData 2005年 NIST 後援 機械翻訳コンテスト アラビア語→英語 中国語→英語 グーグルチームの初参戦と勝利 高度なモデル・アルゴリズムなし 1兆2000億にのぼる語句のデータ をあてただけ http://www.itl.nist.gov/iad/mig/tests/mt/2005/doc/mt05eval_official_results_release_20050801_v3.html 28
  • 29. The BigData一般物体認識でもモデルではなくデータからのアプローチが7900万枚の画像での学習 [Torralba et al. PAMI 2008]20億万枚で更なる向上が [Xin-Jing Wang et al. CVPR 2010] 29
  • 30. Watson (IBM) 自然言語処理技術を活用 2億ページ分のテキストデータを格 納した分散処理システム 2011年2月16日 クイズ番組「Jeopardy!」で人間と 対戦し勝利 http://www-06.ibm.com/ibm/jp/lead/ideasfromibm/watson/ 30
  • 31. Technology Singularity (技術的特異点) Complex Systemへ データ + 機械学習人知(科学)をこえた問題解決の彼方へ 31
  • 32. The future 人との接点はどうなっていくのか。 情報アーキテクチャの未来を示 唆していくものはあるのか。 32
  • 33. あから 2010 10の224乗の数を示す数「阿伽羅」 将棋の局面の数がこの数に近いとのこと 2010年10月、女流王将のプロ棋士に勝利 86手で後手のあからが勝利 4つのシステムの合議制。うち、「Bonanza」は、 過去のプロ棋士による対局棋譜を学習 65手目「5七角」。棋士、次の一手を間違う。 人ならざる者に人(意思)を見る 単なる真似から人に届くものへ 新しい情報アーキテクチャの示唆を期待して もいいのでは 33
  • 34. The two faces of tomorrow (1979) ジェイムズ・P・ホーガン 「人格や意志を持たないAIがなぜ人類 に対して反乱を起こすのか」という古典 的命題に対し、コンピュータ工学的に 裏付けられた合理的な解釈 ヤヌス・プロジェクト: スペースコロニーを人類社会にみたて、 AI「スパルタクス」に全制御を預けて、 妨害をしていくとどうなるかという実験 34
  • 35. Foundation and Robot series 数学者ハリ・セルダンと 彼が作った心理歴史学 膨大な人間集団の行動は予測できると する学問 ファウンデーションとロボット・シリーズ(ロ ボット工学三原則)の橋渡し的作品 実は、心理歴史学の誕生は、ロボットの 協力が存在していた 新しい情報アーキテクチャを 協力して生み出す未来に? 35
  • 36. ご静聴いただきありがとうございました 36
  • 37. Appendix(QA/Discussion用・講演未使用) 37
  • 38. ワイン 38
  • 39. 城 39
  • 40. Next Step スーパーDBとの連携基盤の検討 Hadoop基盤とスーパーDBの連携方法および環境検討に着手 MemberUser Profile,Transaction Purchase 集 Rakuten 約 透 、 Super DB User Card ロ 過 ー 的 Point ド な ユ Service ー Marketer Data Matching ザ イ Access Log ン フ タ Behavior Search Log ァ フ Administrator イ ェ ル ー Docs, PDFs コ ス ピ ー Images/videos extract, transform Developer 40
  • 41. Amazon Mechanical Turk 41
  • 42. #ANPI-NLP (ANPI=安否) • Right after earthquake, RIT aggregated ANPI information from web and twitter. • We collaborated together with over 70 people outside of Rakuten. •Analyze ANPI tweet •Aggregate ANPI info •Classify ANPI tweet •Matching location •Translate informationhttp://trans-aid.jp/ANPI_NLP/ 42
  • 43. Human & Computer Intelligence 43