【東大情理】メディアコンテンツ特別講義Ⅰ




  ビックデータによるメディア理解
         と
  シリコンバレースタートアップ事情

                NTTドコモ 研究開発推進部長
                      栄藤 稔 @mickbean
                         April 19th, 2013
           © 2013 NTT DOCOMO, INC. All rights reserved.   1
1.ビックデータのまえふり




    © 2013 NTT DOCOMO, INC. All rights reserved.   2
Primetime Emmy Engineering
   Awards for H.264 (2008)


        Motorola
                          Dolby



                         HHI

 SONY                               Thomson
                 Microsoft

        Docomo


                                                          Technology and Engineering
                                                                 Emmy Award

               © 2013 NTT DOCOMO, INC. All rights reserved.                       3
Web 2.0 (Tim O’Reilly 2005)




http://oreilly.com/web2/archive/what-is-web-20.html
               © 2013 NTT DOCOMO, INC. All rights reserved.   4
ビッグデータ活用
業務システム様々な    CRMシステム Webサイト、                           ソーシャル 静止画、動画
のデータ  ログファイル の顧客データ ブログ                                メディア

                                    インターネット




 マーケティング     リコメンデーション      メディア理解               オペレーション最適化          セキュリティ      社会インフラ最適化
                            ビッグデータを用い
 ビッグデータからの    多種多様なログに                                                ビッグデータを用い
                            た辞書構築による             ビッグデータを用い                        交通機関・公共施
 行動パターン分析     基づくクロスレコメン                                              たハザードマップ/
                            文字認識・画像認             たネットワークルー                        設の運行最適化に
 によるサービス利     ド/チューニングに                                               犯罪発生マップの
                             識精度の向上/             ティングの最適化/                        よる待ち時間の最
 用促進/ユーザビ     よる精度向上/対                                                高精度化・カバレッ
                            ソーシャルメディア            解約につながる行                            小化
   リティ向上      象ユーザ・コンテン                                                  ジ向上
                             情報活用による              動パターン発見
              ツのカバレッジ向上
                             ユーザ動向把握




                      情報の社会化による”Global Brain”

                       © 2013 NTT DOCOMO, INC. All rights reserved.                     7
2. ビックデータによるメディア理解




     © 2013 NTT DOCOMO, INC. All rights reserved.   8
© 2013 NTT DOCOMO, INC. All rights reserved.   9
© 2013 NTT DOCOMO, INC. All rights reserved.   10
基本戦略



     ”思い付きの開発はしない.”

     ”データ量勝負に持ち込む.”




11
         © 2013 NTT DOCOMO, INC. All rights reserved.   11
しゃべってコンシェルの仕組み




詳細は以下にもあるのでメモ不要

辻野 孝輔,栄藤 稔,礒田 佳徳,飯塚 真也.実サービスにおける音声認識
と自然言語インタフェース技術,人工知能学会誌,Vol. 28, No. 1, pp. 75-
81, 2013.

吉村健, しゃべってコンシェルのQ&A機能を実現する知識検索エンジン開
発, 人工知能学会研究会資料 SIG-FPAI-B203-12, 2013年1月.



            © 2013 NTT DOCOMO, INC. All rights reserved.   13
しゃべってコンシェルの構成


音声認識エンジン

     意図解釈エンジン
                 各種専門検索エンジン
                                                          知識検索エンジン




           © 2013 NTT DOCOMO, INC. All rights reserved.          14
DSR: Distributed Speech Recognition(2006)


                                                                         Dictionary


                Mobile Terminal                                Server

                   Feature                                                 Rec.
                                     Encode                     Decode
                  Extraction                                              Engine


                            Result




  First Implementation
  of ETSI AURORA Project(2000-2003)
  16Khz Sampling MFCC feature vectors -> 5.6Kbps
                © 2013 NTT DOCOMO, INC. All rights reserved.                          15
意図解釈エンジン概要

多様な発話例を収集



     ショッピング検索の発話例                                             機械学習
     •傘を買いたい
       飲食店検索の発話例
     •カレンダーがほしい
       •カレーが食べたい
          カメラ起動の発話例
     •Tシャツのリストを見せて
       •渋谷で忘年会したい
     ・・・・・・ •カメラ起動
        •禁煙席のあるファミレス
            •写真撮影
        ・・・・・・
            •ビデオを撮りたい
            ・・・・・・
                                      学習モデル入力
                                                                   電話タスク
                                                                   カメラ起動タスク
発話内容:                                                                スケジューラタス
e.g.,来週の水曜日に会議の予定を登録
                                       タスク                              ク
                                                                      飲食店検索タスク
                                       識別器
                                                                           ・・・・・




                    © 2013 NTT DOCOMO, INC. All rights reserved.                   20
タスク判定・キーワード抽出例


キャベツ と 鶏肉 を つかった レシピ
                                     レシピ検索, KW=キャベツ,鶏肉
 食材    食材

渋谷 の 近く で おいしい 焼き鳥                レストラン検索, LOC=渋谷
地名              食品

山田さんにメール、いま忙しい               メール送信, To=山田,Body=いま忙しい
人名




               © 2013 NTT DOCOMO, INC. All rights reserved.   21
意図解釈エンジンにおける処理
   発話内容


  形態素解析                発話内容を形態素に分割



  カテゴリ付与               単語にカテゴリ情報を付与



  特徴量抽出                形態素やカテゴリ等から特徴
                       量を抽出


  タスク判定                上記特徴量と学習モデルに基
                       づきタスク判定を実行


 キーワード抽出               発話内容に含まれる名詞とタ
                       スク判定結果からキーワード
                       を抽出

     © 2013 NTT DOCOMO, INC. All rights reserved.   22
意図解釈におけるキーポイント
学習⽂例の質
  量も当然必要だが、質も重要。
  学習器⾃体はあまりこだわらなくてもよい。

カテゴリ辞書の整備
  短い発話⽂からタスクを判定するキー情報。
  CP等から語彙情報を収集して⼤規模な辞書を
   構築。
  ⾃動クラスタリング(教師なし学習)


       © 2013 NTT DOCOMO, INC. All rights reserved.   23
Natural-Language Question Answering




                © 2013 NTT DOCOMO, INC. All rights reserved.   24
Q&Aシステムの特徴
 100を超えるENEタイプ
    拡張固有表現(ENEタイプ)を細分化して定義
     ⼈名,地名,組織名,⼭地名、河川名、⽇付,数
     量など
  ENEタイプ毎に辞書とCRF学習モデルを用意

 リアルタイム検索の利用
    直近のことを聞く質問に対してはリアルタイム検索を実
     行し、ツイートから回答候補を抽出

 回答の信頼度を推定
   機械学習に基づく信頼度を算出しランキング


        © 2013 NTT DOCOMO, INC. All rights reserved.   25
Takeaways
機械学習とのカップリング

Sublinear Optimization
for Machine Learning

サービスがデータを生む
データがサービスを生む
正ループの設計

              © 2013 NTT DOCOMO, INC. All rights reserved.   29
3. シリコンバレースターとアップ事情




      © 2013 NTT DOCOMO, INC. All rights reserved.   30
成功のための3つの質問

Do they want it?



Can we built it?



Can we make money?

         © 2013 NTT DOCOMO, INC. All rights reserved.   31
シリコンバレーじゃないけど




http://www.techsling.com/wp-content/uploads/2013/01/foursquare.jpg
                  © 2013 NTT DOCOMO, INC. All rights reserved.       32
Andreessen Horowitz の指導

魅力あるサービスが第一。

金儲けは後。
顧客基盤を大きくしろ。

プラットフォームが勝負。

      © 2013 NTT DOCOMO, INC. All rights reserved.   33
4sq Data on New York and Tokyo




                   http://www.youtube.com/watch?v=EyV1Vus226k
        © 2013 NTT DOCOMO, INC. All rights reserved.        34
http://www.nerdgraph.com/billion-dollar-startups/
© 2013 NTT DOCOMO, INC. All rights reserved.               35
http://www.nerdgraph.com/billion-dollar-startups/




© 2013 NTT DOCOMO, INC. All rights reserved.                 36
© 2013 NTT DOCOMO, INC. All rights reserved.   3737
© 2013 NTT DOCOMO, INC. All rights reserved.   39
シリコンバレーのベンチャー業界の特徴
 世界のイノベーションをリード

 世界中から優秀なエンジニアが集結

 確⽴されたエコシステム(起業家・投資家・経営
  者・サービス)

 ⻑いベンチャーマーケットとしての蓄積 (経験・
  データ)

 ここから世界を変えていくという誇り

 圧倒的なスピード
                                                             40
       ©2013 DOCOMO Innovations, rights reserved.Reserved.
        © 2013 NTT DOCOMO, INC. All Inc. All Rights
イノベーションを生み出すエコシステム
                                                         ⼤企業                            イグジット
           ベンチャーキャピタル                                                                   (IPO/M&A)
                                                                  事業提携
                                      成⻑資⾦

スタンフォード    エンジェル




起業家       起業資⾦


  起業インフラ (経営者・技術者・投資家・プロフェッショナルサービス)

            雇⽤の創出                                                       資本の集中

  2010年カリフォルニア州の新規雇⽤数                                                     M&A件数           投資件数
       66,000のうち、12,000                              シリコンバ
                                                                              85%            61%
         つまり18%は                                     レー
      シリコンバレーから⽣まれた                                  ⽶国 その他                   14%            23%
                   (NBC Bay Area, March 2011)        世界 その他                    1%            16%
                                                                         (TechCrunch SF, September 2011)
                                                                                                   41
                         © 2013 NTT DOCOMO, INC. All rights reserved.
Five Top Venture Capital




     © 2013 NTT DOCOMO, INC. All rights reserved.   42
ベンチャーマーケットとしての歴史




                                              90年代
                                                             00年代
60年代   70年代          80年代




              © 2013 NTT DOCOMO, INC. All rights reserved.          43
Future




         © 2013 NTT DOCOMO, INC. All rights reserved.   44
ベンチャー業界を取り巻く環境




    © 2013 NTT DOCOMO, INC. All rights reserved.   45
事業形態でこれだけ違う投資

                                                          ウェブサービス・アプリ系
資金需要    エンジェル資金
        従来型エンジェルファンド
         インキューベーター
         スーパーエンジェル




                               成長ステージ
       創業   顧客獲得 マネタイズ 事業拡大 Exit


                © 2013 NTT DOCOMO, INC. All rights reserved.        46
成長分野はウェッブサービスへ

スーパー
エンジェル   ウェブサービス・アプリケーション                                 成長分野
               クラウド・インフラ

                 ウェブ・インフラ
従来型
 VC                 ネットワーク

                OS・ソフトウェア

                   チップ・ハード

                                                         コモディティ化
          © 2013 NTT DOCOMO, INC. All rights reserved.        47
「リーンスタートアップモデル」


                        アイデア

アドバイザー   学ぶ                                    構築する      素早い投資判断


                 少ない予算と⼈数
                 で素早い製品展開


ユーザーの声   データ                                       製品    柔軟な資⾦調達


                        計測する




          © 2013 NTT DOCOMO, INC. All rights reserved.         50
様々な資金調達形態が登場
クラウドファンディング                              アクセラレーター
ネットを介して、⼀般ユーザーや投資家から資⾦調                  少額資⾦、メンター、オフィス等、起業に必要なリ
達を実現するシステム。少額資⾦を⼤勢の⼈々から                  ソースを提供し、スタートアップの成⻑をサポート
募り、その合計で希望調達額を達成させる。                     するシステムを提供する




スーパーエンジェル                                ベンチャーキャピタル
事業の成功や株式売却等から得た資⾦を元にスター                  有望なスタートアップ企業に投資を⾏う投資機関。
トアップに対して投資を⾏う個⼈投資家の中で特に                  他の形態に⽐べて多額の資⾦を提供する⼀⽅で、投
影響⼒が⼤きい⼈々。                               資決定までに時間がかかる。




ロン・コンウェイ   リード・ホフマン   ユーリ・ミルナー




                  © 2013 NTT DOCOMO, INC. All rights reserved.   51
© 2013 NTT DOCOMO, INC. All rights reserved.   54
© 2013 NTT DOCOMO, INC. All rights reserved.   55
http://onstartups.com/tabid/3339/Default.aspx?Tag=cartoon




   © 2013 NTT DOCOMO, INC. All rights reserved.         62
まとめ
シリコンバレーではComputer Science
出身者は元気

技術者が投資家、起業家

東京との違い?、エコシステムの存在

ネットワーキングは大事

人で連携する産業 © 2013 NTT DOCOMO, INC. All rights reserved.   63

ビックデータとシリコンバレースタートアップ事情