ドコモのクラウドとビックデータJpi版

4,505 views
4,390 views

Published on

11月13日アマゾンウェッブサービスの開発者、技術リーダーが週家釣る一大イベントである「AWS re:Invent2013」においてドコモが発表した音声エージェントサービスのパブリッククラウド実装について紹介する。パブリッククラウドの利用は、コスト、開発の早さ・柔軟さが利点であると言われるが、それは表層にすぎない。運用を続けながら逐次サービスを改善させていくという開発スキームをもたらすことが本質である。併せてビックデータを取り巻く深刻な課題についても議論したい。 

Published in: Technology
1 Comment
27 Likes
Statistics
Notes
No Downloads
Views
Total views
4,505
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
84
Comments
1
Likes
27
Embeds 0
No embeds

No notes for slide

ドコモのクラウドとビックデータJpi版

  1. 1. © 2013 NTT DOCOMO, INC. All rights reserved. 栄藤 稔,NTTドコモ  Dec. 18th , 2013 DOCOMO CLOUD X BIG DATA 1
  2. 2. © 2013 NTT DOCOMO, INC. All rights reserved. Disclaimer この発表は、あくまでも個⼈人の意⾒見見に基づくも のであり、NTTドコモの社としての⾒見見解を⽰示 したものではありません。ただし、内容に関し ては、私の良良⼼心にしたがって話します。 vThis presentation does not represent the view of NTT DOCOMO. vSlides are from my sole view for which I will take full ethical responsibility. 2
  3. 3. © 2013 NTT DOCOMO, INC. All rights reserved. 自己紹介 • 栄藤 稔, 執行役員, NTT DOCOMO • 役割: R&D 戦略 • 経験: パターン認識と機械学習, 信号処理,モバイ ルマルチメディア,モバイルネットワーク. 趣味: ロードバイク, フライフィッシング,ワイン 3
  4. 4. © 2013 NTT DOCOMO, INC. All rights reserved. 再構築中のサービスプラットフォーム DOCOMO CLOUD 4
  5. 5. © 2013 NTT DOCOMO, INC. All rights reserved. プライベート クラウド パブリック クラウド ドキュメント Apps/ Books いろいろ。。 カレンダー メール コンタクト ハイブリッドクラウドになるんでしょうね.. 5
  6. 6. © 2013 NTT DOCOMO, INC. All rights reserved. DOCOMO as a Big AWS User 4桁のEC2 インスタンス 6
  7. 7. © 2013 NTT DOCOMO, INC. All rights reserved. しゃべってコンシェル実装の話 7
  8. 8. © 2013 NTT DOCOMO, INC. All rights reserved. これからはドンピシャサービス • Apple Siri • Google Now • Microsoft Cortana • しゃべってコンシェル タップでコンシェル 8
  9. 9. © 2013 NTT DOCOMO, INC. All rights reserved. Siri 9
  10. 10. Train transfer / Last train alarm / Weather alarm / Traffic information / Receipt search / Map search / Weather search / Image search / QA search / Movie search / Music search / News search / Twitter search / Game search / App search / Book/Comic search / Area guide / Browser search / Artist search / TV program search / Dictionary / Horoscope / Result search for soccer game / Result search for baseball game / Result search for golf tournament / Shopping / Calculate calorie of food / Sightseeing search / Call taxi / Knowledge of life / Q&A for DOCOMO / Phone call / Launch camera / Timer / Alarm / Scedular / Memo / Music player / Email / i-Concirge / i-Channel / DOCOMO Map / Disaster kit / Ir communication / Post Twitter / Photo collection / Launch Galary / Translation / Cheat sheet / User support / Flight mode / Day and time / Terminal information / Display setting / Keyboard and input / Storage setting / Language setting / Location service setting / Application listup / Security setting / Sound setting / User dictionary / Wi-Fi setting / Wall paper setting / Battery setting / Communication service setting © 2013 NTT DOCOMO, INC. All rights reserved. サービス導線としての自然言語UI 37 search types 22 applications 20 functions 10
  11. 11. © 2013 NTT DOCOMO, INC. All rights reserved. 価値化の方向 Just say, wanna buy!“d-shopping” : real marketplace 水を買いたい のですが. 何か御用ですか? わかりました. 11
  12. 12. © 2013 NTT DOCOMO, INC. All rights reserved. “現状維持”神社 “99.9999%” 寺院 直感 オフィス なんちゃって スカンクワークス 12
  13. 13. © 2013 NTT DOCOMO, INC. All rights reserved. これはクラウド? 現状維持神社には 多くの迷信が... 13
  14. 14. © 2013 NTT DOCOMO, INC. All rights reserved. 99.9999% 寺院, 1年間の停止時間 31.5 秒以下 信念: 高可用性絶対維持 14
  15. 15. © 2013 NTT DOCOMO, INC. All rights reserved. パブリッククラウドに対する3大懸念 セキュリティ 性能 切り替えコスト 15
  16. 16. © 2013 NTT DOCOMO, INC. All rights reserved. 直感オフィスからの指令 アラジンの魔法のラ ンプを作れ (2009) 16
  17. 17. © 2013 NTT DOCOMO, INC. All rights reserved. いつやるか? ちょっと後でしょう。 17
  18. 18. © 2013 NTT DOCOMO, INC. All rights reserved. ‘Search‘におけるパラダイムシフト Microsoft Bing Google Voice Search 18
  19. 19. © 2013 NTT DOCOMO, INC. All rights reserved. なんちゃってスカンクワークス(2010) もうそろそろ作っても良い かも.ただし,ステルスモート でやろう はい,我々には音声認識に関する経 験とデータがありますからね. 作るならパブリ ッククラウドで作っ てみたい. 19
  20. 20. © 2013 NTT DOCOMO, INC. All rights reserved. 分散音声認識(DSR) (2006) First Implementation of ETSI AURORA Project(2000-2003) 16Khz Sampling MFCC feature vectors -> 5.6Kbps Mobile Terminal Feature Extraction Result Encode Server Decode Rec. Engine Dictionary 20
  21. 21. © 2013 NTT DOCOMO, INC. All rights reserved. Data Mining Team (2009) Web2.0 Believers なんちゃってスカンクワークス 21
  22. 22. © 2013 NTT DOCOMO, INC. All rights reserved. 栄藤個人の想い ”思い付きの開発はしない.” ”データ量勝負に持ち込む.” ”安く早く自分たちで作ることに拘る.” 22
  23. 23. © 2013 NTT DOCOMO, INC. All rights reserved. “イケテル”アプリの開発現場のイメージ 23
  24. 24. © 2013 NTT DOCOMO, INC. All rights reserved. AWS への実装について 24
  25. 25. © 2013 NTT DOCOMO, INC. All rights reserved. 基本アーキテクチャ2010 Logging Voice Recognition Task Recognition Logging Voice text text contents Service Providers’ DB contents text Text to speech (inspired by Microsoft Bing, and Google Voice Search) 25
  26. 26. © 2013 NTT DOCOMO, INC. All rights reserved. 5/2011 Stealth Product Data Center (Hybrid with other Cloud) 歴史 June AWS NC-reg Sept. 11/2012 AWS Tokyo-reg. Version 2 3/2012 Mar.∼ Version 1 Public Cloud 26
  27. 27. © 2013 NTT DOCOMO, INC. All rights reserved. 信念: 良質な学習データ量がアルゴリズムより大事. Speech Speech Data Language Data Machine Learning Machine Learning Acoustic Model Lexicon Language Model Speech Recognition I want... Text Voice Recognition 27
  28. 28. © 2013 NTT DOCOMO, INC. All rights reserved. 意図解釈エンジンにおける処理 形態素解析 カテゴリ付与 特徴量抽出 タスク判定 キーワード抽出 発話内容を形態素に分割 単語にカテゴリ情報を付与 形態素やカテゴリ等から特徴量 を抽出 上記特徴量と学習モデルに基づ きタスク判定を実行 発話内容に含まれる名詞とタス ク判定結果からキーワードを抽 出 発話内容 28
  29. 29. © 2013 NTT DOCOMO, INC. All rights reserved. Task Recognition and Service Flow 基本原理: 機械学習→サービス性能向上→データ集積→機械学習のループ Service Launcher Search Engine A Search Engine B Search Engine C Find a good Italian restaurant in Palo Alto Abstractor Feature extractor MC-SVM Classifier Tokenizer Query ext. I want... Text Contents Restaurant Task Corpus Lexicon Dictionary Abstraction Dictionary 29
  30. 30. © 2013 NTT DOCOMO, INC. All rights reserved. Version 1 Implementation (Mar. 2012) ɡ A LB B Started with two local cloud providers in Japan, and soon faced two difficulties: •Scalability in terms of #servers •Inflexible monthly payment 30
  31. 31. © 2013 NTT DOCOMO, INC. All rights reserved. 急発進 •Mar 2012 –0.5M accesses/day •Apr 2012 –1.5M accesses/day •Jul 2012 –2.5M accesses/day 31
  32. 32. © 2013 NTT DOCOMO, INC. All rights reserved. プラットフォーム テクノロジー リーダー グローバルな 顧客基盤 AWS 革新的 パートナー エコシステム AWSへの移動(June, 2012) Scale! 32
  33. 33. © 2013 NTT DOCOMO, INC. All rights reserved. システムアーキテクチャ2012 Availability Zone #1 SmartPhone Management Server Log Server for VR Availability Zone #2 Voice Recognizer(VR) Task Recognizer(TR) Log management system Same as AZ #1 TR Servers ELB (across multiple zones) Tokenizer Access Log Servers Availability Zone #3 VPC VR Servers LB ELB (across multiple zones) ELB (across multiple zones) 33
  34. 34. © 2013 NTT DOCOMO, INC. All rights reserved. 必須デザインパターン: Multi-Data Center Availability Zone #1 Availability Zone #2 LBLB VR servers Route 53 m2.4xlarge x ~300 !! HAProxy Voice VPC VR servers Voice Recognition Part 34
  35. 35. © 2013 NTT DOCOMO, INC. All rights reserved. ドコモスカンクワークス: Cloud Natives • 他のサービスも含めて 21のデザインパターン を利用(総計48) • 中でも ‘Queuing  Chain’   と  ‘Scale  Out’  パターンを 多用. 35
  36. 36. © 2013 NTT DOCOMO, INC. All rights reserved. 他にも大事なデザインパターン •Scheduled Scale Out •Clone Server 36
  37. 37. © 2013 NTT DOCOMO, INC. All rights reserved. Traffic Pattern 0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00 Normal traffic 37
  38. 38. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 © 2013 NTT DOCOMO, INC. All rights reserved. Auto-Scaleで追いつかない爆発的トラフィック TV commercial causes a spike traffic. 30x traffic # of servers 20:38 20:40 20:43 20:45 10min 38
  39. 39. © 2013 NTT DOCOMO, INC. All rights reserved. Unexpected Traffic Scheduled –TV Commercial –Introduction by TV program fortunately pre-scheduled! Suddenly happened –Earthquake –New Feature Release burst burst, but gradually tapering 39
  40. 40. © 2013 NTT DOCOMO, INC. All rights reserved. サーバー起動の準備 AMI の毎日リフレッシュ –音声認識モデルの更新 スパイクトラフィックに対応 したAMI の起動 –10 min - 30 min前に準備 40
  41. 41. © 2013 NTT DOCOMO, INC. All rights reserved. More intelligence Optimized server deployment using Elastic Map Reduce(EMR) for pattern analysis 24hours 41
  42. 42. © 2013 NTT DOCOMO, INC. All rights reserved. 引っ越し2回 • 2012年4月 • ローカルクラウド事業者からAWSへ • 2012年7月 • 東京から北カリフォルニアへ •Deploy mixture instance types (c1.xlarge and m2.4xlarge) • Sep 2012 • 北カリフォルニアから東京へ –Unified to m2.4xlarge –遅延の改善 42
  43. 43. © 2013 NTT DOCOMO, INC. All rights reserved. お世話になりました. 43
  44. 44. © 2013 NTT DOCOMO, INC. All rights reserved. DOCOMO スカンクワークス (2013) もう後にはもどれない リーンスタートアップカルチ ャーを続けよう. はい.運用しながらサー ビスを逐次改善! ねぇ, リーダー,次は翻訳 どうよ. 44
  45. 45. © 2013 NTT DOCOMO, INC. All rights reserved. 今では,安定運用となっています. • 10 million terminals pre-installed • More than 4M distinct user accesses • 1M accesses / day 17-Nov-16 27-Nov-16 7-Dec-16 17-Dec-16 27-Dec-16 6-Jan-17 16-Jan-17 26-Jan-17 5-Feb-17 15-Feb-17 25-Feb-17 7-Mar-17 17-Mar-17 27-Mar-17 6-Apr-17 16-Apr-17 26-Apr-17 6-May-17 16-May-17 26-May-17 5-Jun-17 15-Jun-17 25-Jun-17 5-Jul-17 15-Jul-17 25-Jul-17 4-Aug-17 14-Aug-17 24-Aug-17 17-Nov-16 Number of Speech 45
  46. 46. © 2013 NTT DOCOMO, INC. All rights reserved. 他のTips •インスタンス管理 ✓Simple DB as a key-value store •ログ管理・解析 ✓Enormous logs from servers ✓Direct write to S3 •Multi-AZ 46
  47. 47. © 2013 NTT DOCOMO, INC. All rights reserved. なぜクラウドが使えたか クラウドを使って何が嬉しいか 1.横須賀にしがらみのない ”なんちゃって”スカンクワークスが存在. 2.”クラウドネィテブ”な開発手法の会得. 3.新しい道具(クラウド)と新しい文化のシナジー 早く作って逐次改良,少人数の共同責任で開発 47
  48. 48. © 2013 NTT DOCOMO, INC. All rights reserved. Cloud を使いこなす設計とは? 重要な6つのポイント 1.「Design for failure」「共有責任モデル」を使いこなす。 2.クラウドに多くの機能を求めない。As Isで使う。依存しない。 3. ハードを意識しない。ソフトで調整する。 4. 小さく作って大きく伸ばす(伸ばせる)ようにする。 5. 従来より「設計」に時間とコストをかける。 Cloud  1.0 Cloud  2.0 # # # # 48
  49. 49. © 2013 NTT DOCOMO, INC. All rights reserved. まとめ(中間) • 対話サービスは辞書整備と枯れた機械学習の結果。 • 夢と思われていた知識識処理理が可能に。 • これまでの社内プロセスから⼤大きく逸脱. 社⻑⾧長の後押し。 •AWSを中⼼心に世の中は回る. •新しい技術を使いこなすには新しい⽂文化が重要. 49
  50. 50. © 2013 NTT DOCOMO, INC. All rights reserved. 余談: ビックデータ利用の本質 50
  51. 51. © 2013 NTT DOCOMO, INC. All rights reserved. 51 Dan Ariely's quote on his facebook site here:https:// www.facebook.com/dan.ariely/posts/904383595868 Big data is like teenage sex (Dan Ariely, Jan.2013) everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
  52. 52. © 2013 NTT DOCOMO, INC. All rights reserved. ドコモにおけるビッグデータ活用 インターネット ペタバイト級のデータ+機械学習+並列分散計算モデル ビッグデータからの行動パターン分 析によるサービス利用促進/ユー ザビリティ向上 多種多様なログに基づくクロスレコ メンド/チューニングによる精度向 上/対象ユーザ・コンテンツのカバ レッジ向上 ビッグデータを用いた辞書構築によ る文字認識・画像認識精度の向上 /ソーシャルメディア情報活用によ るユーザ動向把握 ビッグデータを用いたネットワークル ーティングの最適化/解約につなが る行動パターン発見 ビッグデータを用いたハザードマップ /犯罪発生マップの高精度化・カ バレッジ向上 交通機関・公共施設の運行最適化 による待ち時間の最小化 マーケティング リコメンデーション メディア理解オペレーション最適化 セキュリティ 社会インフラ最適化 業務システム のデータ 様々な ログファイル CRMシステム の顧客データ Webサイト、 ブログ ソーシャル メディア 静止画、動画 センサデータ Business Intelligence Data-Driven Innovation 52
  53. 53. © 2013 NTT DOCOMO, INC. All rights reserved. (ビック)データにまつわる2つの方向 • Data-Driven Innovation Web  2.0  by  Tim O’Reilly (2005)の延長   APIによるプラットフォーム連携 • Business Intelligenceの深化 データが大規模であるが故にできる新たな付加価値創造。 53
  54. 54. © 2013 NTT DOCOMO, INC. All rights reserved. 「データサイエンティスト育成ネットワークの形成」事業の概要 」 丸山宏(統計数理研究所) 第5回横幹連合コンファレンス 2013.12.21-12.22 香川大学 そもそも、データサイエンティストという言葉には一定の定義がないようだ。 Harvard Business Review誌の記事は、かなりハードルの高い人材のことを述べてい る。新しいデータ分析アルゴリズムを開発する力を持ちながら、同時に経営に携わるこ とのできるタイプの人材、敢えて言えばGoogleのラリー・ペイジのような人材を想定し ている。 それに近い考え方としては、Insight Data Science Fellows Programがある5)。物理 学、生物学などでPh. Dを持つ人材に対してデータ分析のツールやプログラミングを教 えることで、短期間にデータサイエンティストとして育成しようというものだ。これらの人 材も、年収10万ドルでGoogleやFacebookに行くということなので、かなりトップレベル の人材と言える。 54
  55. 55. © 2013 NTT DOCOMO, INC. All rights reserved. 流行り言葉のビックデータ に踊らされた企業は高いDBやツールを買ったり、やや こしいOSSをインストールした後、 “夏にサンダルシンドローム” に陥って投資が回収できなくなる。 55
  56. 56. © 2013 NTT DOCOMO, INC. All rights reserved. 統計的予測なら、サンプリングで解決できる。 → なんちゃってビックデータ ビックデータを持つからこそ 特徴次元 X サンプル次元での スパースネスを制御できるということが大事。 スパースネス制御とは、ある識別をするに最適な特徴ベクトル と十分なサンプルを確保すること(栄藤の持論)。 ビックとはそれが制御できるくらい大きいということ。 56
  57. 57. © 2013 NTT DOCOMO, INC. All rights reserved. ビックデータの本質: • ロングテール解析 – ニッチ商品の多品種少量量販売に不不可⽋欠 • 極低頻度度の異異様な振舞いの検出 – fraud detection – Pandemic Analysis – 新語 – プライバシー保護 • データ突合・シーケンス処理理 – アンケートXログデータ – 時系列列コンテクスト • 個別処理理がサービスの本質 57
  58. 58. © 2013 NTT DOCOMO, INC. All rights reserved. Data Analysis Lineups from Amazon • Amazon RDS - 汎用データベース。MySQL/OracleDB/PostgreSQLなど •DynamoDB – 性能保証型Key-Value Store •ElasticChache – In memory キャッシュ。Redisなどに相当。 •RedShift – MPP型データベース。DWH用途向け。Greenplum/Netezza相当。 •Elastic MapReduce (EMR) – Hadoop相当。分析台数に応じて課金。データストアはS3 •Amazon S3 – 超並列分散入出力可能な大容量データストア •Glacier – テープライブラリ相当。S3と同じ堅牢性(Eleven nine)。 OLTP系 処理機構 DWH系 分析機能 大容量 データストア 97
  59. 59. © 2013 NTT DOCOMO, INC. All rights reserved. Products of Hot  data Warm  data Cold  data RedshiftRDS&ElasticChache &DynamoDB &  Kinesis EMR VPC DirectConnet Datapipeハイパフォーマンスな データベース群 S3,  Glacier 低コストストレージ データフロー マネージメント 低コスト 高パフォーマンス DWH Map&Reduce アプライアンス セキュアな NW 既存設備 59

×