Treasure Data Intro for Data Enthusiast!!
Upcoming SlideShare
Loading in...5
×
 

Treasure Data Intro for Data Enthusiast!!

on

  • 33,420 views

 

Statistics

Views

Total Views
33,420
Views on SlideShare
5,669
Embed Views
27,751

Actions

Likes
31
Downloads
114
Comments
0

17 Embeds 27,751

http://doryokujin.hatenablog.jp 24274
http://treasure-data.hateblo.jp 2742
http://feedly.com 345
http://www.feedspot.com 133
http://blog.hatena.ne.jp 129
https://twitter.com 52
http://digg.com 19
https://www.commafeed.com 12
http://newsblur.com 11
http://translate.googleusercontent.com 11
http://s.deeeki.com 10
http://www.google.co.jp 3
http://www.inoreader.com 3
https://www.google.co.jp 2
http://inoreader.com 2
http://webcache.googleusercontent.com 2
http://hatebu.info 1
More...

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Treasure Data Intro for Data Enthusiast!! Treasure Data Intro for Data Enthusiast!! Presentation Transcript

  • 1   February 14th, 2014 Presented  by       Takahiro  Inoue  –  Chief  Data  Scien:st  
  • 2   Agenda Sec.0  Company  &  Product  Overview   Sec.1  Data  Collec:on   Sec.2  Data  Storage   Sec.3  Data  Management   Management  Console   Sec.4  Data  Processing   Treasure  Query  Accelerator   Presented  by       Takahiro  Inoue  –  Chief  Data  Scien:st   Sec.5  Data  Processing  Design   Cubic  Data  Processing  Design   Graph  Data  Processing  Design   Sec.6  Data  Visualiza:on   Treasure  Viewer     Dashboard:  Metric  Insights   Business  Intelligence:  Tableau   Sec.7  Learning  Visualiza:on  PaTerns  (blog  link)  
  • 3   Introduc-on •  Takahiro  Inoue  (TwiTer:  @doryokujin  )   •  Majored  in  Mathema:cs  in  Keio  University   •  Chief  Data  Scien:st  and  Solu:on  Architect  @  Treasure-­‐Data   Presented  by       •  Leader  of  Japanese  MongoDB  Community,  MData  Scien:st   Takahiro  Inoue  –  Chief   ongo  Masters  
  • 4   Sec.0  Company  &  Product  Over  View  
  • 5   会社概要 チーム概要 2011年12月創業、米国カリフォルニア州。 創業者は日本人3人組。2013年12月現在、 社員約30名。 Hiro Yoshikawa – CEO Open source business veteran Kaz Ohta – CTO Founder of world’s largest Hadoop Group Company & Product Over View ビッグデータの収集・保存・解析を一手に行 Jeff Yuan – Director, Engineering LinkedIn, MIT / Michale Stonebraker Lab えるクラウドサービスを提供。他のサービス と異なり、数日で始められるのが特徴。 Keith Goldstein – VP Sales & BD VP, Business Devt, Tibco and Talend Presented  by       サービスコンセプト •  すぐに使い始められる •  クラウドサービスとしての提供を行う •  シンプルな機能セット、手厚いサポート •  “Trend Setting Products” in Data for 2014
 (Database Trends and Applications) •  “5 Hot Big Data Startups”
 (Enterprise Apps Today) Rich Ghiossi – VP Marketing VP Marketing, ParAccel and HP Takahiro  Inoue  –  Chief  Data  Scien:st   投資家概要 Sierra Ventures – (Tim Guleri) Leading venture capital firm in Big Data Bill Tai Renown investor, GP Charles River Ventures Jerry Yang Founder, Yahoo! Yukihiro “Matz” Matusmoto Creator, “Ruby” programming language James Lindenbaum Founder, Heroku
  • 6   事業概要  (2013年12月8日現在) >50% >100 顧客数 Company & Product Over View 四半期のアカウント数の伸び Presented  by   >4,000     >150,000 Takahiro  Inoue  –  Chief  Data  Scien:st   顧客がデータ収集を行っている アプリケーションサーバー数 1秒間に保存されている レコード数 >7,000,000 >2,500,000,000,000 実行した解析ジョブの数 お客様から預かっている レコード数
  • 7   Product  Overview 収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。 Data Collection Data Storage Data Analysis Company & Product Over View Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Sensor Cloud DB, Web App, & Command Line BI Connectivity Flexible, Scalable, Columnar Storage! Presented  by   REST API, SQL, Pig, JDBC / ODBC! Tableau, Metric Insights, BI Tools Dr.Sum, Excel, etc. New!! Treasure Viewer     Treasure Batch Query Takahiro  Inoue  –  Chief  Data  Scien:st   & New!! Treasure Query Accelerator RDBMS Bulk Import CRM Parallel Upload from CSV, MySQL, etc.! ERP Time to Value Value  Proposi-on  1 New!! Management Console No Command Line,! Every Operation is Here! ! Economy & Flexibility Value  Proposi-on  2 Result Push REST API, SQL, Pig! Dashboards Custom App, Local DB, FTP Server, etc. Simple & Supported Value  Proposi-on  3
  • 8   ビッグデータ活用:7つのステージ 最適化   データ解析   What s  the  best?   予測分析   What s  a  trend?   統計分析   Presented  by   Why?       アラート   Takahiro  Inoue  –  Chief  Data  Scien:st   Error?   ドリルダウン   アドホックレポート   Where?   定型レポート   レポーティング   Where  exactly?   What  happened?   お客様の進化に合わせて、我々のサービスも進化を続ける。  
  • 9   価格プラン:  Premium  Plan Free   Standard   Premium     Custom   価格   $0   $3000/月   $7500/月   -­‐     レコード数   年間20億件   バッチクエリ   0コア   8コア   16コア   Unlimited   アドホック   クエリ   N/A   N/A   ○   Unlimited   ユーザー数   1   5ユーザー   20ユーザー   Unlimited   サポート   オンライン   通常   専任   Nego:able   年間150億件   年間500億件   Unlimited   大企業様からの要望に答える形で、サポート体制の強化を行ったプランを新設  
  • 10   サービスポジショニング マーケティングクラウド (DMP) クラウド アプリケーションログの レポーティング、分析 セキュリティ/法律上   クラウドにデータが   上げられない事が多い   センサーデータ/M2M Internet of Things 補完関係   自社 データ
 センター 自社データセンターで   保存・解析するには   コスト・人材面でマッチしない   構造化データソース 非構造化、新しいデータ・ソース (取引履歴、会計、個人情報、etc) (Web、センサー、デバイス、etc)
  • 11   なぜ Treasure  Data?  –  実装の早さ、本質的な作業に集中 •  既存のデータウェアハウスの実装プロセス Data Collection ETL Data Warehouse BI/Reporting 6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン •  Treasure Dataのクラウドサービス Data Collection ETL Data Warehouse 2 – 3週間 月額課金制での支払い 既存のBI/Reportingが利用可能 BI/Reporting
  • 12   Value  Proposi-on   •  Faster  -me  to  value     •  Cloud  flexibility  and  economics     •  Simple  and  well  supported    
  • 13   Advantage  of  Treasure  Data Value Advantage Faster  -me  to  Value Data Collection •  •  Bulk Import 機能が大規模データの高速インポートを サポート。 Streaming 機能によってほぼリアルタイムにデータ収 集を開始できる。 Data Processing •  •  計算ノードのオンタイムによる追加で高速に並列処理 が実行可能。 Streaming 機能によって,デイリーのバッチ処理を待 たずして分析が可能。
  • 14   Advantage  of  Treasure  Data Value Advantage Cloud flexibility and economics Data Collection •  •  テキスト,DB,FTP など多様なデータソースへのプラグ インを用意。 Streaming 機能によってほぼリアルタイムにデータ収 集を開始できる。 Data Storage •  •  最低限のコストで∞ストレージを提供。 JSON ライクの,スキーマレスを実現。 Data Processing •  •  必要に応じてノード数をオンタイムで変更可能。 ストレージ・ノード数に応じた従量制の価格体系。 Data Result Export •  JDBC, ODBC プラグインを用意。 •  集計済のデータのエクスポート先 CSV,ダッシュボード, BI,DB など多様なプラグインを用意。
  • 15   Advantage  of  Treasure  Data Value Advantage Simple  and  well  supported Data Collection •  Fluentd の豊富なドキュメントと様々なプラグインに よってラーニングコストを最小化。 Data Storage •  Management Console からデータの参照が可能。 Data Processing •  SQL ライクの簡潔なクエリ言語によって実行可能。 Data Result Export •  Treasure Viewer, Metric Insights, Tableau をサポート。
  • 16   Sec.1  Data  Collec-on   •  Treasure  Agent  (Fluentd)  
  • 17   Sec.1  Data  Collec-on Data Storage Data Collection Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator Tableau, Tools etc. BI Dr.Sum, New!! Treasure Viewer RDBMS Bulk Import CRM Parallel Upload from CSV, MySQL, etc.! ERP New!! Management Console No Command Line,! Every Operation is Here! ! Result Push REST API, SQL, Pig! Dashboards Metric Insights, etc. Focus! Time to Value Economy & Flexibility Simple & Supported
  • 18   ”データ解析の世界をシンプルにする”   ”データ収集をシンプルにする”  
  • 19   データソースに応じた2種類のインポートメソッド RDBMS Web logs Treasure Agent App logs Bulk Import Streaming Log ! Collector (JSON)! Parallel Upload from CSV, MySQL, etc.! Sensor Treasure Data Cloud CRM ERP 新しいデータソース 従来のデータソース •  「新しいデータソース」 = 各自のアプリケーション から Treasure Data Library を利用して取得する データ •  例:Heroku アプリケーションログ(Heroku Plugin)・ソーシャルゲームログ・モバイルデバイ スログ・センサーデータ・etc… •  これらのデータはデータ量が変化しやすく,また 既に取得項目が構造化されている。 •  「従来のデータソース」 = 既に過去に蓄積され, データベースなどに保存されているもの。 •  例:POSデータ,Site CatalystやMedia Mindなど の分析ツールが裏で保持しているローデータ。 •  試験プロセスとして過去の特定の期間のデータ をアップロードする場合。 •  これらのデータは Bulk Import ツールを用いた 並列インポートで効率良く一気にクラウドスト レージに送る。
  • 20   Data  Acquisi-on  –  Bulk  Loader RDBMS   App   SaaS   CSV,  TSV,  JSON,   MessagePack,  Apache,   regex,  MySQL,  FTP   FTP     Bulk  Loader     Prepare  >  Upload  >  Perform  >  Commit   Treasure Data Cloud
  • 21   Data  Acquisi-on  –  Streaming  Capture Applica:on  Server   # Application Code ... ... •  Automa:c  Micro-­‐batching   •  Local  buffering  Fall-­‐back   •  Network  Tolerance   # Post event to Treasure Data TD.event.post('access', {:uid=>123}) ... ... Treasure  Data  Library   Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js       Treasure Data Cloud Treasure  Agent  (local)  
  • 22   Treasure  Data  が提案する新しいデータ:  Event  Base  Logs For  Social  Game  Analy:cs   # Application Ruby Code ... # Post event to Treasure Data TD.event.post(’login', {:uid => 123, :device => ’smart phone’ :time => 138959673 }) ... TD.event.post(’pay', {:uid => 123, :name => ’ItemA’, :sub_category => ’a’, :category => A, :count => 2, :price => 300 :time => 138959673 }) ... TD.event.post(’invite', {:uid => 123, :invited_uid => 456, :campaign_name => ’invite_event_2’, :time => 138959673 }) For  Web  Analy:cs   # HTML Source ... # Post event to Treasure Data TD.event.post(‘login', {‘uid’ : get_session(), ‘time’ : 138959673 }) ... TD.event.post(’conversion', {‘uid’ : 123, ‘conversion_id’ : ’conv_1’, ‘referer’ : ’www.top.html’, ‘time’ : 138959673 }) ... TD.event.post(’add_cart', {‘uid’ : 123, ‘product_name’ : ‘book1’, ‘cart_id’ : 1, ‘time’ : 138959673 }) ... TD.event.post(’subscribe', {‘uid’ : 123, ‘mail’ : ‘doryokujin@treasure.com’, ‘plan’ : ‘$300’, ‘time’ : 138959673 }) Treasure  Data  Library   Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js    ,  JS  Tag  Library  
  • 23   Treasure  Data  が提案する新しいデータ:  Event  Base  Logs For  Telema:cs  Analy:cs   # Java Code ... # Post event to Treasure Data TD.event.post(’ignition_on', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘odometer’ : ‘100km’, ‘room_temperature’: 24 ‘last_iginition_off_time’ : 138959000, ‘time’ : 138959673 }) ... TD.event.post(’airbag_on', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘time’ : 138959673 }) ... TD.event.post(’pedal_accelerator', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘speed’ : ‘70km/h’, ‘acceleration’ : ’1m/s^2’, :time : 138959673 }) For  EC  Analy:cs   # HTML Source ... # Post event to Treasure Data TD.event.post(‘pay', {‘uid’ : get_session(), ‘price’ : 1000, ‘genka’ : 800, ‘area’ : ‘Tokyo’, ‘time’ : 138959673 }) ... TD.event.post(’post_comment', {‘uid’ : 123, ‘item_name’ : ’itemA’, ‘rating’ : 4, ‘comment’ : ‘使いやすくてTD最高です!’, ‘time’ : 138959673 }) ... TD.event.post(’visit_from_affiliate', {‘url’ : ‘www.hoge.com’, ‘affliate_url’ : ‘www.sale.com’, ‘session_id’ : get_session(), ‘time’ : 138959673 }) … Treasure  Data  Library   Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js    ,  JS  Tag  Library  
  • Heroku  Add-­‐on:  Treasure  Data  Hadoop hTps://addons.heroku.com/treasure-­‐data Before After Heroku Add-on: Treasure Data Hadoop によって Herokuアプリケーションからの ログのストリーミング収集が容易かつ低コストで実現。 *  参考記事: hTp://doryokujin.hatenablog.jp/entry/2012/07/05/025737
  • 25   Project •   Treasure  Data  のデータコレクタ部分は、オープンソース化   –  2013年、国内外で広く浸透   –  世界中でデータを解析可能な形で収集するのに一役買っている   "We use Fluentd to collect massive data logs for our platforms. Having developed a system based on Fluentd, we are now effectively monitoring and analyzing our services in real-time. We are very much satisfied with its flexibility, especially how easy it is to use in tandem with other systems." "We utilize Fluentd to collect a very large amount of logs. The logs are written into Hadoop HDFS clusters, and are also used to analyze various service statuses in realtime. We also use many plugins from rubygems.org to further enhance this mechanism." Fluentd is very similar to Apache Flume or Facebook’s Scribe [but] it’s easier to install and maintain and has better documentation and support than either Flume or Scribe” Fluentd  オープンソースプロジェクトのユーザー例  
  • 26   Before  Fluentd:  M  x  N  通りのデータ収集・活用方法

  • 27   Aer  Fluentd:  M  +  N  通りに経路を集約して簡素化 Access logs Apache Alerting Nagios App logs Frontend Backend Analysis MongoDB MySQL Hadoop System logs syslogd Databases filter / buffer / routing Archiving Amazon S3
  • 28   Treasure  Agent  Monitoring  Service •  td-­‐agentのモニタリングサービス   –  Treasure  Dataのクラウドサービスの一機能   –  fluent-­‐plugin-­‐td-­‐monitoringをインストール   •  td-­‐agent  v1.1.18  にはこっそり既に入っております   Treasure  Agent   td-­‐monitoring   Treasure  Data  Service   統計情報の定期送付  (毎分)   •  システム統計情報   •  Fluentd内部メトリクス情報   •  SSLによる送信  
  • 29   Summary  -­‐  Our  2  Import  Methods  -­‐ Streaming Bulk  Loader •  ほぼリアルタイムにログの収集が可能。 •  あらゆるデータソースを接続口として持 つ(Fluentd In-Plugin)。 •  あらゆるアウトプット形式に対応 (Fluentd Out-Plugin)。 •  定常的にネットワーク帯域を使える。 •  ネットワークの遅延などにより,多少の データロストがある場合がある。 •  数十GB〜数TBの大規模データに対応。 •  並列処理で高速にアップロード。 •  データのロストが無く安心。 これから取得するデータはStreamingで,既に蓄積している 数年分のデータはBulk Loaderを用いることでデータの一元 管理が可能。
  • 30   Sec.2  Data  Storage   •  Treasure  Cloud  Storage  
  • 31   Sec.2  Data  Storage Data Collection Data Storage Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator New!! Treasure Viewer Focus! RDBMS Bulk Import CRM Tableau, Tools etc. BI Dr.Sum, Parallel Upload from CSV, MySQL, etc.! ERP Time to Value New!! Management Console No Command Line,! Every Operation is Here! ! Economy & Flexibility Result Push REST API, SQL, Pig! Dashboards Metric Insights, etc. Simple & Supported
  • 32   Data  Storage Treasure  Data   Cloud   Default  (schema-­‐less)   -me   v   1384160400   {“ip”:”135.52.211.23”,  “code”:”0”}   1384162200   {“ip”:”45.25.38.156”,  “code”:”-­‐1”}   1384164000   {“ip”:”97.12.76.55”,  “code”:”99”}   •  •  •  Schema  applied   ~30%  Faster   -me   ip  :  string   code  :  int   1384160400   135.52.211.23   0   1384162200   45.25.38.156   -­‐1   1384164000   97.12.76.55   99   •  *スキーマを定義することでパフォーマンスが 大幅にアップ。 •  “スキーマレス”  な  JSON形式で保存   –  変更されたスキーマも既存の テーブルへの保存が可能。   列指向データベースを採用。   スキーマを定義する事でパフォーマ ンスが大幅に上昇。   特に時間をキーにしたフィルタリン グに強み。   「容量を気にすることなく,あらゆる データをとにかく蓄積していく,必要 なことものはそれから考えましょう」  
  • 33   従来のストレージ,SQL,No  SQL 210.233.9.2  -­‐  -­‐  [07/Aug/2006:10:45:40  +0900]  "GET  /img/ mtdc.gif  HTTP/1.1"  200  1242  "hTp://mermaid-­‐tavern.com/"   "Mozilla/4.0  (compa:ble;  MSIE  6.0;  Windows  NT  5.1;  SV1)   従来の(クラウド)ストレージ -me   Ip   1384160400   135.52.211.23   1384162200   45.25.38.156   Code     0   -­‐1   •  非構造化によるデータの保持 •  データ抽出,集計時にファイルの読込が毎回必要 •  210.233.9.2  -­‐  -­‐  [07/Aug/2006:10:45:40  +0900]  "GET  /img/ mtdc.gif  HTTP/1.1"  200  1242  "hTp://mermaid-­‐tavern.com/"   "Mozilla/4.0  (compa:ble;  MSIE  6.0;  Windows  NT  5.1;  SV1)   圧縮,解凍は入出力の際にマニュアル処理 SQL •  構造化とインデックスで高速処理が可能 •  スキーマの追加が困難 •  スケールしにくく,その場合の管理コストが大 No SQL •  柔軟なデータ保持方法 •  スケーリングに強いものも •  歴史が浅く,情報源が少ない •  各No SQLに特化した人材コスト
  • 34   Treasure  Data  Cloud  のメリット Treasure Data Cloud のメリット Treasure  Data  Cloud   “巨大な列指向データベース“   -me   v   1384160400   {“ip”:”135.52.211.23”,  “code”:”0”}   1384162200   {“ip”:”45.25.38.156”,  “code”:”-­‐1”}   1384164000   {“ip”:”97.12.76.55”,  “code”:”99”}   •  変更されたスキーマも既存のテーブル への保存が可能 •  (S3に準ずる)高いデータの機密性・ 堅牢性を保持 •  レコード数に応じた課金体系,多くの 場合は非常に低コストで利用可能 •  データは自動で圧縮して保存 •  Hive(SQL Like)クエリによるデータの 抽出および集計がダイレクトに可能 •  データの管理・運用にかかる人材コス トが不要
  • 35   Treasure  Management  Console  によるデータ管理 Database   Table   指定したDB名,Table名に対してHive (SQL-Like) Query を実行することによりデータの抽出および集計 がストレージに対してダイレクトに行える。 New  Query  
  • 36   サービスポジショニング マーケティングクラウド (DMP) クラウド アプリケーションログの レポーティング、分析 セキュリティ/法律上   クラウドにデータが   上げられない事が多い   センサーデータ/M2M Internet of Things 補完関係   自社 データ
 センター 自社データセンターで   保存・解析するには   コスト・人材面でマッチしない   構造化データソース 非構造化、新しいデータ・ソース (取引履歴、会計、個人情報、etc) (Web、センサー、デバイス、etc)
  • 37   Try  &  Error  Itera-on:中間データをどこに保持するか - フィルタ済データ ローデータ クラウド - テンポラリデータ 中間データ群を自社データセンター に保存するだけで大幅なコスト。   様々な  Try  And  Error  の末に保存対 象となったナレッジデータのみローカ ルに保存することでコスト減。     自社 データ
 センター ローデータ,クラウドに上げ られないデータ ローデータ,フィルタ済データ, 分析用中間データ,tempデータ Try  &  Error  Itera-on - 分析用中間データ - データキューブ
  • 38   データ横串分析1:中古車相場データからの応用 業者間オークション : B to B の中古車相場 個人間オークション : C to C の中古車相場 業者が卸してから販売 する際のマージンに注目 業者の販売値と個人間の 販売値との乖離 = (整 備・保証料) に注目 Car Sensor : B to C の中古車相場 新車からの値落ち率と 年式等との関係に注目 新車カタログ : 新車価格,車両情報 レビューの高さと中古車 相場の関係に注目 レビューサイト : 車両レビュー
  • 39   データ横串分析2:オンラインゲーム横断分析
  • 40   新しいデータ:The  Internet  of  Things(IoT) When everything has an ID, and can send data about itself…
  • 41   テレマティクスとは •   Telecommunica:on(通信)  +  Informa:cs(情報科学)   –  自動車などの移動体に通信システムを組み合わせて、リアルタイム に情報サービスを提供すること   •  モダン・テレマティクスデータの特徴   –  車両のID(車載機)と、運転者のID(スマートフォン)を別々に管理す ることができるため、どの車に誰が乗ったかを自動的に判別可能。 –  拡張性:車載器だけでなく,スマートフォンからも詳細なデータ取得 が可能に。モニターやカメラ、加速度センサーなど、スマートフォン に搭載されているデバイスであれば、ハードの追加無く拡張可能。  
  • 42   Telema-cs  Data  Analysis   自動車保険:   -­‐  走行距離連動型保険   -­‐  運転の雑さを指標化   Bulk Import 並列アップロード   電気スタンド需要   -­‐  駐車が多い施設の特定   Treasure Agent ストリーミングアップロード! -­‐  -­‐  -­‐  -­‐  緯度・経度   アクセルON/OFF   イグニッションON/OFF   車速・燃費   電気自動車需要   渋滞予測システム   -­‐  一回の走行距離・距離が     少ないエリアの特定   -­‐  車速や単位当たりの移動距離          から渋滞エリアを特定  
  • 43   Leading/Well-Known Auto Manufacturer •  Telematics! –  200 sensors in new cars! –  Each collect data every 10 seconds! •  Business Benefits! –  Dramatically lowers friction for! new projects! •  And prototypes! –  Focus resources on the cars ! and the data! •  Not the data collection or storage! –  Big Data pipeline up in days! •  Minimal upfront investment! •  Initial results in few days!
  • 44   World’s largest OBD provider •  Telematics! –  On-board Diagnostics (OBD) vendor! –  Building a embeddable solution for auto manufacturers! •  Business Benefits! –  Looking to build a turn-key ! solution for auto manufacturers •  But they don’t have Big Data expertise! •  They want to focus on their OBD solution and leadership position! –  ROI expected at 25-50x! •  Over using a traditional data warehouse approach!
  • 45   Innovative Semiconductor Company •  Wearable Sensors! –  Wrist-band activity sensor! –  Tracks movement & exercise! •  Business Benefits! –  Looking to build a turn-key solution ! for fitness brands •  As a semiconductor company, ! they don’t have in-house expertise ! on Big Data infrastructure! –  They need to develop quickly ! to secure a leadership position ! with major brands before their competitors do! Androi d  
  • 46   Sec.3  Data  Management   •  Treasure  Management  Console  
  • 47   Sec.3  Data  Management Data Collection Data Storage Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator Tableau, Tools etc. BI Dr.Sum, New!! Treasure Viewer RDBMS Bulk Import CRM Parallel Upload from CSV, MySQL, etc.! ERP Result Push New!! Management Console No Command Line,! Every Operation is Here! ! REST API, SQL, Pig! Dashboards Metric Insights, etc. Focus! Time to Value Economy & Flexibility Simple & Supported
  • 48   Our  2  Management  Tools Treasure Command Line Tools ( for Engineer ) Treasure  Management  Console   (  for  Analyst,  Decision  Maker  ) •  豊富なコマンド群を通じて詳細な情報を得 ることが可能。 •  シェルスクリプトなどと合わせて自動化が できる。 •  UIでなくコマンドラインでないと落ち着かな いエンジニア向けに。 •  Web UI からデータベースおよびテーブル の状況を把握できる。 •  各テーブル内のデータサンプルを素早く 参照できる。 •  クエリの記述・実行もここから可能。 •  さらに Treasure Viewer によってすぐにグ ラフ化することが可能。 Management  Console  の登場によって,より多くのアナリスト・ 意思決定者自身がCloud  Databaseに触れる機会が増える。  
  • 49   Watch  Databases データベースの一覧。データベース名,作成日,更新日の一覧。各 データベース名をクリックすることでテーブル一覧へ。
  • 50   Watch  Tables 特定のデータベースのテーブル一覧。レコード数,圧縮後のデータサイズ,更 新日,作成日。各テーブル名をクリックすることでレコードの取得が可能。
  • 51   Tail  Records 特定のテーブルに格納されているレコードを参照できる。
  • 52   Watch  Jobs 現在実行されている・終了したジョブの一覧。クエリ内容やStatusの確認が可 能。実行中・失敗・スロークエリの特定も可能。
  • 53   Set    Schedule 定型のバッチクエリはCRONライクな設定方法で,容易にスケジューリング可能。
  • 54   U-liza-on 現在のデータ使用状況・コア数等を表示するUtilization。
  • 55   Sec.4  Data  Processing   •  Treasure  Batch  Query   •  Treasure  Query  Accelerator  
  • 56   Sec.4  Data  Processing Data Collection Data Storage Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator New!! Treasure Viewer Focus! RDBMS Bulk Import CRM Tableau, Tools etc. BI Dr.Sum, Parallel Upload from CSV, MySQL, etc.! ERP Time to Value New!! Management Console No Command Line,! Every Operation is Here! ! Economy & Flexibility Result Push REST API, SQL, Pig! Dashboards Metric Insights, etc. Simple & Supported
  • 57   Big Data Infrastructure …and building a Big Data infrastructure is complicated, expensive, and requires skills that are very hard to hire. Streaming  Collec:on   Batch  Collec:on   Business  Rules   Data  Integra:on   Consump:on  /   Analy:cs   Applica:on  Interfaces   Processing  Engines   Frameworks   Storage  Layer   Networking   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware  
  • 58   Cube BI  Tools Pig Open  Source   MapReduce Date,  Product  Category,  Area     Dashboard Human  Decision Database Granularity Interac-ve Business   Goal What  Helps? Hive Batch  Process Intermediate   Data Data  Insight Aggregator Batch Data  Analysis Machine  Learning File  /  HDFS User  Id Ad-­‐hoc Impala Small Auto ML  /     Graph  Mining Deep Enterprise   Their  Own  Products
  • 59   Treasure  Query  Accelerator •  Treasure  Query  Accelerator  (TQA)   –  アドホックデータ解析向けのクエリエンジン   –  既存のバッチ型クエリエンジンと比較し、10  〜  50倍高速   –  目的に応じて、既存のバッチ型クエリエンジンと使い分け Queries   MPP  (Massively  Parallel  Processing)  Query  Executor           Plazma  Cloud  Storage   (2.5兆件のデータを保持)  
  • 60   Data Analysis REST  API   Heavy  Liing  SQL  (Hive):   -­‐  Hive’s  Built-­‐in  UDFs   -­‐  TD  Added  Func:ons:   -­‐  Time  Func:ons   -­‐  First,  Last,  Rank   -­‐  Sessionize   Scheduled  Jobs   -­‐  SQL,  Pig  Scripts   -­‐  Data  Pushes   JDBC  Connec-vity:   -­‐  Custom  Java  Apps   -­‐  Standards-­‐based   -­‐  BI  Tool  Integra:on   Tableau  ODBC  connector   -­‐  Leverages  Impala   Interac-ve  SQL   Treasure  Query  Accelerator     (Impala)   Scripted  Processing  (Pig):   -­‐  DataFu  (LinkedIn)   -­‐  Piggybank  (Apache)   Push  Query  Results:   -­‐  MySQL,  PostgreSQL   -­‐  Google  Spreadsheet   -­‐  Web,  FTP,  S3   -­‐  Le{ronic,  Indicee   -­‐  Treasure  Data  Table  
  • 61   Granularity Interac-ve What  Helps? Batch  Process Business   Goal Data  Insight Aggregator Intermediate   Data Dashboard Cube User  Id BI  Tools Batch Ad-­‐hoc New!! File  /  HDFS Small Auto Data  Analysis Deep Treasure Query   Accelerator    (Impala) Machine  Learning SQL-­‐like Query  Language Treasure  Batch   Query  (Hive)   Database Human  Decision Treasure   Scripted   Query  (Pig)   Date,  Product  Category,  Area     Script   多段MapReduce  
  • 62   Comparison  Between  Batch  and  Ad-­‐hoc バッチ型クエリ SQL-­‐style  Query  Language   Monitoring アドホック型クエリ 〃 -­‐  ラーニングコストが低い   -­‐  参考になる情報が溢れている   -­‐  Join,  Group  by,  Where  の概念は馴染み やすい   JDBC/ODBC  Driver   BI  Tools -­‐  多数のBIがJDBC/ODBCに対応   -­‐  それ以外のBIでもコネクタを作る事が 可能     For  R/Excel/SPSS   Data  Analysis -­‐  解析に必要なデータセットの抽出   -­‐  Hiveの出力データ構造と解析ツールの 入力形式の親和性が良い   -­‐  入力データ抽出→解析→入力データ修 正→…  のイテレーション   Yes!  Interac-ve!!   -­‐  インタラクティブな操作が実現   -­‐  クリック・ドラッグ操操作で直接 Treasure  Cloud  Storage  へアクセスが 可能に For  Automa-c  System   -­‐  リコメンドエンジンや広告配信システム など,常に結果を参照し続けるシステム に対応
  • 63   バッチ型クエリ 定時レポーティング   配信最適化   •  オンライン広告   アドホック型クエリ •  •  顧客向けの定時パフォーマンスレ ポーティング   1時間に1回の更新、確実に終わら せる事が重要   定時レポーティング   •  Web  /  Social   •  社内  /  子会社  /  経営層向けの定期 パフォーマンスレポーティング   大量のKPIを定義し、毎日  /  毎時確 実に終わらせる事が重要   定時レポーティング   •  リテール   •  •  接続しているアドネットワークのパ フォーマンスをリアルタイム集計   集計結果から広告配信のロジックをリ アルタイムに最適化 サポート業務効率化   •  •  ユーザーからのサポートリクエストに 応じてその場でデータを集計   サポートのレスポンス・対応業務を効 率化し、ユーザーの満足度向上に繋 げる   即時バスケット分析   PoS・Webサイト解析システム・タッチ •  パネルシステムから上がってくる データの定期レポーティング   •  毎時確実に終わらせる事が重要   過去数年分、数百億件のデータから、 その場でバスケット分析を実行可能   商品開発のミーティングの中で、過去 データを参照。データを元にした商品 開発活動を開始  
  • 64   New  Query  (Batch)  From  Console Query Type を”Hive”に設定 Treasure  Management  Console  よりクエリの実行が可能。その際に   Hive(Batch  Query),Impala(Ad-­‐hoc  Query)  の選択が可能。
  • 65   New  Query  (Ad-­‐Hoc)  From  Console Query Type を”Impala”に設定
  • 66   Result Batch ならば数分, Ad-Hoc なら数秒で結 果が得られる。 Resultを表示,csv等 にエクスポートも可能。
  • 67   Sec.5  Data  Processing  Design   •  Cubic  Data  Processing  Design   •  Graph  Data  Processing  Design  
  • 68   Data  Scien-st  に求められる3つの”プロフェッショナル” 役割 必要なスキル 1.  適切な 「前処理」 を行うこと •  •  •  あらゆるデータソースからデータを収集できるインフラスキル   手元で手早く処理を行うためのシェルスクリプティング能力   泥臭い作業を続ける忍耐力   •  専門家では無い人にも 「集計」 が行えるようにするための   Processing  Design  スキル   あらゆる 「集計」 をもれなく押さえ,パターン化する数学的ス キル   自分は 「集計」 をするために存在するのではなく,「分析」 するために存在するのだという信念   2.  「集計」 をパターン化して半機械 的なプロセスに落とし込むこと •  Focus! •  3.  意思決定者に対してアクショナブ ルな考察をもたらす 「分析」 を行 うこと •  •  深い分析をしても,専門家ではない意思決定者に理解しても らえるための説明力 できるだけシンプルに,かつアクショナブルな考察をもたらす ためのデータ表現(可視化)スキル
  • 69   1.  Cubic  Data  Processing  Design:  Goal Source   Tables   Big   Cube   Mini   Cubes   Cross   Tables   Visualize   Dashboard 非専門家による  Mini   Cube  の作成,クロス集計, Dashboard  埋め込み   専門アナリストに よる前処理,  Big   Cube  の作成   パターンプロセス 専門アナリストによる   KPI  レポーティング   Big   Cube   BI  Tools 専門アナリストによる   応用分析  
  • 70   1.  Cubic  Data  Processing  Design:  For  Treasure  Data Source   Tables   Big   Cube   専門アナリストに よる前処理,  Big   Cube  の作成   Mini   Cubes   Cross   Tables   Visualize   非専門家による  Mini   Cube  の作成,クロス集計, Dashboard  埋め込み   パターンプロセス Dashboard 専門アナリストによる   KPI  レポーティング   BI  Tools 専門アナリストによる   応用分析  
  • 71   1.  Cubic  Data  Processing  Design:  For  Treasure  Data Source   Big   Tables   Batch  Process Cube   Batch  Process   Mini   Cubes   Interac-ve Cross   Tables   Interac-ve Visualize   Excel   Import   Treasure   Batch  Query   BI  Tools Dashboard Import   Treasure   Batch  Query   Treasure   Ad-­‐hoc  Query   Connector   Treasure   Batch  Query   BI  Tools On  Memory   Treasure   Ad-­‐hoc  Query  
  • 72   Source   Big   Tables   Batch  Process Cube   1-­‐1.  Making  Big  Cube 専門アナリスト   •  JOIN  可能な複数のデータソースを1 つのテーブルにまとめる。   •  全てのディメンジョンをGROUPキーに した集計を実行する。   •  大規模なデータ処理になる場合は, 時間分割などをする。   Dashboard  や  BI  から直接  Big  Cube   を参照することはない。(Ad-­‐hoc  クエ リは例外。)   •  Treasure   Batch  Query   •  •  Focus! i.e.  一度Big  Cubeを作ったら,ソース テーブルは二度と参照しない。   全ての項目を「メジャー」と「ディメン ジョン」に分類する。  
  • 73   1.  Table  Join hTp://doryokujin.hatenablog.jp/entry/2014/01/22/184300 Schema:  Car  Sensor:   brand_master  table   name   country_name   …   pref_master  table   code   large_area_name   …   carsensor  table   id   name   grade   model   code   body_name   price   year   shop_pref_code   shop_pref_name   Car   ...   Hierarchy catalog  table   Name   code   grade   model   series   body_code   body_name   period   …  
  • 74   1.  Cubic  Data  Processing  Design Data  Cube   ディメンジョン(階層がある場合は最上位階層を選択する)を固定することで,各ディ メンジョンを次元軸に,1つのメジャーを各セルに取ったData  Cubeを作成できる Ex.  Cube  for  (  Country,  Car  Name,  Year  ) Date   Products     Car  Name   Level Cell:   (  Prius,  Korea,  2005)     -­‐-­‐>  10,000 PRIUS   MARK  X   2007   FAIRLADY  Z   2006   ROAD  STAR   2005   USA   Canada   Japan   Korea   Country   Level   Year     Level Loca-on  
  • 75   1.  Cubic  Data  Processing  Design Star  Schema   Dimension  tables   Loca-on   Country   State   City   Products   Company   Car  Type   Car  Name   Hierarchy   (level-­‐of-­‐detail)   Fact  table   State   Month   Car  Name     Profit   Sales   Payroll   Marke-ng   Inventory   Margin   ...   Hierarchy Car   Date   Year   Month   Day  
  • 76   3.  Business  Intelligence Dimension,  Measure   *  Date  Dimension  はツール側で自動的にlevelを考慮してくれる Most  Detailed  Dimensions   <city,  car  name> –  Original  Table   Most  Detailed  Dimensions Measure County State City Company Car  Type Car  Name Date USA California San  Jones TOYOTA Sedan   Corolla   2012-­‐08-­‐15 36 $3,000 USA California Palo  Alto TOYOTA Sedan Alion 2012-­‐08-­‐15 24 $2,000 USA California Los  Altos NISSAN SUV X-­‐TRAIL 2012-­‐08-­‐16 100 $1,000 USA New  York ManhaTan NISSAN Sport FAIRLADY  Z 2012-­‐08-­‐16 64 $500 Canada Alberta Airdrie Sport Road  Star 2012-­‐08-­‐15 4 $3,000 MAZDA Loca:on  Hierarchy Products  Hierarchy –  Big  Cube   <city County ,  car  nam e> <sta USA te,  c ar  n ame <cou > USA nty,  car   nam <*,  c eUSA > ar  n ame <cou > ALL ntry ,  car  typ <cou eUSA > ntry ,  car  nam <cou e> USA ntry ,  *> USA … <*,  * > ALL Date  Hierarchy Units Sales Holis-c   Measure State City Company Car  Type Car  Name Date Avg  of  Top  20 California San  Jones TOYOTA Sedan   Corolla   2012-­‐08-­‐15 $3,600 California ALL TOYOTA Sedan Alion 2012-­‐08-­‐15 $2,400 ALL ALL NISSAN SUV X-­‐TRAIL 2012-­‐08-­‐16 $1,000 ALL ALL NISSAN Sport FAIRLADY  Z 2012-­‐08-­‐16 $640 California San  Jones TOYOTA Sedan   ALL   2012-­‐08-­‐15 $3,600 California San  Jones TOYOTA ALL ALL 2012-­‐08-­‐15 $1,100 California San  Jones ALL ALL ALL 2012-­‐08-­‐15 $2,300 … … … … … … ALL ALL ALL ALL ALL ALL … $720
  • 77   1-­‐2.  Making  Mini  Cubes  from  Big  Cube Big   Cube   Batch  Process   Mini   Cubes   非専門家による   パターンプロセス   •  •  Focus! 例1.Time:  year  >  month  >  day  >  hour   •  例2.Item:category    >  sub_category  >   item_name   •  On  Memory   階層を持ったディメンジョンは1つの ディメンジョンとして扱う。   •  Treasure   Batch  Query   必要名ディメンジョンの組み合わせ だけ,Mini  Cubeが作られる。   •  Treasure   Batch  Query   軸にするディメンジョンを最大2つ選 択し,Mini  Cubeを作成する。   Dashboard  や  BIから直接参照するこ とを前提としているので,Mini  Cubes の保存場所はデータベース(イン デックスをきちんと作成しておく),メ モリ上になる。  
  • 78   1-­‐3.  Making  Cross  Table  from  Mini  Cubes Mini   Cubes   Interac-ve Cross   Tables   Excel   非専門家による   パターンプロセス   Mini  Cube  を2つのディメンジョンに限 定したのはクロス集計における2軸 の設定を自動で行うため。   •  クロステーブルの各セルの値には合 計,数,平均などが入る。   •  Treasure   Batch  Query   さらに  Mini  Cube  の中でクロス集計 が必要なものは  Excel  などの統計 ツールや  BI  の機能を使って作成す る。   •  Treasure   Batch  Query   •  クロス集計をインプットとした可視化 はよりわかりやすいものになりやす い。   BI  Tools On  Memory   Focus!
  • 79   1-­‐4.  Repor-ng  from  Mini  Cube  or  Cross  Table Mini   Cubes   Interac-ve Cross   Tables   Interac-ve Visualize   非専門家による   パターンプロセス   Excel   •  Treasure   Batch  Query   作成したMini  Cubeお よびCross  Tableを Dashboard  および  BI のインプットデータと する。   •  Import   レポーティング中に新 しい項目の集計が必 要な場合はBig  Cube からMini  Cubeに切り 出してそれを新たな インプットとする。   BI  Tools Dashboard Import   Treasure   Ad-­‐hoc  Query   Connector   Treasure   Batch  Query   BI  Tools On  Memory   Treasure   Ad-­‐hoc  Query   専門アナリスト   Focus!
  • 80   2.  Graph  Data  Processing  Design
  • 81   2.  Graph  Data  Processing  Design •  データのテーブルまたは項目を,「ディメンジョン」「メジャー」で分けるのではなく,ノー ド・エッジ・ステータスのグラフ(Property  Graph)で表現する。   •  上記の例では,ブックレビューデータの例。ユーザーが本をレビューした場合,ユー ザー(ノード)が本(ノード)に対して“review”(エッジ)をした場合の  Property  Graph。  
  • 82   2-­‐1.  Property  Graph  (Access  Log) •  アクセスログもまた  Property  Graph  による表現が可能。ユーザーが特定できていなく ても,ページ間(ノード)の遷移:  “access”  というアクションをエッジにしてグラフに落とし 込む。  
  • 83   2-­‐2.  Property  Graph  (Book  Review  Dataset) •  引き続きブックレビューデータの例。ユーザー(ノード)は本(ノード)に対して”add  to   list”,  “review”,  “buy”  という3種類のアクションを起こしている。   •  さらに別ユーザー(ノード)がレビューしたユーザーに対して  “comment”  というアクショ ンを起こしている。  
  • 84   2-­‐3.  Property  Graph  (Social  Game  Dataset) •  •  ソーシャルゲームデータの例。ユーザー(ノード)はアイテム(ノード)に対して  “pay” (エッジ) アクションを,仮想通貨(ノード)に対して  “use”,  “get”  (エッジ)アクションを起 こしている。また,アイテムは上位階層としてカテゴリ(ノード集合)を持つ。   また,ユーザー間に対して  “invite”(エッジ)アクションを,自分自身に対して  “login”,   “register”  を行っている。  
  • 85   2-­‐4.  Property  Graph  Visualiza-on •  ブックレビューの分析事例。それぞれのアクション  “review”,  “comment”,  “add  to   list”(エッジ)を分析軸としてデータ集計を行う。   •  ブックレビューデータセットによるデータ解析入門(準備編)  hTp://doryokujin.hatenablog.jp/entry/2012/06/28/011526   •  ブックレビューデータセットによるデータ解析入門(実践編1)  hTp://doryokujin.hatenablog.jp/entry/2012/06/29/174702   •  ブックレビューデータセットによるデータ解析入門(実践編2)  hTp://doryokujin.hatenablog.jp/entry/2012/07/03/024022  
  • 86   Sec.6  Data  Visualiza-on   •  1.  Treasure  Viewer   •  2.  Dashboard:  Metric  Insights   •  3.  Business  Intelligence:  Tableau  
  • 87   1.  Treasure  Viewer 目的   –  TD  Management  Console  からグラフを素早く参照するため   –  サンプルデータを素早く可視化し,全体像を把握するため   このために作られたのが 要求   –  集計結果を表・グラフですぐ表示できること   –  TD  Management  Console  内で機能すること   –  JS  ライブラリによるインタラクティブかつ綺麗なチャートである事   Treasure Viewer
  • 88   1.  Treasure  Viewer •  データ可視化ツールをデフォルトで提供   –  TQA  (Treasure  Query  Accelerator)  を利用し、大量のデータからドラッグ  &   ドロップでデータの可視化が行える   –  簡易な可視化ツールの扱い。高度な機能・要件が求められる場合、パー トナーのBIツールを使用してお客様の要件を満たす事も多い。   Treasure  Viewer   3rd  Party  BI  Tool  (Tableau)  
  • 89   1.  Treasure  Viewer 1. Database, Table名を選択
  • 90   1.  Treasure  Viewer 2. グラフを選択 3. X-軸,Y-軸とな るカラムを選択, ドラッグ&ドロップ レコードサンプル を表示
  • 91   1.  Treasure  Viewer グラフを表示 自動的にクエリが 生成される
  • 92   Dashboard(MI)  と  BI  (Tableau)  の違い Dashboard ( Metric Insights ) BI  (  Tableau  ) •  毎日更新されるデータ (KPI) を素早く参照する ため 解析者に関わらず全てのユーザーが参照する ため 異常値やイベントなどの効果を素早く把握する ため Smart Phone や Tablet からも参照するため •  異常検出機能,およびアラート機能を備えてい ること チャートへのアノテーション機能を備えているこ と チャートの一覧性・わかりやすさを重視してい ること (任意の時間インターバルでの)データ自動更 新機能を持っていること 素早く編集可能な互いに独立したパネル(ウィ ジェット)を持っていること 様々なデータベース・ファイル形式と接続でき るコネクタを備えていること •  •  •  目的 •  •  •  •  •  要請 •  •  •  •  •  •  •  •  •  様々の切り口・セグメントの組合せでデータを閲覧す るため インタラクティブな操作でドリルダウンや軸の切り替 えを行うため 様々なチャートとテーブルを組合せた情報表現を行 うため プレゼンに耐えうるクオリティの高いレポートを作成 するため インタラクティブな操作が可能なこと 豊富なチャートライブラリ,ダッシュボードエディタの 実装していること 最適化された中間データ構造(Data Cubeなど)を備 えていること マウス操作によってデータの深堀りや切り口の切り 替えが可能なこと JDBC / ODBC コネクタを初めとした様々なデータソー スとの接続口を持つこと
  • 93   2.  Dashboard
  • 94   2.  Dashboard 目的   –  毎日更新されるデータ  (KPI)  を素早く参照するため   –  解析者に関わらず全てのユーザーが参照するため   –  異常値やイベントなどの効果を素早く把握するため   –  Smart  Phone  や  Tablet  からも参照するため   Metric Insights はこれらの 要求   役割を高次元で担っている –  異常検出機能,およびアラート機能を備えていること   –  チャートへのアノテーション機能を備えていること   –  チャートの一覧性・わかりやすさを重視していること   –  (任意の時間インターバルでの)データ自動更新機能を持っていること   –  素早く編集可能な互いに独立したパネル(ウィジェット)を持っていること   –  様々なデータベース・ファイル形式と接続できるコネクタを備えていること  
  • 95   特徴:   –  メールアラート・アノテーション機能   –  1つ1つのウィジェットにクエリを埋め込む独立 型   –  あらゆるデータソース:{  テキスト,データベ ース,TD  Cloud  Storage  }  からのウィジェット を並べる事ができる   –  {  クエリ,集計インターバル,チャートタイプ ,データソース  }  指定のみで自動更新   –  ピボットテーブル,バブル /  ボックス /  ファ ンネル チャートにも対応   –  セットアップが容易    
  • 96   Data  Personaliza-on
  • 97   2.  Dashboard:  Widget  Seungs 1. 集計インターバ ルを設定 2. メジャーの種類 を設定 3. カテゴリを設定
  • 98   2.  Dashboard:  Widget  Seungs 4. Plug-inを選択 5. 接続するデー タソースを指定 6. クエリを記述 7. Sample Result を確認
  • 99   2.  Dashboard:  Widget  Seungs
  • 100   Personalized  Email  Digest  Delivered  to  Users トレンドライン View 詳細 重要な変化に関する アラート コメント
  • 101   Unique  Product  Benefits 日次  Sales  Chart   期待(予想)変動帯   アラートなし   統計的に有意な変化につい てはアラートで通知  
  • 102   3.  Business  Intelligence:  Tableau
  • 103   3.  Business  Intelligence Goal   –  Overview  first,  zoom  and  filter,  then  details-­‐ondemand   –  様々の切り口・セグメントの組合せでデータを閲覧するため   –  インタラクティブな操作でドリルダウンや軸の切り替えを行うため   –  様々なチャートとテーブルを組合せた情報表現を行うため   –  プレゼンに耐えうるクオリティの高いレポートを作成するため     Demand     –  インタラクティブな操作が可能なこと   Tableau はこれらの 役割を高次元で担っている –  豊富なチャートライブラリ,ダッシュボードエディタの実装していること   –  最適化された中間データ構造(Data  Cubeなど)を備えていること   –  マウス操作によってデータの深堀りや切り口の切り替えが可能なこと   –  JDBC  /  ODBC  コネクタを初めとした様々なデータソースとの接続口を持つこと  
  • 104   3.  Business  Intelligence Tableau   –  大多数の企業の導入実績(Zynga,  Nokia,  eBay,  etc…)   –  TD  用コネクタなど,連携が容易   –  豊富なチャートライブラリとデータソースコネクタを持つ  
  • 105   Tableau:  Seungs
  • 106   Tableau:  Seungs  
  • 107   Tableau:  Seungs  
  • 108   Tableau:  Seungs  
  • 109   Tableau:  Seungs  
  • 110   Tableau:  Seungs  
  • 111   Tableau:  Seungs  
  • 112   Tableau:  Seungs  
  • 113   Tableau:  Seungs  
  • 114   4.  MI  as  KPI  Dashboard  &  Tableau  as  Repor-ng  Tool C-level Execs Treasure Cloud Storage KPIs   Data-­‐Driven  Aler:ng   Collabora:on   Email  Burs:ng   Managers Tableau Dashboards Employees Increased  and  more  :mely  usage  
  • 115   Metric  Manager  for  Tableau ・ 上司   ・ 意思決定者   ・ ディレクター   ・ エンジニア   ・ マネージャー   ・ アナリスト   参照,モニター, アラート   KPI考察,   レポートサマリ   Treasure Cloud Storage 定時  KPI  取得クエリ   複数の  KPI  を組合せた レポーティング   •  主要 KPI  を一覧,モニタリングするツールとしての Metric  Insights   •  MI  の  KPI  群を組み合わせ,数値テーブルや考察を並べた レポー 応用的な分析 クエリ   ティングツールとしての Tableau   •  MI  へのダッシュボード埋込フローはプロセス化して学生アルバイト でも行えるように。   •  Tableau  へのレポーティングフローは専門アナリストが行う。   Treasure Cloud Storage
  • 116   Sec.7  Learning  Visualiza-on  Paverns   •  Learning  Visualiza:on  PaTerns  Part.1     hTp://doryokujin.hatenablog.jp/entry/2012/07/17/012854   •  Learning  Visualiza:on  PaTerns  Part.2       hTp://doryokujin.hatenablog.jp/entry/2012/07/18/005737   •  Learning  Visualiza:on  PaTerns  Part.3       hTp://doryokujin.hatenablog.jp/entry/2012/07/18/084702  
  • 117   Discussion & Q and A