[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
Upcoming SlideShare
Loading in...5
×
 

[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama

on

  • 1,114 views

 

Statistics

Views

Total Views
1,114
Slideshare-icon Views on SlideShare
1,108
Embed Views
6

Actions

Likes
3
Downloads
17
Comments
0

1 Embed 6

https://twitter.com 6

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    [C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama [C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama Presentation Transcript

    • db tech showcase 2013 Tokyo 2013.11.14 「今」を分析する ストリームデータ処理技術と その可能性 株 株式会社 日立製作所 製作 情報・通信システム社 ITプラットフォーム事業本部 横山 高広 © Hitachi, Ltd. 2013. All rights reserved.
    • 0-1 セッションの要約  ストリームデータ処理って何なの?  データベースと何が違うの? デ タベ スと何が違うの? どうやって使うの? どんなところで使われてるの? で、実際どうなの? といった疑問を解決します。 そして今日から、 データ処理方式の選択肢のひとつに 「ストリ ムデ タ処理」 「ストリームデータ処理」 を加えてもらいたい © © Hitachi, Ltd. 2013. All rights reserved. Hitachi, Ltd. 2013. All rights reserved. 2
    • Contents 1.ストリームデータ処理が生まれた背景 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 2 ストリ ムデ タ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ 4 まとめ © Hitachi, Ltd. 2013. All rights reserved.
    • Contents 1.ストリームデータ処理が生まれた背景 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 2 ストリ ムデ タ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ 4 まとめ © Hitachi, Ltd. 2013. All rights reserved.
    • 1-1 ビッグデータ時代がやってきた! モノ の発信 電力メーター Big Data 運行情報 環境 気象デ タ 環境・気象データ 設備監視 通話ログ SNS カーナビ 人 の発信 つぶやき GPS 監視映像 物流トレース 物流トレ ス 動画・画像・音声 コンテンツダウンロード コンテンツダウンロ ド スマートフォン ICカード利用 人の移動 ネット購入 データベース 診断画像・ 診断画像 電子カルテ © © Hitachi, Ltd. 2013. All rights reserved. Hitachi, Ltd. 2013. All rights reserved. 5
    • 1-2 ビッグデータ時代におけるデータの変化 ありとあらゆるところから、データが湧き出てくる データがデジタル化されている ■ デ タがデジタル化されている ■ センサー技術の進展により、今まで分からなかったことが分かる ■ ブロードバンドの普及により、どこからでも大量のデータを取得できる 普及 り、 も大量 デ タを取得 る 機械から生成されるデータ ITシステムから生成されるデータ 設備情報 環境情報 システムログ 業務ログ 携帯電話 位置情報 アクセスログ メール ICカード … SNSログ … モノやヒトのデータを活用した新たなビジネスが期待されている © Hitachi, Ltd. 2013. All rights reserved. 6
    • 1-3 ビッグデータ時代におけるデータの活用方法 1点の値ではなく、時系列な値の変化に意味がある 時々刻々と絶え間なく、データが発生し続ける ■ 時々刻々と絶え間なく デ タが発生し続ける ■ 「今」を高速かつ高度に分析(傾向/相関/軌跡分析など)して、 現場 即座 アク 現場に即座にアクションすることが重要 する 要 項目 センサーデータ 空間データ データ種別 温度、湿度、振動、圧力・・・ GPS RFID 電子乗車券 デ タ種別 温度 湿度 振動 圧力 GPS、RFID、電子乗車券… データ型 活用例 150 【 波形 位置情報、軌跡 機器診断 人流分析、物流分析 人流分析 物流分析 波形 軌跡 ◎発生 数 】 メ ッ セ ー ジ 100 ◎予兆 50 ◎復旧 【時間軸】 0 11:59 12:00 12:01 12:02 12:03 12:04 © Hitachi, Ltd. 2013. All rights reserved. 7
    • 1-4 ビッグデータ時代におけるデータの活用例 流通分野 個客指向マーケティング 医療分野 オーダーメイド医療 金融分野 顧客細分型 金融・保険サービス 細 保 ビ 行政分野 世論分析・意思決定支援 保守分野 予防保守 運用サ ビス 予防保守・運用サービス 予防保守・運用サービス 運用サ 電力分野 電力需給予測サービス 電力需給予測サービス 交通分野 車流分析予測サービス 車流分析予測サービス 通信分野 通信状況分析サービス 通信状況分析サービス ヒ ト の 情 報 モ ノ の 情 報 © Hitachi, Ltd. 2013. All rights reserved. 8
    • 1-5 ビッグデータ時代のITに求められること データの利活用サイクルに応じたデータ処理技術が必要 リアルタイムに今が分かる 電力メーター 電力メータ 電力メ ター ブログ ネット購入 金融取引ログ SNS 自分にあったサービスが得られる 新たな気づきを得る 自動改札 ICカード利用 ビッグデータ処理要件 1.リアルタイム処理 リアルタイム処理 2.蓄積・検索 3.集計 分析 集計・分析 © Hitachi, Ltd. 2013. All rights reserved. 9
    • 1-6 ビッグデータの利活用を支えるプラットフォーム ビッグデータの利活用サイクルに応じたミドルウェアをご提供 1.リアルタイム処理 リアルタイム処理 3.集計・分析 大量の情報を リアルタイム処理 大量の情報を 対象とした分析 異 常 度 異常 稼 動 デ ー タ 故障 予兆 警戒 正常 時間 P1 P2 P3 P4 診断対象 同機種平均 時間 Hadoop uCosminexus Stream C S a Data Platform uCosminexus Grid Processing Server ストリームデータ処理基盤 2.蓄積・検索 蓄積 検索 uCosminexus Elastic Application Data t A li ti D t store インメモリ型データグリッ ド 大量の情報を 高速検索・効率保管 履歴データ グリッドバッチ グリ ドバ チ Hitachi Advanced Data Binderプラットフォーム Binderプラットフォ ム 時系列データストア技術 © Hitachi, Ltd. 2013. All rights reserved. 10
    • Contents 1.ストリームデータ処理が生まれた背景 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 2 ストリ ムデ タ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ 4 まとめ © Hitachi, Ltd. 2013. All rights reserved.
    • 2-1 ストリームデータ処理の研究の歴史 新しいようで、実は長く研究され続けている技術 ■ ■ ■ ■ 米国の有力大学のDBグループで研究開始(2002~) 米国の有力大学のDBグル プで研究開始(2002 ) 学術成果の学会発表(2003~) 日立 「uCosminexus Stream Data Platform」リリース(2008~) 」リリ ( ) 2013年現在も主要学会で研究発表継続中 U.C. B k l U C Berkeley TelegraphCQ Wisconsin Wi i Niagara Stanford STREAM MIT他 MIT他 Aurora A 日立から 研究員派遣 他に、Cornell Univ. New York Univ. AT&T などが研究推進 © Hitachi, Ltd. 2013. All rights reserved. 12
    • 2-2 ストリームデータ処理の位置付け 適用アプリ: 銀行トランザクション, チケット予約,通話課金,… メ モリリ 適用アプリ: アルゴリズムトレーディング, コンプライアンスチェック,不正監視・検知,… ストリームデータ処理,複雑イベント処理 ストリ ムデ タ処理 複雑イ ト処理 インメモリベースのストック型データ処理技術 イ リ ス スト ク型デ タ処理技術 インメモリデータベース サーバ 分散オブジェクトキャッシュ データ格 格納位置 1980年代~: 研究開始 DB サーバ IMDB1 ト レ ー ジ ストリームデータベース 1990年代~: 商用化 CEP ・超高速イベント処理を実現 ・クエリインタフェース提供 により開発工数削減 差分データ処理技術 サーバ ストレージベースのストック型データ処理技術 構造型データベース DB ス 2000年~: 研究開始 サーバ オブジェクト キャッシュ サーバ ファイル サーバ DB ファイル フ イル MV3 1990年代~: MV差分更新 データ処理での時間の取り扱い技術 関係データベース 1960年代~: 構造型DB 1970年代~: RDB2 ストック型 ・データを事前に準備 ・デ タを事前に準備 ・データサイズ有限 DB サーバ サ バ デ タ種別,処理モデル データ種別 処理モデル DB 1980年代~: Temporal DB 1990年代~: 時系列DB フロー型 ・データ到着時に処理 ・デ タ到着時に処理 ・データサイズ無限 凡例: 1 In-Memory DB, 2 Relational DB, 3 Materialized View (実体化ビュー) © Hitachi, Ltd. 2013. All rights reserved. 13
    • 2-3 ストリームデータ処理の動作原理 データ発生時にリアルタイムに処理するフロー型データ処理 ストック型データ処理(従来DBMS) フロー型データ処理(ストリーム) リアルタイム 集計・分析 集計 分析 事業活動 情報 DB リアルタイム 表示 DB ストリームデータ処理 売上データ 商品データ 取引情報 デ ー タ DB操作で 集計・分析 データをDBにストック(蓄積)してから, データを集計・分析する。 一括処理 括処理 デ タ保存必要 データ保存必要 データの 量と質の変化 操作ログ センサデータ POSデ タ POSデータ RFID 実世界データ データが発生する度に, 逐次,データを集計・分析する。 リアルタイム処理 データ保存不要 デ タ保存不要 © Hitachi, Ltd. 2013. All rights reserved. 14
    • 2-4 ストリームデータ処理の要素技術と特長 「今」 を高速かつ高度に分析するための技術 ウィンドウ演算により、時系列データの分析を簡単に実現 ■ ウィンドウ演算により 時系列デ タの分析を簡単に実現 ■ インメモリ差分計算により、超高速処理を実現 ■ 分析シナリオは、SQLを拡張したCQLで記述 分析 ナリオ 、 を拡張し 記述 CQLによるシナリオ記述 系 分析 時系列データ分析 分析結果 分析シナリオ 事前登録 ネ ト ク ネットワーク 稼動情報 ICカード 稼動監視 通信データ スライディング・ウインドウ 入力 情報 株a,1 株b,2 株a,4 株b,6 株a,6 株a,5 株a,15 株a,9 b,4 株b 4 株a,3 株b,2 株a,1 株a 計15 株b 計6 ストリ ムデ タ処理基盤 ストリームデータ処理基盤 uCosminexus Stream Data Platform 結果ファイル 集計・ 分析結果 ダッシュボード (見える化) インメモリ差分計算 © Hitachi, Ltd. 2013. All rights reserved. 15
    • 2-5 ウィンドウ演算 無限に続く時系列データを効率よく処理 スライディング・ウィンドウにより、時系列データの分析範囲を定義 ■ スライディング ウィンドウにより 時系列デ タの分析範囲を定義 ■ 分析に必要なデータだけを抽出することで、データ処理を効率化 ■ 分析シナリオに複数種のスライディングウィンドウを提供 分析 ナリオ 複数種 ラ ディ グウィ ウを提供 時系列 データ デ タ 102 101 100 99 2 1 0 スライディング・ウィンドウで切り取られた処理対象の時系列デー タ ■ スライディング・ウィンドウの種類 ・データの数(ROWS) 例: 直近の100取引分を対象にする ・時間(RANGE) 例: 直近3分間分を対象にする ・グループ分け(PARTITION)) 例: 各銘柄の最新5取引分を対象にする 分 ( )) 例 各銘柄 最新 分を 象 す © Hitachi, Ltd. 2013. All rights reserved. 16
    • 2-6 インメモリ差分計算 圧倒的な超高速処理を実現 インメモリデータ処理により、ディスクI/Oを排除 ■ インメモリデ タ処理により ディスクI/Oを排除 ■ 中間結果を利用した差分計算により、大量データ処理時の負荷を軽 減 ■ 分析対象のデータ数に依存しない、一意の計算量で処理を実現 株価指数の計算処理の例 スライディング・ウインドウ 株価,株式数 A社,xxx円,xxx株 B社,xxx円,xxx株 C社,xxx円,xxx株 : 時価総額 xxxxx スライディング・ウインドウ 分析対象データ、中間計算結果 はメモリ中に保持 A社,yyy円,yyy株 B社,xxx円,xxx株 C社,xxx円,xxx株 : yyyyy 変化のあった株価のみを演算 xxxxx - A社,xxx円,xxx株 + A社,yyy円,yyy株 © Hitachi, Ltd. 2013. All rights reserved. 17
    • 2-7 クエリ言語CQL(Continuous Query Language) 幅広い業務に対応可能なクエリ言語を提供 SQLを拡張した言語であるため、習得は容易 ■ SQLを拡張した言語であるため 習得は容易 ■ ウィンドウ演算により時系列データの分析範囲を定め、関係演算を実 行 ■ アプリケーションの個別開発と比較して、開発効率を大幅に向上 処理モデル 入力・出力 時系列 データ ストリーム化演算 ウィンドウ演算 中間結果 リレーション 関係演算 選択、結合 集合演算 集合演算など CQLの例 …ストリーム化演算 IStream( Select id, Sum(val) as S …ウィンドウ演算 ウィ ウ演算 [ ] From str [Rows 3] Group by id) © Hitachi, Ltd. 2013. All rights reserved. 18
    • 2-8 ストリームデータ処理基盤のプログラム構成 分析シナリオ定義、入出力APのシンプルなプログラム構成 シンプルなプログラム構成と簡単な分析シナリオ定義により、システ ■ シンプルなプログラム構成と簡単な分析シナリオ定義により システ ム 開発や分析シナリオの開発や変更を短期間で実施可能 開発や分析 ナリオ 開発や変更を短期間 実施可能 ■ uCSDP-AF使用時は定義作成だけでアプリケーション作成不要 アプリケーション開発時に作成する部分 入出力アダプター定義 入力データ 分析シナリオ定義 ダッシュボード定義 ダッシュボ ド ダッシュボード 出力処理 データ抽出処理 デ 処 イベント ファイル 通信 パケット 出力結果 入力AP 入力アダプター ストリーム処理 出力AP 出力アダプター ファイル ストリームデータ処理基盤 ストリームデータ処理基盤 ー アプリケーションフレームワーク ト ムデ タ処理基盤 プ ケ シ ム ク CQL: Continuous Query Language © Hitachi, Ltd. 2013. All rights reserved. 19
    • 2-9 ストリームデータ処理実用化に向けた機能 # 機能名 機能詳細 1 イベント発生時刻 処理時刻軸を発生源時刻と モードの選択機能 受付時刻から選択 2 入力データ 順序性保証機能 効果 3 時刻解像度機能 ・対応範囲拡大 入力データの時刻情報逆転時、 ・開発工数削減 順序を補正 ・安定稼働 すべての入力データを保持せず、 ・リソース削減 ・安定稼働 単位時間の統計情報を保持 安定稼働 Eagerスケジュール 機能 複数のクエリを1つのクエリ処理 として一括処理 として 括処理 ・レイテンシ向上 向 入出力アダプター 5 機能 HTTPやファイルなど、標準的な 入出力処理を標準提供 ・開発工数削減 開発工数削減 4 © Hitachi, Ltd. 2013. All rights reserved. 20
    • Contents 1.ストリームデータ処理が生まれた背景 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 2 ストリ ムデ タ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ 4 まとめ © Hitachi, Ltd. 2013. All rights reserved.
    • 3-1 ストリームデータ処理でできること syslog Proxylog 認証log syslog Proxylog 認証log ITシステムで発生する各種ログ デ ータ 発 生と 今を見える化 同 時 に センサーから出力される数値データ 瞬 時 に 分 析 クルマやヒトの位置情報 リアルタイム監視 DB、ファイル 価値あるデータに変換 © Hitachi, Ltd. 2013. All rights reserved. 22
    • 3-2 ストリームデータ処理の適用分野 株式指数算出配信 Webサービス監視 交通状況モニタリング ITから実世界まで幅広い分野に適用 ITから実世界まで幅広い分野に適用 設備・環境監視 センサーネット管理 © Hitachi, Ltd. 2013. All rights reserved. 23
    • 3-3 株価指数算出配信 ■ 株価が変動する度に株価指数を算出、ミリ秒レベルでユーザ配信 ■ 株価指数計算の高速化により、配信サービスのサービスレベルを大幅に向上 ■ 株価指数計算の柔軟性確保により、システム運用コストも低減 指数高速配信システム 入力AP 売買 システム 集計・分析 シナリオ 出力AP ストリームデータ処理基盤 ストリ ムデ タ処理基盤 株価 uCosminexus Stream Data Platform 電文組立/ 配信処理 電文受信/ フィルタ処理 相場 株価指数 ユーザ システム 指数計算処理 従来サービス 1秒毎 指数構成銘柄の 値段の変化毎 処理性能 指数高速配信 スループット 8,000件/秒以上 レイテンシ 配信間隔 10ミリ秒以下 (1~10ミリ秒) 参考:2011年2月22日付弊社ニュースリリース「東京証券取引所の指数高速配信サービスが開始 ~ 世界最高水準、TOPIXをミリ秒レベルで配信 ~」 http://www.hitachi.co.jp/New/cnews/month/2011/02/0222.html © Hitachi, Ltd. 2013. All rights reserved. 24
    • 3-4 Webサービスのサービスレベル監視 ■ 大量のWebアクセスデータから、「今」を高速かつ高度に分析 ■ Webサービスのサービスレベル(応答時間やエラー率など)の見える化と監視 ■ データの傾向から、「いつもと違う」 障害の予兆をリアルタイム検知 統合システム運用管理 応答時間 JP1/IT Service Level Management 現在の値 過去の情報(ベースライン)と比較して いつもと違う傾向を検知 (外れ値検知) SLOしきい値 ベースライン ホーム画面 正常範囲 (ベースラインから 算出) 時間 リアルタイム監視画面 しきい値検知より早く 予兆の検知が可能 外れ値検知 (予兆検知) しきい値 検知 SLO : Service Level Objective © Hitachi, Ltd. 2013. All rights reserved. 25
    • 3-5 交通状況モニタリング ■ 車両位置情報を収集・分析し、交通状況をリアルタイムにモニタリング ■ 各車両の速度や進行方向を分析、周辺車両の状況により渋滞や事故を検知 分析シナリオ 車両ID (緯度,経度) 速度計算 渋滞検出 走行方向計算 密度計算 データ入力 約2,000件/秒 渋滞情報 事故情報 事故検出 自動車 車両位置情報 ストリームデータ処理基盤 uCosminexus Stream Data Platform 各車両走行状況 赤:低速 黄:中速 緑:高速 始点:一つ前の位置 終点:最新の位置 渋滞・事故検知 渋滞 事故検知 この位置で 渋滞 事故が発生 渋滞・事故が発生 Ⓒ2008 Google Ⓒ2008 Zenrin © Hitachi, Ltd. 2013. All rights reserved. 26
    • 3-6 データセンター空調制御 ■ 無線温度センサーから収集した室温データを、発生と同時に瞬時に分析 ■ サーバ機器の吸排気温度の傾向・相関分析により、熱溜りを検知し対策 サーバ室 分析シナリオ 室温情報を表示したいサーバをクリック 吸気温度と 気 排気温度の 相関分析 室温上昇の 傾向分析 データセンターレイアウトの表示 事前登録 熱溜り サーバ別詳細情報の表示 サ バ別詳細情報の表示 分析1 相関/ 傾向分析 熱溜りのイベント 冷気不足による 熱の回り込み 無線通信による サーバ室温情報の 逐次収集 日立センサーネット情報システ サ ネッ 情報シ テ ム 分析2 判定 ストリームデータ処理基 AirSenseⅡ 盤 コールドアイル:空調機が送り出してサーバが吸収する冷気を集めた空間 ホットアイル:サーバの排熱を集めた空間 サーバ室温状況のモニタリング パトライトによるアラーム 熱溜り検知・アラーム通知 熱溜り検知 アラ ム通知 © Hitachi, Ltd. 2013. All rights reserved. 27
    • 3-7 日立・横浜事業所 「快適ecoプロジェクト」 ■ 2012年7月、日立・横浜事業所の新社屋オープン ■ 太陽光発電、ダブルスキンカーテンウォール、ライトウェルなどの最新のeco設備を導入 ■ 新社屋全体がビッグデータとスマートシティの実証実験室 © © Hitachi, Ltd. 2013. All rights reserved. Hitachi, Ltd. 2013. All rights reserved. 28
    • 3-8 日立・横浜事業所 「快適ecoプロジェクト」 ■ 快適とeco、人と設備をビッグデータ処理技術が融合 ■ ヒトとモノの情報をリアルタイムに収集・分析し、現場に即座にフィードバック ■ スケジューラや在席管理システムとの連携も計画中 快適ecoモニター 快適ecoモニター 社員の声 アンケート、在席情報… 設備情報 室温、湿度、騒音、電力量… 外部情報 気象情報、災害情報… 快適と 快適とecoの実現 実現 設備制御の最適化 社員のecoマインド醸成 © Hitachi, Ltd. 2013. All rights reserved. 29
    • Contents 1.ストリームデータ処理が生まれた背景 1.ストリームデータ処理が生まれた背景 2.ストリームデータ処理の原理と特長 2 ストリ ムデ タ処理の原理と特長 3.ストリームデータ処理の適用事例 4.まとめ 4 まとめ © Hitachi, Ltd. 2013. All rights reserved.
    • 4-1 まとめ ■ ビッグデータから「今」を分析するストリームデータ処理技術をご紹介 ■ この新しいデータ処理技術が切り拓いていく新しい価値は無限大 ■ これから、データ処理方式の選択肢のひとつに加えてもらいたい リアルタイム監視によるリスクマネジメント リアルタイム監視によるリスク ネジメント 新たな付加価値による新ビジネスの創造 自動運転・予防保全によるビジネス機会拡大 携帯電話 サービス 金融・証券 自動取引 取引監視 システム 稼動監視 予兆検知 相関分析 交通サービス 気象、環境、 気象 環境 エネルギー 位置情報サービス 運行監視 渋滞予測 気象解析 使用量監視 製造・生産 ライン 品質予測 製造監視 コンプライ アンスチェック 内部統制 不正検出 物理×IT セキュリティ 画像監視 人流分析 © Hitachi, Ltd. 2013. All rights reserved. 31
    • 4-2 さいごに(セッションの要約)  ストリームデータ処理って何なの?  データベースと何が違うの? デ タベ スと何が違うの? どうやって使うの? どんなところで使われてるの? で、実際どうなの? といった疑問を解決します。 そして今日から、 データ処理方式の選択肢のひとつに 「ストリ ムデ タ処理」 「ストリームデータ処理」 を加えてもらいたい © © Hitachi, Ltd. 2013. All rights reserved. Hitachi, Ltd. 2013. All rights reserved. 32
    • 他社商品名、商標等の引用に関する表示 • • • Google Earth は,Google Inc. の登録商標です。 その他、記載の会社名、製品名は、それぞれの会社の商標または登録商標です。 その他 記載の会社名 製品名は それぞれの会社の商標または登録商標です 製品の改良により予告なく記載されている仕様が変更になることがあります。 © Hitachi, Ltd. 2013. All rights reserved. 33