• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
20130612 ibm big_dataseminar_streams
 

20130612 ibm big_dataseminar_streams

on

  • 1,141 views

IBM ビッグデータセミナーの資料(2013年6月12日)

IBM ビッグデータセミナーの資料(2013年6月12日)
お問い合わせ: eAtsushi@jp.ibm.com

Statistics

Views

Total Views
1,141
Views on SlideShare
1,141
Embed Views
0

Actions

Likes
0
Downloads
51
Comments
1

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • 資料ダウンロード(SAVE)をクリックすると、ログインが表示されます。FACEBOOK/LINKEDINもしくはSlideShareのアカウントでログインする必要があります。ただ今、こちら側のサイトにダウンロードサイトを準備しますので、SNS経由でのダウンロードが何らかの理由で難しい場合は、少々お待ち願います。
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    20130612 ibm big_dataseminar_streams 20130612 ibm big_dataseminar_streams Presentation Transcript

    • リアルタイムデータ分析を実現するストリーム・コンピューティング技術〜「今」を分析するためには〜Atsushi Tsuchiya (eAtsushi@jp.IBM.com)Technical Lead, Worldwide Big data Tiger team.Sales Div. Information Management Div.IBM SoftwareCertified InfoSphere Streams Engineer & Subject Matter Expert
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜現在さまざまなデータや実世界のイベントがやり取りされ、データ量が増加しています【全世界のデータ量は増加傾向にある】900080007000600050004000300002010 2015センサー&デバイスソーシャルメディアVoIP(音声)エンタープライズデータデータ量(エクサバイト)(確実性)(速度)(多様性)(量)“量”だけではなく、データが持つさまざまな特性をとらえることも重要です
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜IBMが考えるビッグデータ・プラットフォームData inMotionData atRestData inMany FormsInformationIngestionandOperationalInformationDecisionManagementBI and PredictiveAnalyticsNavigationandDiscoveryIntelligenceAnalysisLanding Area,Analytics Zoneand ArchiveRaw DataStructured DataText AnalyticsData MiningEntity AnalyticsMachine LearningReal-timeAnalyticsVideo/AudioNetwork/SensorEntity AnalyticsPredictiveExploration,IntegratedWarehouse,and MartZonesDiscoveryDeep ReflectionOperationalPredictiveStream ProcessingData Collection viaMQTT,MessagingSiteData IntegrationMaster DataStreamingData Life Cycle Managementいつ、誰が、何を、何のためにデータを使おうとしているのか?ワークロードとコスト最適化に対応できることが、このIBMのビッグデータアーキテクチャの概念です。Landing…Archiving with adhoc access Offline…Active/Landing Data MovementArchiving/Offline Data Movement
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜ストリーム・コンピューティングとは様々な情報源からリアルタイムで流⼊する多種多様なデータを、ディスク保存する前に分散並列処理・分析する「センス&レスポンス⇒プリペア&アクション」⼿法。過去の事実の発⾒起きていることの把握ストリーム・コンピューティング【今の出来事】Nowcast従来のデータ処理⼿法【過去の出来事】■目的静的な過去のデータを分析し、過去の事実を発⾒する■目的流⼊するデータをリアルタイム分析し、直近の事実を発⾒するプリペア・ステージアクション
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜データを”永久”に保持しない従来のデータ処理⼿法との違い:全データに対する処理を目的とせず、流れるデータをインメモリで加工処理しデータ出⼒をする⼀連の流れを最も簡単にモデル化したデータ処理モデルを「ストリーム・コンピューティング」と呼ぶ。記録データデータ定期的⼀括処理処理結果記録データ処理要求 処理結果データ中間データ処理データバッチ処理 OLTP処理 ストリーム処理更新トランザクション従来のデータ処理※⼀定時間・区間のデータをメモリ上に保持します。※全てのデータはHDDに永続化されていることが前提。
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜情報処理における時間軸の変化過去に何が起きたのか?特⻑:テラバイト・レベルのデータ量; 課⾦履歴; 監査向けデータストレージ; ほとんどのケースではアーカイブされているオフライン・データ; オンラインからの集約、集計されたデータこの(課⾦)ピリオドに何が起きたのか?特⻑:数百GBのデータ; 直近ピリオドのデータ; 情報の照会データ; ほとんどのケースでオンラインデータといくつかのロケーションやコンテキスト情報を含むこの週に何が起きたのか?特⻑:数百GBのデータ; ロケーション情報やコンテキスト; 全てオンラインデータ, 幾つかはインメモリ・データ、また直近の購買などのデータや履歴情報; 先週の状況データや、サポートデスクへの問い合わせデータ、課⾦状況、品質状況(クレーム)、工事情報など今日、何が起きたのか?ギガバイトのデータ量;ロケーションやコンテキスト情報; 全てがオンラインで、ほとんどのデータがインメモリ上に集約。ロケーション情報やロケーション変更情報この5分間に何が起きたのか?何が今起きたか?ギガバイト以下のデータ量; ロケーションやコンテキスト情報; 全てがオンライン、近々の集約されたデータはインメモリ処理、直近のヒストリもインメモリ処理(購買履歴); ロケーション情報やロケーション変更この5秒間に何が起きたのか?今、現在進⾏形で何が起きているのか?メガバイトのデータ量; ロケーション、コンテキスト; 全てがインメモリ処理;ロケーション情報、ロケーション変更、使⽤しているサービス 、使⽤したサービス情報などデータの鮮度
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜⼀般的な情報処理の時間軸情報ソース(取込み)アクションまでに所要する時間WAREHOUSEレポートアドホック・クエリデータマートビジネスプロセッシング & イベント管理オペレーショナルレポートダッシュボード 計画 スコアリング・カード分析モデル & 情報データ・インテグレーションオペレーショナル・データ・ストア(ODS)意思決定アクション
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜ストリーム処理の時間軸- アクションまでの実⾏時間短縮- より速く予測するアクションまでの時間情報ソース(取込み)WAREHOUSEレポート動的なクエリデータ・インテグレーションオペレーショナル・データ・ストア(ODS)データマートビジネスプロセッシング &イベント管理オペレーショナルレポートダッシュボード 計画 スコアリング分析モデル & 情報分析モデル& リアルタイムな情報様々なコンテンツ意思決定アクション
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜コスト最適化-CPUリソースの削減蓄積データ全体量に対してのCPUリソースは必要なく、連続的に処理を⾏い、サマリ表へ結果のみを書き出します。• 1億件のCDR(通話記録)を2時間で処理(140万件毎秒)• HS22 Bladeサーバ(2台)8コアx2, 2.5 GHz, 64 GB memory (総計16コア)• 平均CPU使⽤率: 75% - 平均メモリ使⽤率~ 6GB740%効率化62% 削減効果5億500万CDR/hr6800万CDR/hr16コア (x86)42コア (P6)適応後適応前ストリーム技術は、従来の方式と比べ圧倒的なROI/TCOを実現します。出典:IOD 2011 las Vegas※CDR = Call Detail Recordの略(通話記録)※DBに対して⼀度しか実⾏しないバッチ・SQL処理は、積極的に前段のストリーム・プリプロセッサーにオフロードできる候補です。データ分析基盤Func1FilteringFilteringFunc2Func3AggregatorAggregatorFunc4Func5Func6Func8Func9Func7《月次バッチ処理(ID毎の積算処理など)をDBに格納する前段でプリプロセッサーで処理。計算結果をDBへ格納。月締めのDBバッチ処理は、サマリ表へのバッチを⾏う》
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜あらゆるビジネス要求における即時性への対応「必要な時に必要な情報を」断続的に発生するデータを分散並列処理ディスクに蓄積せずに、インメモリ処理多種多様なデータを扱える柔軟性IBM InfoSphere Streams• “米国政府は 2003年から IBMリサーチと急進的な新しいアプローチについて協業しています。それは多様なタイプの動いているデータストリームにハイスピード、スケーラブルかつ複雑なデータ分析を⾏うものです。 プロジェクトが非常に成功しているので、別の政府機関でも将来の様々なプロジェクトでより⼤きな成功を収められるように、米国政府はさらに追加でこれを導⼊する予定です。“- アメリカ合衆国政府IBMワトソン研究所が発明したストリーム・コンピューティング2002 2003 2006200520042007 20102008 2009 2011
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜11データ収集基盤データ分析基盤Func1FilteringFilteringFunc2Func3AggregatorAggregatorFunc4Func5Func6Func8Func9Func7• ⼤量データ:データベースが処理できるよりも⼤量かつ速い、リアルタイム性を求められる• 複雑な分析:複数情報ソース、構造化・非構造化データ( 信号、ビデオ、音声)の関連付け、処理• 処理時間: リアルタイムなレスポンスが必要• ⼤量データ:データベースが処理できるよりも⼤量かつ速い、リアルタイム性を求められる• 複雑な分析:複数情報ソース、構造化・非構造化データ( 信号、ビデオ、音声)の関連付け、処理• 処理時間: リアルタイムなレスポンスが必要スケーラブルな超高速処理実⾏環境ディスクに保存する前に、⼤量かつ多様な、リアルタイム・データの高速処理(連続的に流⼊する)様々データに対して、リアルタイムで高速分析・処理をする。ディスクに保存する前に、⼤量かつ多様な、リアルタイム・データの高速処理(連続的に流⼊する)様々データに対して、リアルタイムで高速分析・処理をする。多様な情報ソース対応•業務処理の拡⼤に併せて、サーバー拡張可能•並列処理・直列処理を複数の筐体に拡⼤・分散可能ニュース、気象情報、テキスト(日本語、英語)、画像(静⽌画・動画)、音声など、これまで扱えなかった情報を相互に関連付けて解析可能IBM InfoSphere Streams
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜断続的に流れるデータの連続処理センス & レスポンスSOURCEバンドルDBアクセス事前に定義されたオペレーターユーザ定義(C++/Java)トランスポート:TCP/UDP/LLM/InfinibandSINK蓄積すること無く、連続的にデータを取り込み連続的に処理・分析、そしてアクションへリアルタイムな意思決定サポートプリペア&アクションSPSS/Rファイルシステム:NFS/GPFS分岐IN-OUT:TCP/UDP/MQ/MQTT/HTTP(s)/DB/File
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜リアルタイムモニタリングソリューション概要• 情報のリアルタイム可視化• Cognos BIとの組み合わせが可能• アラートの⾃動化• ドリルダウン、フィルタリングを画面上から操作-データベースに蓄積されているデータに限るMake decisions in-flight with integrated real time information to monitor the pulse of the businessデータストアCognos 10 BIReportReal-timeMonitoringdashboardObjectsデータ収集(MQTT)DB2MessagingSightDatabaseStreams
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜• データセンターにおける電⼒消費を集中モニタリング• 障害回避、およびメンテナンス技術構成要素:• ストリーミング分析InfoSphere Streams• Hadoop 分散処理InfoSphere BigInsights• ビジネスインテリジェンス(BI)目的:ログ分析による• 電⼒料⾦の予測、電⼒消費の最適化• 変則的な利⽤の検知• プレゼンス情報よる電⼒消費管理・監視CISCO turns toIBM big data forintelligent infrastructuremanagementデータセンタ(ログ監視、解析)における事例
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜1515交通インテリジェントな交通管理・渋滞予測⾃動料⾦システム製造故障監視、予測M2Mセンサーマイクロチップの製造のプロセス管理自然管理システムPM2.5の飛散シミュレーション⽔資源の管理生態系監視風⼒発電システムなど通信サービス通話記録処理、課⾦前処理DPI・ネットワーク監視ロケーション・ベースのマーケティング新生児⽤ICUのモニタリング伝染病の早期警告システムリモート医療モニタリング・システム⼼臓ペースメーカー株式市場アルゴリズム取引、指標計算、ルーティング計算天気が株価に及ぼす影響を分析待ち時間を最小化したうえで、市場データを分析セキュリティ不正⾏為のリアルタイム検出顔認識による⾃動⼊館ハッキングの検出その他シミュレーション(データ解析)スマート・グリッド(メータ)ソーシャルメディア分析GPGPUによるHPC計算DNAシーケンス解析⾼度な数理計算⾃動ビッドシステム(⼊札)ETL映像・音声・音波の分析・監視サイバーセキュリティの検出重要施設の監視警察、防衛、およびサイバー・セキュリティーあらゆる領域での可能性と実績医療とライフサイエンス
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜• 言語• SPL(Streams Processing Language)• 開発環境• StreamsStudio (Eclipse)• WEB管理コンソールランタイム実⾏環境(Linux x64bit・Power7)• TCP/UDP/LLM/ Infiniband• 最⼤125サーバまでの拡張性• 標準ツールキット• 拡張ツールキット• インターネット• DWH・DB• フィナンシャル• データ・マイニング• スコアリング(PMML)②高い開発生産性〜ドラッグ&ドロップ分散処理を隠蔽〜③多彩な連携機能とツールキット3つの構成要素RuntimeRuntimeRuntimeRuntime①圧倒的な高速実⾏環境※製品には含まれない。SPSSWebSphereMQ/MQTT
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜InfoSphere StreamsInfoSphere StreamsInfoSphere Streamsの概要アダプターアダプターサービス品質ダッシュボードサービス品質ダッシュボード検知・アラート検知・アラートリアルタイムな意思決定サポート 報告 / 分析報告 / 分析地図・空間情報地図・空間情報連携インターフェイス連携インターフェイスフィルタリングセンシングスコアリング解析ディープな分析へのブリッジセンサーやイベント情報、アラート、各種状況データ事前に定義されたオペレータ群SOURCEオペレータユーザ定義オペレータDBアクセスSINKオペレータ事前に定義されたオペレータ③情報の連携SPL言語:Streams専⽤言語。拡張性:データ処理に必要なロジックをC++/Javaで拡張することができます①様々なデータインプットを、スケーラブルな分散Streams基盤でリアルタイム処理することを可能にします。②ユーザ定義のロジックをJavaで実装することが可能なので、既存資産を流用することができます。③DB、他のシステムへのインターフェイスによって、深い洞察へ連携させることができます。ソリューション概要ソリューション概要ソリューション概要ソリューション概要ストリーム処理した結果をアプリケーション、他のシステムへPMMLオペレータファイルシステム: NFS / GPFSマイニングツールキットTCP/UDPInfiniband/LLM②分散並列データ処理➀情報のリアルタイム処理C O G N O SC O G N O S統計解析(モデル化)SPSSRHELSuSECentOSX86 64bit/POWER7 (仮想環境:VMware/Hypervisor)
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜データマイニング・キットMining in Microseconds(製品に含まれます)イメージと動画Image & Video (Open Source)シンプルなテキスト分析⾼度なテキスト分析Simple & Advanced Text(一部製品に含まれます)(IBM Research/ Open Source UIMA)Text(listen, verb),(radio, noun)音声解析Acoustic(IBM Research/Open Source)地理空間GeoSpatial(IBM Research)予測分析Predictive(IBM Research)応⽤数理モデルAdvancedMathemetical Models(IBM Research)統計モジュールStatistics(製品の含まれます)∑populationtt asR ),(• 基本的な処理ロジックに加えて、データマイニング・キット、そして応⽤数理解析まで幅広い分析ロジックを提供することが可能です。またIBMリサーチ部門による分析アシスト、協業なども可能です。PMML分析モデルSPSSなどの統計解析より、モデル化したモジュールをPMMLとしてインポートすることが可能多様な分析ロジックを実装することができます
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜〜リアルタイムデータの観察〜• 技術構成要素:ストリーミング分析 (リアルタイム)InfoSphere Streamsデータストア(蓄積)、統計解析ソフトウェア(モデル化)• 目的:– 生命を脅かす状況や、急変の兆候を最⼤24時間早く検知– 平均20名以上の異なるソースから、毎秒約1,000以上におよぶ測定値を監視実証開始時は、2名からスタート、臨床実験での最⼤監視数は120名、120万測定値/秒、これは約10億レコード/日• ポイント:データストアに蓄積した膨⼤な量のデータに対して解析を⾏い、分析モデルを抽出し、そのパターン分析モデルをストリームに環流させることによって、リアルタイム分析、および、⻑期的なデータ蓄積からの分析モデルの抽出オンタリオ工科⼤学医療(センサー)における事例アラート(警告)SPSS
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜IBM InfoSphere StreamsSレポジトリレポジトリIBM SPSSCollaboration & Deployment Servicesモデル更新R変更通知ファイルシステムPIBM SPSS Modeler Solution Publisherインメモリ処理必要なコンポーネント:- SPSS Modeler- SPSS Solution Publisher- SPSS Collaboration &Deployment Services蓄積デプロイ流⼊するリアルタイムデータに対し、⾼度な分析が可能になります蓄積されたデータから解析モデルを抽出し、ストリームへ適応PDCASPSSとの連携が可能(PDCAを回す)SPSS
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜• M2Mに代表されるセンシング507キロにおよぶ⼤規模河川-ハドソン川の観測。毎秒606⽴⽅メートルの淡⽔がニューヨークに流れています。• ⽔質の基本的なパラメタ、空間的変動を観察するためのデータをセンシングしリアルタイムに送信:– 数10か所のセンサーから数1000のデータを毎秒リアルタイムに分析(⽔温(移動平均値)、⽔質(化学物質検出)、生態系)。IBM InfoSphere StreamsM2Mセンサ監視における事例人が河川に与える影響を監視する
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜アイルランドGalway湾の⽔質・危機管理• ガルウェイ湾における、⽔質管理・生態系への影響把握⽔質監視、生態系監視モニター配備• 津波予測をはじめとする、危機管理、商⽤情報などを、多くの業界への情報提供に利⽤⾃然・⽔質(センサー)監視における事例M2Mセンサ監視における事例
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜SmartBuoy(←⻩⾊いデバイス)から収集されたデータは、リアルタイムにStreamsによって、処理・分析され、⽔質監視モニター、生態系監視モニターのDashボードにリアルタイム表示。IBM InfoSphere Streams変化するデータをリアルタイム解析、可視化しアクションへ
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜音声・音波データの解析も可能音声音波データ処理分析基盤• リアルタイム音波解析音波変換、ノイズ除去、照合• 哺乳類の生態系調査数、距離• ハイドロフォン (聴音器)⾼周波、中分解能(16bit)変換ノイズ除去 照合記録
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜セキュリティドアが開いている…顔パス認証・⾃動⼊退出システム映像データ処理分析基盤変換ノイズ除去 照合記録映像動画データの解析も可能動画分析における事例
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜駐⾞エリアの状況894人のお客様が来店中とある量販店での取り組みの例顧客の導線把握パーキング⾃動清算
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜TAPDirectorFor filter監視 ScoringRulesScoringRulesCognos RTMCognos RTMVisualizerシステムモニタリングDirectorFor BalanceコアネットワークTDW①データトラフィック収集(TAPやルータレベル)②Network/Internetフォレンジック(専⽤NWツールキットとの組み合わせ)③アクション制御既存の定型的なDPIのみではなく、パケット(エラー、集計結果、トラフィック状況)のステータスに合わせて、ルータのポート閉塞など様ざまなアクション制御を実施することが可能になります。(※PureDataへの専⽤データローダーが付属しています)※このケースは、US・アジアでのセキュリティ関連で実施したストリームスの利⽤⽤途に基づく。インターネット• 監視対象:SNSに代表されるメッセンジャーやアプリ系などの監視• アクション:障害発生時における通信トラフィックの制御などInfoSphereStreamsアクション実施トラフィック制御ポート開閉、ネットワーク閉塞などサービスプロバイダーネットワークセキュリティでの活⽤セキュリティ監視における事例
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜KPIsKPIsKPIsChannel 1Channel 2KPIs障害検知のアラートリアルタイム統計欧州ケーブルTV会社様の状態監視の例STBSTBHome NetworkHome GatewaySTBSTBSTBSTBSTBSTBSTBSTBEncoderEncoderBroadcast TVCSPNetwork nodestopologySTBSTBSTBSTBSTBSTBIp=233.136.0.127; MPEG error ratio=0.5; firmwareversion=V2.1;model=XXX;MAC-Address=000430123456;LinkChain=Node1-Node12-Node123-Node1234;Message=Statistic;PacketLoss=54Ip=233.136.0.127; MPEG error ratio=0.5; firmwareversion=V2.1;model=XXX;MAC-Address=000430123456;LinkChain=Node1-Node12-Node123-Node1234;Message=Statistic;PacketLoss=54DSLAMSwitchs,routers,…ネットワーク管理ネットワーク管理リアルタイム分析ダッシュボードネットワーク管理者-技術本部ヘルプデスクCRMマーケティングInfoSphere Stream10 000 msg/s■プロジェクト概要200万のSTBからのメッセージをリアルタイムに分析実施-ビデオ品質の低下が以下のどこから起因しているのかを判断- ネットワークノード (switch/router)- セットトップボックスのファームウェア、ハードウェア- チャンネル・エンコーディング・エラーData in MotionAnalysis
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜Internet Scale MessagingProtocol ApplicanceInternet Scale MessagingProtocol ApplicanceHelp DeskCRMMarketingAnalyse en temps-réel des données enmouvementBigInsightsDashboardとある欧州の⾃動⾞メーカーの例Data ExplorerIBM MessageSight StreamsMQTT
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜断続的に流れるデータの連続処理センス & レスポンスSOURCEバンドルDBアクセス事前に定義されたオペレーターユーザ定義(C++/Java)トランスポート:TCP/UDP/LLM/InfinibandSINK蓄積すること無く、連続的にデータを取り込み連続的に処理・分析、そしてアクションへリアルタイムな意思決定サポートプリペア&アクションSPSS/Rファイルシステム:NFS/GPFS分岐IN-OUT:TCP/UDP/MQ/MQTT/HTTP(s)/DB/FileStreamsフィルタリング⼊⼒タプル出⼒タプルセンサーなどから⼤量のデータを受け取るが、ある閾値を超えたデータだけに興味があるStreamsウィンドウ処理⼊⼒タプル 出⼒タプルストリームデータをある纏まりで⼀括処理を⾏う場合。例えば、移動平均値などを算出する場合に⽤いる。また、データをストリーム内部でインメモリ保持したい場合。t(1) t(k)
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜SPL(StreamProcessingLanguage)という専⽤スクリプトと併⽤して、C++/Java言語での実装が可能です。ドラッグ&ドロップによる開発SPL
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜パターンによるイベント・ストリーム内のイベントを検知• 容易に使える正規表現スタイルのユーザー定義の述語パターンとのマッチングStreams 内でのインテグレーションにより、⾼パフォーマンスかつリッチな分析を備えた CEP スタイルの処理stream<MatchT> Matches = CEPMatch(Quotes) {parampattern : ". rise+ drop+ rise+ drop* deep";partitionBy : symbol;predicates : {rise = price>First(price) && price>=Last(price),drop = price>=First(price) && price<Last(price),deep = price<First(price) && price<Last(price) };outputMatches : symbol=symbol, seqNum=First(seqNum),count=Count(), maxPrice=Max(price);}“M字型”(上がる、下がる、上がる、下がる)パターン検知のサンプル。CEP Toolkit
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜地理空間(Geospatial)データの⾼速分析および処理位置ベース・サービスを可能に• スマーター・トランスポーテーション、GeoFencing (特定区域で処理をブロック、または処理をトリガー)地理空間データ型• 例)ポイント、ライン・ストリング、ポリゴン地理空間関数群• 例)地点間距離(distance)、地図ポイント→ライン・ストリング変換(Map Point to Line String)、包含判定(isContained)、等Geospatial Toolkit
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜パターンや異常を⾒つけ、将来の値をリアルタイムに予測時系列データを取り扱うための機能• 生成(Generation) : 合成または抽出 (例: 音声抽出、波形生成プログラム)• 前処理 : 準備およびコンディショニング (例: リサンプリング、補間)• 分析 : 統計、関連付け、コリレーション、分解、変換• モデリング : 予測、回帰、トラッキング (例: ホルト・ウィンタース、Holt-Winters, GAMLearner)Time Series Toolkit - 時系列処理/分析
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜回帰分析:対象とする変数(従属変数)に影響を与える変数(独⽴変数)を特定、その関連性を分析によりモデル化し、独⽴変数から従属変数を予測する→予測したい値を他のデータから予測する例:トランザクション流⼊量からCPU使⽤率を予測(XXが増えたからYYが増えるor減る)時系列分析:時間軸に沿って常に変化する変数の振る舞いからトレンド等のデータ変動の特徴を捉え、モデル化し、過去データから将来、その変数がとりうる値を予測する→予測したい値を過去のそのデータ自体から予測する例:気温の変動 等、法則性があるデータ(昨日|先月|去年がXXだから、明日|来月|来年はこうなる)Time Series(時系列分析)と回帰分析の違い
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜たとえば?(回帰分析)例:トランザクション流⼊量からCPU使⽤率を予測CPU Usage(MA) =0.01787 × Transactions + 6.8723トランザクション流⼊数が1000の時、CPU使⽤率はおよそ24%と予測
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜たとえば?(時系列分析)観測されたデータからトレンド、季節性の変動などの成分を分析し、将来取りうる値の信頼区間を予測する。Point Forecast Lo 95 Hi 95Jan 2012 9546.637 9399.259 9694.014Feb 2012 9625.154 9451.122 9799.186Mar 2012 9662.827 9479.344 9846.311Apr 2012 9709.953 9522.873 9897.033May 2012 9706.197 9517.717 9894.676Jun 2012 9659.079 9470.050 9848.108Jul 2012 9679.440 9490.195 9868.685Aug 2012 9687.297 9497.967 9876.628
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜連続するデータをStreamsで時系列分析する理由・Time Seriesの対象は「時間に沿って変化するデータ」・Streams上で時系列分析を⾏う事により、予期された値からの逸脱を即時検知する事が可能に。・時系列変化をリアルタイムに把握する事に価値がある分析ケースに有効。例)■株価データ・指数計算・ルーティング処理■M2M(センサー)データの処理■医療データ(患者の脈拍数、⼼拍数等)の傾向変化をアラート■映像・音声・音波のリアルタイム解析(コールセンタ、監視カメラ、人数把握)■交通情報の傾向変化を補足■シミュレーションの結果をニアリアルタイムに把握(終了してからではなく)■HPC領域の⾼度計算(例えば、GPGPUとの連結、MatLabのライブラリの実⾏)■システムステータス(メモリ/CPU使⽤率)の予期せぬ兆候を補足■パケット通信量、モニタリングなど
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜株価トレンド/VWAP売買⾼加重平均価格の計算応答時間表示グラフ銘柄毎のVWAP表示Eclipse開発環境と処理フロー表示
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜Trade price: 取引価格Daily VWAP:その日の1日VWAP数値incremental VWAP:増減値trend strength: 取引トレンドの強さ(上向き下向きベクトル)トレンドのベクトル取引価格インクリメンタルVWAP取引価格(USD)取引時間
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜ビッグデータを継続的に効果的に活⽤するためには、次の5つの重要な視点を基盤に盛り込む必要があります。1.適応性:様々なビジネス要件の対応2.最適化:ワークロードとコスト最適3.統合性:複数システムの統合4.拡張性:柔軟な拡張と運⽤容易性5.堅牢性:⾼い可⽤性とセキュリティサイロ化ではなく、統合基盤テキスト分析、統計解析、レポーティングなど新しいことが試せる環境であること!⼤量データも通常データも同時に処理できるすべてのデータを蓄積しなくてもよい!要件に応じた機能とサイジングDWH/DB/Hadoop/Streams柔軟なシステム資源の配分異なる非機能要件、プラットフォーム統合的な運⽤管理様々な処理要求に対するサービスレベルの確保統合的で簡素化された運⽤データの圧縮、階層化等の効率的な保管⾼い連続稼動性信頼性の⾼いデータ転送・加工データの漏洩、改ざんの防⽌セキュアなデータ管理
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜Ibm.com/bds2なぜ、来ていただきたいか?-BigSQL-BigSheets-GPFS-FPO・HA機能-AdaptiveMR/SymphonyMR-PureData System for Hadoopなどの最新情報を日本で初公開!
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜• InfoSphere BigInsightsBigInsightsはHadoopを拡張する機能群とエンタープライズ向け連携機能群、そして活⽤を容易なツールを介して実装し、開発サイクルを短縮化できるソリューション・パッケージです。《非商⽤環境で無償、容量無制限のQuickStartエディションも登場》Hadoop拡張レイヤー・・・・・・MasterノードSlaveノードCognosBI*(バンドルバンドルバンドルバンドル)Hive(JDBC) /REST(http)DataStage*(連携)DB2*(連携)R*(連携)Streams*(バンドルバンドルバンドルバンドル)Data Explorer*(バンドルバンドルバンドルバンドル)MachineDataAnalytics*(アクセレレーターアクセレレーターアクセレレーターアクセレレーター)SocialMediaAnalytics*(アクセレレーターアクセレレーターアクセレレーターアクセレレーター)Nutch*(連携)Gnip*(連携)LZO圧縮(分割可能)PureData*(連携)DBデータ取り出し・送り出しデータ探索の可視化BigSheetsアプリ・リンクワークフローFLEXスケジューラースケジューラースケジューラースケジューラー連携レイヤーGuardium*(連携)スケールアウトBigSQLによるSQL互換のインターフェイスHA on HDFS/GPFS-FPOAdaptiveMRSymphonyMR(連携)JAQLJAQLによるより高度なM/RスクリプティングWeb管理コンソール
    • © 2013 IBM Corporation〜ストリーム・コンピューティング〜ありがとうございました。IBM Streams