Successfully reported this slideshow.
Your SlideShare is downloading. ×

ストリームデータ処理技術勉強会_イントロセッション

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 9 Ad

More Related Content

Slideshows for you (20)

Similar to ストリームデータ処理技術勉強会_イントロセッション (20)

Advertisement

Recently uploaded (20)

ストリームデータ処理技術勉強会_イントロセッション

  1. 1. 空気になったKafkaと 本番導入が進むNiFiと 凄すぎたUberと 「DataWorks Summit 2017 San Jose」で見たデータストリーミングのトレンド GOMI Akiko@g3akk
  2. 2. 自己紹介 – 五味明子/GOMI Akiko • IT系出版社の編集者→2011年からフリーランスライ ター • クラウドwatch、IT Leaders、gihyo.jp、 EnterpriseZine、ASCII Techなどテック系Web媒体中 心に執筆 • 取材分野はクラウド、ネットワーク、セキュリティ、 データアナリティクス、AI、IoT、IT企業動向など • 海外カンファレンス取材多め、1年の1/3はどこかに出 張中 • サンノゼのDataWorks Summit(旧Hadoop Summit) は2015年、2016年につづき3回目の参加
  3. 3. DataWorks Summit 2017 Sun Jose • HortonworksとYahoo!が主催するHadoopエンジニ ア/ユーザを対象にした年次カンファレンス。世界各 地で開催されているが、毎年6月にサンノゼで行われ るこのイベントがもっとも規模が大きい • 今回(正確には3月のベルリン開催)から「Hadoop Summit」→「DataWorks Summit」に名称変更。ゾ ウさん色がうすめに→レポート※書きました! • 人気の話題はTensorFlowやSparkRなどAI/データサイ エンス関連。今年中にリリース予定のHadoop 3.0お よびYARNにも注目があつまる • データストリーミング関連も人気。Sparkがメジャー になってきた2015年ごろからHadoop + リアルタイ ム処理系のキーノートやセッションが増えはじめた。 さらにHortonworksがApache NiFiをベースにした 「Hortonworks DataFlow(HDF)」をHDPと並ぶコア 製品に位置づけたことで、NiFi関連のセッションが急 増中 ※過渡期を迎えるHadoopとデータビジネス - ゾウが消えた「DataWorks Summit 2017 San Jose」/ gihyo.jp
  4. 4. そもそもストリーミングデータとは… • 膨大な数のデータソースから継続的に生成される • IoTセンサー、モバイルアプリ、ソーシャルネットワーク、ログファイル、… • ひとつひとつのデータサイズは小さい • たいていはキロバイト単位 • 絶えずどこかに向かって流れている • Hortonworksはこれを”Data-in-Motion”と呼んでいる • 時間の経過とともにデータの性質や価値が変化するので“いま”の状態の分析&可視化=リア ルタイム処理が重要 • 直近のデータに対する低レイテンシ(ミリ秒単位)な処理 • 向いている分野は、リアルタイムレスポンス、モニタリング、クイック集計など • 金融やeコマースにおける取引での不正/異常検知 • 移動中/輸送中の車両のリアルタイム追跡 • 産業機器の部品交換アラート • ソーシャルゲームのイベントでの順位集計 • オンラインメディアにおける読者ごとのコンテンツ最適化 • ソーシャルメディアでの炎上チェック
  5. 5. DWS 2017 SJで見かけたデータストリーミング関連技術 メジャーどころ • Apache Kafka / Kafka Streams • Apache NiFi • Apache Spark Streaming • Apache Storm その他 • Apache Metron • Apache Beam • Apache Apex • Bullet by Yahoo! ←スケーラブル&リアル タイムなデータクエリエンジン、他のデー タストリーミング技術とプラがぶるな連携 が可能 The Best Session by ChatWork & NTT DATA Worldwide Scalable and Resilient Messaging Services by CQRS and Event Sourcing Using Akka, Kafka Streams and HBase レポート書きました→スケールするメッセージングシステムを構 築せよ ―チャットワークとNTTデータが挑んだKafkaベースの"土 管"づくり/gihyo.jp
  6. 6. Pick Up – Kafka / Kafka Streams Kafkaは我々にとって頭で考えて使うものじゃない。Kafkaはもう空気みたいな存在で,なければ 息ができなくなってしまう – Josh Wills, CTO, Slack / Structure Data 2016 Kafkaは空気 • 2017年はKafkaのデフォ化がさらに加速。DWS17SJのデータストリーミング系のほとんどの セッションでは、Kafkaを使うことがあたりまえすぎるので、タイトルにわざわざKafkaを入れ ていない。逆にデータストリーミング処理にKafkaを使わないorまったく検討しない、という ケースはほぼ皆無 • シンプルなアーキテクチャ、パブサブ型、低レイテンシ/高スループット、他のストリーミング 技術との連携のしやすさ、etc.などからメッセージングシステムのデファクトに • Ex.) GoProの事例: コンシューマデバイスから吸い上げた多種多様なストリーミングデータを Kafka + Spark StreamingベースのダイナミックDDLシステムに流し込み、データサイエンスの ための分析基盤を提供→Kafkaをストリーミングデータの土管として機能させることで、どんな システムでも雛形をつくりやすい
  7. 7. Pick Up – NiFi • 2015年にHortonworksがApache NiFiを開発するOnyaraを買収、プロジェクトリーダーのJoe Wittも移籍→NiFiをコアとするデータストリーミング製品「HDF」が登場、DWS17SJとほぼ同時 期にHDF 3.0にアップデート。データオーケストレーションの“コーディングレス化”が加速 • DWS17SJではNiFi関連のセッションが急増、技術セッションだけでなくIoTやマシンラーニング などと組み合わせたエンタープライズアダプションの事例も豊富に • Ex.) Rogers Communicationsの事例: カスタマーエクスペリエンス向上をはかるため、NiFiの ほかHadoop、Sparkをベースに、自然言語処理を取り入れた”360度のカスタマービュー”シス テムを構築。ソーシャルネットワークやオンラインチャットなど非構造化データの流れもNiFIで コントロール NSAで開発をはじめて、目の前のオフィスからNiagara Fallが見え た。なんとなく語呂が良いように感じて”NiFi”という名前にしたん だ – Joe Witt, Senior Director, Engineering, Hortonworks / Hadoop Summit 2015
  8. 8. Pick Up – Uber Uberが1日あたりに処理するメッセージの件数は1兆を超える。そんなUberにとってKafkaは欠かせ ないデータハブ – Ankur Bansal, Senior Software Engineer, Streaming Team, Uber / DataWorks Summit 2017 San Jose • ホライゾンタリなスケーラビリティ • 5ミリ秒以下のレイテンシ • 99.99%の可用性 • 99.99%の耐障害性 • 複数のデータセンターをまたいだレプリ ケーション • 複数の言語のサポート(Java / Go / Node.js / C++) → これらの要件を満たす世界最大級の Kafkaクラスタを構築
  9. 9. 新しいワインは新しい革袋に、古いワインは古い革袋に ↓ 新しいイノベーションは新しい技術で! • データストリーミング技術を駆使して新しいイノベーションを! • ビジネス部門との連携もう少し強化して、新しい技術で実装されたシステムをなるはやでビジネ スの現場に! • 勉強や視察だけでなく、みずから情報発信&共有を!

×