Recommended
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
PPTX
PDF
PPTX
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
PPTX
PDF
PDF
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
PDF
Amazon S3を中心とするデータ分析のベストプラクティス
PDF
PDF
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
PDF
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
PDF
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
PDF
SmartNews の Webmining を支えるプラットフォーム
PDF
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PDF
噛み砕いてKafka Streams #kafkajp
PDF
Datastax Enterpriseをはじめよう
PDF
[DI15] Build 2017 Updates ~ Azure Database for MySQL/PostgreSQL 最速紹介
PDF
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
PDF
Presto As A Service - Treasure DataでのPresto運用事例
PDF
TokyoWebminig カジュアルなHadoop
PPTX
PDF
IoT時代におけるストリームデータ処理と急成長の Apache Flink
PDF
PPTX
Spark Structured Streaming with Kafka
PDF
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
PPTX
JSUG SpringOne Platform 2016 報告会 - New in Spring Data
PDF
"Global Distcloud File System" ~インタークラウド広域分散ファイルシステム 大陸間横断ライブマイグレーションを実現する技術
PPTX
More Related Content
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
PPTX
PDF
PPTX
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
PPTX
PDF
PDF
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
PDF
Amazon S3を中心とするデータ分析のベストプラクティス
What's hot
PDF
PDF
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
PDF
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
PDF
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
PDF
SmartNews の Webmining を支えるプラットフォーム
PDF
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
PDF
噛み砕いてKafka Streams #kafkajp
PDF
Datastax Enterpriseをはじめよう
PDF
[DI15] Build 2017 Updates ~ Azure Database for MySQL/PostgreSQL 最速紹介
PDF
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
PDF
Presto As A Service - Treasure DataでのPresto運用事例
PDF
TokyoWebminig カジュアルなHadoop
PPTX
PDF
IoT時代におけるストリームデータ処理と急成長の Apache Flink
PDF
PPTX
Spark Structured Streaming with Kafka
PDF
Hadoop Summit 2016 San Jose ストリーム処理関連の報告 #streamctjp
PPTX
JSUG SpringOne Platform 2016 報告会 - New in Spring Data
Similar to クラウド運用のためのストリームマイニング
PDF
"Global Distcloud File System" ~インタークラウド広域分散ファイルシステム 大陸間横断ライブマイグレーションを実現する技術
PPTX
PDF
Google Compute EngineとGAE Pipeline API
PDF
Google Compute EngineとPipe API
PDF
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
PDF
『じゃらん』『ホットペッパーグルメ』を支えるクラウド・データ基盤
PDF
Twitterのリアルタイム分散処理システム「Storm」入門
PPT
PDF
PDF
デブサミ2010 これからのアーキテクチャを見通す
PDF
PDF
Storm×couchbase serverで作るリアルタイム解析基盤
PDF
[AWS Summit 2012] クラウドデザインパターン#1 CDP概要編
PPTX
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
PPTX
PDF
PDF
私がMuninに恋する理由 - インフラエンジニアでも監視がしたい! -
PDF
PPTX
PDF
More from Shin Matsumoto
PDF
CloudSpiral 2014年度 Webアプリ講義(2日目)
PDF
CloudSpiral 2014年度 Webアプリ講義(1日目)
PDF
CloudSpiral 2014年度 ビッグデータ講義
PDF
CloudSpiral 2013年度 Webアプリ講義
PDF
CloudSpiral 2013年度 UML講義 2日目
PDF
CloudSpiral 2013年度 UML講義 1日目
PDF
クラウド教育における動的スケーリング演習のための仮想負荷シミュレートフレームワーク
Recently uploaded
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
PDF
ニューラルプロセッサによるAI処理の高速化と、未知の可能性を切り拓く未来の人工知能
PDF
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
PDF
膨大なデータ時代を制する鍵、セグメンテーションAIが切り拓く解析精度と効率の革新
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
PDF
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
PPTX
ChatGPTのコネクタ開発から学ぶ、外部サービスをつなぐMCPサーバーの仕組み
PPTX
2025年11月24日情報ネットワーク法学会大井哲也発表「API利用のシステム情報」
PDF
AI開発の最前線を変えるニューラルネットワークプロセッサと、未来社会における応用可能性
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
PDF
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
クラウド運用のためのストリームマイニング 1. 2. 3. 4. 5. 運用・保守のためのWeb API
• システムの機能( 本質 ・ 計測 ・ 運用 )をAPIとして公開
•
•
•
•
Web経由で
プラットフォームに依らず
ソフトウェアから (自動的に)
単純な手続きで,利用できる
Functional API
Measuring API
Management API
IaaS
Functional API
Measuring API
PaaS/SaaS
Management API
4
6. 何を計測するか?
Functional API
• IaaS
•
•
•
•
•
# of running VMs
CPU usage
Disk usage
Memory swap rate
I/O latency
• Common
Measuring API
Management API
• # of API calls
• Avg/Max response time
• # of timed out requests
• PaaS/SaaS
• # of registered users
• # of active users
• # of transactions
(# of tweets, # of photos, …)
5
7. 何を計測するか?
Functional API
• IaaS
•
•
•
•
•
# of running VMs
CPU usage
Disk usage
Memory swap rate
I/O latency
• Common
Measuring API
Management API
• # of API calls
• Avg/Max response time
• # of timed out requests
• PaaS/SaaS
• # of registered users
• # of active users
• # of transactions
何を計測するか?
何のために計測するか?
(# of tweets, # of photos, …)
6
8. 9. 10. 11. 12. 13. 14. 15. ストリームマイニング概要
• 膨大なデータストリームに対し,
• 利用者の要求に即応して,
• 小さな計算機資源で,
• 近似解を返す,手法・アルゴリズムのこと*
• 特定の手法を指す言葉ではない
• One-path制約付きのデータマイニング手段の総称
• (基本的には) 厳密な解を求めない
• 粗視化・データ要約・確率計算など
• マイニング目的に応じて興味のない部分を捨てる
※ 最近では厳密解を求められる方法も登場しつつある
*有村
博紀, 喜田 拓也, “データストリームのためのマイニング技術”, 情報処理, 2005, vol.46, no.1
14
16. 17. SMの実現手段は?
• Apache S4 (Simple Scalable Streaming System)
S4 is a general-purpose, distributed, scalable, fault-tolerant, pluggable
platform that allows programmers to easily develop applications for
processing continuous unbounded streams of data.
http://incubator.apache.org/s4/
• 処理の流れ
key: null
val: “#s4, a distributed #stream processing”
• twitterのハッシュカウント
key: topic=“s4”
val: count=1
PE
key: topic=“stream”
val: count=1
PE
PE
PE: Processing Element
val: topic=“s4”, count=4
PE
http://oss.infoscience.co.jp/s4/docs.s4.io/examples/
twitter_topic_counter.html
16
18. 他にも色々
• Storm
Storm is a free and open source distributed realtime computation system.
http://storm-project.net/
• Storm + Hadoop
• Lambda architecture*
Speed layer (Storm)
Stream
processing
New data
stream
Realtime
view
Batch layer (Hadoop)
All data
Precompute
views
query
Batch view
Batch view
*Big Data: Principles and best practices of scalable realtime data systems, Manning Publications Co, 2012 17
19. 運用・保守へどう適用するか?
• S4, Storm = 汎用リアルタイム処理フレームワーク
• 「リアルタイムMapReduce」 「ストリーミングMapReduce」
• 運用・保守に特化させたクラウドシステムへ
• PaaS型,Cloud Ops. as a Service
Wikipedia, Image:060428-bagger288-garzweiler.jpg; Bearbeitung von Snorky 18
20. 運用・保守へどう適用するか?
• S4, Storm = 汎用リアルタイム処理フレームワーク
• 「リアルタイムMapReduce」 「ストリーミングMapReduce」
• 運用・保守に特化させたクラウドシステムへ
• PaaS型,Cloud Ops. as a Service
発掘技術 (How) は豊富
何をするか (What) が重要
Wikipedia, Image:060428-bagger288-garzweiler.jpg; Bearbeitung von Snorky 19
21. 22. *
「捨てる技術」
*長尾
• データは際限なく増える
• googleは10,20年後どうなるか?
• 供給電力の問題も
真, “捨てる技術”, 情報処理, 2014, vol.55, no.1
ストレージ
生産速度
情報
生産速度
• 捨てる技術
• 20年~30年使われなかったデータが本当に必要か?
• 必要なデータだけを残す技術が必要になるのでは?
• 実例は捨てる.パラメタだけを残す.
レスポンス時間
レスポンス時間
「必要なデータ」とは?
ゴミ山か? 金鉱か?
本当に捨てて良いのか?
リクエスト
リクエスト
21
23. 何を計測するか?
Past
何のために計測するか?
Present
Functional API
• IaaS
•
•
•
•
•
• Common
Future
Measuring API
• 米Amazonの“Anticipatory shipping”
Management API
• # of API calls
• Avg/Max response time
• # of timed out requests
# of running VMs
CPU usage
Disk usage
Memory swap rate
I/O latency
Personalized
ユーザレベルでのきめ細やかな
運用・保守
Personalized O&M
• PaaS/SaaS
• # of registered users
• # of active users
• # of transactions
何を計測するか?
何のために計測するか?
計測データをどう役立てるか?
可視化より強力な方法は?
(# of tweets, # of photos, …)
12
「捨てる技術」*
運用・保守へどう適用するか?
*長尾
• S4, Storm = 汎用リアルタイム処理フレームワーク
• 「リアルタイムMapReduce」 「ストリーミングMapReduce」
• 運用・保守に特化させたクラウドシステムへ
• PaaS型,Cloud Ops. as a Service
22
http://blogs.wsj.com/digits/2014/01/17/amazon-wants-to-ship-your-package-before-you-buy-it/
• データは際限なく増える
• googleは10,20年後どうなるか?
• 供給電力の問題も
真, “捨てる技術”, 情報処理, 2014, vol.55, no.1
ストレージ
生産速度
情報
生産速度
• 捨てる技術
• 20年~30年使われなかったデータが本当に必要か?
• 必要なデータだけを残す技術が必要になるのでは?
• 実例は捨てる.パラメタだけを残す.
Wikipedia, Image:060428-bagger288-garzweiler.jpg; Bearbeitung von Snorky 38
レスポンス時間
「必要なデータ」とは?
ゴミ山か? 金鉱か?
本当に捨てて良いのか?
レスポンス時間
発掘技術 (How) は豊富
何をするか (What) が重要
リクエスト
リクエスト
42
22