Recommended
PDF
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
PDF
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
PDF
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
PDF
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
PDF
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
PDF
20200212 AWS Black Belt Online Seminar AWS Systems Manager
PDF
20200630 AWS Black Belt Online Seminar Amazon Cognito
PDF
20180704(20190520 Renewed) AWS Black Belt Online Seminar Amazon Elastic File ...
PDF
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
PDF
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
PDF
20210317 AWS Black Belt Online Seminar Amazon MQ
PDF
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
PDF
20190806 AWS Black Belt Online Seminar AWS Glue
PDF
AWS Black Belt Techシリーズ Amazon Kinesis
PPTX
Amazon Athena で実現する データ分析の広がり
PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Kinesis
PDF
Amazon Pinpoint を中心としたカスタマーエンゲージメントの全体像 / Customer Engagement On Amazon Pinpoint
PDF
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
PDF
AWS Black Belt Online Seminar 2016 AWS IoT
PDF
20200526 AWS Black Belt Online Seminar AWS X-Ray
PDF
20190522 AWS Black Belt Online Seminar AWS Step Functions
PDF
20190319 AWS Black Belt Online Seminar Amazon FSx for Lustre
PDF
클라우드로 데이터 센터 확장하기 : 하이브리드 환경을 위한 연결 옵션 및 고려사항::강동환::AWS Summit Seoul 2018
PDF
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
PDF
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
PDF
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
PDF
AWS Black Belt Online Seminar 2017 Amazon S3
PDF
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
PDF
AWS初心者向けWebinar AWSでBig Data活用
PDF
Data discoveryを支えるawsのbig data技術と最新事例
More Related Content
PDF
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
PDF
20190402 AWS Black Belt Online Seminar Let's Dive Deep into AWS Lambda Part1 ...
PDF
AWS Black Belt Online Seminar 2017 AWS Storage Gateway
PDF
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
PDF
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
PDF
20200212 AWS Black Belt Online Seminar AWS Systems Manager
PDF
20200630 AWS Black Belt Online Seminar Amazon Cognito
PDF
20180704(20190520 Renewed) AWS Black Belt Online Seminar Amazon Elastic File ...
What's hot
PDF
AWS Black Belt Online Seminar 2017 Amazon ElastiCache
PDF
20191002 AWS Black Belt Online Seminar Amazon EC2 Auto Scaling and AWS Auto S...
PDF
20210317 AWS Black Belt Online Seminar Amazon MQ
PDF
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
PDF
20190806 AWS Black Belt Online Seminar AWS Glue
PDF
AWS Black Belt Techシリーズ Amazon Kinesis
PPTX
Amazon Athena で実現する データ分析の広がり
PDF
AWS Black Belt Tech シリーズ 2015 - Amazon Kinesis
PDF
Amazon Pinpoint を中心としたカスタマーエンゲージメントの全体像 / Customer Engagement On Amazon Pinpoint
PDF
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
PDF
AWS Black Belt Online Seminar 2016 AWS IoT
PDF
20200526 AWS Black Belt Online Seminar AWS X-Ray
PDF
20190522 AWS Black Belt Online Seminar AWS Step Functions
PDF
20190319 AWS Black Belt Online Seminar Amazon FSx for Lustre
PDF
클라우드로 데이터 센터 확장하기 : 하이브리드 환경을 위한 연결 옵션 및 고려사항::강동환::AWS Summit Seoul 2018
PDF
AWS Black Belt Online Seminar AWSで実現するDisaster Recovery
PDF
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
PDF
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
PDF
AWS Black Belt Online Seminar 2017 Amazon S3
PDF
20210126 AWS Black Belt Online Seminar AWS CodeDeploy
Similar to AWSでのビッグデータ分析
PDF
AWS初心者向けWebinar AWSでBig Data活用
PDF
Data discoveryを支えるawsのbig data技術と最新事例
PDF
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
PDF
PDF
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
PDF
AWS Lambdaによるデータ処理理の⾃自動化とコモディティ化
PDF
PDF
[Sumo Logic x AWS 共催セミナー_20190829] Sumo Logic on AWS -AWS を活用したログ分析とセキュリティモニ...
PDF
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
PDF
PDF
PPTX
Security Operations and Automation on AWS
PDF
ビッグデータサービス群のおさらい & AWS Data Pipeline
PDF
ソリューションセッション#3 ビッグデータの3つのVと4つのプロセスを支えるAWS活用法
PDF
Cm re growth-devio-mtup11-sapporo-004
PDF
20151030 オープンデータとセキュリティon aws
PPTX
20121221 AWS re:Invent 凱旋報告
PDF
PDF
PDF
AWS Black Belt Online Seminar 2017 AWS Summit Tokyo 2017 まとめ
More from Amazon Web Services Japan
PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
PDF
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
PDF
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
PDF
Infrastructure as Code (IaC) 談義 2022
PDF
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
PDF
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
PDF
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
PPTX
20220409 AWS BLEA 開発にあたって検討したこと
PDF
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
PDF
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
PDF
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
PDF
Amazon QuickSight の組み込み方法をちょっぴりDD
PDF
マルチテナント化で知っておきたいデータベースのこと
PDF
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
PDF
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
PDF
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
PDF
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
PDF
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
PPTX
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
PDF
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
AWSでのビッグデータ分析 1. 2. 3. 3
自己紹介
• Ryosuke Iwanaga (岩永 亮介)
– a.k.a @riywo
• Amazon Data Services Japan
• Solutions Architect
– Startup, Gaming
– Big Data / Deployment / Container
• Before Amazon
– Software Engineer / Ops Engineer / DBA / etc.
4. 4
Solutions Architect at ADSJ
• AWSの日本での利用
促進を行う
– AWSに関する技術支
援(無料)
– セミナー、ハンズオン
等登壇
– ブログ等での情報発信
• Black beltやってます
毎週水曜18:00〜
Black belt Webinar配信中!
#awsblackbelt
「AWS セミナー」で検索
5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 14
• Tokyoリージョンは2つのAZで構成
• 2つのAZを利用した冗長構成も簡単
各リージョンは複数のAZで構成される
EU (Ireland)
Availability
Zone A
Availability
Zone C
Availability
Zone B
Asia Pacific (Tokyo)
Availability
Zone A
Availability
Zone B
US West (Oregon)
Availability
Zone A
Availability
Zone B
US West(Northern California)
Availability
Zone A
Availability
Zone B
Asia Pacific (Singapore)
Availability
Zone A
Availability
Zone B
AWS GovCloud (US)
Availability
Zone A
Availability
Zone B
South America (Sao Paulo)
Availability
Zone A
Availability
Zone B
US East (Northern Virginia)
Availability
Zone D
Availability
Zone C
Availability
Zone B
Availability
Zone E
Availability
Zone A
Asia Pacific (Sydney)
Availability
Zone A
Availability
Zone B
EU (Frankfurt)
Availability
Zone A
Availability
Zone B
*AZ=Availability Zoneの略
距離の離れたデータセンタ群
15. 16. 16
TECHNICAL &
BUSINESS
SUPPORT
Account
Management
Support
Professional
Services
Solutions
Architects
Training &
Certification
Security
& Pricing
Reports
Partner
Ecosystem
AWS
MARKETPLACE
Backup
Big Data
& HPC
Business
Apps
Databases
Development
Industry
Solutions
Security
MANAGEMENT
TOOLS
Queuing
Notifications
Search
Orchestration
Email
ENTERPRISE
APPS
Virtual
Desktops
Storage
Gateway
Sharing &
Collaboration
Email &
Calendaring
Directories
HYBRID CLOUD
MANAGEMENT
Backups
Deployment
Direct
Connect
Identity
Federation
Integrated
Management
SECURITY &
MANAGEMENT
Virtual Private
Networks
Identity &
Access
Encryption
Keys
Configuration Monitoring Dedicated
INFRASTRUCTURE
SERVICES
Regions
Availability
Zones
Compute
Storage
O b j e c t s
,
B l o c k s ,
F i l e s
Databases
SQL, NoSQL,
Caching
CDNNetworking
PLATFORM
SERVICES
APP
Mobile
& Web
Front-end
Functions
Identity
Data Store
Real-time
DEVELOPMENT
Containers
Source
Code
Build
Tools
Deploymen
t
DevOps
MOBILE
Sync
Identity
Push
Notifications
Mobile
Analytics
Mobile
Backend
ANALYTICS
Data
Warehousing
Hadoop
Streaming
Data
Pipelines
Machine
Learning
17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 41
データ収集
Source of data
• Mobile devices
• Game servers
• Ad networks
Data size & growth
• 500 G+/day
• 500 M+ events/day
• Size of event ~ 1 KB
Analytics Data
{"player_id":"323726381807586881","player_level":169,"device":"iPhone
5","version":"iOS 7.1.2”,"platfrom":"ios","client_build":"440”,
"db":”mw_dw_ios","table":"player_login",
"uuid":"1414566719-rsl3hvhu7o","time_created":"2014-10-29 00:11:59”}
42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. NASDAQ
レガシーなデータウェアハウス
• 高価 (毎年 $1.16M)
• 限られた容量 (オンラインデータだと1年)
• 毎取引日に40〜80億行が追加され保存されている:
– Orders
– Trades
– Quotes
– Market Data
– Security Master
– Membership
DWはマーケットシェアの分析、
クライアントのアクティビティ、
監視、請求の仕組み、その他から
使われる
53. 54. 55. 56. 57. 58. 58
Presto-Amazon Kinesis connector by Qubole
• KinesisのStreamに対
して直接PrestoのSQL
を実行できる
– QuboleというPresto as
a Serviceなら簡単に設
定可能
• チェックポイントを
使ってリアルタイム検
出やダッシュボード等
http://aws.typepad.com/sajp/2015/07/presto-amazon-kinesis-connector-for-interactively-querying-streaming-data.html
59. 59
Scalable & Responsive Big Data Interface with
AWS Lambda at FireEye
http://blogs.aws.amazon.com/bigdata/post/Tx3KH6BEUL2SGVA/Building-Scalable-and-Responsive-Big-Data-Interfaces-
with-AWS-Lambda
• Lambda+S3で、
サーバを全く使わな
い分析環境
– 脅威分析、異常検知等
• Web UIへのクエリを
複数のLambda
functionを非同期に
呼び出して処理
60. 61. 62. 63. Amazon S3
• Amazon S3はオブジェクトを保存(“ファイル”的な)
• オブジェクトはバケットに保存される
• バケットは1つのAWSリージョンの中で、複数のAZに
渡って複製してデータを保持する
– クロスリージョンの複製も、最近リリースされました!
• 高い耐久性、高い可用性、高いスケーラビリティ
• 安全
• 99.999999999%の耐久性を持つ設計
64. 65. Amazon S3 イベント通知
通知を、Amazon SNS, Amazon SQS, AWS Lambdaに
配信することができる
S3
Events
SNS topic
SQS queue
Lambda function
Notifications
Foo() {
…
}
66. サーバサイド暗号化の選択肢
• SSE with Amazon S3 managed keys
– チェックボックスをチェックするだけで、データは安心して暗号化
• SSE with customer provided keys
– ご自身で暗号化鍵を管理して、PUTやGETの時に適応する
• SSE with AWS Key Management Service
– AWS KMSが中央管理し、権限管理や利用の監査ができる
67. 68. 69. 70. 71. 72. データ入力 & ストリーム処理
HTTP Post
AWS SDK
LOG4J
Flume
Fluentd
Get* APIs
Kinesis Client
Library
+
Connector Library
Apache Storm
Amazon Elastic
MapReduce
データ入力 データ処理
AWS Mobile
SDK
Apache Spark
Streaming
73. 74. 75. 76. 77. 78. 79. 80. 81. 82. 主な処理パターン2つ
• ストリーム処理 (リアルタイム)
– データストリームのイベントに対してリアルタイムで反応
– 比較的シンプルなデータ計算 (集約、フィルタ、スライディング
ウィンドウ)
• マイクロバッチ (準リアルタイム)
– データストリームのイベントの小さいバッチに対する準リアルタイ
ムな処理
– 分析のための標準的な処理やクエリエンジン
83. 84. クラウド上でのイベント駆動なコンピュート
• Lambda functions: ステートレスでリクエスト
駆動なコード実行
– 他のサービスでのイベントからトリガーされる
• Amazon S3バケットにPUTされた
• Amazon DynamoDBテーブルに書き込まれた
• Amazon Kinesisストリームのレコード
– これらを簡単にしてくれる
• データがクラウドに来たらすぐに変換する
• データ駆動な監査、分析、そして通知を実行する
• キックされるワークフロー
85. 86. 87. 87
Bring your own code
• Node.jsまたはJavaで書かれたコー
ドを実行
• コード内では以下も可能
– スレッド/プロセスの生成
– バッチスクリプトや他の実行ファイルの実行
– /tmpのread/write
• 各種ライブラリも利用可能
– ネイティブライブラリも可能
– 利用するライブラリを一緒にアップロード
88. 89. 90. 91. 92. 93. Kinesis Client Library (KCL)
Client library for fault-tolerant, at least-once, Continuous
Processing
• Shardと同じ数のWorker
• Workerを均等にロードバランシング
• 障害感知と新しいWorkerの立ち上げ
• Shardの数に応じてworkerが動作する
• ShardのSplitやMergeにも追従
• AutoScalingでエラスティック
• チェックポインティングとAt least once処理
これらの煩雑な処理を意識することなく
ビジネスロジックに集中することができる。
94. 95. 96. 97. 97
Task Node
Task Instance Group
Amazon EMRのアーキテクチャ
Master Node
Master Instance Group
Amazon S3
Core Node
Core Instance Group
HDFS HDFS
HDFS HDFS
Task Node
Task Instance Group
スレーブ群を
管理 HDFS
アクセス
AWSサービス
アクセス
98. 99. 100. 101. 101
Spot Instanceの活用例
Task Instance GroupCore Instance Group
予測されたコストでSLAを満たす 低コストでSLAを上回る
On-demandを
Core Nodeに利用
SLAを満たすだけの
キャパシティをOn-
demand価格で確保
Spot Instanceを
Task Nodeに利用
On-demandの最大
90%引き程度の価格
で追加のキャパシ
ティを確保
102. 102
Hive, Spark on Amazon EMR
• Applicationサポート
– クラスタ起動時に指定
– すぐに利用可能
• Metastore
– デフォルトではMaster
上のMySQLに保存
– hive-site.xmlを設定し
て任意のMySQLも利用
可能
$ aws emr create-cluster …
--applications Name=Hive Name=Spark
…
103. 103
CREATE TABLE call_data_records (
start_time bigint,
end_time bigint,
…
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ","
STORED BY
'com.amazon.emr.kinesis.hive.KinesisStorageHandler'
TBLPROPERTIES("kinesis.stream.name"=”MyTestStream")
;
Amazon EMRでの連携: Hive + Amazon Kinesis
104. 105. 106. 107. Apache Spark Streaming
• ウィンドウベースの変換
– countByWindow, countByValueAndWindow etc.
• スケーラビリティ
– 分割された入力stream
– それぞれのレシーバは別々のワーカ上で動くことができる
• 耐障害性
– StreamingのためのWrite Ahead Log (WAL)
– ステートフルで、確実に一度だけ
108. 108
Amazon EMR Release 4.0.0
• Apache Bigtopベースの新しいパッケージング
– より高速なリリースサイクル
– Release 4.0.0(7/24リリース)のアプリケーションバージョン
• Hadoop 2.6.0, Hive 1.0, Spark 1.4.1など
• アプリケーションの設定カスタマイズが簡単
– 設定値を渡すと、設定ファイルを変更してくれる
• Spark on YARNのDynamic Allocationが簡単
– 面倒なJAR配置や設定が済んでいる
109. 110. 110
Amazon Redshift の概要
• Data Warehouse as a Service – 分析用に整理された大量の統合
業務データの管理サービス(フルマネージドサービス)
• 拡張性:数百GB〜数PBまで拡張可能
• 高速:カラムナ型、超並列演算(MPP)
• 低額:インスタンスの従量課金(初期費用、ライセンス費用不要)
111. 111
ノード・タイプ
DS1 - Dense Storage(旧:DW1)
vCPU ECU Memory(GB) Storage I/O Price / hour
ds1.xlarge 2 4.4 15 2TB HDD 0.30GB/s $1.190
ds1.8xlarge 16 35 120 16TB HDD 2.40GB/s $9.520
DC1 - Dense Compute(旧:DW2)
dc1.large 2 7 15 0.16TB SSD 0.20GB/s $0.314
dc1.8xlarge 32 104 244 2.56TB SSD 3.70GB/s $6.095
DS2 – Dense Storage
ds2.xlarge 4 14 31 2TB 0.50GB/s $1.190
ds2.8xlarge 36 116 244 16TB 4.00GB/s $9.520
112. 113. 114. 115. 116. 117. 118. 119. 119
Machine Learning as a Service
Amazonが提供するアルゴリズム
– 利用者は自分でアルゴリズムの実装や詳細な
チューニングを行う必要がない
パッケージサービスとしての提供
– 必要なワークフローが予め提供されている
スケーラビリティ
– 利用者はシステムの拡張やその運用について
も考える必要がない
120. 121. 122. 123. 124. 125. 126. 127. 128. 129. 130. 131. 132. 133.