21. 21
S3のパフォーマンス: レンジGET vs データ局在性?
GET Range 128-192MB
GET Range 0-64MB
GET Range 64-128MB
GET Range (n-64)-nMB
ワーカーノード
S3オブジェクト(大きめのファイル)
22. 22
ID Age State
123 20 CA
345 25 WA
678 40 FL
999 21 WA
行指向 vs 列指向フォーマット
123 20 CA 345 25 WA 678 40 FL 999 21 WA
123 345 678 999 20 25 40 21 CA WA FL WA
ROW FORMAT
COLUMN FORMAT
23. 23
ストレージのパフォーマンス: S3 vs HDFS at Netflix
http://techblog.netflix.com/2014/10/using-presto-in-our-big-data-platform.html
54. The Life of a ClickHow Hearst Publishing Manages
Clickstream Analytics
Rick McFarland April 2016
55. The Evolution of
“Chasing the Customer”
Past
Near
Past
Now!
Survey Websites Every Electronic Device
100–1000 Responses 1 MM–1 BN Trillions
1 Week Daily Seconds
Survey Data Clickstream Data “Lifestream” Data
Collection
Volume
Speed
Description “Thoughtstream” Data?
When will it
stop?
Nanobots?
Won’t matter!
Future?
63. Phase
3a データサイエンスを本物に
Data Science on EC2
Amazon Kinesis ETL on EMR
Clean Aggregate Data API-Ready Data
SAS on Amazon EC2を選択
データ編集と、回帰の様な
複雑なデータサイエンス
テクニックの両方を使える様に
この方式でデータサイエンス
を行うと、完了までに3-5分
かかる
64. Phase
3b データサイエンス: 開発と本番
Amazon
Kinesis
Data Science
“Production”
Amazon Redshift
ETL on EMR
Data Science
“Development”
on EC2
Run Once per Day
Models
Agg Data
Clean Aggregate Data API-Ready Data
Statistical Models
Tip
データサイエンスモ
デルをS3に保存し、
それらをAmazon
Redshiftに適応
データサイエンス分割
モデリングと本番を分割し
本番はAmazon Redshiftへ
データサイエンスの
処理時間は
100秒に短縮!
65. Buzzing API
API
Ready
Data
Amazon Kinesis
Streams
Node.JS App-
Proxy
Clickstream
Data Science
Application
Amazon Redshift
ETL on EMR
Users to Hearst
Properties
最終的なHearst Data Pipeline
LATENCY
THROUGHPUT
Milliseconds 30 Seconds 100 Seconds 5 Seconds
100 GB/Day 5 GB/Day 1 GB/Day 1 GB/Day
Agg Data Models
Firehose
S3
69. 69
AWS Big Data Blog
• https://blogs.aws.amazon.com/bigdata/
– 最新の事例、アーキテクチャ、サービス、ソリューションが毎週投稿される
• 最新投稿例
– Real-time Stream Processing Using Apache Spark Streaming and Apache
Kafka on AWS
– Amazon EMR-DynamoDB Connector Repository on AWSLabs GitHub
– Encrypt Data At-Rest and In-Flight on Amazon EMR with Security
Configurations
– Real-time Clickstream Anomaly Detection with Amazon Kinesis Analytics
– Writing SQL on Streaming Data with Amazon Kinesis Analytics – Part 2
– Integrating IoT Events into Your Analytic Platform
– Processing VPC Flow Logs with Amazon EMR