AWSが誕生するまでの秘話
2014年7月3日
アマゾンデータサービスジャパン株式会社
テクニカルエバンジェリスト
堀内康弘
Who am I ?
• 堀内 康弘 (ほりうち やすひろ)
• 1978年生まれ 山梨県出身
• AWS テクニカルエバンジェリスト
• 140回以上の講演
• 60回以上のハンズオン
• 250本以上のブログ記事

Amazon Web Services ブログ

http://aws.typepad.com/aws_japan/
• 10+ years web engineer in startups
• Director of V-cube (perl), 2001 -
2006
• CTO of FlipClip (perl), 2006 - 2009
• CTO of gumi (python), 2009 - 2012
@horiuchi
horiyasu
フォロー歓迎!
Amazon.com
amazon.com, 1995
Copyright  ©  2012  Amazon  Web  Services
世界最大のEコマースサイトに
アメリカ カナダ 中国
フランス ドイツ イタリア
日本 スペイン イギリス
数十億の商品
1週間で5000万品の更新
amazon.com, today
なぜアマゾンがクラウドを?
AWSクラウドの起源は、  
Amazon社内の  
ビジネス課題を解決するために  
⽣生まれた
API
地球上で最もお客様を大切にする企業であること
Amazonのビジネスモデル
創業者ジェフ・ベゾスが起業時にレストランのナプキンに書いたオリジナルのコンセプト図
品 えと低価格を徹底的に追求
しかし、規模が大きくなるに従い、
ビジネス課題が生まれてきました。
Amazonのビジネス課題 No. 1
過去の注文履歴は全て保管したい
Amazonは過去の注文データを全て保管
全て保管で、商品を以前に購入していたら、
メッセージでお知らせ、確認が可能に
全て保管で、リコメンドの精度が高くなり、
お客様が本当に欲しいものを推薦できるように
Amazon S3 - 容量無制限で耐久性の高いストレージ
• データがなくならない
• いくらでも保存できる
• ストレージ用サーバやディスク
の運用をやらなくてよい
• 料金は使った分だけの従量課金
• セキュリティ機能も万全
クラウドストレージ
Amazonのビジネス課題 No. 2
アフィリエイトの支払い計算
Amazon アソシエイト (アフィリエイト)
• サイトに貼ったリンクを経由して Amazon.co.jp でお買い物をした場合、

購入金額に対して3.5-8%の報酬をお支払い
購入金額に対してのみの広告費の支払い = 低コスト構造
Amazonアソシエイトの課題
• アフィリエイトプログラムの成長に伴い、

支払計算システムの処理所要時間の遅延が課題に
Order  DB
Payments  
Service
隔時間集計

フラットファイル
⽇日次集計

ファイル
隔時間 ⽇日次 ⽉月末
C++	
  App C++	
  App C++	
  App
遅延
増加
Amazon.com∼ 2010 大量データの分散処理化の検討が急務に
Amazon Elastic MapReduce - 大規模バッチ処理環境
• 必要なときに必要なだけ

サーバを立ち上げて

バッチ処理可能
• 料金は1時間単位の従量課金
• 使い終わったら課金は停止
並列バッチ処理
!
AWSはAmazonのビジネス課題を解決するために
作り上げたITを
誰でもサービスとして利用できるようにしたものです。
一般的にはクラウドコンピューティングと呼ばれています。
仮想サーバーだけではないAWSのサービス
お客様のアプリケーション
ストレージ  
EBS,  S3,  Glacier,  Storage  Gateway
コンテンツ配信  
CloudFront
ネットワーク  
VPC,  Route  53,  Direct  Connect
認証とログ  
IAM,  CloudTrail,  
CloudHSM
監視  
Cloud  Watch  
Web管理理画⾯面

Management  
Console
デプロイと⾃自動化

Elastic  Beanstalk,

Cloud  Formation,  
OpsWorks
コマンドライン

インターフェース  
CLI
ライブラリ  &  SDKs

          Java,  PHP,  .NET,  

            Python,  Ruby
グローバルインフラ  
リージョン、アベイラビリティゾーン、エッジロケーション
AZRegion
コンピュート処理理  
  EC2,  Auto  Scaling,  Elastic  Load  Balancing,  
Workspaces
データベース  
RDS,  DynamoDB,  Redshift,  ElastiCache
分析  
Elastic  MapReduce,  Kinesis,  Data  Pipeline
アプリケーションサービス  
AppStream,  Cloud  Search,  SWF,  SQS,  SES,  SNS,  Elastic  Transcoder
お客様のフィードバックに基づくイノベーション
新サービス・機能追加の数
AWSを使えば、サービスを活用し、
ブロックを組み立てるようにインフラを構築・運用
可能に
Start Simple
• Write Events File on Device
• Periodically Upload to S3
• Process into Redshift
• Point GUI Tool to Redshift
2014-­‐01-­‐24,nateware,e4df,login	
  
2014-­‐01-­‐24,nateware,e4df,gamestart	
  
2014-­‐01-­‐24,nateware,e4df,gameend	
  
2014-­‐01-­‐25,nateware,a88c,login	
  
2014-­‐01-­‐25,nateware,a88c,friendlist	
  
2014-­‐01-­‐25,nateware,a88c,gamestart
Profit!
Amazon Redshift
10 GigE
(HPC)
Ingestion
Backup
Restore
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
Amazon S3/DynamoDB
JDBC/ODBC
128GB RAM
16TB disk
16 coresCompute
Node
128GB RAM
16TB disk
16 coresCompute
Node
128GB RAM
16TB disk
16 coresCompute
Node
Leader

Node
• リーダーノード
- SQLエンドポイント
- メタデータの保存
- クエリ実行のコーディネート
!
• コンピュートノード
- カラムナ型のストレージ
- Amazon S3を介したデータの

ロード、バックアップ、リストア
- Amazon DynamoDBからの並列ロード
!
• シングルノードでも利用可能
Tableau + Redshift
More Data Sources
• Also Collect Server Logs
• Periodically Upload to S3
• Stuff into Redshift
• External Analytics Data Too
External
Analytics
EC2
Dealing With Messy Data
• Different File Formats
• Device vs Apache vs CDN
• Cleanup with EMR Job
• Output to Clean Bucket
• Load into Redshift
EC2
Direct From DynamoDB
• Integrate Game DB
• Load Directly into Redshift
• Redshift does Intelligent Merge
• Tracks Hash Keys, Columns
EC2
Direct From DynamoDB
• Integrate Game DB
• Load Directly into Redshift
• Redshift does Intelligent Merge
• Tracks Hash Keys, Columns
• Or Stream into EMR
EC2
リアルタイム分析もできます
Back To Basics
2014-­‐01-­‐24,nateware,e4df,login	
  
2014-­‐01-­‐24,nateware,e4df,gamestart	
  
2014-­‐01-­‐24,nateware,e4df,gameend	
  
2014-­‐01-­‐25,nateware,a88c,login	
  
2014-­‐01-­‐25,nateware,a88c,friendlist	
  
2014-­‐01-­‐25,nateware,a88c,gamestart
Back To Basics [Dubstep Remix]
• Always Batch Due to S3
EC2
Need Data Faster!
• Stream Data With Kinesis
• Multiple Writers and Readers
• Still Output to Redshift
EC2
Lots of Ins and Outs
• Stream Data With Kinesis
• Multiple Writers and Readers
• Still Output to Redshift
• Stream to Spark on EMR
• Storm via Kinesis Spout
• Custom EC2 Workers
EC2
EC2
Amazon Kinesis
リアルタイムでビッグデータを取り込むためのサービス
	
  Data	
  
Sources
App.4	
  
!
[Machine	
  
Learning]
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
!
!
!
A
WS	
  
En
dp
oin
t
App.1	
  
!
[Aggregate	
  &	
  
De-­‐Duplicate]
	
  Data	
  
Sources
Data	
  
Sources
	
  Data	
  
Sources
App.2	
  
!
[Metric	
  
Extraction]
S3
DynamoDB
Redshift
App.3	
  
[Sliding	
  
Window	
  
Analysis]
	
  Data	
  
Sources
Availability
Zone
Shard 1
Shard 2
Shard N
Availability
Zone
Availability
Zone
例えばこんなことも・・・
リアルタイムヒートマップ
Clash of Clans
Amazon
Kinesis
Redshift
Clickstream
archive
EC2: In-game
engagement
trends dashboard
Real-time clickstream
processing app
Kinesis: Real-time data stream of in-game activity
Multiple Kinesis applications: Dashboards, analytics and storage
Redshift: Business intelligence reporting and interactive queries
S3 and Glacier: Data storage and long term archival
In-game
activity
S3 Aggregate
statistics
Business-intelligence
user
Kinesis-enabled apps on EC2
【参考】S3、EMR、Redshiftでデータ解析の実例
• データ分析が支えるスマホゲーム開発
~ユーザー動向から見えてくるアプリ
ケーションの姿~
• 越智 修司 (著), 高田 敦史 (著), 丸山 弘
詩 (編集)
http://amzn.to/1ih9n9M
AWS最新情報
最新のCPUを搭載したサーバーをご利用いただけます
多種多様なインスタンスタイプ
GPU一般用途
バランス型
メモリ
最適化
ストレージとIO
最適化
コンピュート
最適化
CR1M2CC2C1
HI1 HS1 CG1M1
多種多様なインスタンスタイプ
GPU一般用途
バランス型
メモリ
最適化
ストレージとIO
最適化
コンピュート
最適化
CR1M2CC2C1 HI1 CG1M1
G2M3 R3C3 I2 HS1
M3インスタンス - 汎用タイプ
• Intel Xeon E5-2670
(Sandy Bridge)
• SSDのインスタンス
ストレージ
CPU性能、メモリー、ネットワークのバランスがとれたタイプ
特徴 モデル vCPU メモリ
(GiB)
SSD
ストレージ
(GB)
オンデマン
ド料金
(東京)
m3.medium 1 3.75 1 x 4 $0.101
m3.large 2 7.5 1 x 32 $0.203
m3.xlarge 4 15 2 x 40 $0.405
m3.2xlarge 8 30 2 x 80 $0.810
C3インスタンス - CPU最適化
• Intel Xeon E5-2670 v2 

(Ivy Bridge)
• SSDインスタンスストレージ
• 低レイテンシー、低ジッタ、高い
秒間あたりのパケット性能を持つ
拡張されたネットワーク

(SR-IOV, VPCのみ)
• クラスタリングサポート
CPU性能に特化したタイプ。CPUあたりの料金が最も安い
特徴 モデル vCPU メモリ
(GiB)
SSD
ストレージ
(GB)
オンデマン
ド料金
(東京)
c3.large 2 7 2 x 16 $0.128
c3.xlarge 4 14 2 x 40 $0.255
c3.2xlarge 8 28 2 x 80 $0.511
c3.4xlarge 16 55 2 x 160 $1.021
c3.8xlarge 32 108 2 x 320 $2.043
R3インスタンス - メモリ最適化
• Intel Xeon E5-2670 v2 

(Ivy Bridge)
• SSDインスタンスストレージ
• 低レイテンシー、低ジッタ、
高い秒間あたりのパケット性
能を持つ拡張されたネットワー
ク (SR-IOV, VPCのみ)
メモリに特化したタイプ。メモリGiBあたりの料金が最も安い
特徴 モデル vCPU メモリ
(GiB)
SSD
ストレージ
(GB)
オンデマン
ド料金
(東京)
r3.large 2 15 1 x 32 $0.210
r3.xlarge 4 30.05 1 x 80 $0.420
r3.2xlarge 8 61 1 x 160 $0.840
r3.4xlarge 16 122 1 x 320 $1.680
r3.8xlarge 32 244 2 x 320 $3.360
I2インスタンス - ストレージ最適化
• Intel Xeon E5-2670 v2 

(Ivy Bridge)
• SSDインスタンスストレージ
• TRIMサポート
• 低レイテンシー、低ジッタ、高い
秒間あたりのパケット性能を持つ
拡張されたネットワーク

(SR-IOV, VPCのみ)
ストレージに最適化されており、高いランダムI/O性能、IOPSを提供

i2.8xlargeで秒間365,000超のランダムリードと秒間315,000超のランダムライト
特徴 モデル vCPU メモリ
(GiB)
SSD
ストレージ
(GB)
オンデマン
ド料金
(東京)
i2.xlarge 4 30.05 1 x 800 $1.051
i2.2xlarge 8 61 2 x 800 $2.101
i2.4xlarge 16 122 4 x 800 $4.202
i2.8xlarge 32 244 8 x 800 $8.404
NEW!! T2インスタンス
1時間あたり

6CPUクレジット

貯まる
最大144CPUクレジット
プールされる
1CPUクレジット=1分間CPUをフル活用可能
t2.microの場合
ベースライン(10%)
を超える場合
クレジットを利用し
てブースト
発電機所有が差別化要因だった時代の終焉
「発電機を持つ」ことは  
差別化要因ではなくなった  
!
「電気を利用してて何を創造するか」が
大きな差別化要因に。
「ITを持つ」ことは  
差別化要因ではなくなった  
!
「ITを利用してて何を創造するか」が
大きな差別化要因に。
AWS Summit Tokyo 2014
• 2014年7月17日(木) ∼ 18日(金)
• グランドプリンス新高輪 (東京・品川)
• 来場無料 (要事前登録)
• http://www.awssummittokyo.com/
• クルーズ様、ソニー様、グラニ様、クックパッド様など多
数の企業が登壇
「あなた」のクラウドがここに
AWSが誕生するまでの秘話

AWSが誕生するまでの秘話