Submit Search
Upload
Awsで作るビッグデータ解析今とこれから
•
7 likes
•
2,392 views
Shohei Kobayashi
Follow
AWSで作るビッグデータの話です! AWSさんの拡散事例に載りたいんでみんな拡散してください!
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 28
Download now
Download to read offline
Recommended
What's Amazon Athena? - re:Growth 2016 Osaka
What's Amazon Athena? - re:Growth 2016 Osaka
Ganota Ichida
Global Network on Alibaba Cloud
Global Network on Alibaba Cloud
Shinya Mori (@mosuke5)
20161214 re growth-sapporo
20161214 re growth-sapporo
Satoru Ishikawa
HTML5J AWS でできるIoT
HTML5J AWS でできるIoT
Toshiaki Enami
IoTデザインパターン 2015 JAWS沖縄
IoTデザインパターン 2015 JAWS沖縄
Toshiaki Enami
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
Yosuke Katsuki
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
Alieaters2 alibabacloud 20180320
Alieaters2 alibabacloud 20180320
Qiu Binbin
Recommended
What's Amazon Athena? - re:Growth 2016 Osaka
What's Amazon Athena? - re:Growth 2016 Osaka
Ganota Ichida
Global Network on Alibaba Cloud
Global Network on Alibaba Cloud
Shinya Mori (@mosuke5)
20161214 re growth-sapporo
20161214 re growth-sapporo
Satoru Ishikawa
HTML5J AWS でできるIoT
HTML5J AWS でできるIoT
Toshiaki Enami
IoTデザインパターン 2015 JAWS沖縄
IoTデザインパターン 2015 JAWS沖縄
Toshiaki Enami
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
re:Growth 2016 in TOKYO発表「AWS Glueの紹介」
Yosuke Katsuki
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
Alieaters2 alibabacloud 20180320
Alieaters2 alibabacloud 20180320
Qiu Binbin
温故知新、Static Web のサイトを構築しよう
温故知新、Static Web のサイトを構築しよう
Shinya Mori (@mosuke5)
AliEaters meetup#1 ド派手ダッシュボードDataVで遊んでみよう
AliEaters meetup#1 ド派手ダッシュボードDataVで遊んでみよう
Shinya Mori (@mosuke5)
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon Web Services Japan
Aws athenaを使ってみた
Aws athenaを使ってみた
Sunggyu Rhie
ビックデータ最適解とAWSにおける新しい武器
ビックデータ最適解とAWSにおける新しい武器
Akihiro Kuwano
Morning Session - AWS Serverless Ways
Morning Session - AWS Serverless Ways
akitsukada
Alibaba Cloudを自分なりに整理してみた
Alibaba Cloudを自分なりに整理してみた
Qiu Binbin
20151016 soracom-araki-02
20151016 soracom-araki-02
Yasuhiro Araki, Ph.D
JAWS re:Mote 2015 Nagoya
JAWS re:Mote 2015 Nagoya
陽平 山口
AWS Lambda のご紹介 2015 JAWS沖縄
AWS Lambda のご紹介 2015 JAWS沖縄
Toshiaki Enami
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
Growing up serverless
Growing up serverless
Amazon Web Services Japan
Kinesis Firehoseを使ってみた
Kinesis Firehoseを使ってみた
Masaki Misawa
Big DataとContainerとStream - AWSでのクラスタ構成とストリーム処理 -
Big DataとContainerとStream - AWSでのクラスタ構成とストリーム処理 -
Amazon Web Services Japan
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Web Services Japan
めっちゃお得なDNS。Alibaba Cloud DNS を diggin’ @Alibaba Cloud Developers Meetup #2 - ...
めっちゃお得なDNS。Alibaba Cloud DNS を diggin’ @Alibaba Cloud Developers Meetup #2 - ...
Masaki Yoshimura
AWS Black Belt Techシリーズ Amazon Kinesis
AWS Black Belt Techシリーズ Amazon Kinesis
Amazon Web Services Japan
Kubernetes on Alibaba Cloud
Kubernetes on Alibaba Cloud
真吾 吉田
知られざる、Alibaba Cloudを支えるオープンソース
知られざる、Alibaba Cloudを支えるオープンソース
Shinya Mori (@mosuke5)
re:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデート
Satoru Ishikawa
Introduction to AWS X-Ray
Introduction to AWS X-Ray
Keisuke Nishitani
Going Serverless, Building Applications with No Servers
Going Serverless, Building Applications with No Servers
Keisuke Nishitani
More Related Content
What's hot
温故知新、Static Web のサイトを構築しよう
温故知新、Static Web のサイトを構築しよう
Shinya Mori (@mosuke5)
AliEaters meetup#1 ド派手ダッシュボードDataVで遊んでみよう
AliEaters meetup#1 ド派手ダッシュボードDataVで遊んでみよう
Shinya Mori (@mosuke5)
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon Web Services Japan
Aws athenaを使ってみた
Aws athenaを使ってみた
Sunggyu Rhie
ビックデータ最適解とAWSにおける新しい武器
ビックデータ最適解とAWSにおける新しい武器
Akihiro Kuwano
Morning Session - AWS Serverless Ways
Morning Session - AWS Serverless Ways
akitsukada
Alibaba Cloudを自分なりに整理してみた
Alibaba Cloudを自分なりに整理してみた
Qiu Binbin
20151016 soracom-araki-02
20151016 soracom-araki-02
Yasuhiro Araki, Ph.D
JAWS re:Mote 2015 Nagoya
JAWS re:Mote 2015 Nagoya
陽平 山口
AWS Lambda のご紹介 2015 JAWS沖縄
AWS Lambda のご紹介 2015 JAWS沖縄
Toshiaki Enami
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
Growing up serverless
Growing up serverless
Amazon Web Services Japan
Kinesis Firehoseを使ってみた
Kinesis Firehoseを使ってみた
Masaki Misawa
Big DataとContainerとStream - AWSでのクラスタ構成とストリーム処理 -
Big DataとContainerとStream - AWSでのクラスタ構成とストリーム処理 -
Amazon Web Services Japan
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Web Services Japan
めっちゃお得なDNS。Alibaba Cloud DNS を diggin’ @Alibaba Cloud Developers Meetup #2 - ...
めっちゃお得なDNS。Alibaba Cloud DNS を diggin’ @Alibaba Cloud Developers Meetup #2 - ...
Masaki Yoshimura
AWS Black Belt Techシリーズ Amazon Kinesis
AWS Black Belt Techシリーズ Amazon Kinesis
Amazon Web Services Japan
Kubernetes on Alibaba Cloud
Kubernetes on Alibaba Cloud
真吾 吉田
知られざる、Alibaba Cloudを支えるオープンソース
知られざる、Alibaba Cloudを支えるオープンソース
Shinya Mori (@mosuke5)
re:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデート
Satoru Ishikawa
What's hot
(20)
温故知新、Static Web のサイトを構築しよう
温故知新、Static Web のサイトを構築しよう
AliEaters meetup#1 ド派手ダッシュボードDataVで遊んでみよう
AliEaters meetup#1 ド派手ダッシュボードDataVで遊んでみよう
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティス
Aws athenaを使ってみた
Aws athenaを使ってみた
ビックデータ最適解とAWSにおける新しい武器
ビックデータ最適解とAWSにおける新しい武器
Morning Session - AWS Serverless Ways
Morning Session - AWS Serverless Ways
Alibaba Cloudを自分なりに整理してみた
Alibaba Cloudを自分なりに整理してみた
20151016 soracom-araki-02
20151016 soracom-araki-02
JAWS re:Mote 2015 Nagoya
JAWS re:Mote 2015 Nagoya
AWS Lambda のご紹介 2015 JAWS沖縄
AWS Lambda のご紹介 2015 JAWS沖縄
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
Growing up serverless
Growing up serverless
Kinesis Firehoseを使ってみた
Kinesis Firehoseを使ってみた
Big DataとContainerとStream - AWSでのクラスタ構成とストリーム処理 -
Big DataとContainerとStream - AWSでのクラスタ構成とストリーム処理 -
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
めっちゃお得なDNS。Alibaba Cloud DNS を diggin’ @Alibaba Cloud Developers Meetup #2 - ...
めっちゃお得なDNS。Alibaba Cloud DNS を diggin’ @Alibaba Cloud Developers Meetup #2 - ...
AWS Black Belt Techシリーズ Amazon Kinesis
AWS Black Belt Techシリーズ Amazon Kinesis
Kubernetes on Alibaba Cloud
Kubernetes on Alibaba Cloud
知られざる、Alibaba Cloudを支えるオープンソース
知られざる、Alibaba Cloudを支えるオープンソース
re:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデート
Viewers also liked
Introduction to AWS X-Ray
Introduction to AWS X-Ray
Keisuke Nishitani
Going Serverless, Building Applications with No Servers
Going Serverless, Building Applications with No Servers
Keisuke Nishitani
Introducing Amazon Rekognition, Amazon Polly and Amazon Lex
Introducing Amazon Rekognition, Amazon Polly and Amazon Lex
Keisuke Nishitani
What's new with Serverless
What's new with Serverless
Keisuke Nishitani
【プレゼン】見やすいプレゼン資料の作り方【初心者用】
【プレゼン】見やすいプレゼン資料の作り方【初心者用】
MOCKS | Yuta Morishige
Tune Up AWS Lambda
Tune Up AWS Lambda
Keisuke Nishitani
AWSでアプリ開発するなら 知っておくべこと
AWSでアプリ開発するなら 知っておくべこと
Keisuke Nishitani
Novelties in Java EE 7: JAX-RS 2.0 + IPT REST HATEOAS Polling Demo @ BGOUG Co...
Novelties in Java EE 7: JAX-RS 2.0 + IPT REST HATEOAS Polling Demo @ BGOUG Co...
Trayan Iliev
MTDDC 2010.2.5 Tokyo - Brand new API
MTDDC 2010.2.5 Tokyo - Brand new API
Six Apart KK
Data API ことはじめ
Data API ことはじめ
Yuji Takayama
Fork/Join Framework。そしてLambdaへ。
Fork/Join Framework。そしてLambdaへ。
Yuichi Sakuraba
Introducing C# in AWS Lambda
Introducing C# in AWS Lambda
Atsushi Fukui
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
Keisuke Nishitani
20161111 java one2016-feedback
20161111 java one2016-feedback
Takashi Ito
AWSのサーバレス関連アップデートを10分で紹介します
AWSのサーバレス関連アップデートを10分で紹介します
Keisuke Nishitani
デモから見るOpenWhisk - Docker Action -
デモから見るOpenWhisk - Docker Action -
Hideaki Tokida
Serverless meetup02 openwhisk
Serverless meetup02 openwhisk
Hideaki Tokida
The Internal of Serverless Plugins
The Internal of Serverless Plugins
Terui Masashi
Building Serverless Backends with AWS Lambda and Amazon API Gateway
Building Serverless Backends with AWS Lambda and Amazon API Gateway
Amazon Web Services
What's new with Serverless
What's new with Serverless
Keisuke Nishitani
Viewers also liked
(20)
Introduction to AWS X-Ray
Introduction to AWS X-Ray
Going Serverless, Building Applications with No Servers
Going Serverless, Building Applications with No Servers
Introducing Amazon Rekognition, Amazon Polly and Amazon Lex
Introducing Amazon Rekognition, Amazon Polly and Amazon Lex
What's new with Serverless
What's new with Serverless
【プレゼン】見やすいプレゼン資料の作り方【初心者用】
【プレゼン】見やすいプレゼン資料の作り方【初心者用】
Tune Up AWS Lambda
Tune Up AWS Lambda
AWSでアプリ開発するなら 知っておくべこと
AWSでアプリ開発するなら 知っておくべこと
Novelties in Java EE 7: JAX-RS 2.0 + IPT REST HATEOAS Polling Demo @ BGOUG Co...
Novelties in Java EE 7: JAX-RS 2.0 + IPT REST HATEOAS Polling Demo @ BGOUG Co...
MTDDC 2010.2.5 Tokyo - Brand new API
MTDDC 2010.2.5 Tokyo - Brand new API
Data API ことはじめ
Data API ことはじめ
Fork/Join Framework。そしてLambdaへ。
Fork/Join Framework。そしてLambdaへ。
Introducing C# in AWS Lambda
Introducing C# in AWS Lambda
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
Running Java Apps with Amazon EC2, AWS Elastic Beanstalk or Serverless
20161111 java one2016-feedback
20161111 java one2016-feedback
AWSのサーバレス関連アップデートを10分で紹介します
AWSのサーバレス関連アップデートを10分で紹介します
デモから見るOpenWhisk - Docker Action -
デモから見るOpenWhisk - Docker Action -
Serverless meetup02 openwhisk
Serverless meetup02 openwhisk
The Internal of Serverless Plugins
The Internal of Serverless Plugins
Building Serverless Backends with AWS Lambda and Amazon API Gateway
Building Serverless Backends with AWS Lambda and Amazon API Gateway
What's new with Serverless
What's new with Serverless
Similar to Awsで作るビッグデータ解析今とこれから
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
Shohei Kobayashi
[REV UP] あなたならどう使う?最新Azureレシピ for LINE Platform
[REV UP] あなたならどう使う?最新Azureレシピ for LINE Platform
拓将 平林
AWSによるサーバーレスアーキテクチャ
AWSによるサーバーレスアーキテクチャ
真吾 吉田
AWSからOpenStack, Chef SoloからChef Serverに インフラを置き換えた事例の紹介
AWSからOpenStack, Chef SoloからChef Serverに インフラを置き換えた事例の紹介
Naoyuki Yamada
Azure Serverless or Power Platform 〜 あなたならどっち?! - Azure Serverless 編
Azure Serverless or Power Platform 〜 あなたならどっち?! - Azure Serverless 編
Kazumi IWANAGA
AWS Lambda + Python資料 ver0.94 20160825
AWS Lambda + Python資料 ver0.94 20160825
Yasuharu Suzuki
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
Daisuke Tamada
もっとサーバーレスを手軽に便利に!Azure Logic Apps
もっとサーバーレスを手軽に便利に!Azure Logic Apps
典子 松本
面白いは正義
面白いは正義
Yasuhiro Horiuchi
我が家のフロントエンド開発事情
我が家のフロントエンド開発事情
Naoki Yamada
Creating Mashup service in Yamaguchi
Creating Mashup service in Yamaguchi
Ohishi Mikage
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
LINE Bot 開発のための Azure Logic Apps 入門
LINE Bot 開発のための Azure Logic Apps 入門
拓将 平林
SharePoint 開発でできること 2019年9月版
SharePoint 開発でできること 2019年9月版
Hiroaki Oikawa
Smart store servlerless-20191030-40min
Smart store servlerless-20191030-40min
Microsoft Azure Japan
Azure Logic Apps で SharePoint をパワーアップしよう!
Azure Logic Apps で SharePoint をパワーアップしよう!
Hirofumi Ota
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
Shoji Shirotori
PaaS / Cloud Foundry makes you happy
PaaS / Cloud Foundry makes you happy
Katsunori Kawaguchi
sitTokyo2023_App&Dev_01_ariyama.pptx
sitTokyo2023_App&Dev_01_ariyama.pptx
yuichiariyama
Azure Websites で作るスケーラブルな PHP アプリケーション
Azure Websites で作るスケーラブルな PHP アプリケーション
Masashi Shinbara
Similar to Awsで作るビッグデータ解析今とこれから
(20)
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
クラウドコンピューティングでつくるビッグデータ解析のいまとこれから
[REV UP] あなたならどう使う?最新Azureレシピ for LINE Platform
[REV UP] あなたならどう使う?最新Azureレシピ for LINE Platform
AWSによるサーバーレスアーキテクチャ
AWSによるサーバーレスアーキテクチャ
AWSからOpenStack, Chef SoloからChef Serverに インフラを置き換えた事例の紹介
AWSからOpenStack, Chef SoloからChef Serverに インフラを置き換えた事例の紹介
Azure Serverless or Power Platform 〜 あなたならどっち?! - Azure Serverless 編
Azure Serverless or Power Platform 〜 あなたならどっち?! - Azure Serverless 編
AWS Lambda + Python資料 ver0.94 20160825
AWS Lambda + Python資料 ver0.94 20160825
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
速度改善のためにフロント:アプリ:インフラ エンジニアが使うツールについて
もっとサーバーレスを手軽に便利に!Azure Logic Apps
もっとサーバーレスを手軽に便利に!Azure Logic Apps
面白いは正義
面白いは正義
我が家のフロントエンド開発事情
我が家のフロントエンド開発事情
Creating Mashup service in Yamaguchi
Creating Mashup service in Yamaguchi
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
LINE Bot 開発のための Azure Logic Apps 入門
LINE Bot 開発のための Azure Logic Apps 入門
SharePoint 開発でできること 2019年9月版
SharePoint 開発でできること 2019年9月版
Smart store servlerless-20191030-40min
Smart store servlerless-20191030-40min
Azure Logic Apps で SharePoint をパワーアップしよう!
Azure Logic Apps で SharePoint をパワーアップしよう!
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
PaaS / Cloud Foundry makes you happy
PaaS / Cloud Foundry makes you happy
sitTokyo2023_App&Dev_01_ariyama.pptx
sitTokyo2023_App&Dev_01_ariyama.pptx
Azure Websites で作るスケーラブルな PHP アプリケーション
Azure Websites で作るスケーラブルな PHP アプリケーション
More from Shohei Kobayashi
これから始めるssl対策
これから始めるssl対策
Shohei Kobayashi
Works of site reliability engineer
Works of site reliability engineer
Shohei Kobayashi
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
Shohei Kobayashi
わかると楽しいInfrastructure as code
わかると楽しいInfrastructure as code
Shohei Kobayashi
インフラ・サーバ技術の Days of Future Past
インフラ・サーバ技術の Days of Future Past
Shohei Kobayashi
Awsとrubyで作るビッグデータ解析の裏側
Awsとrubyで作るビッグデータ解析の裏側
Shohei Kobayashi
はじめてのDNS
はじめてのDNS
Shohei Kobayashi
Ruby on vim yokohama.vim発表資料
Ruby on vim yokohama.vim発表資料
Shohei Kobayashi
More from Shohei Kobayashi
(8)
これから始めるssl対策
これから始めるssl対策
Works of site reliability engineer
Works of site reliability engineer
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
RDBNoSQLの基礎と組み合わせDB構成をちょっとよくする話
わかると楽しいInfrastructure as code
わかると楽しいInfrastructure as code
インフラ・サーバ技術の Days of Future Past
インフラ・サーバ技術の Days of Future Past
Awsとrubyで作るビッグデータ解析の裏側
Awsとrubyで作るビッグデータ解析の裏側
はじめてのDNS
はじめてのDNS
Ruby on vim yokohama.vim発表資料
Ruby on vim yokohama.vim発表資料
Awsで作るビッグデータ解析今とこれから
1.
AWSで作るビッグデータ解析 今とこれから 月刊ライトニングトーク年末特別号@いいオフィス
Shohei Kobayashi Twitter http://twitter.com/srockstyle Facebook https://www.facebook.com/srockstyle Github https://github.com/srockstyle
2.
Shohei Kobayashi •
Cloud Infra Server Engineer • AWS、Azure • Ruby,PHP,Perl,Python,JavaScript,Golang <-New! • 2005~2011: Infra Server Engineer • 2011~2013:Front&Serverside Engineer • 2014~:Cloud Infra Server Engineer
3.
8月のLT大会では弊社のつるが大変お世話になりまんた 今回はこのプレゼンのバックエンド、インフラサイドのお話です
4.
今回は集計システムのバックエンド、インフラサイドのお話です
5.
今年6月のCreators Meetupでこんな発表したよ
6.
会社がやってるアプリの新・集計システム • データ増大によりそれまで使ってた集計システ
ムがパンクしたため2014年4月に同僚ふたりと 開発開始。 • 二人にMapperとReducer、SQL、管理画面な どのフロント全般を任せ、僕がクラウドを使っ た集計インフラの設計とAWSのプロダクトをコ ントロールするプログラムを担当。 • AWSをキックする仕組み全般を僕が作り、二人 には集計データのまとめと集計に必要なリソー スを書くYamlファイルの作成だけお願いした。 • Yamlのフォーマットはこちらで決めた
7.
2014年11月段階で動いている新・集計
8.
細かい仕組み等
9.
0.アプリからS3へ
10.
0:アプリからS3にログをあげることでやってること だいたいこの3パターン •
経由するAPIの方でログを生成し、S3にアップ • DynamoDBに収めたログをS3にエクスポート。 • API内でログを生成したものをFluentdを経由してS3 にアップ。
11.
1.mapperとreducerをS3へ
12.
1:MapperとReducerをS3へ ログ集計したいときにやっちゃいます •
クラウドをキックするコントロールアプリケーション内に mapperとreducerはフォルダを切って、集計したい事案ごとに 格納。 • 集計が走る段階でCronを回し、その瞬間にS3にmapperと reducerも一緒にアップロードされる。 • 普段はコントロールアプリケーションと一緒にGit管理。(スク リプトは常に変更が走る可能性があるため、毎回S3にあるやつ は消して今あるものをアップロードしてる)
13.
3.EMRクラスタ作成と起動と実行
14.
3:EMRクラスタの作成と起動と実行その1 Yamlファイルで設定したものをJob-Flowに変換してます •
必要なパラメータはYamlファイルに書いてもらい、それをプログラ ム内でEMRクラスタの作成・起動に必要なJob-Flowスクリプトに変 換してる。(集計インフラの仕組みを理解してなくても、mapperと Reducerを書く集計担当のエンジニアが集計作業ができるように) • 現在は一つの集計のたびにいちいちクラスタは起動せず、一回クラス タ立ち上げたら複数のMapReduceを連続で流してます。(EC2イン スタンス大量起動による経費削減のため)
15.
3:EMRクラスタの作成と起動と実行その2 HadoopはHadoop-streamingで使ってます •
Javaを書きたくなかった(Rubyでやりたかった) • EMRを起動するためのスクリプト”Job-Flow Script”が当時ド キュメントがなくて、Yamlを変換するところ作るの死ぬほど苦 労した(存在する日本語ドキュメント全部間違ってて辛かった) • AWS-SDKフル活用
16.
3:EMRクラスタの作成と起動と実行その3 ログフォルダは移動しなくても全部フォルダ指定 •
最初inputフォルダしかログファイルおかないとだめだとおもっ たらS3のバケットのフォルダ直接指定でいけた……(inputフォ ルダにログコピーに6時間かかってたのが0分になった) • ログを「-input=“<ログフォルダ>”」で指定する • 一度に指定できるログフォルダの数は~1024程度ぽい。(前さ 過去3年の日付分のフォルダを指定したら怒られた)
17.
4.Redshiftへのインポート
18.
4:Redshiftへのインポート とにかく最後はRedshift •
MapReduceしたログをJsonでS3上に吐き出したも のに対してimportコマンドを使うことでRedshiftの テーブルにインポートできる • データウェアハウスではなくデータマート的な使い 方だけど、本当はデータをただ貯めとくだけでもOK
19.
今後やりたいこと 会社でやるかは未定だけどデータ集計関連で 個人的にこうなるのかなーっていう感じのアレ
20.
AWS Lambdaでやりたいイベントドリブンな集計操作 コントロールアプリの撤廃
• ログが上がり終わるなどのイベントでLambda関数 を発動 • Lambda関数内でnode.jsのAWS-SDKを使ってEMR のjob-flowを送りクラスタの作成と起動 • EMRが処理終わった段階で別なLambda関数を使っ てRedshiftへのインポート
21.
Google Data Flowでやりたい
次世代データ集計 • バッチとリアルタイム処理で同じAPIをつかって作 業 • パイプラインらへんはGoogleに任せて、解析のロ ジックだけに開発者は集中できる • 集計サーバとかいらなくなるね!楽! (AWS Lambdaで実装すればいいかも……/ぼそっ)
22.
Google DataFlow だとBigQuery?
• RedshiftほどAWSとの親和性はないけど、とにかく安い。ク エリも早い。(1.2億行なら2円) • 1TBを1秒でフルスキャンするために5000台のディスクをイン デックスなしで並列稼働させてるから早いらしい(ナニソレ • S3にログを集める以降の処理はAWSからGoogle Dataflowに 飛ばしてからのBigQuery格納でいい気がしてる。 (現状ではRedshiftのパフォーマンスは満足なので Redshiftさん値下がりしないかな……/ぼそっ)
23.
今はフルAWSで作ってます
24.
AWSのRedshift紹介ページに掲載されたいその1
25.
AWSのEMR紹介ページに掲載されたいその2
26.
AWSさんの導入事例に掲載されたいんで、 SlideShareにあげたこの資料のURL拡散 なにそつよろしくお願いいたします!
掲載されたら拡散してくれた人の中から 抽選で寿司か焼肉おごります僕が
27.
うちの会社、絶賛エンジニア募集してるよ ぼそっ
28.
ご静聴あざした!
Download now