Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Tokoroten Nakayama
PPTX, PDF
5,063 views
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
俺は分散を捨てるぞジョジョー http://atnd.org/events/34146
Technology
◦
Read more
28
Save
Share
Embed
Embed presentation
Download
Downloaded 47 times
1
/ 21
2
/ 21
3
/ 21
4
/ 21
5
/ 21
6
/ 21
7
/ 21
8
/ 21
9
/ 21
10
/ 21
11
/ 21
12
/ 21
13
/ 21
14
/ 21
15
/ 21
16
/ 21
17
/ 21
18
/ 21
19
/ 21
20
/ 21
21
/ 21
More Related Content
PPTX
ソーシャルゲームにレコメンドエンジンを導入した話
by
Tokoroten Nakayama
PDF
WalBの紹介
by
Takashi Hoshino
PDF
Rubyの会社でPythonistaが3ヶ月生き延びた話
by
Tokoroten Nakayama
PDF
[Postgre sql9.4新機能]レプリケーション・スロットの活用
by
Kosuke Kida
PDF
超簡単!? Punycode 変換 ~国際化・日本語ドメイン~
by
@ otsuka752
PDF
商用DBからPostgreSQLへ まず知っておいて欲しいまとめ
by
Kosuke Kida
PDF
introduction of WalB
by
MITSUNARI Shigeo
PPTX
MongoDB3.2の紹介
by
Tetsutaro Watanabe
ソーシャルゲームにレコメンドエンジンを導入した話
by
Tokoroten Nakayama
WalBの紹介
by
Takashi Hoshino
Rubyの会社でPythonistaが3ヶ月生き延びた話
by
Tokoroten Nakayama
[Postgre sql9.4新機能]レプリケーション・スロットの活用
by
Kosuke Kida
超簡単!? Punycode 変換 ~国際化・日本語ドメイン~
by
@ otsuka752
商用DBからPostgreSQLへ まず知っておいて欲しいまとめ
by
Kosuke Kida
introduction of WalB
by
MITSUNARI Shigeo
MongoDB3.2の紹介
by
Tetsutaro Watanabe
What's hot
PDF
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
by
Takahiro Inoue
PDF
MapReduce/YARNの仕組みを知る
by
日本ヒューレット・パッカード株式会社
PDF
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
by
日本ヒューレット・パッカード株式会社
PDF
Hadoop基盤を知る
by
日本ヒューレット・パッカード株式会社
PDF
PGXのレスポンスとリソース消費
by
Tatsumi Akinori
PPTX
日本語:Mongo dbに於けるシャーディングについて
by
ippei_suzuki
PDF
HDFS vs. MapR Filesystem
by
日本ヒューレット・パッカード株式会社
PDF
10分で分かるLinuxブロックレイヤ
by
Takashi Hoshino
PDF
Apache Hadoopを改めて知る
by
日本ヒューレット・パッカード株式会社
PDF
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
by
日本ヒューレット・パッカード株式会社
PDF
噛み砕いてKafka Streams #kafkajp
by
Yahoo!デベロッパーネットワーク
PDF
Osc2011 Do
by
Kazuhisa Hara
PDF
Hadoop, NoSQL, GlusterFSの概要
by
日本ヒューレット・パッカード株式会社
PDF
Embulkを活用したログ管理システム
by
Akihiro Ikezoe
PPT
遊休リソースを用いた相同性検索処理の並列化とその評価
by
Satoshi Nagayasu
PDF
20170312 r言語環境構築&dplyr ハンズオン
by
Nobuaki Oshiro
PDF
ビッグデータ活用とサーバー基盤
by
日本ヒューレット・パッカード株式会社
PDF
コンテナーによるIT基盤変革 - IT infrastructure transformation -
by
日本ヒューレット・パッカード株式会社
PDF
Db tech showcase2015 how to replicate between clusters
by
Hiroaki Kubota
PPTX
20161127 doradora09 japanr2016_lt
by
Nobuaki Oshiro
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
by
Takahiro Inoue
MapReduce/YARNの仕組みを知る
by
日本ヒューレット・パッカード株式会社
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
by
日本ヒューレット・パッカード株式会社
Hadoop基盤を知る
by
日本ヒューレット・パッカード株式会社
PGXのレスポンスとリソース消費
by
Tatsumi Akinori
日本語:Mongo dbに於けるシャーディングについて
by
ippei_suzuki
HDFS vs. MapR Filesystem
by
日本ヒューレット・パッカード株式会社
10分で分かるLinuxブロックレイヤ
by
Takashi Hoshino
Apache Hadoopを改めて知る
by
日本ヒューレット・パッカード株式会社
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
by
日本ヒューレット・パッカード株式会社
噛み砕いてKafka Streams #kafkajp
by
Yahoo!デベロッパーネットワーク
Osc2011 Do
by
Kazuhisa Hara
Hadoop, NoSQL, GlusterFSの概要
by
日本ヒューレット・パッカード株式会社
Embulkを活用したログ管理システム
by
Akihiro Ikezoe
遊休リソースを用いた相同性検索処理の並列化とその評価
by
Satoshi Nagayasu
20170312 r言語環境構築&dplyr ハンズオン
by
Nobuaki Oshiro
ビッグデータ活用とサーバー基盤
by
日本ヒューレット・パッカード株式会社
コンテナーによるIT基盤変革 - IT infrastructure transformation -
by
日本ヒューレット・パッカード株式会社
Db tech showcase2015 how to replicate between clusters
by
Hiroaki Kubota
20161127 doradora09 japanr2016_lt
by
Nobuaki Oshiro
Viewers also liked
PPTX
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
by
Hisahiko Shiraishi
PPTX
情報処理とは何か あとbigdataとか
by
Tokoroten Nakayama
PPTX
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
by
Tokoroten Nakayama
PPTX
DAUを評価指標から捨てた会社の話 #tokyowebmining
by
Tokoroten Nakayama
PDF
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
by
Tokoroten Nakayama
PPTX
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
by
Tokoroten Nakayama
PPTX
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
by
Daisuke Nogami
PPTX
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
by
Tokoroten Nakayama
PPTX
jubatusのECサイトへの適応 #jubatus_hackathon
by
Tokoroten Nakayama
PPTX
BattleField3に見る自己表現としてのゲームプレイ
by
Tokoroten Nakayama
PPTX
特徴ベクトル変換器を作った話 #dogenzakalt
by
Tokoroten Nakayama
PPTX
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
by
Tokoroten Nakayama
PPTX
特徴ベクトル変換器を作った話
by
Tokoroten Nakayama
PPTX
失敗から学ぶデータ分析グループのチームマネジメント変遷
by
Tokoroten Nakayama
PPTX
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
by
Tokoroten Nakayama
PPTX
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
by
正志 井澤
PPTX
Argosの紹介 #x86study
by
Tokoroten Nakayama
PPTX
機械学習ビジネス研究会(未踏研究会)
by
Tokoroten Nakayama
PPTX
たのしいうぇっぶくろーら #pyfes
by
Tokoroten Nakayama
PPTX
Muroto for ps vita
by
Tokoroten Nakayama
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
by
Hisahiko Shiraishi
情報処理とは何か あとbigdataとか
by
Tokoroten Nakayama
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
by
Tokoroten Nakayama
DAUを評価指標から捨てた会社の話 #tokyowebmining
by
Tokoroten Nakayama
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
by
Tokoroten Nakayama
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
by
Tokoroten Nakayama
決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
by
Daisuke Nogami
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
by
Tokoroten Nakayama
jubatusのECサイトへの適応 #jubatus_hackathon
by
Tokoroten Nakayama
BattleField3に見る自己表現としてのゲームプレイ
by
Tokoroten Nakayama
特徴ベクトル変換器を作った話 #dogenzakalt
by
Tokoroten Nakayama
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
by
Tokoroten Nakayama
特徴ベクトル変換器を作った話
by
Tokoroten Nakayama
失敗から学ぶデータ分析グループのチームマネジメント変遷
by
Tokoroten Nakayama
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
by
Tokoroten Nakayama
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
by
正志 井澤
Argosの紹介 #x86study
by
Tokoroten Nakayama
機械学習ビジネス研究会(未踏研究会)
by
Tokoroten Nakayama
たのしいうぇっぶくろーら #pyfes
by
Tokoroten Nakayama
Muroto for ps vita
by
Tokoroten Nakayama
Similar to ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
PDF
ソーシャルゲームのためのデータベース設計
by
Yoshinori Matsunobu
PPTX
ビッグデータ&データマネジメント展
by
Recruit Technologies
PDF
[INSIGHT OUT 2011] C26 ミッションクリティカルを実現する国産データベースHiRDBの技術(hara)
by
Insight Technology, Inc.
PDF
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
by
Developers Summit
KEY
ソーシャルゲームログ解析基盤のMongoDB活用事例
by
知教 本間
PPTX
Hadoopカンファレンス2013
by
Recruit Technologies
PDF
DynamoDBを利用したKPI保存システム
by
gree_tech
PPTX
DynamoDBだけでソシャゲを作ってみた
by
伊藤 祐策
PDF
ログ解析を支えるNoSQLの技術
by
Drecom Co., Ltd.
PDF
Deep Dive: Amazon DynamoDB (db tech showcase 2016)
by
Amazon Web Services Japan
PDF
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
by
Koichi Hamada
PDF
20130313 OSCA Hadoopセミナー
by
Ichiro Fukuda
PDF
Databasedesignforsocialgames 110115195940-phpapp02
by
hideki hasegawa
PDF
ソーシャルアプリを分析してみた
by
Drecom Co., Ltd.
PDF
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
by
decode2016
PDF
Info talk #36
by
Hiroshi Bunya
PDF
0730 bp study#35発表資料
by
Yasuhiro Horiuchi
PDF
20100930 sig startups
by
Ichiro Fukuda
PPT
マーケティング向け大規模ログ解析事例紹介
by
Kenji Hara
PDF
Facebookのリアルタイム Big Data 処理
by
maruyama097
ソーシャルゲームのためのデータベース設計
by
Yoshinori Matsunobu
ビッグデータ&データマネジメント展
by
Recruit Technologies
[INSIGHT OUT 2011] C26 ミッションクリティカルを実現する国産データベースHiRDBの技術(hara)
by
Insight Technology, Inc.
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
by
Developers Summit
ソーシャルゲームログ解析基盤のMongoDB活用事例
by
知教 本間
Hadoopカンファレンス2013
by
Recruit Technologies
DynamoDBを利用したKPI保存システム
by
gree_tech
DynamoDBだけでソシャゲを作ってみた
by
伊藤 祐策
ログ解析を支えるNoSQLの技術
by
Drecom Co., Ltd.
Deep Dive: Amazon DynamoDB (db tech showcase 2016)
by
Amazon Web Services Japan
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
by
Koichi Hamada
20130313 OSCA Hadoopセミナー
by
Ichiro Fukuda
Databasedesignforsocialgames 110115195940-phpapp02
by
hideki hasegawa
ソーシャルアプリを分析してみた
by
Drecom Co., Ltd.
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
by
decode2016
Info talk #36
by
Hiroshi Bunya
0730 bp study#35発表資料
by
Yasuhiro Horiuchi
20100930 sig startups
by
Ichiro Fukuda
マーケティング向け大規模ログ解析事例紹介
by
Kenji Hara
Facebookのリアルタイム Big Data 処理
by
maruyama097
More from Tokoroten Nakayama
PPTX
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
by
Tokoroten Nakayama
PDF
ビジネスパーソンのためのDX入門講座エッセンス版
by
Tokoroten Nakayama
PPTX
データサイエンティスト養成読本の解説+書き忘れたこと
by
Tokoroten Nakayama
PPTX
なぜコンピュータを学ばなければならないのか 21世紀の君主論
by
Tokoroten Nakayama
PPTX
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
by
Tokoroten Nakayama
PPTX
インターネット上の情報発信手段の変遷 情報発信の簡易化
by
Tokoroten Nakayama
PPTX
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
by
Tokoroten Nakayama
PPTX
機械学習の精度と売上の関係
by
Tokoroten Nakayama
PDF
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
by
Tokoroten Nakayama
PPTX
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
by
Tokoroten Nakayama
PPTX
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
by
Tokoroten Nakayama
PPTX
データマイニングの話詰め合わせ
by
Tokoroten Nakayama
PPTX
難易度ボラタリティグラフという分析手法
by
Tokoroten Nakayama
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
by
Tokoroten Nakayama
ビジネスパーソンのためのDX入門講座エッセンス版
by
Tokoroten Nakayama
データサイエンティスト養成読本の解説+書き忘れたこと
by
Tokoroten Nakayama
なぜコンピュータを学ばなければならないのか 21世紀の君主論
by
Tokoroten Nakayama
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
by
Tokoroten Nakayama
インターネット上の情報発信手段の変遷 情報発信の簡易化
by
Tokoroten Nakayama
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
by
Tokoroten Nakayama
機械学習の精度と売上の関係
by
Tokoroten Nakayama
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
by
Tokoroten Nakayama
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
by
Tokoroten Nakayama
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
by
Tokoroten Nakayama
データマイニングの話詰め合わせ
by
Tokoroten Nakayama
難易度ボラタリティグラフという分析手法
by
Tokoroten Nakayama
Recently uploaded
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PDF
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
PDF
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
PDF
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
PDF
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
PDF
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PDF
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
1.
ドリコムのデータ分析環境のお 話
ところてん @tokoroten
2.
合わせて読みたい • 第2回 ioDrive+MySQL勉強会
@外道父 ioDriveの世界 へようこそ – http://www.slideshare.net/GedowFather/welcome-to- iodrive-world • ActiveRecord Turntable – ドリコム内製のDBの水平分割ミドルウェア – http://www.slideshare.net/drecom/activerecordturntab le • ソーシャルゲームにレコメンドエンジンを導入した話 – http://www.slideshare.net/TokorotenNakayama/ss- 15111004
3.
自己紹介 • ところてん@Drecom –
データ分析グループ – 高機能雑用 • R&D&火消し&データ分析&企画 • 最近、インフラ業務が外れた – 定額働きたい放題プラン、意識の高い社 畜 – Pythonista – awkかわいいよawk – Rubyは読めるけど書けない • 注)DrecomはRailsの会社です 3
4.
ドリコムのデータ分析の概要 • 言語 –
Hadoop、hive、sh、R、SPSS、Knime、Python • 環境 – 分析用の専用サーバ*2(1.2TBのFIO搭載) – データ収集、分析用Hadoopクラスタ • Impalaを本番投入準備中 • 仕事 – ゲームのバランスチェック、KPI設計、継続率、 収益予測、テキストマイニング、広告効果計測 4
5.
ドリコムのデータ分析の構成例
Webサーバ 数十台 ActiveRecord Turntable ユーザIDごとに水平分割 M-DB1 M-DB2 M-DB3 M-DB4 M-DB5 マスター5台 (FIO搭載) S-DB1S S-DB2 S-DB3 S-DB4 S-DB5 スレーブ5台 (FIO搭載) Fluentd 定期的にDBのダンプを取得 Fuse-HDFS FIOを搭載した分析用サーバ ログサーバ (HDFS) 1.2TBのFIO、16コア、メモリ 32GB HDFSから必要なログを収集
6.
データ分析の人的問題 • 全部を満たすのは難しい –統計分析能力(必須)
–ゲームそのものに対する理解 –データ抽出、前処理能力 –機械学習、マイニング –可視化 –並列処理、分散処理(hadoop) 6
7.
分析のトレードオフ • おれは分散をやめるぞジョ
ジョーー!! 画像省略
8.
ソーシャルゲームのデータ特性 • データ量はたかが知れてる –
アクセスログ、一日数十GB – DBのダンプ、数百GB • ゲームの仕様変更が頻繁 – あまりに古い物を参照しても仕方ない – 三ヶ月前のログは比較しづらい • 短期間の莫大な量のデータを解析する必 要 • 分散に向かない解析が必要なことも
9.
hadoopのデータ特性、思想 • Hadoopは無限のストレージに無限の計算リ
ソースを利用して価値を生み出すシステム • データは経年劣化しないことが前提 – 遺伝子情報 – ウェブページのスナップショット – etc… • ソーシャルゲームのデータ特性とは相性が 悪い – ソーシャルゲームのデータは経年劣化する – 二週間に一度、大規模なアップデート
10.
分析のトレードオフ • Hadoopで分散より、スクリプト言語 –
分散処理のデバッグの時間が惜しい • PDCAは三日程度 • 一日リリースが遅れるとXXXX万円の機会損失 – ゲームごとにスキーマが異なる – スキーマは更新で頻繁に変わる – 小さい処理ではHadoopのオーバーヘッドが 重たい – KnimeやSPSSなどの高度なツールが使える – FIOが早い、FIOが早い、FIOが早い
11.
データ分析のワークフロー • サービスのSlaveにクエリを投げて、
DBのスナップショットをFIO上に取得 • fuse-hdfsでマウントされたHDFSにログ データを問い合わせ – 何度もアクセスして負荷が激しい場合はFIO上 に再配置 • スクリプト言語でゴリゴリ処理 • 結果をRやExcelで可視化
12.
データ分析の運用フロー • 分析チームが分析用サーバでデータ
分析 • 定常化する必要がある場合は、イン フラ部に依頼、 – Hiveバッチ化、hadoopバッチ化 – スクリプトを渡して運用を依頼 • 分析用サーバはよく落ちる(無茶をするの で) – 分析のための中間データの出力を依頼
13.
Bigdataはどこで生まれるのか? • データが生まれるのは運用の現場 研究
開発 運用 ログデータ • 分析者がログデータを手に入れるには現 場との信頼関係が必須 – 大企業では信頼関係が構築しづらい
14.
自主規制
15.
分析のための組織構造 •
基本的に社員はすべてのデータが見 れる – 組織が近いので、やり取りが迅速 – 分析者はアプリ開発者の真横に座る ソーシャルゲーム事業部 戦国フ ユーザ ビック ソード× データ 陰陽師 ロン 基盤部 サポー リマン ソード 分析 ティア ト アプリケーションごとの開発・運用ライ
16.
ソーシャルゲームにおけるPDCA • ログデータと開発が近いとPDCAが回
る 基盤部 Research Plan 開発ライン 開発ライ Action Do 開発ライ ン ン Check データ分析
17.
FIOってホントに早いの?実験 • 実験環境、分析用PC –
Hiveクエリ – Fuse-hdfs – FIO – SASドライブ(3台のストライピング) – 開発用ノートPC • 対象データ – あるアプリの一日分のアクセスログ • gz圧縮 1.3GB 生データ 5.6GB
18.
ユニークユーザカウント • コマンド –
time zcat *.gz | awk -F"t" '{print $3}' | sort -u | wc – l – hive : select count(distinct userid)~ group by userid • 結果 – Hive 72秒 – Fuse-hdfs 89秒 – FIO 70秒 (解凍済みだと46秒) – SASドライブ 71秒(解凍済みだと46秒) – 開発用ノートPC 140秒
19.
zcatでファイルを舐めるだけ • コマンド –
time zcat *.gz > /dev/null • 結果 – Fuse-hdfs 76秒 – FIO 57秒 (解凍済みだと1.55秒) – SASドライブ 57秒(解凍済みだと1.54 秒) – 開発用ノートPC 解凍済みで98秒
20.
原因はCPU • 結果 –
FIO≒SAS(3台ストライピング)>hive >fuse-hdfs>>>ローカル • CPUが足を引っ張る – 処理時間の大半はgzの展開 • 並列化すると真価を発揮する – データ分析のために過去のDB状態をバック アップからリストア – 8DBの同時復元を行っても速度変わらず
21.
まとめ • ドリコムのデータ分析チームは分散してない –
ソーシャルゲームのデータ特性 – PDCAサイクルが短い – FIOが早い • 安定したらインフラ部に依頼 – Hive、hadoopによる中間データの定常出力依頼 – スクリプトの引渡し、運用依頼、hadoopへの移植依 頼 • FIOの実験 – FIOの性能を活かしきるにはCPUがボトルネック – 分析のためにDBの8並列リストアとかやってる
Download