社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待（Hadoop Conference Japan 2014）

•

4 likes•3,666 views

Hadoop Conference Japan 2014 講演資料 https://hcj2014.eventbrite.com/ ■本資料は次のセッション中にゲストとして登壇されたNTTドコモ田中聡様の講演資料です。『Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待』土橋昌（NTTデータ）

Technology

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
社会の頭脳システムの構築と運用
- Hadoopユーザから見たSPARK等の期待 -
２０14／07／08
株式会社ＮＴＴドコモ
先進技術研究所
田中聡、國頭吾郎、石田創、高橋竜男、川崎紀宏

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
アウトライン
• 社会の頭脳システム
– サーバ1000台を使ったHadoopシステム
• 社会の頭脳システム運用からの課題
• 今後の取り組み
1

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
社会の頭脳システム
エコ社会
便利な社会
安心・安全な社会
社会の頭脳システム
新サービス研究のためのプラットフォーム
2

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
3
33
NameNode（2台）
Slave Node(1012台）
Hadoop
クライアント（2台）
インストールサーバ
保守・運用・監視系サーバ（4台）
JobTracker（2台）
モニタリングサーバ
社会の頭脳システムの構成
• 汎用サーバ1000台超のクラスタを構築・運用
• 遠隔からの運用・保守方式の実現
• オープンソースソフトウェアで保守・運用・監視機能を実現
2009年から運用開始

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
社会の頭脳システム運用からみた利点と課題
NameNode（2台）
Slave Node(1012台）
Hadoop
クライアント（2台）
JobTracker（2台）
• 課題１：多様なスループットとレイテンシへの要求
• 課題２：Hadoop進化への追従
維持運用が容易
• 標準的なLinux技術者1名で維持管理
• 月1回のサーバ修理

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
課題１：多様なスループットとレイテンシへの要求
• 多様なデータ入力とデータ出力への対応
– Hadoop上の取り組み：「マイクロバッチ化」
•Hiveスクリプトを短時間で繰り返し実行
•評価中
– 高密度なクラスタ
– 最新Ｈａｄｏｏｐの採用
5
大規模な計算でも、フットプリントが小さい
• SPARK
• STORM

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
課題２：Hadoop進化への追従
• データを維持しつつ、複数バージョンの使用
– 新しい研究用Hadoopシステムはマルチクラスタ構成に
•二つの高密度なクラスタを構築
•新たなHadoopバージョンを片方のクラスタで評価
– しかし
•クラスタ間での計算結果データの維持が必要
•利用者は、どちらか一方のクラスタのみを利用
6
同一クラスタ内でデータを共有しながらの利用
• ＹＡＲＮ

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
Storm
ストリーム並列処理基盤
Hadoop
バッチ並列処理基盤
Spark
インメモリ並列処理基盤
新たなモバイルアプリケーションに向けた検討
スケーラビリティ、オペラビリティ、フレキシィビリティ

© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
まとめ
• 社会の頭脳システム
– 1000台超のサーバによるHadoopシステム
– 運用維持が容易
• Hadoopシステム運用からの課題と期待
– 多様なスループットとレイテンシの要求
• SPARK、STORMへ期待
– Hadoop進化への対応
• YARNへ期待
• 今後の課題
– 新たなモバイルアプリケーションに向けて
• 評価
• 利用可能なツール
8
参考文献：
「社会の頭脳システム」におけるドコモの Hadoop クラスタの活用事例、
デジタルプラクティス、Vol.5 No.2 通巻18号（2014年1月15日刊行）、情報処理学会

Viewers also liked

Sparkをノートブックにまとめちゃおう。Zeppelinでね！（Hadoopソースコードリーディング第19回発表資料）

NTT DATA OSS Professional Services

Apache Hadoop 2.8.0 の新機能 (抜粋)

NTT DATA OSS Professional Services

データ活用をもっともっと円滑に！～データ処理・分析基盤編を少しだけ～

NTT DATA OSS Professional Services

Spark MLlibではじめるスケーラブルな機械学習

NTT DATA OSS Professional Services

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

NTT DATA OSS Professional Services

Business Innovation cases driven by AI and BigData technologies

DataWorks Summit/Hadoop Summit

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

Yahoo!デベロッパーネットワーク

sparksql-hive-bench-by-nec-hwx-at-hcj16

Yifeng Jiang

NetflixにおけるPresto/Spark活用事例

Amazon Web Services Japan

Case Study: OLAP usability on Spark and Hadoop

DataWorks Summit/Hadoop Summit

SEGA : Growth hacking by Spark ML for Mobile games

DataWorks Summit/Hadoop Summit

Hadoop’s Impact on Recruit Company

Recruit Technologies

Amebaにおけるレコメンデーションシステムの紹介

cyberagent

Sparkを活用したレコメンドエンジンのパフォーマンスチューニング＆自動化

Nagato Kasaki

データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-

Makoto SHIMURA

大規模データに対するデータサイエンスの進め方 #CWT2016

Cloudera Japan

データ分析グループの組織編制とその課題マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016

Tokoroten Nakayama

How to Use HazelcastMQ for Flexible Messaging and More

Hazelcast

Viewers also liked (18)

Sparkをノートブックにまとめちゃおう。Zeppelinでね！（Hadoopソースコードリーディング第19回発表資料）

Apache Hadoop 2.8.0 の新機能 (抜粋)

データ活用をもっともっと円滑に！～データ処理・分析基盤編を少しだけ～

Spark MLlibではじめるスケーラブルな機械学習

Hadoop 2.6の最新機能（Cloudera World Tokyo 2014 LT講演資料）

Business Innovation cases driven by AI and BigData technologies

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

sparksql-hive-bench-by-nec-hwx-at-hcj16

NetflixにおけるPresto/Spark活用事例

Case Study: OLAP usability on Spark and Hadoop

SEGA : Growth hacking by Spark ML for Mobile games

Hadoop’s Impact on Recruit Company

Amebaにおけるレコメンデーションシステムの紹介

Sparkを活用したレコメンドエンジンのパフォーマンスチューニング＆自動化

データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-

大規模データに対するデータサイエンスの進め方 #CWT2016

データ分析グループの組織編制とその課題マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016

How to Use HazelcastMQ for Flexible Messaging and More

More from Hadoop / Spark Conference Japan

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)

Hadoop / Spark Conference Japan

What makes Apache Spark?

Hadoop / Spark Conference Japan

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

Hadoop / Spark Conference Japan

Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって

Hadoop / Spark Conference Japan

Apache Kudu Fast Analytics on Fast Data （Hadoop / Spark Conference Japan 2016...

Hadoop / Spark Conference Japan

The Evolution and Future of Hadoop Storage （Hadoop Conference Japan 2016キーノート...

Hadoop / Spark Conference Japan

Sparkによる GISデータを題材とした時系列データ処理（Hadoop / Spark Conference Japan 2016 講演資料）

Hadoop / Spark Conference Japan

Project Tungsten Bringing Spark Closer to Bare Meta （Hadoop / Spark Conferenc...

Hadoop / Spark Conference Japan

Spark 2.0 What's Next （Hadoop / Spark Conference Japan 2016 キーノート講演資料）

Hadoop / Spark Conference Japan

Apache Hadoop の現在と将来（Hadoop / Spark Conference Japan 2016 キーノート講演資料）

Hadoop / Spark Conference Japan

Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境

Hadoop / Spark Conference Japan

初めてのHadoopパッチ投稿 / How to Contribute to Hadoop　（Cloudera World Tokyo 2014 LT講演資料）

Hadoop / Spark Conference Japan

MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

Hadoop / Spark Conference Japan

A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)

Hadoop / Spark Conference Japan

Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

Hadoop / Spark Conference Japan

The Future of Apache Spark

Hadoop / Spark Conference Japan

HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)

Hadoop / Spark Conference Japan

More from Hadoop / Spark Conference Japan (17)

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)

What makes Apache Spark?

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって

Apache Kudu Fast Analytics on Fast Data （Hadoop / Spark Conference Japan 2016...

The Evolution and Future of Hadoop Storage （Hadoop Conference Japan 2016キーノート...

Sparkによる GISデータを題材とした時系列データ処理（Hadoop / Spark Conference Japan 2016 講演資料）

Project Tungsten Bringing Spark Closer to Bare Meta （Hadoop / Spark Conferenc...

Spark 2.0 What's Next （Hadoop / Spark Conference Japan 2016 キーノート講演資料）

Apache Hadoop の現在と将来（Hadoop / Spark Conference Japan 2016 キーノート講演資料）

Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境

初めてのHadoopパッチ投稿 / How to Contribute to Hadoop　（Cloudera World Tokyo 2014 LT講演資料）

MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)

Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)

The Future of Apache Spark

HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待（Hadoop Conference Japan 2014）

4. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 3 33 NameNode（2台） Slave Node(1012台） Hadoop クライアント（2台）インストールサーバ保守・運用・監視系サーバ（4台） JobTracker（2台）モニタリングサーバ社会の頭脳システムの構成 • 汎用サーバ1000台超のクラスタを構築・運用 • 遠隔からの運用・保守方式の実現 • オープンソースソフトウェアで保守・運用・監視機能を実現 2009年から運用開始

5. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 社会の頭脳システム運用からみた利点と課題 NameNode（2台） Slave Node(1012台） Hadoop クライアント（2台） JobTracker（2台） • 課題１：多様なスループットとレイテンシへの要求 • 課題２：Hadoop進化への追従維持運用が容易 • 標準的なLinux技術者1名で維持管理 • 月1回のサーバ修理

6. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 課題１：多様なスループットとレイテンシへの要求 • 多様なデータ入力とデータ出力への対応 – Hadoop上の取り組み：「マイクロバッチ化」 •Hiveスクリプトを短時間で繰り返し実行 •評価中 – 高密度なクラスタ – 最新Ｈａｄｏｏｐの採用 5 大規模な計算でも、フットプリントが小さい • SPARK • STORM

7. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 課題２：Hadoop進化への追従 • データを維持しつつ、複数バージョンの使用 – 新しい研究用Hadoopシステムはマルチクラスタ構成に •二つの高密度なクラスタを構築 •新たなHadoopバージョンを片方のクラスタで評価 – しかし •クラスタ間での計算結果データの維持が必要 •利用者は、どちらか一方のクラスタのみを利用 6 同一クラスタ内でデータを共有しながらの利用 • ＹＡＲＮ

9. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. まとめ • 社会の頭脳システム – 1000台超のサーバによるHadoopシステム – 運用維持が容易 • Hadoopシステム運用からの課題と期待 – 多様なスループットとレイテンシの要求 • SPARK、STORMへ期待 – Hadoop進化への対応 • YARNへ期待 • 今後の課題 – 新たなモバイルアプリケーションに向けて • 評価 • 利用可能なツール 8 参考文献：「社会の頭脳システム」におけるドコモの Hadoop クラスタの活用事例、デジタルプラクティス、Vol.5 No.2 通巻18号（2014年1月15日刊行）、情報処理学会

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待（Hadoop Conference Japan 2014）

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

More from Hadoop / Spark Conference Japan

More from Hadoop / Spark Conference Japan (17)

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待（Hadoop Conference Japan 2014）

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待 （Hadoop Conference Japan 2014）

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

More from Hadoop / Spark Conference Japan

More from Hadoop / Spark Conference Japan (17)

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待 （Hadoop Conference Japan 2014）

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待（Hadoop Conference Japan 2014）

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待（Hadoop Conference Japan 2014）