SlideShare a Scribd company logo
1 of 9
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
社会の頭脳システムの構築と運用
- Hadoopユーザから見たSPARK等の期待 -
2014/07/08
株式会社NTTドコモ
先進技術研究所
田中聡、國頭吾郎、石田創、高橋竜男、川崎紀宏
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
アウトライン
• 社会の頭脳システム
– サーバ1000台を使ったHadoopシステム
• 社会の頭脳システム運用からの課題
• 今後の取り組み
1
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
社会の頭脳システム
エコ社会
便利な社会
安心・安全な社会
社会の頭脳システム
新サービス研究のためのプラットフォーム
2
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
3
33
NameNode(2台)
Slave Node(1012台)
Hadoop
クライアント(2台)
インストールサーバ
保守・運用・監視系サーバ(4台)
JobTracker(2台)
モニタリングサーバ
社会の頭脳システムの構成
• 汎用サーバ1000台超のクラスタを構築・運用
• 遠隔からの運用・保守方式の実現
• オープンソースソフトウェアで保守・運用・監視機能を実現
2009年から運用開始
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
社会の頭脳システム運用からみた利点と課題
NameNode(2台)
Slave Node(1012台)
Hadoop
クライアント(2台)
JobTracker(2台)
• 課題1:多様なスループットとレイテンシへの要求
• 課題2:Hadoop進化への追従
維持運用が容易
• 標準的なLinux技術者1名で維持管理
• 月1回のサーバ修理
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
課題1:多様なスループットとレイテンシへの要求
• 多様なデータ入力とデータ出力への対応
– Hadoop上の取り組み:「マイクロバッチ化」
•Hiveスクリプトを短時間で繰り返し実行
•評価中
– 高密度なクラスタ
– 最新Hadoopの採用
5
大規模な計算でも、フットプリントが小さい
• SPARK
• STORM
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
課題2:Hadoop進化への追従
• データを維持しつつ、複数バージョンの使用
– 新しい研究用Hadoopシステムはマルチクラスタ構成に
•二つの高密度なクラスタを構築
•新たなHadoopバージョンを片方のクラスタで評価
– しかし
•クラスタ間での計算結果データの維持が必要
•利用者は、どちらか一方のクラスタのみを利用
6
同一クラスタ内でデータを共有しながらの利用
• YARN
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
Storm
ストリーム並列処理基盤
Hadoop
バッチ並列処理基盤
Spark
インメモリ並列処理基盤
新たなモバイルアプリケーションに向けた検討
スケーラビリティ、オペラビリティ、フレキシィビリティ
© 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved.
まとめ
• 社会の頭脳システム
– 1000台超のサーバによるHadoopシステム
– 運用維持が容易
• Hadoopシステム運用からの課題と期待
– 多様なスループットとレイテンシの要求
• SPARK、STORMへ期待
– Hadoop進化への対応
• YARNへ期待
• 今後の課題
– 新たなモバイルアプリケーションに向けて
• 評価
• 利用可能なツール
8
参考文献:
「社会の頭脳システム」におけるドコモの Hadoop クラスタの活用事例、
デジタルプラクティス、Vol.5 No.2 通巻18号(2014年1月15日刊行)、情報処理学会

More Related Content

Viewers also liked

データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
Tokoroten Nakayama
 

Viewers also liked (18)

Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
 
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesBusiness Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologies
 
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and HadoopCase Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
 
SEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile gamesSEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile games
 
Hadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit CompanyHadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit Company
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
 
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
 
How to Use HazelcastMQ for Flexible Messaging and More
 How to Use HazelcastMQ for Flexible Messaging and More How to Use HazelcastMQ for Flexible Messaging and More
How to Use HazelcastMQ for Flexible Messaging and More
 

More from Hadoop / Spark Conference Japan

More from Hadoop / Spark Conference Japan (17)

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
 
What makes Apache Spark?
What makes Apache Spark?What makes Apache Spark?
What makes Apache Spark?
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたってHadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
 
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
 
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
 
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
 
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
 
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
 
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
 
The Future of Apache Spark
The Future of Apache SparkThe Future of Apache Spark
The Future of Apache Spark
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 

社会の頭脳システムの構築と運用 Hadoopユーザから見たSPARK等の期待 (Hadoop Conference Japan 2014)

  • 1. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 社会の頭脳システムの構築と運用 - Hadoopユーザから見たSPARK等の期待 - 2014/07/08 株式会社NTTドコモ 先進技術研究所 田中聡、國頭吾郎、石田創、高橋竜男、川崎紀宏
  • 2. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. アウトライン • 社会の頭脳システム – サーバ1000台を使ったHadoopシステム • 社会の頭脳システム運用からの課題 • 今後の取り組み 1
  • 3. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 社会の頭脳システム エコ社会 便利な社会 安心・安全な社会 社会の頭脳システム 新サービス研究のためのプラットフォーム 2
  • 4. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 3 33 NameNode(2台) Slave Node(1012台) Hadoop クライアント(2台) インストールサーバ 保守・運用・監視系サーバ(4台) JobTracker(2台) モニタリングサーバ 社会の頭脳システムの構成 • 汎用サーバ1000台超のクラスタを構築・運用 • 遠隔からの運用・保守方式の実現 • オープンソースソフトウェアで保守・運用・監視機能を実現 2009年から運用開始
  • 5. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 社会の頭脳システム運用からみた利点と課題 NameNode(2台) Slave Node(1012台) Hadoop クライアント(2台) JobTracker(2台) • 課題1:多様なスループットとレイテンシへの要求 • 課題2:Hadoop進化への追従 維持運用が容易 • 標準的なLinux技術者1名で維持管理 • 月1回のサーバ修理
  • 6. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 課題1:多様なスループットとレイテンシへの要求 • 多様なデータ入力とデータ出力への対応 – Hadoop上の取り組み:「マイクロバッチ化」 •Hiveスクリプトを短時間で繰り返し実行 •評価中 – 高密度なクラスタ – 最新Hadoopの採用 5 大規模な計算でも、フットプリントが小さい • SPARK • STORM
  • 7. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. 課題2:Hadoop進化への追従 • データを維持しつつ、複数バージョンの使用 – 新しい研究用Hadoopシステムはマルチクラスタ構成に •二つの高密度なクラスタを構築 •新たなHadoopバージョンを片方のクラスタで評価 – しかし •クラスタ間での計算結果データの維持が必要 •利用者は、どちらか一方のクラスタのみを利用 6 同一クラスタ内でデータを共有しながらの利用 • YARN
  • 8. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. Storm ストリーム並列処理基盤 Hadoop バッチ並列処理基盤 Spark インメモリ並列処理基盤 新たなモバイルアプリケーションに向けた検討 スケーラビリティ、オペラビリティ、フレキシィビリティ
  • 9. © 2008 NTT DOCOMO, INC. All rights reserved.© 2014 NTT DOCOMO, INC. All Rights Reserved. まとめ • 社会の頭脳システム – 1000台超のサーバによるHadoopシステム – 運用維持が容易 • Hadoopシステム運用からの課題と期待 – 多様なスループットとレイテンシの要求 • SPARK、STORMへ期待 – Hadoop進化への対応 • YARNへ期待 • 今後の課題 – 新たなモバイルアプリケーションに向けて • 評価 • 利用可能なツール 8 参考文献: 「社会の頭脳システム」におけるドコモの Hadoop クラスタの活用事例、 デジタルプラクティス、Vol.5 No.2 通巻18号(2014年1月15日刊行)、情報処理学会