OpenStack、Hadoop - OSSクラウドの最新動向
~NTTデータのOSSクラウドへの取り組み~
第二回 クラウド勉強会 in 北陸
2010年11月22日
株式会社NTTデータ
技術開発本部 伊藤雅典
00 自己紹介
氏名
伊藤 雅典 (いとう まさのり)
所属
株式会社NTTデータ 技術開発本部 ITアーキテクチャ&セキュリティ技術センタ
担当業務
NTTデータの総合クラウドサービス BizXaaS™ (http://bizxaas.net...
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
Copyright ©...
クラウドのサービス形態
情報システムを「保有せずに利用する」サービス形態
利用者は「ネットワークの向こう側」からサービスを受ける
「ネットワークの向こう側」がどうなっているかを知る必要はない
Copyright © 2010 NTT DATA ...
クラウドのサービス形態
PaaS
種類 解説
SaaS
Software
as a Service
CRM・ERPなどの業務アアアア
プリケーションプリケーションプリケーションプリケーションを提供
中中中中
柔軟性
低低低低
•アプリケーション...
クラウドのサービス形態
パブリッククラウド
コミュニティクラウド
プライベート
クラウド
プライベート
クラウド
Copyright © 2010 NTT DATA CORPORATION 5
•一般共有
(例 ECサイト)
•汎用性が求められ...
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
Copyright ©...
NTTデータの総合クラウドサービス (http://bizxaas.net/)
企画フェーズから運用フェーズまで、データセンタからアプリケーション
までを含んだワンストップサービス体系
最適化コンサル
マイグレーションクラウド 本日ご紹介
プラ...
本日のセッションでは
以下の2つのトピックについてご紹介します。
1. IaaS レイヤ
03節 OSSクラウド基盤の次世代スタンダード:OpenStack
04節 NTTデータの取り組み:フルOSSクラウド構築ソリューション
http://w...
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
Copyright ©...
OpenStackプロジェクトとは
オープンなクラウドインフラ構築ソフトウェアを開発するプロジェクト
• 米国RackSpace社が主催
• 後援:NASA
• 日本からはNTTデータやミドクラ等が参加
AMD
ANSO
Autonomic R...
OpenStackプロジェクトの背景とポリシー
Rackspace社とNASAがOpenStackプロジェクトを
立ち上げた理由
• スケーラビリティ(膨大なノード数とデータ量)
• 開発のオープン性
• ユーザベースの拡大
「今日の科学技術計...
OpenStackプロジェクトのこれまで
Nova
公開
NASA/Anso Labs
NASA
Nebula ’10/7/19
‘10/5/19
本年7月に発表があって以来、初版がリリースされ、第2版に向けて開
発が本格的にスタートした段階
...
OpenStackの構成
OpenStackプロジェクトは、主に二つのコンポーネントから構成される
• OpenStack Compute
• 開発コードネーム: Nova
• Amazon EC2に相当(計算機資源の提供と管理を行う)
• A...
OpenStackの構成
その他の主要コンポーネント
• Glance
• VMのイメージのキャッシングを行うための proxy コンポーネント
• Swiftだけでなく、Amazon S3等も扱えるになっている
• Bexar Network...
OpenStackプロジェクト関連の情報源
• OpenStack公式サイト
• http://openstack.org/
• OpenStack Blog http://openstack.org/blog/
• OpenStack Wik...
Novaのアーキテクチャ
Volume Node
• Amazon EC2 API
• OpenStack API
メッセージメッセージ
API Server
永続データ構成を提供
Amazon EBSに相当
Network Node
Sche...
NovaとEucalyptusの比較(Austin Release時点)
Copyright © 2010 NTT DATA CORPORATION 17
出典:
OpenStack Wiki(Nova EucalyptusFeatureCom...
OpenStackのこれから
• コミュニティとしてのスケジュール感
• Austin Release (1st) 2010/10/21
• First Public Release
• Bexar Design Summit 2010/11/...
日本のコミュニティの状況
日本OpenStackユーザ会
• 10月22日に設立プレスリリース
• 公式サイト http://openstack.jp/
• ML http://groups.google.com/group/openstack...
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
Copyright ©...
フルOSSクラウド構築ソリューション
BizXaaSのクラウド構築サービスラインナップの1つ
OSSをフル活用して安価でカスタマイズ可能なプライベート/コミュニティ
クラウドを構築
現状は OpenStack ではなく、
OSS版Eucalyp...
こんな悩みにおこたえします
散在する開発試験環境
構築も維持管理も高コスト…
同一構成で数が必要な教育環境、
終わったら邪魔だし…
22
終わったら邪魔だし…
仮想化環境の提供を始めたはいいけれど、
払い出し窓口が結局ボトルネックに…
Copy...
フルOSSクラウドの利用イメージ
クラウド利用者によるセルフサービスセルフサービスセルフサービスセルフサービス型型型型のためスピーディに利用できる
23Copyright © 2010 NTT DATA CORPORATION
Eucalyptusと独自拡張
仮想
マシン
仮想
マシン
仮想
マシン
クラウド利用者
CLC
(クラウドコントローラ)
CC
(クラスタコントローラ)
仮想
マシン
仮想
マシン
仮想
マシン
SC
(ストレージコントローラ)
EBS
Wa...
利用例:全体像
25Copyright © 2010 NTT DATA CORPORATION
認証
部門内の既存認証サービス(LDAP)を
利用して認証可能
26
利用して認証可能
Copyright © 2010 NTT DATA CORPORATION
イメージから選択して仮想マシンを起動
バージョン管理された仮想マシンイメージ一覧
(現在ログインしている利用者のプライベート)
27
性能や台数を指定して起動
全利用者が利用可能な
パブリックイメージ一覧
Copyright © 2010 NT...
Linux仮想マシンにログイン
起動した仮想マシン一覧
右クリックして各種操作が可能
28Copyright © 2010 NTT DATA CORPORATION
Windows仮想マシンにログイン
29
Windows仮想マシンは
リモートデスクトップが
右クリックメニューに表示される
Copyright © 2010 NTT DATA CORPORATION
クラウドインフラの運用を助ける機能
クラウド利用状況レポート クラウドインフラ監視
30Copyright © 2010 NTT DATA CORPORATION
適用事例・想定利用シーン
開発試験環境提供サービス
複数の開発部門から共通利用可能なクラウドを構築
開発や試験に必要なマシンをセルフサービスで払い出し
教育環境提供サービス
教育インフラとしてクラウドを構築教育インフラとしてクラウドを構築
受講...
フルOSSクラウド構築ソリューション:まとめ
OSSクラウド構築ソリューションは
安価なプライベートクラウドを提供します
セルフサービス型のため仮想マシン払い出し手続き等の煩
わしさがありません
開発環境や教育環境に最適です
32Copyrig...
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
Copyright ©...
Hadoopの前に・・・ Googleの基盤技術
Googleは独自の基盤技術を用いて、大規模データを対象としたサービスを展開
Googleは、自ら 「クラウドコンピュータを持ってサービス展開している」 という
Web検索 ログ解析 Gmail...
Hadoop とは?
オープンソースの大規模分散処理フレームワーク
Googleの基盤ソフトウェアのオープンソースのクローン
数千ノードおよびペタバイトクラスのデータを処理することが可能
Bank of America、VISA、JP Morg...
Hadoop – 分散ファイルシステムHDFSとMapReduceフレームワーク
低価格サーバの大量使用による故障の発生
が前提の設計
データの多重化で可用性を担保する
従来とは運用利便性の考え方が異なる
Client
NameNode
ブロッ...
Hadoop - 環境の全体像
NamenodeJobTracker
Jobクライアント
NameNodeJobTracker
L2スイッチL2スイッチ
Hadoopマスタサーバ集中管理型の
分散システム
クラスタの追加・削除は
自動的に行われ...
Hadoopの特徴
個別設計する必要なく、分散処理を実現
従来、プログラムごとに分散処理方式を検討する必要があった
Hadoopでは、MapReduceアルゴリズムにしたがうことで、プログラム個別に分散
処理ロジックを用意することなく、分散処理...
利用事例: Yahoo!
検索インデックスやレコメンデーションにHadoopを活用
過去3年分のログデータ分析が、Hadoopでは約20分 (従来は26日)
現在、Hadoopで170ペタバイトのデータを管理・処理している
全体で38,000台...
利用事例: facebook
4TBのデータが
毎日新規に生成される
135TBのデータを
毎日処理している
Hive & Hadoop Usage @ Facebook
Statistics per day:
– 4 TB of compre...
利用事例: VISA
過去2年間で730億ものトランザクション=36TBのデータが生成
分析にこれまで1カ月かかっていたものが、Hadoopによって13分に
41
(出典:
Hadoop World:NYC)
利用事例: China Mobile
対象: CDR (Calling Data Recode) データ
ユーザー5億人のデータ
CMCC: 5~8TB/日
商用のDB製品、DWH製品を利用していたがHadoopに移行
スケーラビリティを確保
...
利用事例: 日本国内
楽天
複数のサービスで利用中
• 楽天市場、楽天レンタル、楽天ブックス、楽天ダウンロード、・・・
広告のインプレッション解析、レコメンデーション、ランキングの集計
処理などで商用環境で利用
元々はPerlスクリプトでやって...
Hadoopの適用領域
特に向いている領域
テラバイト・ペタバイト級のデータを扱うシステム
バッチ処理的なアプリケーション
• リアルタイム性が求められる処理の前処理
準定型的なデータも扱える柔軟な ETL & ELT
利用例
ログ解析 (広告...
Hadoopの適用領域
バッチ処理
高レイテンシ
非構造化データ
大規模データ
テラバイトクラス
RDBMSと競合するものではない
45
ペタバイトクラス
RDBMSと組み合わせ
て利用する例もある
(出典: Hadoop World:NYC)
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
Copyright ©...
SI事業者としてのHadoopの位置づけ
今まで扱うことが難しかった領域を切り拓く
ペタバイトクラスのデータ、大規模分散処理 など
プロセス指向だけでなく、データ指向に基づいたシステムの浸透
スケールアウト技術が身近なものに
コモディティ品(I...
BizXaaS® Hadoop構築・運用ソリューション
BizXaaS® クラウド構築サービスのひとつとして 『Hadoop構築・運用ソリューション』 を発表
2010年7月1日にプレスリリース
BizXaaS® はNTTデータのクラウドサービ...
BizXaaS® Hadoop構築・運用ソリューション
これまでに培った技術力やノウハウをもとに提供
NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・
運用してきた実績を有している
お客様の新しいビジネス機会を生み...
OSS構築実績 (規模・処理量マップ)
処理量
(万件/時)
●
● ●
40
60
●
構築・運用中
先見派今後の
ターゲット
領域
PostgreSQL
50
実
証
環
境
DB規模
●
●
●
●
●
●
●
●
●
●
●
5
10
...
Hadoop関連のR&D
NTTデータでは、H21年度に経済産業省様から「分散制御処理技術等
に係るデータセンター高信頼化に向けた実証事業」受託し、Hadoopに
関して以下のようなR&Dを行いました。
「経済産業省の平成21年度 産学連携ソフ...
R&D:自動構築・環境一元管理
・スケーラブルな運用手法の実現: (1)大量機器への対応、(2)機器種別混在への対応、(3)機器故障の効率的な
復旧・再構築
■得られた成果
■課題
・効率的な環境構築手法を開発: 100台規模の環境構築を90分...
R&D: Hadoop基盤における信頼性
・信頼性向上のため、Hadoop基盤における単一故障点を排除したい
■得られた成果
■課題
ジョブジョブジョブジョブ停止停止停止停止マスタサーバ
スレーブサーバ
ラック内
L2スイッチ
コアL3スイッチ...
R&D: Hadoop基盤の可視化
・Hadoop基盤の利用と運用を鑑みて可視化すべきリソースを洗い出す
・大量のサーバで構成されるHadoop基盤に対してスケーラブルな可視化手法をオープンソースで実現する
■課題
■得られた成果
Gangli...
R&D:スペックが混在するHadoop基盤での分散処理設定
スペック差があるノード: 最適なMapやReduceの割当は?
■課題
・ハードウェアスペックの差(CPU、ディスク、メモリ)により、処理時間遅延や処理失敗を引き起こす
・分散処理を最...
R&D:クラウド型分散処理アプリケーションの開発
・MapReduceアルゴリズムを適用したアプリケーションの開発事例が少ない
■得られた成果
■課題
・多様かつ大量なデータ処理の実証事例としてプローブデータによる「渋滞解析アプリケーション」を...
R&D:シナリオに基づく運用性評価
実際の大量プローブデータを使用し、「渋滞解析アプリケーション」を用いながら運用シナリオに従い実証実験を行う
<実証実験の確認観点>
■処理精度と処理時間の適切なバランス
①データ量、計算量の増大に対し、サーバ...
INDEX
01 イントロ:クラウドとは
02 NTTデータのクラウドに対する取り組み
03 OSSクラウド基盤の次世代スタンダード:OpenStack
04 NTTデータの取り組み:フルOSSクラウド構築ソリューション
05 OSSによる大規...
全体のまとめ
OpenStackは
Openな開発体制で、NASAやサービス事業者の使用に耐
えるスケーラブルなIaaS環境を提供します
Hadoopは
既に実用の域に達しつつある大規模データ処理基盤です既に実用の域に達しつつある大規模データ処...
ご清聴ありがとうございました
Copyright © 2010 NTT DATA CORPORATION 60
本文中に記載の会社名、商品名、製品名などは、一般に各社の商標または登録商標です
ただし本文中では、TMや®マークは明記してありません
Q&A
Copyright © 2010 NTT DATA CORPORATION 62
References
NTTデータ関連
BizXaaS
http://bizxaas.net/
BizXaaS:フルOSSクラウド構築ソリューション
Copyright © 2010 NTT DATA CORPORATION 63
http:/...
References : IaaS基盤
オープンソース
OpenStack http://www.openstack.org/
Eucalyptus http://www.eucalyptus.com/
OpenNebula http://ww...
References : IaaS基盤
その他
NASA Nebulaクラウド http://nebula.nasa.gov/
NII edubaseクラウド http://grace-center.jp/prj_educloud.html
国...
References : 関連コンポーネント
ストレージ系
SheepDog http://www.osrg.net/sheepdog/
Ceph/RADOS http://ceph.newdream.net/
Vastsky http://s...
References : PaaS基盤
PaaS系
Hadoop http://hadoop.apache.org/
Heroku http://heroku.com/
Ruby on RailsベースのPaaS (「Heroku最強伝説」 b...
References : そのほか
ユーザ会
Open Cloud Campus まだHPがありません…
OpenStack http://openstack.org/
Eucalyptus http://eucalyptus-users.jp...
Upcoming SlideShare
Loading in...5
×

OpenStack, Hadoop -- OSSクラウドの最新動向

11,487

Published on

2010/11/22に金沢で開催された、「クラウド勉強会in北陸 第二回」の資料です。

Published in: Technology
0 Comments
13 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
11,487
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
377
Comments
0
Likes
13
Embeds 0
No embeds

No notes for slide

OpenStack, Hadoop -- OSSクラウドの最新動向

  1. 1. OpenStack、Hadoop - OSSクラウドの最新動向 ~NTTデータのOSSクラウドへの取り組み~ 第二回 クラウド勉強会 in 北陸 2010年11月22日 株式会社NTTデータ 技術開発本部 伊藤雅典
  2. 2. 00 自己紹介 氏名 伊藤 雅典 (いとう まさのり) 所属 株式会社NTTデータ 技術開発本部 ITアーキテクチャ&セキュリティ技術センタ 担当業務 NTTデータの総合クラウドサービス BizXaaS™ (http://bizxaas.net/)の、 Copyright © 2010 NTT DATA CORPORATION 1 「フルOSSクラウド構築ソリューション」 の開発ほかに従事 http://www.nttdata.co.jp/release/2010/040801.html OpenStackやクラウドストレージ技術などに注力中 その他、活動領域 金沢大学出身(在籍していたのは、兼六園キャンパスから角間へ引っ越しした頃) Open Cloud Campus、日本OpenStackユーザ会(JOSUG)、JEUG、 VIOPS InterCloud SIG、GICTF等でも活動中
  3. 3. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 2 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  4. 4. クラウドのサービス形態 情報システムを「保有せずに利用する」サービス形態 利用者は「ネットワークの向こう側」からサービスを受ける 「ネットワークの向こう側」がどうなっているかを知る必要はない Copyright © 2010 NTT DATA CORPORATION 3
  5. 5. クラウドのサービス形態 PaaS 種類 解説 SaaS Software as a Service CRM・ERPなどの業務アアアア プリケーションプリケーションプリケーションプリケーションを提供 中中中中 柔軟性 低低低低 •アプリケーションとして サービスが完成している ため、変更には改修が 伴う ユーザはハードを意識せずに アプリケーションを利用可能 SaaS基盤(テナント管理・認証等) AP AP ユーザはハードを意識せずに Copyright © 2010 NTT DATA CORPORATION 4 ミドルウェア・フレーム ワーク等アプリケーション 実行環境実行環境実行環境実行環境を提供 CPU・メモリ・ネットワー ク・ストレージなどのリリリリ ソースソースソースソースを提供 PaaS Platform as a Service 中中中中 •アプリケーション開発を行 うための基盤であるため、 仕様変更等は比較的反 映し易い 高高高高 •アプリケーションを動作 させるインフラであるた め、サービスの要求ス ペックにあわせて自由に 変更が可能 ユーザはハードを意識せずに アプリケーションを開発可能 開発環境 開発ツール IaaS Infrastructure as a Service ユーザはハードを意識せずに リソースを利用可能 仮想サーバ ミドルウェア メモリ CPU メモリ CPU リソース 4
  6. 6. クラウドのサービス形態 パブリッククラウド コミュニティクラウド プライベート クラウド プライベート クラウド Copyright © 2010 NTT DATA CORPORATION 5 •一般共有 (例 ECサイト) •汎用性が求められるため、個別の要 求仕様には適合しにくい プライベートクラウド コミュニティクラウド パブリッククラウド •特定組織間で共有 (例 共同センター) •コミュニティが定めた範囲内でユーザの 要求仕様に適合可能 •単一機関内で利用 (例 社内ポータル) •個別機関毎に構築するため、細かな 要求仕様にも適合可能 特徴
  7. 7. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 6 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  8. 8. NTTデータの総合クラウドサービス (http://bizxaas.net/) 企画フェーズから運用フェーズまで、データセンタからアプリケーション までを含んだワンストップサービス体系 最適化コンサル マイグレーションクラウド 本日ご紹介 プラットフォーム(PaaS) データセンタ(IaaS) アプリケーション(SaaS) クラウド プラットフォーム サービス マイグレーション クラウド構築 運用管理 構築・運用 サービス 7Copyright © 2010 NTT DATA CORPORATION 本日ご紹介 する領域
  9. 9. 本日のセッションでは 以下の2つのトピックについてご紹介します。 1. IaaS レイヤ 03節 OSSクラウド基盤の次世代スタンダード:OpenStack 04節 NTTデータの取り組み:フルOSSクラウド構築ソリューション http://www.nttdata.co.jp/release/2010/040801.html 2. PaaS レイヤ 05節 OSSによる大規模データ処理基盤:Hadoop 06節 NTTデータの取り組み: Hadoop構築・運用ソリューション http://www.nttdata.co.jp/release/2010/070101.html Copyright © 2010 NTT DATA CORPORATION
  10. 10. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 9 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  11. 11. OpenStackプロジェクトとは オープンなクラウドインフラ構築ソフトウェアを開発するプロジェクト • 米国RackSpace社が主催 • 後援:NASA • 日本からはNTTデータやミドクラ等が参加 AMD ANSO Autonomic Resources Intalio Intel InterNap Rackspace RightScale Riptano 業界第2位のユーザ数をもつ IaaSクラウドサービス事業者 Copyright © 2010 NTT DATA CORPORATION 10 協賛企業 (アルファベット順、http://openstack.org/community/より) Autonomic Resources Cirrascale Citrix Cloud Central Cloud.com Cloudkick Cloudscaling CloudSwitch Dell enStratus FathomDB InterNap iomart Group Limelight MidoKura Morphlabs NASA Nicira NTT Data Opscode PEER 1 Puppet Labs Riptano rPath Scalr SoftLayer Sonian Spiceworks Vyatta Zenoss Zuora
  12. 12. OpenStackプロジェクトの背景とポリシー Rackspace社とNASAがOpenStackプロジェクトを 立ち上げた理由 • スケーラビリティ(膨大なノード数とデータ量) • 開発のオープン性 • ユーザベースの拡大 「今日の科学技術計算では、ますます 大量のストレージと強力な処理能力 をオンデマンドで提供することが求め られている」 -NASA CTOのChris Kemp http://www.itmedia.co.jp/enterprise/ articles/1007/21/news023.html “as his (Chris Kemp’s) engineers Copyright © 2010 NTT DATA CORPORATION 11 OpenStackにおける“Open” • コミュニティや開発プロセスをすべて公開する • OSI承認オープンソースライセンスである Apache License 2.0を採用 • Open Core 戦略は採らず、 エンタープライズ版を作らない (http://wiki.openstack.org/Openより) “as his (Chris Kemp’s) engineers attempted to contribute additional Eucalyptus code to improve its ability to scale, they were unable to do so because some of the platform's code is open and some isn't.” http://www.theregister.co.uk/2010/07 /20/why_nasa_is_dropping_eucalyptus_fr om_its_nebula_cloud/
  13. 13. OpenStackプロジェクトのこれまで Nova 公開 NASA/Anso Labs NASA Nebula ’10/7/19 ‘10/5/19 本年7月に発表があって以来、初版がリリースされ、第2版に向けて開 発が本格的にスタートした段階 12 公開 Swift公開 Rackspace社 OpenStackOpenStack 発表 Nebula Rackspace Cloud Files Austin リ リース ‘10/10/21 Copyright © 2010 NTT DATA CORPORATION
  14. 14. OpenStackの構成 OpenStackプロジェクトは、主に二つのコンポーネントから構成される • OpenStack Compute • 開発コードネーム: Nova • Amazon EC2に相当(計算機資源の提供と管理を行う) • Amazon EC2モデルに加えて、RackSpaceモデルのサポートや、運 Copyright © 2010 NTT DATA CORPORATION 13 • Amazon EC2モデルに加えて、RackSpaceモデルのサポートや、運 用系の機能追加等を目指し、活発な開発活動が続いている • OpenStack Object Storage • 開発コードネーム: Swift • Amazon S3に相当(分散オブジェクトストレージ≒PUTとGETのみ) • Novaに比べると新規機能追加の提案は少なく、相対的に枯れてい ると言える
  15. 15. OpenStackの構成 その他の主要コンポーネント • Glance • VMのイメージのキャッシングを行うための proxy コンポーネント • Swiftだけでなく、Amazon S3等も扱えるになっている • Bexar Network Service • 現状(Austin)、NW管理機構はNovaの一部として存在するが、 Copyright © 2010 NTT DATA CORPORATION 14 • 現状(Austin)、NW管理機構はNovaの一部として存在するが、 Bexar以降に向けて、仮想化Networkを管理する独立コンポーネン トを起こすことが検討されている • 実装 • 実装言語はPython • ライブラリの標準化が進んでいることが採用理由 • バージョン2.6以上必須
  16. 16. OpenStackプロジェクト関連の情報源 • OpenStack公式サイト • http://openstack.org/ • OpenStack Blog http://openstack.org/blog/ • OpenStack Wiki • http://wiki.openstack.org/ • ドキュメント • リリースミーティングのIRCログ Copyright © 2010 NTT DATA CORPORATION 15 • リリースミーティングのIRCログ • Launchpad • https://launchpad.net/~openstack • リポジトリ、メーリングリスト(OpenStack/Nova/Swift)、 blueprint (簡素な機能仕様書) • Twitter • @openstack http://twitter.com/openstack • 他にも @opnstk_com_mgr (コミュニティマネージャ) や @openstackjapan (OpenStack Japan)など
  17. 17. Novaのアーキテクチャ Volume Node • Amazon EC2 API • OpenStack API メッセージメッセージ API Server 永続データ構成を提供 Amazon EBSに相当 Network Node Scheduler Node 仮想マシン/インスタンス 要求に対する処理 AMQP (実装はRabbitMQ) Advanced Message Queuing Protocol Copyright © 2010 NTT DATA CORPORATION 16 nova-manageコマンド キューキュー API Server Network Node Compute Node 仮想マシンインスタンスを配置 種々のハイパーバイザをサポート Object Storage Server プロジェクトへのVLAN割り当て パブリックIPアドレスの払い出し 独立した複数のコンポーネントから構成されている メッセージキューを介してコンポーネント同士が連携 仮想マシンイメージの管理
  18. 18. NovaとEucalyptusの比較(Austin Release時点) Copyright © 2010 NTT DATA CORPORATION 17 出典: OpenStack Wiki(Nova EucalyptusFeatureComparison #10) http://wiki.openstack.org/Nova/EucalyptusFeatureComparison
  19. 19. OpenStackのこれから • コミュニティとしてのスケジュール感 • Austin Release (1st) 2010/10/21 • First Public Release • Bexar Design Summit 2010/11/09-11/12 • Bexar Release (2nd) 2011/02/03 • Production Ready Copyright © 2010 NTT DATA CORPORATION 18 • Production Ready • Cactus Release (3rd)2011/05/? #GW中だと思われます • Service Provide Scale Ready • 主要なDriving Force • NASAの Nebula Cloudからの要件 • RackSpace社のホスティング環境からの要件 • 日本からの contribute • Live Migration、ネットワークサービス拡張、IPv6、国際化、 etc.
  20. 20. 日本のコミュニティの状況 日本OpenStackユーザ会 • 10月22日に設立プレスリリース • 公式サイト http://openstack.jp/ • ML http://groups.google.com/group/openstack-ja/ • 11/19に都内で 日本OpenStackユーザ会 Copyright © 2010 NTT DATA CORPORATION 19 日本OpenStackユーザ会 公式サイト カンファレンス2010を開催 • OpenStack コミュニティから Jim Curry氏と Jonathan Bryce氏を 招き講演
  21. 21. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 20 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  22. 22. フルOSSクラウド構築ソリューション BizXaaSのクラウド構築サービスラインナップの1つ OSSをフル活用して安価でカスタマイズ可能なプライベート/コミュニティ クラウドを構築 現状は OpenStack ではなく、 OSS版Eucalyptusをコアに 改良を施して使用 21Copyright © 2010 NTT DATA CORPORATION
  23. 23. こんな悩みにおこたえします 散在する開発試験環境 構築も維持管理も高コスト… 同一構成で数が必要な教育環境、 終わったら邪魔だし… 22 終わったら邪魔だし… 仮想化環境の提供を始めたはいいけれど、 払い出し窓口が結局ボトルネックに… Copyright © 2010 NTT DATA CORPORATION
  24. 24. フルOSSクラウドの利用イメージ クラウド利用者によるセルフサービスセルフサービスセルフサービスセルフサービス型型型型のためスピーディに利用できる 23Copyright © 2010 NTT DATA CORPORATION
  25. 25. Eucalyptusと独自拡張 仮想 マシン 仮想 マシン 仮想 マシン クラウド利用者 CLC (クラウドコントローラ) CC (クラスタコントローラ) 仮想 マシン 仮想 マシン 仮想 マシン SC (ストレージコントローラ) EBS Walrus イメージ 仮想マシン イメージ Eucalyptusに企業ユース向けの独自拡張を実施 直感的なGUIクライアント 仮想マシンのグルーピングとバージョン管理 Windows仮想マシン 不揮発性インスタンス(EBS起動) LDAPによる外部認証サービスとの連携 24 NC (ノードコントローラ) NC (ノードコントローラ) Copyright © 2010 NTT DATA CORPORATION
  26. 26. 利用例:全体像 25Copyright © 2010 NTT DATA CORPORATION
  27. 27. 認証 部門内の既存認証サービス(LDAP)を 利用して認証可能 26 利用して認証可能 Copyright © 2010 NTT DATA CORPORATION
  28. 28. イメージから選択して仮想マシンを起動 バージョン管理された仮想マシンイメージ一覧 (現在ログインしている利用者のプライベート) 27 性能や台数を指定して起動 全利用者が利用可能な パブリックイメージ一覧 Copyright © 2010 NTT DATA CORPORATION
  29. 29. Linux仮想マシンにログイン 起動した仮想マシン一覧 右クリックして各種操作が可能 28Copyright © 2010 NTT DATA CORPORATION
  30. 30. Windows仮想マシンにログイン 29 Windows仮想マシンは リモートデスクトップが 右クリックメニューに表示される Copyright © 2010 NTT DATA CORPORATION
  31. 31. クラウドインフラの運用を助ける機能 クラウド利用状況レポート クラウドインフラ監視 30Copyright © 2010 NTT DATA CORPORATION
  32. 32. 適用事例・想定利用シーン 開発試験環境提供サービス 複数の開発部門から共通利用可能なクラウドを構築 開発や試験に必要なマシンをセルフサービスで払い出し 教育環境提供サービス 教育インフラとしてクラウドを構築教育インフラとしてクラウドを構築 受講者が利用する環境を講師がイメージとして登録 講義の際は受講者の数だけ仮想マシンをワンタッチで起動、簡単に 受講者それぞれの専用環境を提供 31Copyright © 2010 NTT DATA CORPORATION
  33. 33. フルOSSクラウド構築ソリューション:まとめ OSSクラウド構築ソリューションは 安価なプライベートクラウドを提供します セルフサービス型のため仮想マシン払い出し手続き等の煩 わしさがありません 開発環境や教育環境に最適です 32Copyright © 2010 NTT DATA CORPORATION
  34. 34. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 33 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  35. 35. Hadoopの前に・・・ Googleの基盤技術 Googleは独自の基盤技術を用いて、大規模データを対象としたサービスを展開 Googleは、自ら 「クラウドコンピュータを持ってサービス展開している」 という Web検索 ログ解析 Gmail Google Maps ・・・ Sawzall 分散処理フレームワーク キー・バリュー型データストア プログラミング言語 34 独自に建造したデータセンタ Google File System (GFS) MapReduce BigTable グーグルプラットフォーム 分散ファイルシステム 分散処理フレームワーク キー・バリュー型データストア 論文: The Google File System (2003年)論文: MapReduce: Simplified Data Processing on Large Clusters (2004年)
  36. 36. Hadoop とは? オープンソースの大規模分散処理フレームワーク Googleの基盤ソフトウェアのオープンソースのクローン 数千ノードおよびペタバイトクラスのデータを処理することが可能 Bank of America、VISA、JP Morgan Chase & Co、GE (General Electric)、 AOL、CMCC(中国移動通信)、Baidu (百度)、国内テレコム事業者、 Yahoo! 、Facebook 、Twitter、eBay、楽天 なども活用 ログ解析やレコメンデーションエンジン、検索エンジンなどでの活用が主流 今後は、DHW/BI領域での活用が進む 35 今後は、DHW/BI領域での活用が進む Yahoo! のHadoop環境がソート処理の世界記録を樹立 1TBのデータソートを62秒で実現 (2009年5月) 大きく2つのコンポーネントで構成される 分散ファイルシステム: HDFS (Hadoop Distributed File System) 大規模分散処理フレームワーク: Hadoop MapReduce Framework
  37. 37. Hadoop – 分散ファイルシステムHDFSとMapReduceフレームワーク 低価格サーバの大量使用による故障の発生 が前提の設計 データの多重化で可用性を担保する 従来とは運用利便性の考え方が異なる Client NameNode ブロックに分割して ランダムに分散配置 大規模分散処理向けフレームワーク Googleが検索インデックス作成のため考案 少なくとも5000台までスケールアウトしても性能向上 することが知られている HDFS MapReduce 36 SW SW SW ランダムに分散配置 コピーをラックの内外に 多重作成して冗長化 DataNodes Rack SHUFFLE MAP REDUCE
  38. 38. Hadoop - 環境の全体像 NamenodeJobTracker Jobクライアント NameNodeJobTracker L2スイッチL2スイッチ Hadoopマスタサーバ集中管理型の 分散システム クラスタの追加・削除は 自動的に行われる • 各ノードはマスターサーバ に定期的に通知する ジョブやデータの管理は マスターサーバによって 37 … L2スイッチ … L2スイッチ … L2スイッチ … L2スイッチ … L2スイッチ Hadoopスレーブサーバ (DataNode/TaskTracker) マスターサーバによって 行われる HDFS マスター: NamaNode スレーブ: DataNode MapReduce処理 マスター: JobTracker スレーブ: TaskTracker
  39. 39. Hadoopの特徴 個別設計する必要なく、分散処理を実現 従来、プログラムごとに分散処理方式を検討する必要があった Hadoopでは、MapReduceアルゴリズムにしたがうことで、プログラム個別に分散 処理ロジックを用意することなく、分散処理が行える 高いスケーラビリティ サーバ台数を増やすことで、扱えるデータサイズや処理性能(処理時間)を向上で きる 様々なデータに対応 38 様々なデータに対応 どのようなデータでも格納できる (格納時ではなく) 利用時にデータの意味付けを行える コモディティサーバの利用 IAサーバ+Linuxなど安価に入手できるコモディティ品で構築できる 大量サーバ利用を前提とした設計 一部のサーバが故障しても、サービスの可用性に影響を及ぼさない
  40. 40. 利用事例: Yahoo! 検索インデックスやレコメンデーションにHadoopを活用 過去3年分のログデータ分析が、Hadoopでは約20分 (従来は26日) 現在、Hadoopで170ペタバイトのデータを管理・処理している 全体で38,000台規模の Hadoop環境を持つ 最大クラスタは4000台 本社前にはコンテナ型 39 (出典: Hadoop World:NYC) のデータセンタも・・・
  41. 41. 利用事例: facebook 4TBのデータが 毎日新規に生成される 135TBのデータを 毎日処理している Hive & Hadoop Usage @ Facebook Statistics per day: – 4 TB of compressed new data added per day – 135TB of compressed data scanned per day – 7500+ Hive jobs on per day – 80K compute hours per day Hive simplifies Hadoop: 40 Hadoopで処理したデータを Oracle RACやMySQLに格納して 利用しているものもある (出典: Hadoop World:NYC) – New engineers go though a Hive training session – ~200 people/month run jobs on Hadoop/Hive – Analysts (non-engineers) use Hadoop through Hive – 95% of jobs are Hive Jobs
  42. 42. 利用事例: VISA 過去2年間で730億ものトランザクション=36TBのデータが生成 分析にこれまで1カ月かかっていたものが、Hadoopによって13分に 41 (出典: Hadoop World:NYC)
  43. 43. 利用事例: China Mobile 対象: CDR (Calling Data Recode) データ ユーザー5億人のデータ CMCC: 5~8TB/日 商用のDB製品、DWH製品を利用していたがHadoopに移行 スケーラビリティを確保 • 商用製品のスケーラビリティに限界を感じていた 42 汎用ハードウェアとHadoopによりローコストを実現 • 商用製品のライセンス費用が肥大化していた 柔軟性を確保 • 様々なアプリケーションを適宜追加できる (出典: Hadoop World:NYC)
  44. 44. 利用事例: 日本国内 楽天 複数のサービスで利用中 • 楽天市場、楽天レンタル、楽天ブックス、楽天ダウンロード、・・・ 広告のインプレッション解析、レコメンデーション、ランキングの集計 処理などで商用環境で利用 元々はPerlスクリプトでやっていたが、Hadoopに移行して処理速度 が約580%向上した (約26時間→4.5時間) 43 が約580%向上した (約26時間→4.5時間) 行動ターゲティング広告の配信ログは年50%ずつ増加するため(現 状は約1億レコード/日) スケーラビリティが必要 はてな 主にログ解析に利用 (300ジョブ/日) • ダイヤリー 7GB/日、ブックマーク 5GB/日、うごメモ 3GB/日 クックパッド アクセス傾向をアドホック分析
  45. 45. Hadoopの適用領域 特に向いている領域 テラバイト・ペタバイト級のデータを扱うシステム バッチ処理的なアプリケーション • リアルタイム性が求められる処理の前処理 準定型的なデータも扱える柔軟な ETL & ELT 利用例 ログ解析 (広告分析、トラヒック解析など) 44 ログ解析 (広告分析、トラヒック解析など) レコメンデーションエンジン 検索 (転置インデックス作成、クローラ) 機械学習 (スパムメールのパターン分析、分類など) データマイニング BI、DWH シミュレーション (金融工学) 創薬 デジタルデータ変換 (動画、テキスト、音楽)
  46. 46. Hadoopの適用領域 バッチ処理 高レイテンシ 非構造化データ 大規模データ テラバイトクラス RDBMSと競合するものではない 45 ペタバイトクラス RDBMSと組み合わせ て利用する例もある (出典: Hadoop World:NYC)
  47. 47. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 46 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  48. 48. SI事業者としてのHadoopの位置づけ 今まで扱うことが難しかった領域を切り拓く ペタバイトクラスのデータ、大規模分散処理 など プロセス指向だけでなく、データ指向に基づいたシステムの浸透 スケールアウト技術が身近なものに コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化 新しい処理モデルやデータモデルの浸透 47 アプローチ 新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す • 今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現 活用例 • POSデータなどの解析による顧客動向の分析システム • ログ解析による広告最適化を支援するシステム • 大規模Webサイトのログ解析システム • レコメンデーションを支えるシステム など
  49. 49. BizXaaS® Hadoop構築・運用ソリューション BizXaaS® クラウド構築サービスのひとつとして 『Hadoop構築・運用ソリューション』 を発表 2010年7月1日にプレスリリース BizXaaS® はNTTデータのクラウドサービスのブランド名称 48
  50. 50. BizXaaS® Hadoop構築・運用ソリューション これまでに培った技術力やノウハウをもとに提供 NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・ 運用してきた実績を有している お客様の新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、 システム構築、運用設計、導入後のサポートまで幅広く対応 Hadoop特有の考え方やノウハウについて知識・経験を持つメンバーが対応 49 業務システムや社会基盤システムと して活用できるノウハウが盛り込ま れている 信頼性を向上させるための仕組み 多数のサーバを管理する際に顕在 化しやすい運用コストの増大を抑え る仕組み など
  51. 51. OSS構築実績 (規模・処理量マップ) 処理量 (万件/時) ● ● ● 40 60 ● 構築・運用中 先見派今後の ターゲット 領域 PostgreSQL 50 実 証 環 境 DB規模 ● ● ● ● ● ● ● ● ● ● ● 5 10 20 10万件 100万件 300万件 500万件 1000万件 1億件 ●● ● ● ● 10億件 構築・運用中 Hadoop
  52. 52. Hadoop関連のR&D NTTデータでは、H21年度に経済産業省様から「分散制御処理技術等 に係るデータセンター高信頼化に向けた実証事業」受託し、Hadoopに 関して以下のようなR&Dを行いました。 「経済産業省の平成21年度 産学連携ソフトウェア工学実践事業報 告書」 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_rehttp://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_re search/sangaku_software_houkokusho.html 中段の 「高信頼クラウド実現用ソフトウェア開発」 です。 かいつまんで紹介します。 Copyright © 2010 NTT DATA CORPORATION
  53. 53. R&D:自動構築・環境一元管理 ・スケーラブルな運用手法の実現: (1)大量機器への対応、(2)機器種別混在への対応、(3)機器故障の効率的な 復旧・再構築 ■得られた成果 ■課題 ・効率的な環境構築手法を開発: 100台規模の環境構築を90分、 環境変更は3分 ・実装した手法は、大量のサーバを設定する初期構築や構成変更・維持管理、故障サーバの回復処理、サーバ群の 増設などに際して一元的・共通して利用可能 開発した環境構築手法の特徴 完全自動化 ・ 「電源を押すだけ」で構築完了(90分で100台) ・ Kickstart+Puppet また壊れた このCPUでの 設定に時間 がかかる 52 スレーブサーバ 種別・スペック等 が混在 頻繁な故障と 再構築 大量にサーバが 存在 運用担当者 クラウド基盤の環境 構築手法の開発・整 備 構成管理サーバ 自動構築 設定の配布 一括操作 クラウドでは、スレーブサーバは交代可能な部品。 本手法により、構築も増設も、故障回復も同一手順で、実施 可能、スレーブサーバを部品として容易扱える。 混在性の隠蔽 ・ 「機器ごとの最適設定」を自動生成、配布 ・ Puppetを軸にHadoopモジュール、factorを開発 動的な環境構成 ・ IP管理・名前管理不要⇒設置後すぐに増設可 ・ 構築直後から、即クラスタメンバに組み込まれる ・ Kickstart+PuppetこのCPUでの 最適設定は…
  54. 54. R&D: Hadoop基盤における信頼性 ・信頼性向上のため、Hadoop基盤における単一故障点を排除したい ■得られた成果 ■課題 ジョブジョブジョブジョブ停止停止停止停止マスタサーバ スレーブサーバ ラック内 L2スイッチ コアL3スイッチ ジョブジョブジョブジョブ停止停止停止停止 縮退 縮退 SPOF Domain0 Domain0 完全完全完全完全 仮想化仮想化仮想化仮想化 ゲストゲストゲストゲスト Kemariプロセスプロセスプロセスプロセス xc_kemari_save Kemariプロセスプロセスプロセスプロセス xc_kemari_restore Heartbeat DRBD Heartbeat DRBD ノードノードノードノード監視監視監視監視 ディスクディスクディスクディスク同期同期同期同期 VM状態同期状態同期状態同期状態同期 Kemariによるによるによるによる 同期同期同期同期 仮想的仮想的仮想的仮想的なななな FTマシンマシンマシンマシン 仮想的仮想的仮想的仮想的なななな FTマシンマシンマシンマシン 完全完全完全完全 仮想化仮想化仮想化仮想化 ゲストゲストゲストゲスト Hadoop基盤の信頼性調査を実施 ソフトウェアFT (Kemari)適用 運用系サーバは対象外 53 •スレーブサーバやネットワークトポロジの故障に対して、HDFSのレプリ ケーションやMapReduceのジョブ再割り当てで信頼性を確保している ことが確認できた •Reduceタスク中に故障が発生すると、Shuffleのタイムアウトが発生し ジョブが遅延する SPOF Xen HypervisorXen Hypervisor Kemari ゲストゲストゲストゲスト領域領域領域領域 ゲストゲストゲストゲスト領域領域領域領域DRBDによるによるによるによる 同期同期同期同期 物理物理物理物理ノードノードノードノード1111 (ACT) 物理物理物理物理ノードノードノードノード2 (SBY) •ソフトウェアFT技術をKemari/Heartbeat/DRBDという、IAサーバ とOSSの組み合わせを追求して実現 •マスタサーバ故障時に無停止で処理が継続できることを確認で きた Kemariの性能への影響 スレーブサーバ台数 3台 25台 93台 Kemariなし Kemariあり 180秒 256秒 249秒 485秒 258秒 553秒
  55. 55. R&D: Hadoop基盤の可視化 ・Hadoop基盤の利用と運用を鑑みて可視化すべきリソースを洗い出す ・大量のサーバで構成されるHadoop基盤に対してスケーラブルな可視化手法をオープンソースで実現する ■課題 ■得られた成果 Gangliaの機能で不足している閾値監視項目を追加実現 運用監視サーバ1台あ たり(PCレベルのス MapMap ReduceReduce ・Hadoopアプリケーションの処理内容においてユーザと運用管理者それぞれが求める可視化対象を検討(33項目) ・スケーラブルな実装としてオープンソースのGangliaを選定し、不足機能を開発 Gangliaを選定し、実証実験クラウドでスケーラビリティを検証 54 ラック内でM ulticastし情 報共有 1ラック当たり、 1サーバと通信 すればよい たり(PCレベルのス ペック)400台弱まで スケール可能 主な使用 リソース N/W JVM Gangliaでの 実装状況 N/W あり JVM ヒープ領域 (New、Old、 Permanent) 今回追加 実装した主 な項目 I/O待ちプロセス数 割り込み不可能な スリープ状態の プロセス数 スイッチのパケット 入力状況 スイッチのパケット 出力状況 ○○○○ ×××× ×××× ×××× 作成した可視化スクリプトは下記に公開予定 Gmetric Script Repositrory (http://ganglia.sourceforge.net/gmetric/)
  56. 56. R&D:スペックが混在するHadoop基盤での分散処理設定 スペック差があるノード: 最適なMapやReduceの割当は? ■課題 ・ハードウェアスペックの差(CPU、ディスク、メモリ)により、処理時間遅延や処理失敗を引き起こす ・分散処理を最適化するためにHadoopの基盤パラメタやアプリケーションの実行パラメタの最適化指針が不明 分割A 分割B 分 散 処 理 処理はどの程度に分割すればよい? CPUコア メモリ ディスク容量不足で 処理失敗 メモリ容量不足で 処理遅延 ディスク CPU性能が 異なる 55 処理分割に着目した処理時間測定結果 0 500 1000 1500 2000 2500 3000 3500 4000 4500 0 500 1000 1500 2000 2500 3000 3500 4000 処理分割数 処理時間(秒) 過分割 分割不足 良い分割 ■得られた成果 ・Hadoopの処理特性を分析、ベンチマークモデルで最適化指針を検証 - CPUコア数で Map及びReduceの 「スロット数」 を決定、ただしメモリ量・ディスク量が不足する場合は調整が必要 - 入出力バッファのサイズを目安にして処理の分割数を決定 Mapスロット数 ~ CPUコア数の1.5倍 Reduceスロット数 ~ CPUコア数+1 メモリ容量不足の 場合はスロット数を 削減 ディスク容量が少な処理ノードはRAID0で容量確保
  57. 57. R&D:クラウド型分散処理アプリケーションの開発 ・MapReduceアルゴリズムを適用したアプリケーションの開発事例が少ない ■得られた成果 ■課題 ・多様かつ大量なデータ処理の実証事例としてプローブデータによる「渋滞解析アプリケーション」を開発した ・処理精度を制御する機能を実装し、処理時間と処理精度のバランスの具体的な実現事例を示した ・従来型開発で利用している処理フローをベースにMapReduce処理化する設計指針の具体的な事例を示した Step1Step1Step1Step1 従来手法と同等の分析手法で機 能の処理フローを作成する。 データの流れに着目し MapとReduceに分割 設計指針設計指針設計指針設計指針のののの事例事例事例事例 データを分類する 56 Step3Step3Step3Step3 並列処理を想定して入力データを 二つに分割、別々のデータフローに データを流した際の動作を考え、 データフロー間のデータ依存箇所を 特定する。 Step4Step4Step4Step4 データ依存箇所をもとに、Map処理、 Reduce処理に分割、その後入力 データ、中間データ、出力データを 分類する。 Step2Step2Step2Step2 処理フローから入出力を明確にし たデータフロー図を作成する。 データデータデータデータ依存箇所依存箇所依存箇所依存箇所 フロー間のデータ依存 までの処理はMapで実装 フロー間のデータ依存 以降の処理はReduceで実装 実装する
  58. 58. R&D:シナリオに基づく運用性評価 実際の大量プローブデータを使用し、「渋滞解析アプリケーション」を用いながら運用シナリオに従い実証実験を行う <実証実験の確認観点> ■処理精度と処理時間の適切なバランス ①データ量、計算量の増大に対し、サーバ増設によるスケールラビリティの確保 ②アプリケーションを実行し、処理精度と処理時間の適切なバランスの確保 ■クラウド基盤の可用性・信頼性 ③マスタサーバ、スレーブサーバ、ラック単位での故障に対する可用性と信頼性の確保 ■クラウド基盤の運用効率化 ④混在環境でのサーバ増設時の自動構築と増設後の安定稼動の確認 ⑤サーバ故障時の検知と効率的な復旧作業の確認 シナリオ3:故障発生 サーバ、ラックの故障が発生する②処理時間と処理精度のバランス ⑤故障検知 故障サーバを自動的に検知することが出来た 57 サービススタート 小規模構成 サーバ台数 安定稼動 安定稼動 タイムライン 安定稼動 シナリオ1:データ量増大 プローブユーザの拡大によってデータ量が増大 データ量:約2GB⇒約2TB 縮退稼動 シナリオ2:サービス拡大 解析対象道路の拡大によって計算量が増大する 道路数:約100万本⇒約400万本 安定稼動 サーバ、ラックの故障が発生する ①スケーラビリティ マシン増強によるスケーラビリティを確認し、 サービス要件を満たすことが出来た。 ②処理時間と処理精度のバランス サービス拡大による処理精度の向上を図り、 精度と時間のバランスを確保 サーバ増設サーバ増設 ④自動構築 サーバ25台⇒100台への増設時、 設定ファイル自動配布などの 効率的な自動構築を実現した。 ③可用性の確保 サーバ故障時でも処理が中断することな く縮退稼動を出来ることを確認した。 ⑤復旧作業 サーバ復旧時でも、実行中のジョブが 妨げられることなく作業が出来た。 ④自動構築 サーバ3台⇒25台への増設時、 設定ファイル自動配布などの 効率的な自動構築を実現した。 サーバ増設サーバ増設 サーバ 切り離し サーバ 切り離し サーバ追加サーバ追加
  59. 59. INDEX 01 イントロ:クラウドとは 02 NTTデータのクラウドに対する取り組み 03 OSSクラウド基盤の次世代スタンダード:OpenStack 04 NTTデータの取り組み:フルOSSクラウド構築ソリューション 05 OSSによる大規模データ処理基盤:Hadoop 06 NTTデータの取り組み: Hadoop構築・運用ソリューション Copyright © 2010 NTT DATA CORPORATION 58 06 NTTデータの取り組み: Hadoop構築・運用ソリューション 07 まとめ
  60. 60. 全体のまとめ OpenStackは Openな開発体制で、NASAやサービス事業者の使用に耐 えるスケーラブルなIaaS環境を提供します Hadoopは 既に実用の域に達しつつある大規模データ処理基盤です既に実用の域に達しつつある大規模データ処理基盤です NTTデータは OSSクラウドの企業ユースに向け、インフラ層(IaaS)・プラ ットフォーム層(PaaS)ともに取り組み、貢献していきます 59Copyright © 2010 NTT DATA CORPORATION
  61. 61. ご清聴ありがとうございました Copyright © 2010 NTT DATA CORPORATION 60
  62. 62. 本文中に記載の会社名、商品名、製品名などは、一般に各社の商標または登録商標です ただし本文中では、TMや®マークは明記してありません
  63. 63. Q&A Copyright © 2010 NTT DATA CORPORATION 62
  64. 64. References NTTデータ関連 BizXaaS http://bizxaas.net/ BizXaaS:フルOSSクラウド構築ソリューション Copyright © 2010 NTT DATA CORPORATION 63 http://www.nttdata.co.jp/release/2010/040801.html BizXaaS:Hadoop構築・運用ソリューション http://www.nttdata.co.jp/release/2010/070101.html
  65. 65. References : IaaS基盤 オープンソース OpenStack http://www.openstack.org/ Eucalyptus http://www.eucalyptus.com/ OpenNebula http://www.opennebula.org/ Nimbus http://www.nimbusproject.org/ Wakame-vdc http://wakame.axsh.jp/vdc.html Karesansui http://karesansui.sourceforge.jp/ Copyright © 2010 NTT DATA CORPORATION 64 Karesansui http://karesansui.sourceforge.jp/ CloudStack http://cloud.com/community Hail https://hail.wiki.kernel.org/index.php/Main_Page 商用 Morph http://www.mor.ph/ja/ Enomaly http://www.enomaly.com/ Nimbula http://www.nimbula.com/
  66. 66. References : IaaS基盤 その他 NASA Nebulaクラウド http://nebula.nasa.gov/ NII edubaseクラウド http://grace-center.jp/prj_educloud.html 国立情報学研究所(NII)プレスリリースより NASA Nebula とNII edubaseクラウドが連携 http://www.nii.ac.jp/index.php?action=pages_view_main&page_id=1106 WIDEクラウド http://www.wide.ad.jp/project/wg/wide-cloud-j.html Copyright © 2010 NTT DATA CORPORATION 65 WIDEクラウド http://www.wide.ad.jp/project/wg/wide-cloud-j.html 国プロ系の取り組み 総務省 H21年度情報通信に関わる研究開発 「セキュアクラウドネットワーキングの研究開発」 http://www.idg.co.jp/expo/cns/ (クラウドネットワーキングシンポジウム)
  67. 67. References : 関連コンポーネント ストレージ系 SheepDog http://www.osrg.net/sheepdog/ Ceph/RADOS http://ceph.newdream.net/ Vastsky http://sourceforge.net/projects/vastsky/ HC2 Project http://www.tierracloud.com/technology/HC2.html etc. NW系 Copyright © 2010 NTT DATA CORPORATION 66 NW系 Vyatta http://www.vyatta.com/ http://www.vyatta-users.jp/ Open vSwitch http://openvswitch.org/ Nox http://noxrepo.org/wp/ CloudSwitch http://www.cloudswitch.com/ etc.
  68. 68. References : PaaS基盤 PaaS系 Hadoop http://hadoop.apache.org/ Heroku http://heroku.com/ Ruby on RailsベースのPaaS (「Heroku最強伝説」 by @nabehiro_ さん) FluxFlex http://www.fluxflex.com/ 第4回JAWS-UG勉強会LT AppScale http://appscale.cs.ucsb.edu/ Copyright © 2010 NTT DATA CORPORATION 67 AppScale http://appscale.cs.ucsb.edu/ OSSなGAEクローン etc.
  69. 69. References : そのほか ユーザ会 Open Cloud Campus まだHPがありません… OpenStack http://openstack.org/ Eucalyptus http://eucalyptus-users.jp/ Copyright © 2010 NTT DATA CORPORATION 68 JAWSUG http://jaws-ug.jp/ JAZUG http://jazug.jp/
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×