Hadoop基盤を知る

Hadoop基盤を知る
日本ヒューレット・パッカード株式会社
HPE認定オープンソース・Linuxテクノロジーエバンジェリスト
Hadoop(CCAH)認定技術者
古賀政純@masazumi_koga
2019年4月
～ AI時代を生き抜くビッグデータ基盤技術の基礎を知る～

古賀政純の実践ガイドシリーズ
最先端オープンソース書籍出版の取り組み
コンテナや
OSSの
自動配備
IT資源管理
の自動化
社内クラウド
構築手順
ステップバイ
ステップで
徹底解説
OS部門1位
AmazonJP
ランキング
OS部門1位
AmazonJP
新着
ランキング
OS部門2位
AmazonJP
ランキング
機械学習
ビッグデータ
基盤構築
具体例満載
2

企業活動と
データの在り方
3

4
先進企業は、なぜ積極的にWebサービスに取り組むのか？
– エンドユーザーによるサービスへのアクセス
• データアクセス
– メールを読む
– ツイートを送信する
– 本を買う
– 友達をパーティーに招待する
– 写真を表示する
• パフォーマンスに対する厳格な制限
– エンドユーザー：「アクセスの際に、待ちたくない」
– Webサイトの応答性：重要な差別化要因！
– エンドユーザーに関するデータの整理
• データマイニングの容易さ
• イントラネット検索のしやすさ
• 膨大なデータへアクセスするスピード
• 分析結果を得るまでの応答時間
• セキュリティの確保
Webで得られ
る多種多様な
データ
制したものが
生き残る時代
情報の真偽商品評価
会話、流行映像配信
エンタメ
ニュース
購買情報

企業活動とデータ
–IT設備投資
• 所有している資産の価値は？
• 利用効率は？
• なぜ必要なのかの検討は？
• IT投資の目的
– TCO削減？
– 人件費削減？
– 電気代削減？
– 売り上げ拡大？
– 利益拡大
– 外販ビジネス開拓？
– 特許収入？
IT調査会社の天の声：
「AI時代の企業の成長には、
データ活用が必須！」
企業活動の成否は、
経営のプロの職人芸？
成長するには、IT投資が必要なのは
わかるけど、データ多くないし...
データ活用っていうけど、
なんだか、大変そう...
5

企業のWebサービス基盤
Web 層/
アプリケーション層
キャッシュ層
ストレージ
データベース層
データマイニング
検索
利
用
者
6

Web 層/
Apache
Tomcat
Geronimo
キャッシュ層
Memcached
ストレージ
XFS, ZFS, NFS,HDFS,
Haystack
MySQL
検索
YARN on
Hadoop
Elastic
Search
Webサービスとオープンソース
利
用
者
7

Web 層/
Apache
Tomcat
Geronimo
キャッシュ層
Memcached
ストレージ
XFS, ZFS, NFS,HDFS,
Haystack
MySQL
検索
YARN on
Hadoop
Elastic
Search
ハードウェア要件
CPU
メモリ
IOPS + メモリ
IOPS + CPU
IOPS
利
用
者
8

ビッグデータってファイルサイズの大きいデータのこと？
–例）2025年までデータを取得、毎日生成
–ユーザーが生成するコンテンツの急増
–磁気ディスクが安価に
–ずっと生成され続けるデータをその都度処理
–企業にとって、なにが問題？
–ミッションクリティカル対応
–エンタープライズ対応
–従来のアーキテクチャ
–データを処理しようとすると、脆弱で低速
–ペタバイトスケールが困難
– 非構造化データの処理手順
10

Hadoopって?
– ビッグデータ保管・分析に必要なもの
– 巨大スケールアップマシン＝頑健な作り
– 大量のスケールアウト型マシン＝クラスタ
→ Hadoopはスケールアウト！
– 誰が管理するのか？
– データはどこにあるか?
– ジョブはいつ終わるのか？
– 障害発生時はどうなるのか？
– Hadoopにおける管理
– YARN（MapReduce）アプリを実行
– 何を/どこで/いつ実行を追跡
– HDFS ：分散データストレージ
– データの複製を保持
– 障害に対応
Secondary
Name Node
Job Tracker
Name Node
Rack 2
Rack 1
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
1つのタスク... ワーカーノード群
アプリケーション：MapReduceで書く？
基盤ソフトウェア：Hadoop
11

Apache Hadoopクラスター構成
スレーブ
マシン N
スレーブ
マシン5
スレーブ
マシン4
スレーブ
マシン3
スレーブ
マシン2
マスター
マシン1
YARN（MapReduce）
Hadoop 分散ファイルシステム
Linux
12

データとHadoopアプリケーション
–HDFSに配置
– 低コスト（＝信頼性は低い）のストレージを使った分散ファイルシステム
– MapReduceがなくても、大規模でスケーラブルなデータストアとして価値がある
–傾向分析
– Webのログファイルをマイニング
– 大量の非構造化データの選別
– 例: 「今、ホットな情報」、「最も人気のある情報」など
–Webクロールやコンテンツ処理
– 情報の抽出、分類、結合
–アドホックテキスト分析
– データをふるいにかけ、新しいトレンドやパターンを簡単に特定
HDFS
13

データモデル
Hadoop
ディストリビューション
データベース
オフラインシステム
非構造化データ
生データ
スクリプティング分析
DBA 分析
ビジネスユーザー分析
システム管理とプロビジョニング
スケールアウト特化型のハードウェアインフラストラクチャ
インポートエクスポート
オンライン/リアルタイムシステム
構造化データ
システム使用モデル
データモデル
ユーザーレベルツール
プログラマーレベルのツール
管理者レベルのツール
14

データモデル
MapR/Cloudera MapR-DB, Cassandra,
HBase, Vertica
オフラインシステム
非構造化データ
生データ
Pig
Hive/Impala/Drill
Datameer/Pentaho
Mesosphere DC/OS, MapR Control System, Cloudera Manager, Chef, Ansible
HPE Apollo 4200 Gen10インフラストラクチャ
インポートエクスポート
オンライン/リアルタイムシステム
構造化データ
システム使用モデル
データモデル
ユーザーレベルツール
プログラマーレベルのツール
管理者レベルのツール
15

オープンソースソフトウェア＝無料ではない
Hadoopディストリビューション
– 選択肢:
– Apache Hadoop
– 安定性よりも、むしろ、最新の機能を試したい
– コミュニティの最新成果物に触れる
– コミュニティの発展に寄与
– ベンダーサポートなし
– MapR
– GUIインストーラー、GUI管理画面
– 超高速ファイルシステム：MapR-FS（C/C++で実装）
– NFSストレージ利用
– 日本のHPEの技術コンサルティング部隊での導入実績も豊富
– Cloudera
– GUIインストーラー、GUI管理画面
– Impalaの取り組み
– 日本のHPEの技術コンサルティング部隊での導入実績も豊富
16

Hadoopを誤解しないように…
18
Secondary
Name Node
Job Tracker
Name Node
Rack 2
Rack 1
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
Data Node
Task
Tracker
Task
Map
Reduce
Task
Map
Reduce
Task
Map
Reduce
• Hadoopは、アプリではなく、インフラストラクチャ
• 計算ノード構成は、データ保管と計算処理のバランスが必要
• 結果的に、Hadoop向けハードウェアを導入する場合が多い
• 結構、ハードウェアリソースが必要
• CPU
• メモリ
• ディスク
• NIC
• 何をしたいかを明確にする
• 分析要員の確保
• ハイレベルアプリとの連係
18

Hadoop向けハードウェア
–何を考慮すべきなのか？
–初期コスト
–電源、電力消費量
–CPU処理能力
–メモリ容量
–ディスク容量
–ラック密度
19

Hadoopにおけるお客様の課題
–お客様の声
–「Hadoopだけでエンタープライズに利用できるの？」
–「私は、Hadoop技術や技能を極めたいわけではない」
–「私のデータはどこにあって、今どのような処理が動いているの？」
–データの密度 vs. 電力
–「ラック１台あたり、N個のハードドライブが欲しい」
–「ラック１台あたり、8Kワット以下でないと導入は厳しい」
–「サーバーあたり、200TB保存したい」
–「1日で1TB増えるけど、設備は5年使う」
HPE Apollo 4200 Gen10 HPE Apollo 6500 Gen10
20

ビッグデータ専用ハードウェア
21

Hadoopプラットフォームの変遷
–DL180
– 最大 14 LFF HD/25 SFF HD
– 12個の DIMM ソケット
– 2U
–SL160s/SL165
– 18/24 DIMM スロット
– 1U
–SL335
– 12個の DIMM スロット
– リスボン CPU
– 1Uで２台
2011年 2019年
HPE Apollo 4200 Gen10
GPU
22

Hadoopのラッキング構成を知る
-計算ノードのサーバー機種：Apollo 4200 Gen10
-メモリ: 512 GB RAM
-Disk(OS用)： 1TBディスク x 2
-Disk(データ用): 10TB ディスク x 15～26
-CPU: Xeonプロセッサ x2ソケット
-NIC：最低10GbE以上
スイッチ
• 最低10GbE以上
• 冗長性確保
ソフトウェア
• HW/OS管理用ソフトウェア（HPE）
• MapR Control System or Cloudera Manager
インストール
• マスターノード: 巨大メモリが必要、RAID構成
• 計算ノード： RAIDなし、ホットスワップなし
HPE ラック
HPEスイッチ
Hadoopマスター
Hadoop スレーブ1
Hadoop スレーブ...
Hadoop スレーブN
HW/OS管理用サーバー
HW/OS管理ツール:
HPE Performance Cluster Manager
23

複数ラックにまたがる構成
HPE ラック1
HPEN スイッチ
Hadoopマスター
Hadoop スレーブ...
Hadoop スレーブN
HW/OS管理用サーバー
HPE ラック...
HPEN スイッチ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
HPE ラック x
HPEN スイッチ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
Hadoop スレーブ
24

ご清聴ありがとう
ございました
@masazumi_koga
25

機械学習とビッグデータを知る
最先端オープンソース書籍出版への取り組み
AI時代に必携の一冊！
機械学習・ビッグデータ基盤導入検討・構築・使用法・応用例等
 Apache Hadoop 3と商用版MapR 6クラスター構築、使用法
 機械学習, ニューラルネットワークの具体例
 データベースとの連携, ETLツール
 RDBMS, ログ, Twitterデータの取得等
• Bigdata分析基盤の概要
• Hadoopの種類、沿革、システム構成
• Apache Hadoop 3の特徴
• Hadoopシステム構成、導入前検討項目
• ハードウェアコンポーネントの検討
• Hadoop 3, MapR 6クラスターハードウェア構成例
• Hadoopクラウド
• ハードウェアの設定
• Hadoop 3, MapR 6クラスターのインストール
• Hadoop 3, MapR 6クラスターの運用管理
• Spark SQL, Spark Streaming, Spark GraphX, Spark R, Spark MLlib
• ニューラルネットワーク
• Hive, Impala, HBase, Pig
• Sqoop, Flume
• Mahout
Amazon
インプレス
フライトデータ分析、
迷惑メール分類、
おすすめ映画タイトルの
表示など、機械学習の
具体例を掲載！
Hadoop 3と MapR 6を
解説した世界初の本！

Hadoop基盤を知る

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop基盤を知る

Similar to Hadoop基盤を知る (20)

Hadoop基盤を知る