More Related Content
Similar to 大規模サイトを支えるビッグデータプラットフォーム技術
Similar to 大規模サイトを支えるビッグデータプラットフォーム技術 (20)
More from Yahoo!デベロッパーネットワーク
More from Yahoo!デベロッパーネットワーク (20)
大規模サイトを支えるビッグデータプラットフォーム技術
- 2. 自己紹介
Privileged and Confidential 2
遠峯 康夫(とおみね やすお)
事業戦略統括本部
データソリューション本部
データインフラ開発部
2010年 新卒入社
Hadoopクラスタ立ち上げの部署に配属
2012年 データソリューション配属
Hadoop、リアルタイム処理基盤などを担当
- 20. Yahoo! JAPANのHadoopについて – 目次
Privileged and Confidential 20
1. Yahoo! JAPANのHadoop構成
2. Yahoo! JAPANのHadoop規模
3. Yahoo! JAPANのHadoopの特色
4. チューニング事例
5. 機材の選び方
6. 今後の展望
- 22. Yahoo! JAPANのHadoop構成 – クラスタ
Privileged and Confidential 22
本番系:2クラスタ
Production
Cluster1
開発系:6クラスタ
Production
Cluster2
開発系は本番と比べると非常に小さいクラスタ
次期投入バージョンの検証なども実施
- 28. Stormについて
Privileged and Confidential 28
Stormとは?
Twitter社がOSSとして公開している、
分散ストリーム処理プラットフォーム
(リアルタイムに)逐次流れてくるデータを
即時に処理していこうという仕組み。
Yahoo! JAPANでの活用例
・各ページのリンクのクリック速報
・広告改善のための一次データ加工
・スマートフォンアプリのエラー速報 など
- 41. マルチテナントでうまく回すために
Privileged and Confidential 41
・利用者による一定の自治
・リソースキャパシティの定期的な見直し
・スケジューラ設定のチューニング
先の可視化グラフをユーザに見せ、
空いている時間帯を自ら選んでもらう。
部署毎に利用できるリソースの量に違いを持たせる。
利用率などを見て定期的に見直し。
Job同士のリソースの分け方に最適値はない。
トライアンドエラーで最も良いものを探し続ける。
- 45. チューニングの一例 – 気をつける項目の一例
Privileged and Confidential 45
気をつける項目の一例
・個別のノード(計算ノード側)
・CPU(特にwaitIO)
・Memory
・Disk(IObusy, queue)
・LoadAverage
・インターフェーストラフィック
・システム全体(スイッチ、マスタノード等)
・スイッチトラフィック
・マスタノードリソース(CPU, Mem, etc…)
個別のノードの指標に集中しすぎると、
システム全体のデグレに気付かない可能性がある
- 49. Yahoo! JAPANで使っている機材の一例
Privileged and Confidential 49
メモリ : 64GB
CPU : 12コア24スレッド
ディスク : 3TB × 4ディスク
Yahoo! JAPANでも当初それに倣い構成を計画
ディスクIOがネックになると言うのがHadoopのセオリー
定期的な計測により、ディスクを重視しない(CPU重視)
のYahoo! JAPANの現在に合った構成に
処理に応じた適切な構成を選択する必要がある
- 52. 今後の展開の一つのケースとして
Privileged and Confidential 52
Hadoop-2.xの導入
単一障害点(SPOF)であったNameNodeの可用性が向上
より信頼のおけるシステムへ
・NameNode-HA
・YARN
JobTrackerというSPOFのあったアーキテクチャを改良
全くJobが動かせなくなる可能性を低減
MapReduceのみならない多様なフレームワークの可能性
※YARNの安定にはもう少し時間がかかりそうですが