SlideShare a Scribd company logo
1 of 38
Download to read offline
最新版Hadoopクラスタを運用して得られたも
の
2017 Sep 22
CyberAgent, Inc. All Rights Reserved
梅田 永介
● 2012年6月入社
● 技術本部 秋葉原ラボ所属
● データ解析基盤Patriotの開発・運用
● 量産型Hadoop/HBaseクラスタの運用
● HBase徹底入門の執筆
自己紹介
● データ解析基盤Patriotのご紹介
● 運用してみて感じたメリット・デメリット
● 事例紹介
● 今回紹介しなかった取り組み
● 現在の取り組み
本日の内容
● データ解析基盤Patriotのご紹介
● 運用してみて感じたメリット・デメリット
● 事例紹介
● 今回紹介しなかった取り組み
● 現在の取り組み
本日の内容
● Hadoopベースのデータ解析基盤
○ HDFS, YARN, Hive, HBase, Flume, Spark, etc
○ Apache Bigtopで内製化したパッケージを使用
● メディアサービスのデータを集約
○ 2.5 PB / 3.0 PB (3 replica)
■ 5〜7 TB / day
○ 約700テーブル、12,000,000パーティション
○ 6000スケジュールジョブ + アドホックジョブ
データ解析基盤Patriot
リアルタイム処理基盤
システム構成
Patriot
MySQL
etc...
機械学習基盤
HTTP API /
WebUI
データ
転送管理
Flume
● Hadoop 2.7.3 + patch → 2.8.1 + patch
● Zookeeper 3.4.6
● HBase 1.3.0 → 1.3.1 + patch
● Hive 2.1.1 + patch (ORC関連のpatch追加)
● Tez 0.8.4
● Flume 1.8.0 (trunk) + patch
● Spark 2.1.0 + patch
● Presto 0.179 + patch (kafka対応追加)
● Presto YARN 1.5
● Slider 0.92.0
● Kafka 0.11.0
現在利用中のパッケージ
Presto YARNのために追加
● Hadoop
○ HADOOP-12366 : expose calculated paths
○ HADOOP-11628 : SPNEGO auth does not work with CNAMEs in JDK8
● HBase
○ HBASE-18000 : Make sure we always return the scanner id with ScanResponse ←
NEW !!!
● Flume
○ FLUME-3026 : Add Kafka 0.10 support for Flume
○ FLUME-3065 : Enable multiple monitoring types
○ FLUME-3100 : Support arbitrary header substitution for topic of Kafka
● Spark
○ SPARK-14958 : Failed task hangs if error is encountered when getting task result
適用しているパッチ
● Hive
○ HIVE-14029 : Update Spark version to 2.0.0
○ HIVE-14999 : SparkClientUtilities does not support viewFS
○ HIVE-15101 : Spark client process can be stuck when UNHEALTHY NodeManager exists
○ HIVE-15237 : Propagate Spark job failure to Hive
○ HIVE-15239 : hive on spark combine equivalent work get wrong result because of TS
operation compare
○ HIVE-15513 : GroupByOperator should initialize GenericUDAFEvaluator before
AggregationBuffer (recurrence of HIVE-697)
○ HIVE-15580 : Eliminate unbounded memory usage for orderBy and groupBy in Hive on
Spark
○ HIVE-16402 : Upgrade to Hadoop 2.8.0
○ HIVE-15178 : ORC stripe merge may produce many MR jobs and no merge if split
size is small ← NEW!!!
適用しているパッチ
● Presto
○ https://github.com/prestodb/presto/pull/8394 Support connecting to Kerberos
secured Kafka #7990, updated to Kafka 0.10.1.2 ← NEW!!!
適用しているパッチ
● Masterサーバ (Namenode, ResourceManager, etc)
○ 24 CPU core, 64 GB RAM, 2TB (RAID10)
○ 6 ノード
● Slaveサーバ (Datanode, NodeManger, etc)
○ 56 CPU core, 256 GB RAM, 6TB x 12 disks
○ 48 ノード(増設予定)
● Kafkaサーバ
○ 16 CPU core, 32 GB RAM, 3TB (RAID10)
○ 9 ノード
ハードウェア
● 構成管理
○ AnsibleでInventoryを環境ごとに用意
● 監視・モニタリング
○ Sensu, Grafana/OpenTSDB
■ HBaseにモニタリングデータも集約
○ Kafka Manager
○ Burrow
構成管理、監視・モニタリングなど
● データ解析基盤Patriotのご紹介
● 運用してみて感じたメリット・デメリット
● 事例紹介
● 今回紹介しなかった取り組み
● 現在の取り組み
本日の内容
● メリット
○ 最新のバージョンをいち早く使うことができる
○ ベンダーが提供しているディストリビューションよりもパッチが当て
やすい
■ ベンダー各社はいろいろなパッチを独自に当てているため、
JIRAに投稿されているパッチを当てるの難しい場合がある
運用してみて感じたメリット・デメリット
● デメリット
○ Cloudera ManagerやApache Ambariなどの管理ツールを使うこ
とができないため手間がかかる
■ 特にローリングアップグレードやローリングリスタート
■ 本番環境でコマンド打つのは精神的に疲れる
運用してみて感じたメリット・デメリット
● データ解析基盤Patriotのご紹介
● 運用してみて感じたメリット・デメリット
● 事例紹介
● 今回紹介しなかった取り組み
● 現在の取り組み
本日の内容
● カーネルパニック多発
● DataNodeのアップグレードでOOM発生
● DataNodeのアップグレードが中途半端に終わる
● Zookeeperに再接続できない
事例紹介
● 事象
○ 本番環境の運用開始後、1日に1台(多いときで3台)slaveサーバ
がカーネルパニックを起こしていた
○ 同じサーバが連続してカーネルパニックを起こすことは無かった
カーネルパニック多発
● 調査
○ コンソールログを手掛かりに調査を実施し、YARNのJIRAでカー
ネルパニックに関連しそうなチケットを発見
■ https://issues.apache.org/jira/browse/YARN-5040
● 大規模なジョブを実行するとカーネルパニックが発生する
● カーネルのバージョンを4.8.1にアップデートしたら改善したとい
う人もいた
■ https://issues.apache.org/jira/browse/YARN-4382
● コンテナのプロセスをkillするのが設定値
(yarn.nodemanager.linux-container-executor.cgroups.delete-delay-ms)より
も遅れるとcgroupsのディレクトリを消せなくなる
● cgroupsのディレクトリが増えすぎるとCPUビジーになる
カーネルパニック多発
● 補足
○ cgroups
■ タスクをグループ化し、そのグループに対してCPU、システム
メモリ、ネットワークなどのリソース制限をかけたりすることが
できる
■ 階層的に構成されている
● 構成はcgroupsfs上のディレクトリツリーで表される
■ サブシステムと呼ばれる機能でリソースを扱う
● サブシステムにはcpu(cpuのスケジューリング)、cpuacct(cpuリ
ソースについての自動レポートの生成)、memory(メモリに対す
る制限や自動レポートの生成)などがある
カーネルパニック多発
● 補足
○ YARNとcgroups
■ YARNでは厳密なCPUリソース制限を行う場合、cgroupsを
用いる
■ YARNでcgroupsを用いる設定にした場合のcgroupsのディ
レクトリ構成例(OSのバージョンによって異なる)
カーネルパニック多発
cgroup
└ cpu
└ yarn
├ コンテナ1
├ コンテナ2
├ コンテナ3
└ コンテナ4 ←実行が完了すると削除される
● 調査
○ NodeManagerのログを見てみると
○ /cgroup/cpu/yarn/ の下にできたディレクトリを定期的にカウント
→ 徐々に数が増えていっている
○ YARN-4382の事象と似ている
カーネルパニック多発
WARN util.CgroupsLCEResourcesHandler: Unable to delete cgroup at:
/cgroup/cpu/yarn/container_e59_1505389468296_48619_01_000176, tried to delete for
1000ms
● 対応
○ cgroupsのディレクトリ削除のタイミングを変更
■ yarn.nodemanager.linux-container-executor.cgroups.dele
te-timeout-msを10000msに変更(デフォルトは1000ms)
● JIRAのチケットでは
yarn.nodemanager.linux-container-executor.cgroups.delete
-delay-msについて触れていたが、ソースコードを読む限りは
delete-timeout-msを調整したほうがいいと判断した
○ 念のため/cgroup/cpu/yarn/ の下にできたディレクトリ
のうち、更新日付から1日経過したものを削除するよう
にcronを設定
カーネルパニック多発
● 事象
○ Hadoop2.7.3 → Hadoop2.8.1へのローリングアップグレードを実
施
■ おおまかな手順
● ローリングアップグレードのprepare
○ ロールバック用のfsimage作成
● NameNodeのアップグレード
● DataNodeのアップグレード
● ローリングアップグレードのfinalize
■ 詳細な手順
● https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/Hdf
sRollingUpgrade.html
DataNodeのアップグレードでOOM発生
● 事象
○ Hadoop2.8.0からDataNodeのストレージレイアウトが変更されて
いるため、DataNodeをアップグレードした後に起動すると自動的
にストレージレイアウトがアップデートされる
○ ステージング環境でアップグレード検証
■ NameNodeのアップグレードまでは順調
■ DataNodeのアップグレードでOOM発生
DataNodeのアップグレードでOOM発生
● 調査
○ HDFSのJIRAのチケットに類似事象の報告が無いか検索し、類
似の事象を発見
■ https://issues.apache.org/jira/browse/HDFS-9536
● HDFS-8578の影響でメモリを多大に消費している可能性あり
■ https://issues.apache.org/jira/browse/HDFS-8578
● これまでDataNodeのストレージレイアウトのアップグレードは
ストレージを順次処理していたため、時間がかかっていた
● ストレージを並列に処理することで大幅な処理時間の改善を実
現するという素晴らしいチケット
DataNodeのアップグレードでOOM発生
● 対応
○ DataNodeのアップグレード時は一時的にヒープサイズを大きくす
ることにした
■ 4GB → 16GB
○ 再度ステージング環境で再度検証を行った結果、無事アップグ
レードを完了することができた
DataNodeのアップグレードでOOM発生
● 事象
○ Hadoop2.7.3 → Hadoop2.8.1へのローリングアップグレードを実
施
○ NameNodeのアップグレードまでは順調
DataNodeのストレージレイアウトのアップデートが中途半端
に終わる
● 事象
○ DataNodeのアップグレード
■ 恐る恐る一台目をアップグレード
■ 普通に立ち上がってきたが、hdfsのログをtailしてたコンソー
ルに一瞬スタックトレースが表示された
■ HDFSのログを確認したところ、ものすごく怪しいログが出いていた
● 「Failed to analyze storage directories for block pool ブロッ
クプール名」→ アップデートできてなさそう
● 「loadBlockPoolSliceStorage: 7 upgrade tasks」→ ストレージ
は12本あるので12タスク動くはず
DataNodeのストレージレイアウトのアップデートが中途半端
に終わる
● 実験
○ リトライされるかもしれないので数分待ってみた
■ リトライされる様子なし
○ DataNodeを再起動(1台死亡してもなんとかなるので)
■ 「loadBlockPoolSliceStorage: 5 upgrade tasks」が出力されていた
■ 初回の起動で失敗したとしても、再起動すればリトライされることが
判明
DataNodeのストレージレイアウトのアップデートが中途半端
に終わる
● 対応
○ DataNodeのストレージアップデートのログを確認し、全てのスト
レージがアップデートされたのを見届けてから次のDataNodeの
アップグレードを行うようにした
DataNodeのストレージレイアウトのアップデートが中途半端
に終わる
● 事象
○ Zookeeperサーバの1台を再作成した
■ サーバの起動までに時間がかかってしまい、DNSキャッシュ
サーバから該当ホストの情報が落ちてしまった
■ サーバ起動前にDNSにアクセスがあり、ネガティブキャッシュ
が残ってしまった
○ その後、Zookeeper Client(Apache Curator)を使っているソフト
ウェアがZookeeprに再接続できなくなった
○ Zookeeperに常時接続しているもの(HBaseなど)には影響が無
かった
Zookeeperに再接続できない
● 調査
○ https://issues.apache.org/jira/browse/ZOOKEEPE
R-1576
■ Zookeeperのアンサンブルに指定されたサーバのうち一台で
もUnknownHostExceptionになってしまうとZookeeperに接
続できなくなる
■ Zookeeperのアンサンブルに、実在しないホスト名を記述し
ても同様の事象が発生するため注意が必要
■ 3.5系では修正されている
Zookeeperに再接続できない
● 対応
○ ネガティブキャッシュが消えた後、Zookeeprに再接続
できなかったプロセスを再起動
○ Zookeeperサーバを作り直す際は、念のため
/etc/hostsにZookeeperサーバの情報を記述するよう
にした
Zookeeperに再接続できない
● データ解析基盤Patriotのご紹介
● 運用してみて感じたメリット・デメリット
● 事例紹介
● 今回紹介しなかった取り組み
● 現在の取り組み
本日の内容
● Presto YARNの導入
○ Presto on YARN/Slider
● ファイルフォーマット変換
○ SequenceFile → ORC
○ 順次変換中
今回紹介しなかった取り組み
● データ解析基盤Patriotのご紹介
● 運用してみて感じたメリット・デメリット
● 事例紹介
● 今回紹介しなかった取り組み
● 現在の取り組み
本日の内容
● サーバOSの変更
○ CentOS6.8 → Ubuntu16.04
○ CentOSだとソフトウェアのバージョンが全体的に古い
■ gitのバージョンが低くてBigtop1.2が動かなかった
○ カーネルのトレーシング周りはUbuntuのほうが良さそう
● Hadoopクラスタ管理ツールの開発
○ 各プロセスの開始・停止、ローリングリスタート、ローリングアップ
グレードなどの手作業をなくす
● Zookeeperのアップグレードの検討
○ 3.4系にはバグがあるので3.5系に
現在の取り組み

More Related Content

What's hot

高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Yuki Gonda
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...NTT DATA Technology & Innovation
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析shuichi iida
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networksDeep Learning JP
 
オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)オラクルエンジニア通信
 
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...NTT DATA Technology & Innovation
 
AutoGluonではじめるAutoML
AutoGluonではじめるAutoMLAutoGluonではじめるAutoML
AutoGluonではじめるAutoML西岡 賢一郎
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜Preferred Networks
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎Tetsutaro Watanabe
 
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)NTT DATA Technology & Innovation
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
分散システム読書会 06章-同期(前編)
分散システム読書会 06章-同期(前編)分散システム読書会 06章-同期(前編)
分散システム読書会 06章-同期(前編)Ichiro TAKAHASHI
 

What's hot (20)

高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
Helidon 概要
Helidon 概要Helidon 概要
Helidon 概要
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)オラクルのHPC/GPUソリューションご紹介(2021/08版)
オラクルのHPC/GPUソリューションご紹介(2021/08版)
 
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
 
AutoGluonではじめるAutoML
AutoGluonではじめるAutoMLAutoGluonではじめるAutoML
AutoGluonではじめるAutoML
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎データサイエンティスト向け性能問題対応の基礎
データサイエンティスト向け性能問題対応の基礎
 
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
分散システム読書会 06章-同期(前編)
分散システム読書会 06章-同期(前編)分散システム読書会 06章-同期(前編)
分散システム読書会 06章-同期(前編)
 

Similar to 最新版Hadoopクラスタを運用して得られたもの

内製パッケージによるHadoopデータ解析基盤の構築と運用
内製パッケージによるHadoopデータ解析基盤の構築と運用内製パッケージによるHadoopデータ解析基盤の構築と運用
内製パッケージによるHadoopデータ解析基盤の構築と運用cyberagent
 
Eureka go 2015_12_12
Eureka go 2015_12_12Eureka go 2015_12_12
Eureka go 2015_12_12matsuo kenji
 
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せますゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せますinfinite_loop
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
kubernetes(GKE)環境におけるdatadog利用
kubernetes(GKE)環境におけるdatadog利用kubernetes(GKE)環境におけるdatadog利用
kubernetes(GKE)環境におけるdatadog利用Koichi HARUNA
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Dai Utsui
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩Fumito Ito
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編GoAzure
 
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)NTT DATA Technology & Innovation
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)
2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)
2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)Amazon Web Services Japan
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usageirix_jp
 
Miracle Linux seminer Hatohol and ConoHa
Miracle Linux seminer Hatohol and ConoHaMiracle Linux seminer Hatohol and ConoHa
Miracle Linux seminer Hatohol and ConoHaNaoto Gohko
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちAdvancedTechNight
 
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計maebashi
 

Similar to 最新版Hadoopクラスタを運用して得られたもの (20)

内製パッケージによるHadoopデータ解析基盤の構築と運用
内製パッケージによるHadoopデータ解析基盤の構築と運用内製パッケージによるHadoopデータ解析基盤の構築と運用
内製パッケージによるHadoopデータ解析基盤の構築と運用
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
Eureka go 2015_12_12
Eureka go 2015_12_12Eureka go 2015_12_12
Eureka go 2015_12_12
 
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せますゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
kubernetes(GKE)環境におけるdatadog利用
kubernetes(GKE)環境におけるdatadog利用kubernetes(GKE)環境におけるdatadog利用
kubernetes(GKE)環境におけるdatadog利用
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
 
Apache Hadoopを改めて知る
Apache Hadoopを改めて知るApache Hadoopを改めて知る
Apache Hadoopを改めて知る
 
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)
2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)
2012年上半期 AWSパートナーアワード受賞社資料:Hadoopによるバッチ処理の導入on AWS (ノーチラス・テクノロジーズ様)
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usage
 
Miracle Linux seminer Hatohol and ConoHa
Miracle Linux seminer Hatohol and ConoHaMiracle Linux seminer Hatohol and ConoHa
Miracle Linux seminer Hatohol and ConoHa
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
 

More from cyberagent

WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向    山本悠ニWWW2019で見るモバイルコンピューティングの技術と動向    山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニcyberagent
 
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭cyberagent
 
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎cyberagent
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗cyberagent
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みcyberagent
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話cyberagent
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システムcyberagent
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートcyberagent
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜cyberagent
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷cyberagent
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介cyberagent
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学cyberagent
 
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman DynamicsWWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamicscyberagent
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018cyberagent
 
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてcyberagent
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web servicescyberagent
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web servicescyberagent
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018cyberagent
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組みcyberagent
 

More from cyberagent (20)

WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向    山本悠ニWWW2019で見るモバイルコンピューティングの技術と動向    山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
 
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭Web フィルタリング最前線: 「「検閲回避」回避」    角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
 
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics    武内慎WebにおけるHuman Dynamics    武内慎
WebにおけるHuman Dynamics 武内慎
 
Webと経済学 數見拓朗
Webと経済学    數見拓朗Webと経済学    數見拓朗
Webと経済学 數見拓朗
 
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組みData Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
 
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
 
AbemaTVにおける推薦システム
AbemaTVにおける推薦システムAbemaTVにおける推薦システム
AbemaTVにおける推薦システム
 
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポートAbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
 
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
 
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
 
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
 
WWW2018 論文読み会  Webと経済学
 WWW2018 論文読み会  Webと経済学 WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会  Webと経済学
 
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman DynamicsWWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
 
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについてログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
Orion an integrated multimedia content moderation system for web services
Orion  an integrated multimedia content moderation system for web servicesOrion  an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
 
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
 
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習"  の取り組み"マルチメディア機械学習"  の取り組み
"マルチメディア機械学習" の取り組み
 

最新版Hadoopクラスタを運用して得られたもの