Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hadoopことはじめ

1,065 views

Published on

これからはじめるHadoop/Spark発表資料
http://hadoop.connpass.com/event/27345/

Published in: Technology
  • Be the first to comment

Hadoopことはじめ

  1. 1. Hadoopことはじめ 〜Hadoopを取り巻く環境とその最新動向〜 2016.03.22 @ これからはじめるHadoop/Spark Presented By: Katsunori Kanda(@potix2) CyberAgent Inc.
  2. 2. 自己紹介 神田勝規(かんだかつのり) 株式会社サイバーエージェント アドテクスタジオ 基盤開発グループ サーバーサイドエンジニア(OS/分散システムが専門) potix2@twitter/github ※ 毎月LispMeetup(shibuya.lisp)を開催してます
  3. 3. 今日話したいこと • Hadoopを使う動機 • Hadoopの全体像 • 最近のトレンド • デモ
  4. 4. Hadoopを使う動機 • 大量データを苦労せず高速に処理したい • 一度溜まったデータを動かすにはコストがかかる • 溜まっているデータをみんなで使いたい
  5. 5. Q.大量データを高速に 処理するには? A. ディスクをたくさんならべて分散処理する ディスクの台数分だけスループットが向上する ログ 10TBディスク CPU メモリ 1台の場合 20台に分散させた場合 500GB 500GB…500GB 読み込みに 1GB/s で約2.8時間 読み込みに 1GB/s で8.3分
  6. 6. Hadoopは分散処理に関わる 面倒ごとを引き受けてくれる
  7. 7. Hadoopのシステムスタック HDFS(Hadoop Distributed File System) YARN(Cluster Resource Manager) Hive/Tez SparkMapReduce Streaming (Storm/Flink…) Others… UserApplications
  8. 8. HDFS • Hadoop Distributed File Systemの略 • 複数のサーバーにあるディスクを一つの巨大なディ スクのように見せてくれる • 自動でレプリケーションも作ってくれるので対障害 性が高い
  9. 9. YARNの役割 HDFS AM AM リソース割り当て (CPU/Mem/IO) App1(MapReduce) App2(Spark) Resource Manager 単一クラスターで複数の分散アプリケーションが稼働できる
  10. 10. 単一クラスターのメリット • リソースが効率的に使用され稼働率が上がる • 一つのクラスターだけを運用すればいいので運用コ ストが低減される • システム間のデータ移動コストがかからなくなる( c.f. 複数クラスターではコピーが発生する)
  11. 11. Hadoop上で動く分散アプリ ケーション • SQL on Hadoop • Spark SQL, Hive/Tez, Presto, … • ストリーミング • Spark Streaming, Storm, Flink, … • 機械学習 • Spark ML, SystemML, TensorFlow, …
  12. 12. SQL on Hadoop • 最近は、MapReduce処理を一から書くことはあま りない • SQL(っぽい)言語でデータの抽出や集計処理を書く ことができる • Jupyter, Apache Zeppelin, re:dashなどノートブッ ク環境と合わせて使うと便利
  13. 13. ストリーミング • 開発が活発に行なわれている。Apacheプロジェク ト内でもいくつあるのか・・・。 • Storm, Spark, Flink, Apex… • 比較記事: https://yahooeng.tumblr.com/post/135321837876/b enchmarking-streaming-computation-engines-at
  14. 14. これからHadoopを使ってみるなら • クラウド環境から使いはじめてみるのがよい • S3やGCSをHDFSを通して使える • AWSなら、EMR • GCPなら、Cloud Data Proc
  15. 15. デモ
  16. 16. まとめ • Hadoopは大量データを処理するためのシステム • HDFS + YARN + 分散アプリケーション • 用途の異なるアプリが単一クラスターで動く • 最近はSQLでデータ処理を書けるようになってきた • これからはじめるならクラウド環境を活用するのが よい

×