Hadoop Conference Japan 2016 で発表した資料です。 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-20809016328 この資料は前半部分です。ドワンゴ志村様による後半部分はこちら: http://www.slideshare.net/smrmkt/hadoopetl-niconico ---- (アブストラクト) ETL(Extract, Transform, Load) は、外部のソースからデータを抽出し、業務上必要な形に加工し、データ基盤にロードするための一連の技術です。Hadoopの登場により、スケーラブルかつ柔軟なスキーマ構造を持つデータレイヤーであるHDFSに代表される、ETLにおける多くの物理アーキテクチャに変化がもたらされました。しかし一方で、ETLそのものの論理的な必要性は変わっておらず、実際の現場では様々な課題が山積みとなっています。このセッションでは、Flume / Kafka / Sqoop / Hive / Pig / Spark などの HadoopエコシステムによるETLの変革を紹介するとともに、実システムにおけるETLの現実と様々な課題について紹介していきます。