Silicon Valley x 日本 / Tech x Business Meetup #12 (2015/04/17)
『並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ』
NTTデータ 基盤システム事業本部
システム方式技術事業部 OSSプロフェッショナルサービス
鯵坂 明
Silicon Valley x 日本 / Tech x Business Meetup #12 (2015/04/17)
『並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ』
NTTデータ 基盤システム事業本部
システム方式技術事業部 OSSプロフェッショナルサービス
鯵坂 明
Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。
https://cyberagent.connpass.com/event/58808/
Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。
33. 加工例:
SequenceFile(BLOCK)
+
gzip
テーブル作成
CREATE TABLE seq_table (id INT, name STRING, … )
STORED AS SEQUENCEFILE;
set mapred.output.compression.type = BLOCK;
set hive.exec.compress.output = true;
set mapred.output.compression.codec =
org.apache.hadoop.io.compress.GzipCodec;
INSERT INTO seq_table SELECT * FROM raw_table;
34
34. 加工例:
SequenceFile(BLOCK)
+
gzip
テーブル作成
外部テーブル
+
S (id INT, name STRING, … )
CREATE TABLE seq_table erDe
を組み合わせて、生
STORED AS データに対するスキーマを作る
SEQUENCEFILE;
set mapred.output.compression.type = BLOCK;
SequenceFile形式の
テーブルに変換する
set hive.exec.compress.output = true;
set mapred.output.compression.codec =
org.apache.hadoop.io.compress.GzipCodec;
INSERT INTO seq_table SELECT * FROM raw_table;
35