SlideShare a Scribd company logo
1
Hiveの正しい使い方	
  
Cloudera	
  株式会社	
  
嶋内 翔	
  
自己紹介	
  
•  嶋内 翔(しまうち しょう)	
  
•  2011年4月にClouderaの最初の日本人社員として入
社	
  
•  テクニカルサポート業務をメインに、日本における技
術に関係する業務全般を担当	
  
2
Apache	
  Hadoop	
  
Hadoopは、	
  
1.  単一サーバで処理しきれないほど大量なデータを	
  
2.  コモディティサーバを並べることによって	
  
3.  分散処理及び保存するための	
  
4.  オープンソースソフトウェアです	
  
3
Hadoopシステムの全体構成	
  
4
Hadoop	
  
外部システム	
  
RDBMS	
  
Webサーバ等の	
  
ログを生成するサーバ	
  
携帯端末の	
  
通信ログ	
  
APIアクセス	
  
ログ収集	
  
テーブルごと	
  
インポート	
  
分散バッチ処理	
  
機械学習	
  
外部システム	
  
APIアクセス	
  
ユーザ	
  
DWH	
  
テーブルごと	
  
エクスポート	
  
BIツール	
  
+	
  JDBC/ODBC	
  
検索	
  
SQL	
  
Hadoopのシステム全体構成	
  
5
Hadoop	
  
外部システム	
  
RDBMS	
  
Webサーバ等の	
  
ログを生成するサーバ	
  
携帯端末の	
  
通信ログ	
  
APIアクセス	
  
ログ収集	
  
テーブルごと	
  
インポート	
  
分散バッチ処理	
  
機械学習	
  
外部システム	
  
APIアクセス	
  
ユーザ	
  
DWH	
  
テーブルごと	
  
エクスポート	
  
BIツール	
  
+	
  JDBC/ODBC	
  
検索	
  
SQL	
  データの取り込み	
  
データの活用	
  
分析	
  
探索	
  
提供	
  
データの処理	
  
データの	
  
保存	
  
Hadoopシステムの全体構成	
  
6
Hadoop	
  
外部システム	
  
RDBMS	
  
Webサーバ等の	
  
ログを生成するサーバ	
  
携帯端末の	
  
通信ログ	
  
APIアクセス	
  
ログ収集	
  
テーブルごと	
  
インポート	
  
分散バッチ処理	
  
機械学習	
  
外部システム	
  
APIアクセス	
  
ユーザ	
  
DWH	
  
テーブルごと	
  
エクスポート	
  
BIツール	
  
+	
  JDBC/ODBC	
  
検索	
  
SQL	
  
Apache	
  Hive	
  (Hive本1章)	
  
•  Hadoop上でMapReduceを実行してくれるSQL方言
HiveQLを提供する	
  
•  データウェアハウスアプリケーションに最も適してい
る	
  
•  データが更新されない	
  
•  高速なレスポンスが要求されない	
  
7
スキーマ・オン・リード	
  (Hive本3.4)	
  
•  Hiveの最も強力な「概念」の一つ	
  
•  データを読むときにスキーマを使う	
  
•  自由にデータが投入可能になる	
  
8
Hadoop	
  
CSV	
   テキスト	
  
テーブルA	
  
テーブルB	
  ログ	
  
Hiveのスキーマ作成クエリの例	
  
CREATE	
  EXTERNAL	
  TABLE	
  tweets	
  (	
  
	
  	
  id	
  BIGINT,	
  
	
  	
  created_at	
  STRING,	
  
	
  	
  favorited	
  BOOLEAN,	
  
	
  	
  retweet_count	
  INT,	
  
	
  	
  retweeted_status	
  STRUCT<	
  
	
  	
  	
  	
  text:STRING,	
  
	
  	
  	
  	
  user:STRUCT<screen_name:STRING,name:STRING>>	
  
)	
  
PARTITIONED	
  BY	
  (datehour	
  INT)	
  
ROW	
  FORMAT	
  SERDE	
  'com.cloudera.hive.serde.JSONSerDe'	
  
LOCATION	
  '/user/flume/tweets'	
  
9
Hiveのスキーマ作成クエリの例	
  
CREATE	
  EXTERNAL	
  TABLE	
  tweets	
  (	
  
	
  	
  id	
  BIGINT,	
  
	
  	
  created_at	
  STRING,	
  
	
  	
  favorited	
  BOOLEAN,	
  
	
  	
  retweet_count	
  INT,	
  
	
  	
  retweeted_status	
  STRUCT<	
  
	
  	
  	
  	
  text:STRING,	
  
	
  	
  	
  	
  user:STRUCT<screen_name:STRING,name:STRING>>	
  
)	
  
PARTITIONED	
  BY	
  (datehour	
  INT)	
  
ROW	
  FORMAT	
  SERDE	
  'com.cloudera.hive.serde.JSONSerDe'	
  
LOCATION	
  '/user/flume/tweets'	
  
10
外部テーブル	
  
データのパス	
  
外部テーブル	
  (Hive本4.3.2)	
  
•  ファイルシステム上にあるデータをそのままテーブルとして扱
える	
•  他のツールとデータを共有することも簡単にできる	
  
11
CSV	
  
/user/sho/super_cool_web_service/access_log	
  
Hive	
  
テーブルA	
  
MapReduce	
   Pig	
  
CSV	
  CSV	
  
外部テーブル	
  (Hive本4.3.2)	
  
•  テーブルを削除しても、データは消えない	
  
12
CSV	
  
Hive	
  
テーブルA	
  
MapReduce	
   Pig	
  
CSV	
  CSV	
  
/user/sho/super_cool_web_service/access_log	
  
影響なし!	
  
Hiveのスキーマ作成クエリの例	
  
CREATE	
  EXTERNAL	
  TABLE	
  tweets	
  (	
  
	
  	
  id	
  BIGINT,	
  
	
  	
  created_at	
  STRING,	
  
	
  	
  favorited	
  BOOLEAN,	
  
	
  	
  retweet_count	
  INT,	
  
	
  	
  retweeted_status	
  STRUCT<	
  
	
  	
  	
  	
  text:STRING,	
  
	
  	
  	
  	
  user:STRUCT<screen_name:STRING,name:STRING>>	
  
)	
  
PARTITIONED	
  BY	
  (datehour	
  INT)	
  
ROW	
  FORMAT	
  SERDE	
  'com.cloudera.hive.serde.JSONSerDe'	
  
LOCATION	
  '/user/flume/tweets'	
  
13
コレクションデータ型	
  
コレクションデータ型(Hive本3.2)	
  
単なる	
  STRING	
  や	
  INT	
  だけでなく、より複雑な型もカラ
ムとして定義可能	
  
14
型	
   定義例	
   参照例	
  
STRUCT	
   user	
  STRUCT<id:INT,	
  
name:STRING>	
  
user.id	
  
user.name	
  
それぞれINT、STRINGの値を取り出す	
  
MAP	
   user	
  MAP<STRING,	
  STRING>	
   user[‘id’]	
  
user[‘name’]	
  
中身はどちらもSTRING	
  
ARRAY	
   user	
  ARRAY<STRING>	
   user[0]	
  
user[1]	
  
Hive本の例では添字が抜けているので注意	
  
UNIONTYPE	
   user	
  UNIONTYPE<INT,	
  STRING>	
   user	
  (そのまま)	
  
列挙した型のいずれを格納することも可能	
  
(Hive本には訳注のみ)	
  
Hiveのスキーマ作成クエリの例	
  
CREATE	
  EXTERNAL	
  TABLE	
  tweets	
  (	
  
	
  	
  id	
  BIGINT,	
  
	
  	
  created_at	
  STRING,	
  
	
  	
  favorited	
  BOOLEAN,	
  
	
  	
  retweet_count	
  INT,	
  
	
  	
  retweeted_status	
  STRUCT<	
  
	
  	
  	
  	
  text:STRING,	
  
	
  	
  	
  	
  user:STRUCT<screen_name:STRING,name:STRING>>	
  
)	
  
PARTITIONED	
  BY	
  (datehour	
  INT)	
  
ROW	
  FORMAT	
  SERDE	
  'com.cloudera.hive.serde.JSONSerDe'	
  
LOCATION	
  '/user/flume/tweets'	
  
15
パーティション	
  
パーティション(Hive本4.4)	
  
テーブルをパーティション単位に区切ることが可能	
  
ファイルシステム上は、別ディレクトリに配置される	
  
	
  
16
/user/hive/warehouse/
access_log	
  
/country=US	
  
/country=JP	
  
/country=CN	
  
/dt=20130721	
  
/dt=20130722	
  
/dt=20130723	
  
/dt=20130724	
  
テーブル名 access_log	
   パーティション	
  country	
   パーティション dt	
  
パーティション(Hive本4.4)	
  
特定のパーティションだけを読み込むことが可能	
  
17
/user/hive/warehouse/
access_log	
  
/country=US	
  
/country=JP	
  
/country=CN	
  
/dt=20130721	
  
/dt=20130722	
  
/dt=20130723	
  
/dt=20130724	
  
SELECT	
  *	
  FROM	
  access_log	
  WHERE	
  country	
  =	
  ‘JP’	
  and	
  dt	
  =	
  ‘20130724’	
  
Hiveのスキーマ作成クエリの例	
  
CREATE	
  EXTERNAL	
  TABLE	
  tweets	
  (	
  
	
  	
  id	
  BIGINT,	
  
	
  	
  created_at	
  STRING,	
  
	
  	
  favorited	
  BOOLEAN,	
  
	
  	
  retweet_count	
  INT,	
  
	
  	
  retweeted_status	
  STRUCT<	
  
	
  	
  	
  	
  text:STRING,	
  
	
  	
  	
  	
  user:STRUCT<screen_name:STRING,name:STRING>>	
  
)	
  
PARTITIONED	
  BY	
  (datehour	
  INT)	
  
ROW	
  FORMAT	
  SERDE	
  'com.cloudera.hive.serde.JSONSerDe'	
  
LOCATION	
  '/user/flume/tweets'	
  
18
SerDe	
  
SerDe	
  (Hive本15.4)	
  
•  Serializer	
  /	
  Deserializer	
  の略。「さーでぃー」と読む	
  
•  あらゆるデータをHiveレコードに変換するためのイン
タフェースを提供する	
  
•  組み込みSerDeもいくつかある	
  
•  RegexSerDeなど	
  
•  テキスト以外のバイナリデータなども、カスタム
SerDeを実装することで読み込むことは可能	
  
•  ただしJavaのクラスを実装する必要がある	
  
19
RegexSerDeを使った	
  
Apacheログの読み込みの例(Hive	
  wikiより)	
  
20
CREATE	
  TABLE	
  apachelog	
  (	
  
	
  	
  host	
  STRING,	
  	
  idenkty	
  STRING,	
  	
  user	
  STRING,	
  
	
  	
  kme	
  STRING,	
  	
  request	
  STRING,	
  	
  status	
  STRING,	
  
	
  	
  size	
  STRING,	
  	
  	
  referer	
  STRING,	
  	
  	
  	
  agent	
  STRING)	
  
ROW	
  FORMAT	
  SERDE	
  
'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'	
  
WITH	
  SERDEPROPERTIES	
  (	
  
	
  	
  "input.regex"	
  =	
  "([^]*)	
  ([^]*)	
  ([^]*)	
  (-­‐|[^]*])	
  ([^	
  "]*|"[^"]*
")	
  (-­‐|[0-­‐9]*)	
  (-­‐|[0-­‐9]*)(?:	
  ([^	
  "]*|".*")	
  ([^	
  "]*|".*"))?",	
  
	
  	
  "output.format.string"	
  =	
  "%1$s	
  %2$s	
  %3$s	
  %4$s	
  %5$s	
  %6$s	
  %7$s	
  
%8$s	
  %9$s"	
  
)	
  
STORED	
  AS	
  TEXTFILE;	
  
21
Impala	
  
Cloudera	
  Impala(Hive本付録B)	
  
•  オープンソースの低レイテンシSQLエンジン	
  
•  HiveQLベース	
  
•  Hive	
  の文法はほぼそのまま使えます	
  
•  スキーマオンリードの概念はそのまま生かせます	
  
•  C++	
  	
  
•  MapReduceは使わない	
  
•  HDFS	
  や HBase	
  上のデータを処理可能	
  
•  非常に高速	
  
•  大体	
  x10〜30	
  
•  遅い時でも	
  x2〜3	
  
	
  	
  
Cloudera	
  Impala(Hive本付録B)	
  
•  オープンソースの低レイテンシSQLエンジン	
  
•  HiveQLベース	
  
•  Hive	
  の文法はほぼそのまま使えます	
  
•  C++	
  	
  
•  MapReduceは使わない	
  
•  HDFS	
  や HBase	
  上のデータを処理可能	
  
•  非常に高速	
  
•  大体	
  x10〜30	
  
•  遅い時でも	
  x2〜3	
  
•  私が見たことある最速は x97	
  	
  
Cloudera	
  Impala(Hive本付録B)	
  
•  利点	
  
•  ひたすら速い	
  
•  欠点	
  
•  耐障害性がない	
  
•  UDFがない	
  
•  etc..	
  
•  Hive	
  の置き換えではありません!	
  
Impalaの賢い使い方	
  
•  まずはImpalaで色々試す	
  
•  使えそうなクエリを発見したら、Hiveで定期実行	
  
25
Impala	
  
Hadoop	
  
Hive	
  
色々なクエリを試して	
  
実験する	
   業務処理はHiveで	
  
26
まとめ	
  
まとめ	
  
•  HiveはSQLを使ってHadoopを使える、分析用プログ
ラムです	
  
•  Impalaは高速ですがHiveより機能が少ないです	
  
•  正しく使うには、きちんとしたドキュメントが必要です	
  
27
まとめ	
  
•  HiveはSQLを使ってHadoopを使える、分析用プログ
ラムです	
  
•  Impalaは高速ですがHiveより機能が少ないです	
  
•  正しく使うには、きちんとしたドキュメントが必要です	
  
28
まとめ	
  
•  HiveはSQLを使ってHadoopを使える、分析用プログ
ラムです	
  
•  Impalaは高速ですがHiveより機能が少ないです	
  
•  正しく使うには、きちんとしたドキュメントが必要です	
  
29
買いましょう、今すぐに!	
  
オライリーセミナー Hive入門  #oreilly0724

More Related Content

What's hot

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
均 津田
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
 
Hadoop入門
Hadoop入門Hadoop入門
Hadoop入門
Preferred Networks
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
hideaki honda
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
NTT DATA OSS Professional Services
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
Yoji Kiyota
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
 
CDH4.1オーバービュー
CDH4.1オーバービューCDH4.1オーバービュー
CDH4.1オーバービュー
Cloudera Japan
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
NTT DATA OSS Professional Services
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
 

What's hot (20)

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Hadoop入門
Hadoop入門Hadoop入門
Hadoop入門
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
 
Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理Hadoopによる大規模分散データ処理
Hadoopによる大規模分散データ処理
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
CDH4.1オーバービュー
CDH4.1オーバービューCDH4.1オーバービュー
CDH4.1オーバービュー
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 
Hadoop / MapReduce とは
Hadoop / MapReduce とはHadoop / MapReduce とは
Hadoop / MapReduce とは
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 

Viewers also liked

Apache Hbase バルクロードの使い方
Apache Hbase バルクロードの使い方Apache Hbase バルクロードの使い方
Apache Hbase バルクロードの使い方
Takeshi Mikami
 
Maintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoopMaintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoop
Kai Sasaki
 
Bloom filter
Bloom filterBloom filter
Bloom filter
Kumazaki Hiroki
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
Amazon Web Services Japan
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
 
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 20162016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Makoto SHIMURA
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
Keigo Suda
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
 
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Alex Levenson
 

Viewers also liked (12)

Apache Hbase バルクロードの使い方
Apache Hbase バルクロードの使い方Apache Hbase バルクロードの使い方
Apache Hbase バルクロードの使い方
 
Maintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoopMaintainable cloud architecture_of_hadoop
Maintainable cloud architecture_of_hadoop
 
Bloom filter
Bloom filterBloom filter
Bloom filter
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
MapReduce入門
MapReduce入門MapReduce入門
MapReduce入門
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 20162016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
Hadoop Summit 2015: Performance Optimization at Scale, Lessons Learned at Twi...
 

Similar to オライリーセミナー Hive入門 #oreilly0724

TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
bigt23
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
Daiyu Hatakeyama
 
hs_spider_hs_something_20110906
hs_spider_hs_something_20110906hs_spider_hs_something_20110906
hs_spider_hs_something_20110906
Kentoku
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
Satoshi Noto
 
2012 02-02 mixi engineer's seminor #3
2012 02-02  mixi engineer's seminor #32012 02-02  mixi engineer's seminor #3
2012 02-02 mixi engineer's seminor #3
Yu Ishikawa
 
Hive chapter 2
Hive chapter 2Hive chapter 2
Hive chapter 2
masahiro_minami
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
 
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
Insight Technology, Inc.
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Cloudera Japan
 
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Kazumi IWANAGA
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
Hideo Takagi
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
Tech Summit 2016
 
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
linzhixing
 
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
Yu Ishikawa
 
HDPをWindowsで動かしてみた
HDPをWindowsで動かしてみたHDPをWindowsで動かしてみた
HDPをWindowsで動かしてみた
adachij2002
 
WDD2012_SC-004
WDD2012_SC-004WDD2012_SC-004
WDD2012_SC-004
Kuninobu SaSaki
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
日本マイクロソフト株式会社
 
Azure DataLake 大全
Azure DataLake 大全Azure DataLake 大全
Azure DataLake 大全
Daiyu Hatakeyama
 
Cloudstack user group meeting in osaka
Cloudstack user group meeting in osakaCloudstack user group meeting in osaka
Cloudstack user group meeting in osaka
Naotaka Jay HOTTA
 

Similar to オライリーセミナー Hive入門 #oreilly0724 (20)

TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
hs_spider_hs_something_20110906
hs_spider_hs_something_20110906hs_spider_hs_something_20110906
hs_spider_hs_something_20110906
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
 
2012 02-02 mixi engineer's seminor #3
2012 02-02  mixi engineer's seminor #32012 02-02  mixi engineer's seminor #3
2012 02-02 mixi engineer's seminor #3
 
Hive chapter 2
Hive chapter 2Hive chapter 2
Hive chapter 2
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう  by SRA OSS, Inc. 日本支社 高塚遥
[db tech showcase Tokyo 2014] B26: PostgreSQLを拡張してみよう by SRA OSS, Inc. 日本支社 高塚遥
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?Azure でサーバーレス、 Infrastructure as Code どうしてますか?
Azure でサーバーレス、 Infrastructure as Code どうしてますか?
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
 
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
Alfresco勉強会20120829: やさしいShareダッシュレットの作り方
 
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
 
HDPをWindowsで動かしてみた
HDPをWindowsで動かしてみたHDPをWindowsで動かしてみた
HDPをWindowsで動かしてみた
 
WDD2012_SC-004
WDD2012_SC-004WDD2012_SC-004
WDD2012_SC-004
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
 
Azure DataLake 大全
Azure DataLake 大全Azure DataLake 大全
Azure DataLake 大全
 
Cloudstack user group meeting in osaka
Cloudstack user group meeting in osakaCloudstack user group meeting in osaka
Cloudstack user group meeting in osaka
 

More from Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
Cloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
Cloudera Japan
 

More from Cloudera Japan (20)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 

Recently uploaded

"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
たけおか しょうぞう
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
CRI Japan, Inc.
 
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
Toru Tamaki
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
Toru Tamaki
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
Sony - Neural Network Libraries
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
Sony - Neural Network Libraries
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
Natsutani Minoru
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo Lab
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo Lab
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo Lab
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
chisatotakane
 

Recently uploaded (12)

"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
 
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
 

オライリーセミナー Hive入門 #oreilly0724

  • 2. 自己紹介   •  嶋内 翔(しまうち しょう)   •  2011年4月にClouderaの最初の日本人社員として入 社   •  テクニカルサポート業務をメインに、日本における技 術に関係する業務全般を担当   2
  • 3. Apache  Hadoop   Hadoopは、   1.  単一サーバで処理しきれないほど大量なデータを   2.  コモディティサーバを並べることによって   3.  分散処理及び保存するための   4.  オープンソースソフトウェアです   3
  • 4. Hadoopシステムの全体構成   4 Hadoop   外部システム   RDBMS   Webサーバ等の   ログを生成するサーバ   携帯端末の   通信ログ   APIアクセス   ログ収集   テーブルごと   インポート   分散バッチ処理   機械学習   外部システム   APIアクセス   ユーザ   DWH   テーブルごと   エクスポート   BIツール   +  JDBC/ODBC   検索   SQL  
  • 5. Hadoopのシステム全体構成   5 Hadoop   外部システム   RDBMS   Webサーバ等の   ログを生成するサーバ   携帯端末の   通信ログ   APIアクセス   ログ収集   テーブルごと   インポート   分散バッチ処理   機械学習   外部システム   APIアクセス   ユーザ   DWH   テーブルごと   エクスポート   BIツール   +  JDBC/ODBC   検索   SQL  データの取り込み   データの活用   分析   探索   提供   データの処理   データの   保存  
  • 6. Hadoopシステムの全体構成   6 Hadoop   外部システム   RDBMS   Webサーバ等の   ログを生成するサーバ   携帯端末の   通信ログ   APIアクセス   ログ収集   テーブルごと   インポート   分散バッチ処理   機械学習   外部システム   APIアクセス   ユーザ   DWH   テーブルごと   エクスポート   BIツール   +  JDBC/ODBC   検索   SQL  
  • 7. Apache  Hive  (Hive本1章)   •  Hadoop上でMapReduceを実行してくれるSQL方言 HiveQLを提供する   •  データウェアハウスアプリケーションに最も適してい る   •  データが更新されない   •  高速なレスポンスが要求されない   7
  • 8. スキーマ・オン・リード  (Hive本3.4)   •  Hiveの最も強力な「概念」の一つ   •  データを読むときにスキーマを使う   •  自由にデータが投入可能になる   8 Hadoop   CSV   テキスト   テーブルA   テーブルB  ログ  
  • 9. Hiveのスキーマ作成クエリの例   CREATE  EXTERNAL  TABLE  tweets  (      id  BIGINT,      created_at  STRING,      favorited  BOOLEAN,      retweet_count  INT,      retweeted_status  STRUCT<          text:STRING,          user:STRUCT<screen_name:STRING,name:STRING>>   )   PARTITIONED  BY  (datehour  INT)   ROW  FORMAT  SERDE  'com.cloudera.hive.serde.JSONSerDe'   LOCATION  '/user/flume/tweets'   9
  • 10. Hiveのスキーマ作成クエリの例   CREATE  EXTERNAL  TABLE  tweets  (      id  BIGINT,      created_at  STRING,      favorited  BOOLEAN,      retweet_count  INT,      retweeted_status  STRUCT<          text:STRING,          user:STRUCT<screen_name:STRING,name:STRING>>   )   PARTITIONED  BY  (datehour  INT)   ROW  FORMAT  SERDE  'com.cloudera.hive.serde.JSONSerDe'   LOCATION  '/user/flume/tweets'   10 外部テーブル   データのパス  
  • 11. 外部テーブル  (Hive本4.3.2)   •  ファイルシステム上にあるデータをそのままテーブルとして扱 える •  他のツールとデータを共有することも簡単にできる   11 CSV   /user/sho/super_cool_web_service/access_log   Hive   テーブルA   MapReduce   Pig   CSV  CSV  
  • 12. 外部テーブル  (Hive本4.3.2)   •  テーブルを削除しても、データは消えない   12 CSV   Hive   テーブルA   MapReduce   Pig   CSV  CSV   /user/sho/super_cool_web_service/access_log   影響なし!  
  • 13. Hiveのスキーマ作成クエリの例   CREATE  EXTERNAL  TABLE  tweets  (      id  BIGINT,      created_at  STRING,      favorited  BOOLEAN,      retweet_count  INT,      retweeted_status  STRUCT<          text:STRING,          user:STRUCT<screen_name:STRING,name:STRING>>   )   PARTITIONED  BY  (datehour  INT)   ROW  FORMAT  SERDE  'com.cloudera.hive.serde.JSONSerDe'   LOCATION  '/user/flume/tweets'   13 コレクションデータ型  
  • 14. コレクションデータ型(Hive本3.2)   単なる  STRING  や  INT  だけでなく、より複雑な型もカラ ムとして定義可能   14 型   定義例   参照例   STRUCT   user  STRUCT<id:INT,   name:STRING>   user.id   user.name   それぞれINT、STRINGの値を取り出す   MAP   user  MAP<STRING,  STRING>   user[‘id’]   user[‘name’]   中身はどちらもSTRING   ARRAY   user  ARRAY<STRING>   user[0]   user[1]   Hive本の例では添字が抜けているので注意   UNIONTYPE   user  UNIONTYPE<INT,  STRING>   user  (そのまま)   列挙した型のいずれを格納することも可能   (Hive本には訳注のみ)  
  • 15. Hiveのスキーマ作成クエリの例   CREATE  EXTERNAL  TABLE  tweets  (      id  BIGINT,      created_at  STRING,      favorited  BOOLEAN,      retweet_count  INT,      retweeted_status  STRUCT<          text:STRING,          user:STRUCT<screen_name:STRING,name:STRING>>   )   PARTITIONED  BY  (datehour  INT)   ROW  FORMAT  SERDE  'com.cloudera.hive.serde.JSONSerDe'   LOCATION  '/user/flume/tweets'   15 パーティション  
  • 16. パーティション(Hive本4.4)   テーブルをパーティション単位に区切ることが可能   ファイルシステム上は、別ディレクトリに配置される     16 /user/hive/warehouse/ access_log   /country=US   /country=JP   /country=CN   /dt=20130721   /dt=20130722   /dt=20130723   /dt=20130724   テーブル名 access_log   パーティション  country   パーティション dt  
  • 17. パーティション(Hive本4.4)   特定のパーティションだけを読み込むことが可能   17 /user/hive/warehouse/ access_log   /country=US   /country=JP   /country=CN   /dt=20130721   /dt=20130722   /dt=20130723   /dt=20130724   SELECT  *  FROM  access_log  WHERE  country  =  ‘JP’  and  dt  =  ‘20130724’  
  • 18. Hiveのスキーマ作成クエリの例   CREATE  EXTERNAL  TABLE  tweets  (      id  BIGINT,      created_at  STRING,      favorited  BOOLEAN,      retweet_count  INT,      retweeted_status  STRUCT<          text:STRING,          user:STRUCT<screen_name:STRING,name:STRING>>   )   PARTITIONED  BY  (datehour  INT)   ROW  FORMAT  SERDE  'com.cloudera.hive.serde.JSONSerDe'   LOCATION  '/user/flume/tweets'   18 SerDe  
  • 19. SerDe  (Hive本15.4)   •  Serializer  /  Deserializer  の略。「さーでぃー」と読む   •  あらゆるデータをHiveレコードに変換するためのイン タフェースを提供する   •  組み込みSerDeもいくつかある   •  RegexSerDeなど   •  テキスト以外のバイナリデータなども、カスタム SerDeを実装することで読み込むことは可能   •  ただしJavaのクラスを実装する必要がある   19
  • 20. RegexSerDeを使った   Apacheログの読み込みの例(Hive  wikiより)   20 CREATE  TABLE  apachelog  (      host  STRING,    idenkty  STRING,    user  STRING,      kme  STRING,    request  STRING,    status  STRING,      size  STRING,      referer  STRING,        agent  STRING)   ROW  FORMAT  SERDE   'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'   WITH  SERDEPROPERTIES  (      "input.regex"  =  "([^]*)  ([^]*)  ([^]*)  (-­‐|[^]*])  ([^  "]*|"[^"]* ")  (-­‐|[0-­‐9]*)  (-­‐|[0-­‐9]*)(?:  ([^  "]*|".*")  ([^  "]*|".*"))?",      "output.format.string"  =  "%1$s  %2$s  %3$s  %4$s  %5$s  %6$s  %7$s   %8$s  %9$s"   )   STORED  AS  TEXTFILE;  
  • 22. Cloudera  Impala(Hive本付録B)   •  オープンソースの低レイテンシSQLエンジン   •  HiveQLベース   •  Hive  の文法はほぼそのまま使えます   •  スキーマオンリードの概念はそのまま生かせます   •  C++     •  MapReduceは使わない   •  HDFS  や HBase  上のデータを処理可能   •  非常に高速   •  大体  x10〜30   •  遅い時でも  x2〜3      
  • 23. Cloudera  Impala(Hive本付録B)   •  オープンソースの低レイテンシSQLエンジン   •  HiveQLベース   •  Hive  の文法はほぼそのまま使えます   •  C++     •  MapReduceは使わない   •  HDFS  や HBase  上のデータを処理可能   •  非常に高速   •  大体  x10〜30   •  遅い時でも  x2〜3   •  私が見たことある最速は x97    
  • 24. Cloudera  Impala(Hive本付録B)   •  利点   •  ひたすら速い   •  欠点   •  耐障害性がない   •  UDFがない   •  etc..   •  Hive  の置き換えではありません!  
  • 25. Impalaの賢い使い方   •  まずはImpalaで色々試す   •  使えそうなクエリを発見したら、Hiveで定期実行   25 Impala   Hadoop   Hive   色々なクエリを試して   実験する   業務処理はHiveで  
  • 27. まとめ   •  HiveはSQLを使ってHadoopを使える、分析用プログ ラムです   •  Impalaは高速ですがHiveより機能が少ないです   •  正しく使うには、きちんとしたドキュメントが必要です   27
  • 28. まとめ   •  HiveはSQLを使ってHadoopを使える、分析用プログ ラムです   •  Impalaは高速ですがHiveより機能が少ないです   •  正しく使うには、きちんとしたドキュメントが必要です   28
  • 29. まとめ   •  HiveはSQLを使ってHadoopを使える、分析用プログ ラムです   •  Impalaは高速ですがHiveより機能が少ないです   •  正しく使うには、きちんとしたドキュメントが必要です   29 買いましょう、今すぐに!