株式会社インタースペース守安様登壇資料

とあるアフィリエイトASPの
HiveとImpalaによる
今さらログ集計事例
2015/10/06
新宿の

自己紹介
守安徹（id:haikikyou 肺気胸）
出身：大都会🌟岡山の田舎
ただの，しがないエンジニアです。

経歴
$ 工業メーカーで，機械系エンジニア
$ インターネット業界・プログラマに憧れ転職，現在に至る 
主にフロントエンドの開発が中心。
卒論で触れたFortanプログラムでは，変数の初期化忘れに気
づかず，想定した結果が得られず数週間も悩むorz
ごく普通です。。
IT業界に入る前のプログラム経験・・・学生の時少しだけFortran，Excel
https://www.ﬂickr.com/photos/hapal/4247595408/

本日のお話
遅ればせながら，今更感ありありの内容ですが，，
弊社におけるログ集計周りの取り組みを
ご紹介させていただきます
が，すみません。Sparkとかの話ではありません。。
やっている事
本日のお話の流れ
ログ処理周りの構成集計事例

Our Services
• 1999年設立のアフィリエイトサービスプロバイダ
• 2001年よりアフィリエイトサービス「アクセストレード」を運営

AccessTrade
About 5 billion
lines / month

ログの例
• 各種サービスのアクセスログ
• 広告配信ログ
• インプレッション
• クリック
• コンバージョンログ
• その他計測ログ
など

私はどんな事をやっているのか？
• 主にアフィリエイトに関するシステム開発
• ログの収集／集計まわりのシステム 
（私はデータ分析屋ではありません）
• その他，ConﬂuenceやJIRA，Stashなどの開発支援のた
めの環境作り
• システム研修など色々

• 主にアフィリエイトに関するシステム開発
• ログの収集／集計まわりのシステム 
（私はデータ分析屋ではありません）
• その他，ConﬂuenceやJIRA，Stashなどの開発支援のた
めの環境作り
• システム研修など色々
私はどんな事をやっているのか？
本日

背景と課題
• 外部環境の変化のスピードがますます速くなっている 
（スマートフォンを初めとした新しいデバイスやサービスの登場）
• 様々な種類のデータを様々な角度から見たいけれど，デー
タ量も増大し，従来の方法だと時間／負荷などの面から見
直しが必要
例 )
• ログを集めてくるのが大変（様々な箇所に散らばるログ，転送におけるネットワーク負荷など）
• ログの保存はどうするか
• 集計クエリに時間がかかる
RDB
SCP
Batch
Server
Server
SCP
時間がかかる

ログの集計単位の例
• 時間別 
日 / 時間 / 分
• デバイス別  
PC / フィーチャーホン / スマートフォン / タブレット
• キャリア別
• UA別
• キャンペーン / 広告別
• カテゴリー別
• 経路別
• 任意のセグメント
など
様々な粒度や角度からのログ集計

Hadoopの検討
• Hadoopという大規模データを高速に処理することがで
きるOSSが登場し，『ビッグデータ』というキーワード
がささやかれるようになった。
• 新設グループにおける個人のテーマとしてHadoopに触っ
ていた。
• 大きなデータセットに対しても，Hiveでなんとか集計結
果を得ることができたので試験的に導入。

しかし，どんどん進化し，複雑…
http://www.slideshare.net/hugfrance/introduction-sur-tez-par-olivier-renault-de-hortonworks-meetup-du-25112014
http://www.slideshare.net/uprush/hadoop-trends-hadoop-on-ec2
Hadoop？ Hadoop Ecosystem？ YARN？

AppServer
AppServer
Fluentd
Our System Summary
Web + Application Servers
Fluentd
Fluentd Aggregators
Hadoop
Hadoop Cluster（CDH）
NameNode HA
JobTracker HA
Hive, Impala, Sqoop
Hue
Databases
Oracle or MySQL
Our own applications
with WebHDFS
with Sqoop
RDBMS
RDBMS
BI
AppServer
Tools
Batch
Cassandra
Redis
RDBMS
MQ

AppServer
AppServer
Fluentd
ﬂuentd
Fluentd
Fluentd Aggregators
Hadoop
Hadoop Cluster
NameNode HA
JobTracker HA
Hive, Impala, Sqoop
Hue
Database
Oracle or MySQL
with WebHDFS
with Sqoop
RDBMS
RDBMS
BI
AppServer
Tools
Batch
Cassandra
Redis
RDBMS
MQ

fluentd Configuration
• tail Input Plugin
• forward Output Plugin 
- Multiple ports of active nodes 
- One is “standby”
Fluentd
AppServer
Fluentd
Aggregator
Forward port 2422X, 2422Y
One is standby
Fluentd
Fluentd
A pair of active and standby x 2 set ( 4 processes )
Multiprocess port 2422X, 2422Y
Sender
Aggregator
• Multiprocess Input Plugin
• fluent-plugin-parser
• WebHDFS Output Plugin
td-agent ( 1 or 2 ) Sender
Hadoop
with WebHDFS
• fluent-plugin-tail-asis
• fluent-plugin-config-expander
• fluent-plugin-file-alternative
Other plugins
hdfs:///access_log/dt=%Y%m%d/th=%Y%m%d%H
Peak about 1100 lines / sec・process ( 7 billion lines a month )
Active
Standby
1 set

ﬂuentd Setting
Ex ) Sender Ex ) Aggregator
<source>
type tail
format none
path /var/log/httpd/access_log
pos_file /var/tmp/td-agent/access_log.pos
tag raw.access.log.${hostname}
</source>
<match **>
type forward
...
<server>
host aggregator1
port 24224
...
</server>
<server>
host aggregator1
port 24225
...
</server>
<server>
host aggregator2
port 24224
standby
...
</server>
<server>
host aggregator2
port 24225
standby
...
</server>
...
</match>
<source>
type forward
port 24224
</source>
<match raw.access.log.*>
type parser
format apache
key_name message
remove_prefix raw
...
</match>
<match access.log.*>
type webhdfs
namenode namenode1:50070
standby_namenode namenode2:50070
path /access_log/dt=%Y%m%d/th=%Y%m%d%H/${hostname}-24224.log.%Y%m%d%H
...
retry_limit 14
max_retry_wait xx
...
<secondary>
type file_alternative
...
</secondary>
</match>
...は省略 ...は省略
なるべくロストしたくない！
サーバーリソースや再送時間を考慮し
ながら調整
forward
tail
forward
parser
webhdfs

ﬂuentd -> HDFS ( Hive + Impala )
Hadoop
CREATE EXTERNAL TABLE access_log (
...
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't'
PARTITIONED BY (dt INT, th INT)
LOCATION ‘/log/access_log’;
1 ) 外部テーブルで作成 ( Hiveで実行した場合は，impalaから見えるようにinvalidate metadata が必要 )
2 ) 前もってPartitionを作成
ALTER TABLE access_log IF NOT EXISTS PARTITION (dt=20151006, th=2015100619)
LOCATION ‘/log/access_log/‘;
3 ) ﬂuentdからHDFSへ
/log/access_log/dt=20151006/th=2015100619/
access_log.web1.2015100619
SELECT dt, th, count(*)
FROM access_log
WHERE dt = 20151006
GROUP BY dt, th
4 ) クエリ実行
REFRESH access_log;
SELECT dt, th, count(*)
FROM access_log
WHERE dt = 20151006
GROUP BY dt, th
Archive Daily
SequenceFile Compress+
TextFile Impala
Hive
Parquet or

AppServer
AppServer
Fluentd
Hadoop (CDH) Cluster
Fluentd
Fluentd Aggregators
Hadoop
NameNode HA
JobTracker HA
Hive, Impala, Sqoop
Hue
Database
Oracle or MySQL
with WebHDFS
with Sqoop
RDBMS
RDBMS
BI
AppServer
Tools
Batch
Cassandra
Redis
RDBMS
MQ

Hadoop Cluster ( CDH )
StateStore
Catalogd
Hue
Master Nodes
Metastore
NameNode Standby NameNode JobTracker
Hive Server2
ZooKeeper ZooKeeper ZooKeeper
JobTracker Standby
JournalNode
JournalNode
JournalNode
impalad
DataNode
...
impalad impalad impalad
DataNode DataNode DataNode
TaskTracker TaskTracker TaskTracker TaskTracker
Slave Nodes
Mem xxGB
HDFS HA JobTracker HA
Xeon E5-2640
CPU 8 Cores HT
Memory 128 GB
SAS 1TB 7.2 krpm x N

What is Impala?
• 並列処理（MPP）のSQLクエリエンジン
• HadoopディストリビューションベンダーのCloudera社に
よって開発（OSS）
• フロントエンドはJava，バックエンドはC++で開発
• インタラクティブな分析を実行できる
• HDFS，HBase，（ Amazon S3 ※ ）のデータを扱える
• Hiveと同じMetastore，SQL文法（一部制限あり）を使う
など
※ CDH5.4のドキュメントでは，”is not currently supported or recommended for production use”となっている。 
http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_s3.html

SQL Diﬀerences
Between Hive and Impala
Hive Impala
Data
Types
TINYINT, SMALLINT, INT
BIGINT, FLOAT, DOUBLE, DECIMAL
TINYINT, SMALLINT, INT
BIGINT, FLOAT, DOUBLE, DECIMAL
TIMESTAMP, DATE TIMESTAMP
STRING, VARCHAR, CHAR STRING, VARCHAR, CHAR
BOOLEAN, BINARY BOOLEAN
arrays, maps, structs, union ー
XML and JSON
Functions (built-in)
⚪ ー
TRANSFORM ⚪ ー
Custom FileFormat (※)
and Serde
⚪ ー
UDF / UDAF / UDTF ⚪ / ⚪ / ⚪ ⚪ / ⚪ / ー
Lateral Views ⚪ ー
内容は，本資料作成時の最新の公式ドキュメントベースで，その一部を引用掲載しています。（HiveQL Features not Available in Impala）
詳細は，公式ドキュメントを参照してください。
※ 主要なFileFormatは，Impalaでもサポートされている（Text，Sequence，Avro，Parquet，RCFile）

Think between Hive and Impala
• Impalaでは，HiveのUD(A)F関数が使える（ via JNI ）
-> ただし，Impalaでサポートしていないデータ型やテーブル生成
するUDTF関数は使えない
• Impalaでは，Hiveのようなget_json_object関数やJSONSerde
はない（ ﬂuentd からJSON形式でHDFSへ格納して即クエリ実行したい )
-> ImpalaとHiveで共通で扱いたいデータは，Impalaでサポートし
ているデータ形式で格納
-> もしくはJSON形式から変換して別テーブルを作成
もっといいやり方があったら教えてください。。

Hue
アプリケーションエンジニア及び分析エンジニア用

AppServer
AppServer
Fluentd
Hadoop <-> RDBMS
Fluentd
Fluentd Aggregators
Hadoop
NameNode HA
JobTracker HA
Hive, Impala, Sqoop
Hue
Databases
Oracle or MySQL
with WebHDFS
with Sqoop
RDBMS
RDBMS
BI
AppServer
Tools
Batch
Cassandra
Redis
RDBMS
MQ

What is Sqoop?
• HDFSとRDBMS間のデータの転送を行なうツール
• HDFSとRDBMS間のデータ転送は，MapReduce Jobで分散実行
される
map map map
RDBMS
HDFS
MapReduce Job
Compile and Create .jar
$ sqoop import --connect jdbc:mysql//dbhost/mydb
--username hadoop --password xxxx --table BANNER
BANNER.jar
Process
metadata
sqoop client
BANNER.java
Generate Record
Container Class
import export
Launch MapReduce
Job
( extend SqoopRecord )
with JDBC or other tools

RDBMS->HDFS ( Sqoop Import )
Ex ) Import from RDBMS to Hive
map map map
RDBMS
$ sqoop import -m 3 --connect jdbc:mysql//dbhost/mydb --username hadoop --password xxxx
--table BANNER --hive-import [--direct]
• RDBMSからHDFS（Hiveも可）へのデータ転送
• HiveやImpalaで連携が必要なテーブルのみをインポート
• --directオプションで，RDBMS固有のツールを使用 
（ex：mysql => mysqldump）
• 実行されるSQLをよく確認する（インポート対象先の
テーブルのインデックスなど）
ID (PK) NAME
1 Hadoop
… …
1000 Hive
… …
2000 Sqoop
… …
3000 Impala
SELECT ID, NAME FROM BANNER WHERE id >= 1 AND id < 1001
BANNER
MapReduce Job
Split
SELECT ID, NAME FROM BANNER WHERE id >= 1001 AND id < 2001
SELECT ID, NAME FROM BANNER WHERE id >= 2001 AND id <= 3000
Make splits using the result of “SELECT MIN(`id`), MAX(`id`) FROM `banner`” and
the number of maps
create table if not exists dbname.banner (...);
load data inpath ...;
HiveImport
HDFS
Detect primary key -> id

HDFS->RDBMS ( Sqoop Export )
Ex ) Export from Hive to RDBMS
$ sqoop export -m 3 --connect jdbc:mysql//dbhost/mydb --username hadoop --password xxxx
--table BANNER --export-dir /user/hive/warehouse/banner
[--staging-table __BANNER --clear-staging-table --direct]
map map map
• HDFS（Hiveも可）からRDBMSへのデータ転送
• HiveやImpalaでの集計結果をRDBMSへエクスポート
• 単一のトランザクションの共有ではないので，ジョブ
の途中で一部のデータがアプリケーションから見える
• --staging-tableオプションで，ステージングテー
ブルを利用可能
MapReduce Job
RDBMS
HDFS
ID (PK) NAME
1 Hadoop
… …
1000 Hive
… …
__BANNER ( staging )
ID (PK) NAME
1 Hadoop
... ...
BANNER
INSERT INTO BANNER ( SELECT * FROM __BANNER )
insert... insert... insert...
With ‘--staging-table’ option

Sqoop Column Type Mapping
• デフォルトのマッピングを変更したい場合は，--map-column-java
や--map-column-hiveで調整
SQL
Types
Java
Hive
--map-column-java <mapping>
The class extends SqoopRecord
CREATE TABLE IF NOT EXISTS banner (
id bigint,
...
)
ROW FORMAT DELIMITED ...
Ex) --map-column-hive id=bigint
public void readFields(ResultSet __dbResults)
throws SQLException {
this.id = JdbcWritableBridge.readLong(1, __dbResults);
...
Ex) --map-column-java id=Long
--map-column-hive <mapping>

活用例１
• アトリビューション的な分析 Hive
N1
N2
N3
N4
N9N8
N7
N6
N5
CV2
ラストクリックスコア
アトリビューションスコア
Sample
コンバージョンパス，ノードの評価など
CV1

活用例２
• 任意のセグメントによる集計 Hive
カテゴリーA
XX 
インプレッション
XX 
クリック
XX 
コンバージョン
condition: 1 condition: 2 condition: 3 condition: 4
Segment: 1
AND OR AND
Sample
任意の複数条件を組み合わせてセグメントごとに集計

活用例３
• サービスにおける各種KPIの集計／可視化
• アドホックな集計
Hive Impala
Impala

まとめ
• Hadoop ，Hadoop EcoSystemは非常に強力
• Hive と Impala だけで色々な集計（私たちの中で）が可能に
• ビッグデータ周りの技術の進化はとても早くてついていくのが
大変（←いや難しくてついていけてない…）
• ↑オンプレミスもいいけど，クラウドも魅力的

References
•『Hadoop 第3版』 - http://www.oreilly.co.jp/books/9784873116297/
•『Hadoop徹底入門第2版オープンソース分散処理環境の構築』 - https://www.shoeisha.co.jp/book/detail/
9784798129648
•『Hadoop Hacks――プロフェッショナルが使う実践テクニック』 - http://www.oreilly.co.jp/books/
9784873115467/
•http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala.html
•Getting Started With Impala - http://www.amazon.co.jp/Getting-Started-With-Impala-Russell/dp/
1491905778
•http://www.slideshare.net/cloudera/the-impala-cookbook-42530186
•https://blogs.apache.org/sqoop/entry/apache_sqoop_graduates_from_incubator
•https://sqoop.apache.org/docs/1.4.5/SqoopUserGuide.html
本資料は正確な内容を記すよう努めておりますが，内容
に不備などありましたらご指摘ください。

ご静聴ありがとうございました
Thank you so much for coming today!

株式会社インタースペース守安様登壇資料

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 株式会社インタースペース守安様登壇資料

Similar to 株式会社インタースペース守安様登壇資料 (20)

More from leverages_event

More from leverages_event (20)