SlideShare a Scribd company logo
1 of 45
Download to read offline
リクルート式Hadoopの使い方
〜Hortonworks Data Platform (HDP)
の使用感を添えて〜
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ部
シニアアーキテクト
石川 信行
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
RTC ITソリューション統括部
ビッグデータ部 シニアアーキテクト
兼アドバンスドテクノロジーラボ
石川 信行
神戸大学大学院農学研究科
害虫制御学専攻
新卒入社6年目。
カーセンサー.netで営業研修、Javaを用いたシステム
開発に参加し、その後Hadoopの導入検証に従事。
主要事業にHadoopを導入したのちビッグデータGに合
流。現事業対応リーダー、画像解析など技術開発に従
事。
海水魚飼育
外国産昆虫飼育
スキューバダイビング
自己紹介
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
さまざまなドメインでマッチングモデルに基づいたビジネスを展開。
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Infrastructure
/Security
Project
Management
UXD/SEO
Internet Marketing
Big Data Solutions
Technology R&D
Systems
Development
リクルートテクノロジーズの立ち位置
リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Business/
Service
Function/
Support
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2
最近のデータ活用状況紹介
3
4
5
データ利活用案件紹介
Hortonworks Data Platform の導入経緯
Hortonworks Data Platformの使用感
まとめと今後
アジェンダ
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最近のデータ活用状況紹介
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番165台/開発24台 1343.2 TB
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
紹介案件
画像解析中古車情報サイト ECショップサイト
 カスタマーアダプティブ
UXデザイン
 ネイルデザイン判定
 不適切画像校閲
 アイテムレコメンド
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
カーセンサー.Net
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:カスタマーアダプティブUXデザイン
全体最適 個別最適
(カスタマーアダプティブUXデザイン)
従来はカスタマーを集合体と捉えた時に、
アクション貢献度の高い画面へ誘導する改善
本施策は検索KWDや絞込み条件などをみて、
一人一人にあった画面(機能)へ誘導する改善
カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント
1. Hadoopを使った
全カスタマーのログ解析 2. BIGDATAに裏付けられた
コンテキストの解釈
通常のツールでは集計に膨大な時間を要する
全カスタマーの「行動(画面遷移)」と「様態
(滞在時間etc)」の解析を、Hadoop利用に
より短時間で実現。
Hadoopにより集計したログに基き、カスタマー
の行動の要因となった「考え」「コンテキスト」を
推測。「データに血を通わせる」解釈の作業を
加える事で、よりカスタマーアダプティブなUXの
実施に繋げる。
共
通
の
画
面
C
V
共
通
の
画
面
共
通
の
画
面
C
V
最
適
な
画
面
A
最
適
な
画
面
B
最
適
な
画
面
C
最
適
な
画
面
A
最
適
な
画
面
B
最
適
な
画
面
C
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:個別最適化フレーム
型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。
目的・方針整理 仮説の設計
データ解析
モデル化
シナリオ設計 シナリオ検証
型化した検討プロセス
各事業ログ
SiteCatalyst
アプリログ‥
Hadoop
バッチ集計
D3.jsで
ログデータを図示化
カスタマー行動モデル
の可視化
※可視化されたデータの表示画面
BIGDATAを用いたカスタマー行動解析及び可視化の自動化
★自動化
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
カーセンサー:打ち手の例
UI施策の一例(バルーン表出)
物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示
物件一覧から地域絞込み画面へ誘導
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
ポンパレモール
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ポンパレモール:アイテムレコメンド
ポイント確認画面を借りて
ポンパレモールへパーソナライズレコメンドを実装
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Genesis
API
※現在絶賛改装中のため、構成は日々変わっています
Hadoop
HBase
裏側の仕組み
レコメンド用
JavaScript
行動ログ
モニタリング
API
行動ログ
(蓄積)
DWH(Exadata)
Hadoopクラスタ
事業データ
事業データ
レコメンドデータ
作成バッチ
ログ蓄積
バッチ
事業データ
ディスプレイ
API
レコメンド API
レコメンドデータ
ログ蓄積 API
モールAPI
(アイテム情報取得)
 事業は規定の組み込み用JS数行とJS、
CSSファイル配置のみで作業終了
 独自デザインのCSSやHTMLでレコメンド面
を作りたい場合でもフロントTのみの作業で
完結
 クラウド、オンプレ、スマホ、PC、会員、
非会員のすべてのケースで対応可能
Point
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
JSによるリアルタイムグラフ描写
 レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納
 クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化
 CRMチームが施策実施後直に効果が分かるツールとして積極利用
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ利活用案件紹介
画像解析
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
多様化するデータ解析
レコメンド、帳票以外に「人の作業代替」という新たなジャンルのデータ解析ソリューションが増えつつある。
利益貢献 コスト削減
レコメンデーション 帳票レポート
指標・目的
 CVR最大化
 CPA最適化
指標・目的
 最適化
 次期戦略策定
指標・目的
 無駄の排除
 工数削減
 人はよりクリエイティブに
作業代替
(AI領域)
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ:スマホWEBにおけるネイル判別実装
似ているデザインから探す
カラーから探す
39色から選択可能
似ている画像を表示
New①
New②
New① New②
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ホットペッパービューティ:デザイン判別フロー
INPUT画像 爪箇所判別 爪画像のベクトル変換
→
①(0.3,0.2,0.4,…)
②(0.4,0.1,0.3,…)
③(0.3,0.2,0.5,…)
④(0.7,0.8,0.1,…)
⑤(0.4,0.2,0.4,…)
予め作成した判別モ
デルとベクトルを照合
ワンカラー フレンチ
アニマル
リボン
逆フレンチ
①
②
③⑤
④
デザイン判別結果
逆フレンチ4本
アニマル1本
が映っていると判定
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
入力画像に対して判別モデルの持つラベル単位で推定確率を算出して
その結果を重み付け処理することにより、最終的に入力画像が以下の
いずれに分類されるかを識別する機能を提供するシステムを提供。
 Safe
通常の画像・適切な画像
 Sexual
女性の裸体など性的な画像・不適切な画像
 Grotesque
出血や遺体など残虐、猟奇的な画像・不適切な画像
ギャザリー:不適切校閲
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
woman_naked
woman
sexual
man_portrait
man
safe
woman_under
ware
woman
safe
woman_norm
al
woman
safe
man_sumou
man
safe
man_underwa
re
man
safe
image_wound
other
grotesque
image_wound
other
grotesque
plant_flower
view
safe
※ 上から順に 最高スコアラベル, 最高スコアカテゴリ, 不適切判別結果
ギャザリー:判別結果例
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Active Learning
Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から
「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1. あらかじめ作成したモデル推定結果
を利用
ActiveLearning
対象データ選定処理
HBase
HBase
投入処理
画像
リスト
2. 現状のモデルが推定に迷っているような
データを対象として選び出す。
3. 作成した画像の
リストを HBase に
投入
4. タグ付け WebUI からタグ付けを行う
ギャザリー用
定常画像解析
美容ネイル用
定常画像解析
日々の処理
データの
モデル
推定結果
Active Learning学習データ作成フロー
5. モデルに画像を追加し、再構築
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Hortonworks Data Platform
の導入経緯
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
課題感 新たなエコシステム検討の必要性
 Sparkによる分析処理高速化
 バッチ処理高速化を念頭にHiveの集計高速化
 コールドスタート対応などを見越してのストリーム処理の検討
 セキュリティ、アクセスコントロールの検討
施策やニーズが多様化し、エコシステムの導入や
アーキテクト変更を積極的に実施していく必要が出てきた。
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
課題感 データ解析従事者の増加
・ビッグデータG創設期
(2012年)
・解析従事者
66名
・2013年
・解析従事者
119名
・2015年
10月1日現在
・解析従事者
212名
社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。
単純に人員増加のほか、人員入れ替えや業務の分割化も進み、
Hadoopならびにエコシステムの知見、チューニングナレッジなどが希薄化していく
傾向が見られていた。
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
DataLake構想の必要性
Hadoopの強み生かしたDataLake構想の実現を模索している。
 ローデータから自在に定義を作り、Schema on readで施策を推進できる
自由さとスピードの速さ
 「すべてのデータはここにある」という絶対的安心感とすぐ隣にあるデータとの
連結容易性
 ここにあるデータを一元でマネジメントできればそこから発生するデータに一様
な正確さが出る。
 ※ただし、ここでいうローデータとはリクルートでいうRDBMSに格納されてい
るような綺麗な整形済みデータを表すのではなく、アプリケーションの生ログや
テキスト文そのもの、画像、動画、音声、マシンログなどありとあらゆるデータを
定義するものである。
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ基盤&ETLデータソース群
私たちの考えるDataLake構想(あくまでも一例)
非構造データ
 IPGeo
 TVメタ etc
外部データ
DataBase
JOBScheduler
Ingestion
Process
Metadata
Management
各種DataBase
Interactive
Analytics
施策接続
Realtime
Batch
Story
Telling
・BI
API
MLlib、
GraphX
DeepLearning
 クリックログ
 位置情報 etc
リアルタイム情報
Data Mart
(HDFS)
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Hadoop環境における課題感・目的意識
 施策の多様化・新施策発掘に対応するためのHadoopエコシステムの積極
的活用の推進
 急激な人員増加に伴う、Hadoopおよびエコシステム知見の希薄化。
 Hadoopのあり方の再検討(DataLake構想の設計)
 オープンソースコミュニティへの積極的貢献、知見吸収
私たちはユーザー企業でありシステムに何を使うかは検証を行い、公平な立場で導入
判断を行っている。
上記の課題解決・目的達成の解の一つとして2015年4月より、本格的に
Hortonworks Data Platformの検証を開始した。
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Hortonworks Data Platform
の使用感
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
検証における観点
 システム検証
• 既存環境との差分確認、著しい性能劣化等がないことを目的とした、基本的な動
作確認を行う。
 運用検証
• 耐障害性が求められる機能において、想定されるユースケースを元にした擬似障害
を発生させ、期待される動作が行われることを確認する。
 監視検証
• 想定される障害に対して、トリガが発動し、正常にアラートが発報されることを確認
する。
 エコシステム検証
• 現在使われていない新しいエコシステムの基本機能の確認および活用用途の評価
を実施することを目的とした動作確認を行う。
 総合検証
• 実運用を想定した複数ジョブの定常実行時のクラスタ状態の正常性を確認する。
本検証では、以下のとおりの観点で評価を行った。
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
検証環境
 JournalNode
 AmbariServer
 MetricsControler
 NameNode
 ResourceManager
 ZKFailoverController
 ZookeeperSerer
 MetricsMonitor
 JournalNode
 NameNode
 ResourceManager
 ZKFailoverController
 ZookeeperSerer
 AppTimelineServer
 HBaseMaster
 HistoryServer
 HiveMetastore
 HiveServer2
 SparkHistoryServer
 MySQLServer
 MetricsMonitor
 JournalNode
 ZookeeperSerer
 HBaseMaster
 HiveMetastore
 HiveServer2
 FalconServer
 MySQLServer
 OozieServer
 RangerAdmin
 Usersync
 WebHCatServer
 MetricsMonitor
 DataNode
 RegionServer
 NodeManager
 FalconClient
 HBaseClient
 HDFSClient
 HiveClient
 MapReduce2Client
 OozieClient
 Pig
 SparkClient
 Sqoop
 TezClient
 YARNClient
 ZookeeperClient
 MetricsMonitor
 DataNode
 RegionServer
 NodeManager
 MetricsMonitor
Master Node × 3
Slave Node ×
10
HDP Cluster
構成図
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
検証結果 概要
 Hortonworksの環境でも現行の全JOBを同等以上の性能で動かすこと
ができた。十分本番でも耐えうる設計であった。
 Hortonworks社のサポートレベルは高く有益であった。
 100%オープンソースの名に恥じなく、Sparkや、python、Rなど他のオー
プンソースとの組み合わせが設計しやすく、Tableauなどエンタープライズ系
製品との接続にも難がほとんどなかった。
 Ambariを使っての運用に関して一部不安定な個所が存在する、NFSゲー
トウエイが基本的にリードオンリーの設計で使いづらいなど細かなデメリットは
あるものの、Hortonworks社の今後の対応に期待している。
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Sparkによる協調フィルタリングの精度改善
 データマートの変更: 閲覧ログのアイテムを詳細化
Spark導入によって現実的な処理時間でより多くのアイテムを扱えるようになった
 レコメンド精度: 現行の約2.5倍の精度を達成
 実行時間: Mahoutの約14倍の実行速度を達成 ※AWSで測定
閲覧ログのアイテムの定義 件数 ユーザ数 アイテム数 疎性
現行マート サイト+イベント
※MFB, JLNの一部イベントのみアイテムを付加
146,306,632 11,145,324 1,832,209 0.99999284
Spark IB サイト+イベント+アイテム
※イベントをproductView,purchase等に限定 154,951,882 9,949,873 5,117,420 0.99999696
■ 現行
■ Spark IB
0.0269
0.0687
0
0.02
0.04
0.06
0.08
f-measure比較
0.7929
0.6142
0
0.2
0.4
0.6
0.8
1
User Coverage比較
Spark IB Mahout IB
実行時間 0:33:41 7:53:05
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
きめ細やかなサポート体制
HDPのバージョンアップにより生じた、解決が難しい課題に関しては、
WEBカンファレンスにて実画面を見ながらサポートいただいた。
このような手厚いサポート体制とレクチャーによる知見獲得は
知識が希薄化しつつある我々組織にとって非常に有益だと考える。
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
コミッタによるサポート力
 Hortonworks社に在籍するHiveのコミッタであるGopal Vijayaraghavan氏ら
と会話し、Hiveのチューニング処理に関して相談。
 「基本的にチューニングで10~20秒は早くできる」と断言、configの設定指針など
を指南いただいた。
hiveconf hive.prewarm.enabled=true —
hiveconf hive.prewarm.numcontainers=<n>
Pick a fixed number there, preferably a good fraction of the
cluster size (default = 10).
set tez.grouping.min-size=4194304;
set mapreduce.input.fileinputformat.split.maxsize=67108864;
set hive.tez.exec.print.summary=true;
ANALYZE TABLE <table> COMPUTE STATISTICS FOR COLUMNS;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
set hive.cbo.enable=true;
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
設定チューニング後の速度比較
処理時間(秒)
種類 HW(旧設定) HW(Config適応)
hiveクエリ① 25 13
hiveクエリ② 29 11
hiveクエリ③ 23 10
hiveクエリ④ 166 14
hiveクエリ⑤ 40 34
hiveクエリ⑥ 27 16
hiveクエリ⑦ 19 12
hiveクエリ⑧ 1,448 693
hiveクエリ⑨ 37 23
hiveクエリ⑩ 58 37
hiveクエリ⑪ 298 347
hiveクエリ⑫ 36 24
hiveクエリ⑬ 28 12
hiveクエリ⑭ 68 34
前項のConfigを適応し、Hiveの処理速度が宣言通り短縮。
こういったきめ細かなチューニングができるのも、コミッタを多く抱える
Hortonworksの強みであると確信している。
※一部FullJoinが走るものは速度劣化があったが、こちらも再度相談中。
※ ORC圧縮+Snappy形式を適応
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
判断として
 コストメリットが十分ある。
 サポートが的確で、迅速である。
 豊富な知見をもち、バグ解決、チューニングを通じて相互に成長ができる。
 OSSベースで他のシステムとも親和性が高い。
 Hortonworksを導入している海外企業とディスカッションができる。
上記から
Hortonworks Data Platform
の導入を決定した。
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめと今後
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
これから
これからもHadoopおよびそのエコシステムを使い倒し、データ利活用
を推進していく。
Hortonworks社との連携強化を行い、Hortonworks社のエンジ
ニアとともに協力して開発を行うことで、知識の向上とアーキテクチャの
最適化を目指す。
今後も最新のデータ解析周りの製品を貪欲に検証し、ビジネスに生か
していく。オープンソースへの貢献も視野に入れる。
1
2
3
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビジネスを踏まえて
泥臭くかつアグレッシブに
分析・エンジニアリングが
できる方。
ご連絡ください。
戦友をさがしています。
石川 信行
Nobuyuki
Ishikawa
Yes, We Are Hiring!
ご静聴ありがとうございました
リクルートテクノロジーズ

More Related Content

What's hot

オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?Kouji Kozaki
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!mosa siru
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話Kentaro Yoshida
 
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門Kouji Kozaki
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】Yuki Arase
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRecruit Technologies
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話Recruit Technologies
 
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめMitsutoshi Kiuchi
 
GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介Takashi Suzuki
 
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜Takahiro Inoue
 
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由Kouji Kozaki
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIShota Imai
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~Tetsuo Yamabe
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界Preferred Networks
 

What's hot (20)

オントロジーとは?
オントロジーとは?オントロジーとは?
オントロジーとは?
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
Linked Open Dataとは
Linked Open DataとはLinked Open Dataとは
Linked Open Dataとは
 
Hadoop入門
Hadoop入門Hadoop入門
Hadoop入門
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ
 
GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介
 
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
 
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
 
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
 
ウェーブレット木の世界
ウェーブレット木の世界ウェーブレット木の世界
ウェーブレット木の世界
 

Viewers also liked

sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話Yahoo!デベロッパーネットワーク
 
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesBusiness Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesDataWorks Summit/Hadoop Summit
 
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化Nagato Kasaki
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
20171012 found IT #9 PySparkの勘所
20171012 found  IT #9 PySparkの勘所20171012 found  IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所Ryuji Tamagawa
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016Tokoroten Nakayama
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-Makoto SHIMURA
 
Hadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit CompanyHadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit CompanyRecruit Technologies
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介cyberagent
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 

Viewers also liked (15)

sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
 
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologiesBusiness Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologies
 
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
 
SEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile gamesSEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile games
 
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and HadoopCase Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
20171012 found IT #9 PySparkの勘所
20171012 found  IT #9 PySparkの勘所20171012 found  IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
 
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
Hadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit CompanyHadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit Company
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 

Similar to リクルート式Hadoopの使い方

Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopDataWorks Summit
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはKimihiko Kitase
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例Tetsutaro Watanabe
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionTetsutaro Watanabe
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例Amazon Web Services Japan
 
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
Tetsutaro Watanabe
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA HadoopセミナーIchiro Fukuda
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Hortonworks Japan
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!デベロッパーネットワーク
 
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...Insight Technology, Inc.
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 

Similar to リクルート式Hadoopの使い方 (20)

Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とはライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年version
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
 
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム

 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
 
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 

More from Recruit Technologies

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Recruit Technologies
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所Recruit Technologies
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後Recruit Technologies
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するRecruit Technologies
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~Recruit Technologies
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~Recruit Technologies
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 

More from Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

リクルート式Hadoopの使い方

  • 1. リクルート式Hadoopの使い方 〜Hortonworks Data Platform (HDP) の使用感を添えて〜 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ部 シニアアーキテクト 石川 信行
  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 シニアアーキテクト 兼アドバンスドテクノロジーラボ 石川 信行 神戸大学大学院農学研究科 害虫制御学専攻 新卒入社6年目。 カーセンサー.netで営業研修、Javaを用いたシステム 開発に参加し、その後Hadoopの導入検証に従事。 主要事業にHadoopを導入したのちビッグデータGに合 流。現事業対応リーダー、画像解析など技術開発に従 事。 海水魚飼育 外国産昆虫飼育 スキューバダイビング 自己紹介
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Business/ Service Function/ Support
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 最近のデータ活用状況紹介 3 4 5 データ利活用案件紹介 Hortonworks Data Platform の導入経緯 Hortonworks Data Platformの使用感 まとめと今後 アジェンダ
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のデータ活用状況紹介
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1343.2 TB
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 紹介案件 画像解析中古車情報サイト ECショップサイト  カスタマーアダプティブ UXデザイン  ネイルデザイン判定  不適切画像校閲  アイテムレコメンド
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 カーセンサー.Net
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:カスタマーアダプティブUXデザイン 全体最適 個別最適 (カスタマーアダプティブUXデザイン) 従来はカスタマーを集合体と捉えた時に、 アクション貢献度の高い画面へ誘導する改善 本施策は検索KWDや絞込み条件などをみて、 一人一人にあった画面(機能)へ誘導する改善 カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント 1. Hadoopを使った 全カスタマーのログ解析 2. BIGDATAに裏付けられた コンテキストの解釈 通常のツールでは集計に膨大な時間を要する 全カスタマーの「行動(画面遷移)」と「様態 (滞在時間etc)」の解析を、Hadoop利用に より短時間で実現。 Hadoopにより集計したログに基き、カスタマー の行動の要因となった「考え」「コンテキスト」を 推測。「データに血を通わせる」解釈の作業を 加える事で、よりカスタマーアダプティブなUXの 実施に繋げる。 共 通 の 画 面 C V 共 通 の 画 面 共 通 の 画 面 C V 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:個別最適化フレーム 型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。 目的・方針整理 仮説の設計 データ解析 モデル化 シナリオ設計 シナリオ検証 型化した検討プロセス 各事業ログ SiteCatalyst アプリログ‥ Hadoop バッチ集計 D3.jsで ログデータを図示化 カスタマー行動モデル の可視化 ※可視化されたデータの表示画面 BIGDATAを用いたカスタマー行動解析及び可視化の自動化 ★自動化
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. カーセンサー:打ち手の例 UI施策の一例(バルーン表出) 物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示 物件一覧から地域絞込み画面へ誘導
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 ポンパレモール
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ポンパレモール:アイテムレコメンド ポイント確認画面を借りて ポンパレモールへパーソナライズレコメンドを実装
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Genesis API ※現在絶賛改装中のため、構成は日々変わっています Hadoop HBase 裏側の仕組み レコメンド用 JavaScript 行動ログ モニタリング API 行動ログ (蓄積) DWH(Exadata) Hadoopクラスタ 事業データ 事業データ レコメンドデータ 作成バッチ ログ蓄積 バッチ 事業データ ディスプレイ API レコメンド API レコメンドデータ ログ蓄積 API モールAPI (アイテム情報取得)  事業は規定の組み込み用JS数行とJS、 CSSファイル配置のみで作業終了  独自デザインのCSSやHTMLでレコメンド面 を作りたい場合でもフロントTのみの作業で 完結  クラウド、オンプレ、スマホ、PC、会員、 非会員のすべてのケースで対応可能 Point
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. JSによるリアルタイムグラフ描写  レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納  クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化  CRMチームが施策実施後直に効果が分かるツールとして積極利用
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 画像解析
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 多様化するデータ解析 レコメンド、帳票以外に「人の作業代替」という新たなジャンルのデータ解析ソリューションが増えつつある。 利益貢献 コスト削減 レコメンデーション 帳票レポート 指標・目的  CVR最大化  CPA最適化 指標・目的  最適化  次期戦略策定 指標・目的  無駄の排除  工数削減  人はよりクリエイティブに 作業代替 (AI領域)
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:スマホWEBにおけるネイル判別実装 似ているデザインから探す カラーから探す 39色から選択可能 似ている画像を表示 New① New② New① New②
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:デザイン判別フロー INPUT画像 爪箇所判別 爪画像のベクトル変換 → ①(0.3,0.2,0.4,…) ②(0.4,0.1,0.3,…) ③(0.3,0.2,0.5,…) ④(0.7,0.8,0.1,…) ⑤(0.4,0.2,0.4,…) 予め作成した判別モ デルとベクトルを照合 ワンカラー フレンチ アニマル リボン 逆フレンチ ① ② ③⑤ ④ デザイン判別結果 逆フレンチ4本 アニマル1本 が映っていると判定
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 入力画像に対して判別モデルの持つラベル単位で推定確率を算出して その結果を重み付け処理することにより、最終的に入力画像が以下の いずれに分類されるかを識別する機能を提供するシステムを提供。  Safe 通常の画像・適切な画像  Sexual 女性の裸体など性的な画像・不適切な画像  Grotesque 出血や遺体など残虐、猟奇的な画像・不適切な画像 ギャザリー:不適切校閲
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. woman_naked woman sexual man_portrait man safe woman_under ware woman safe woman_norm al woman safe man_sumou man safe man_underwa re man safe image_wound other grotesque image_wound other grotesque plant_flower view safe ※ 上から順に 最高スコアラベル, 最高スコアカテゴリ, 不適切判別結果 ギャザリー:判別結果例
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Active Learning Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から 「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1. あらかじめ作成したモデル推定結果 を利用 ActiveLearning 対象データ選定処理 HBase HBase 投入処理 画像 リスト 2. 現状のモデルが推定に迷っているような データを対象として選び出す。 3. 作成した画像の リストを HBase に 投入 4. タグ付け WebUI からタグ付けを行う ギャザリー用 定常画像解析 美容ネイル用 定常画像解析 日々の処理 データの モデル 推定結果 Active Learning学習データ作成フロー 5. モデルに画像を追加し、再構築
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Hortonworks Data Platform の導入経緯
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 課題感 新たなエコシステム検討の必要性  Sparkによる分析処理高速化  バッチ処理高速化を念頭にHiveの集計高速化  コールドスタート対応などを見越してのストリーム処理の検討  セキュリティ、アクセスコントロールの検討 施策やニーズが多様化し、エコシステムの導入や アーキテクト変更を積極的に実施していく必要が出てきた。
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 課題感 データ解析従事者の増加 ・ビッグデータG創設期 (2012年) ・解析従事者 66名 ・2013年 ・解析従事者 119名 ・2015年 10月1日現在 ・解析従事者 212名 社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。 単純に人員増加のほか、人員入れ替えや業務の分割化も進み、 Hadoopならびにエコシステムの知見、チューニングナレッジなどが希薄化していく 傾向が見られていた。
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. DataLake構想の必要性 Hadoopの強み生かしたDataLake構想の実現を模索している。  ローデータから自在に定義を作り、Schema on readで施策を推進できる 自由さとスピードの速さ  「すべてのデータはここにある」という絶対的安心感とすぐ隣にあるデータとの 連結容易性  ここにあるデータを一元でマネジメントできればそこから発生するデータに一様 な正確さが出る。  ※ただし、ここでいうローデータとはリクルートでいうRDBMSに格納されてい るような綺麗な整形済みデータを表すのではなく、アプリケーションの生ログや テキスト文そのもの、画像、動画、音声、マシンログなどありとあらゆるデータを 定義するものである。
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ基盤&ETLデータソース群 私たちの考えるDataLake構想(あくまでも一例) 非構造データ  IPGeo  TVメタ etc 外部データ DataBase JOBScheduler Ingestion Process Metadata Management 各種DataBase Interactive Analytics 施策接続 Realtime Batch Story Telling ・BI API MLlib、 GraphX DeepLearning  クリックログ  位置情報 etc リアルタイム情報 Data Mart (HDFS)
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Hadoop環境における課題感・目的意識  施策の多様化・新施策発掘に対応するためのHadoopエコシステムの積極 的活用の推進  急激な人員増加に伴う、Hadoopおよびエコシステム知見の希薄化。  Hadoopのあり方の再検討(DataLake構想の設計)  オープンソースコミュニティへの積極的貢献、知見吸収 私たちはユーザー企業でありシステムに何を使うかは検証を行い、公平な立場で導入 判断を行っている。 上記の課題解決・目的達成の解の一つとして2015年4月より、本格的に Hortonworks Data Platformの検証を開始した。
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Hortonworks Data Platform の使用感
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 検証における観点  システム検証 • 既存環境との差分確認、著しい性能劣化等がないことを目的とした、基本的な動 作確認を行う。  運用検証 • 耐障害性が求められる機能において、想定されるユースケースを元にした擬似障害 を発生させ、期待される動作が行われることを確認する。  監視検証 • 想定される障害に対して、トリガが発動し、正常にアラートが発報されることを確認 する。  エコシステム検証 • 現在使われていない新しいエコシステムの基本機能の確認および活用用途の評価 を実施することを目的とした動作確認を行う。  総合検証 • 実運用を想定した複数ジョブの定常実行時のクラスタ状態の正常性を確認する。 本検証では、以下のとおりの観点で評価を行った。
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 検証環境  JournalNode  AmbariServer  MetricsControler  NameNode  ResourceManager  ZKFailoverController  ZookeeperSerer  MetricsMonitor  JournalNode  NameNode  ResourceManager  ZKFailoverController  ZookeeperSerer  AppTimelineServer  HBaseMaster  HistoryServer  HiveMetastore  HiveServer2  SparkHistoryServer  MySQLServer  MetricsMonitor  JournalNode  ZookeeperSerer  HBaseMaster  HiveMetastore  HiveServer2  FalconServer  MySQLServer  OozieServer  RangerAdmin  Usersync  WebHCatServer  MetricsMonitor  DataNode  RegionServer  NodeManager  FalconClient  HBaseClient  HDFSClient  HiveClient  MapReduce2Client  OozieClient  Pig  SparkClient  Sqoop  TezClient  YARNClient  ZookeeperClient  MetricsMonitor  DataNode  RegionServer  NodeManager  MetricsMonitor Master Node × 3 Slave Node × 10 HDP Cluster 構成図
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 検証結果 概要  Hortonworksの環境でも現行の全JOBを同等以上の性能で動かすこと ができた。十分本番でも耐えうる設計であった。  Hortonworks社のサポートレベルは高く有益であった。  100%オープンソースの名に恥じなく、Sparkや、python、Rなど他のオー プンソースとの組み合わせが設計しやすく、Tableauなどエンタープライズ系 製品との接続にも難がほとんどなかった。  Ambariを使っての運用に関して一部不安定な個所が存在する、NFSゲー トウエイが基本的にリードオンリーの設計で使いづらいなど細かなデメリットは あるものの、Hortonworks社の今後の対応に期待している。
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Sparkによる協調フィルタリングの精度改善  データマートの変更: 閲覧ログのアイテムを詳細化 Spark導入によって現実的な処理時間でより多くのアイテムを扱えるようになった  レコメンド精度: 現行の約2.5倍の精度を達成  実行時間: Mahoutの約14倍の実行速度を達成 ※AWSで測定 閲覧ログのアイテムの定義 件数 ユーザ数 アイテム数 疎性 現行マート サイト+イベント ※MFB, JLNの一部イベントのみアイテムを付加 146,306,632 11,145,324 1,832,209 0.99999284 Spark IB サイト+イベント+アイテム ※イベントをproductView,purchase等に限定 154,951,882 9,949,873 5,117,420 0.99999696 ■ 現行 ■ Spark IB 0.0269 0.0687 0 0.02 0.04 0.06 0.08 f-measure比較 0.7929 0.6142 0 0.2 0.4 0.6 0.8 1 User Coverage比較 Spark IB Mahout IB 実行時間 0:33:41 7:53:05
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. きめ細やかなサポート体制 HDPのバージョンアップにより生じた、解決が難しい課題に関しては、 WEBカンファレンスにて実画面を見ながらサポートいただいた。 このような手厚いサポート体制とレクチャーによる知見獲得は 知識が希薄化しつつある我々組織にとって非常に有益だと考える。
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. コミッタによるサポート力  Hortonworks社に在籍するHiveのコミッタであるGopal Vijayaraghavan氏ら と会話し、Hiveのチューニング処理に関して相談。  「基本的にチューニングで10~20秒は早くできる」と断言、configの設定指針など を指南いただいた。 hiveconf hive.prewarm.enabled=true — hiveconf hive.prewarm.numcontainers=<n> Pick a fixed number there, preferably a good fraction of the cluster size (default = 10). set tez.grouping.min-size=4194304; set mapreduce.input.fileinputformat.split.maxsize=67108864; set hive.tez.exec.print.summary=true; ANALYZE TABLE <table> COMPUTE STATISTICS FOR COLUMNS; set hive.stats.fetch.column.stats=true; set hive.stats.fetch.partition.stats=true; set hive.cbo.enable=true;
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 設定チューニング後の速度比較 処理時間(秒) 種類 HW(旧設定) HW(Config適応) hiveクエリ① 25 13 hiveクエリ② 29 11 hiveクエリ③ 23 10 hiveクエリ④ 166 14 hiveクエリ⑤ 40 34 hiveクエリ⑥ 27 16 hiveクエリ⑦ 19 12 hiveクエリ⑧ 1,448 693 hiveクエリ⑨ 37 23 hiveクエリ⑩ 58 37 hiveクエリ⑪ 298 347 hiveクエリ⑫ 36 24 hiveクエリ⑬ 28 12 hiveクエリ⑭ 68 34 前項のConfigを適応し、Hiveの処理速度が宣言通り短縮。 こういったきめ細かなチューニングができるのも、コミッタを多く抱える Hortonworksの強みであると確信している。 ※一部FullJoinが走るものは速度劣化があったが、こちらも再度相談中。 ※ ORC圧縮+Snappy形式を適応
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 判断として  コストメリットが十分ある。  サポートが的確で、迅速である。  豊富な知見をもち、バグ解決、チューニングを通じて相互に成長ができる。  OSSベースで他のシステムとも親和性が高い。  Hortonworksを導入している海外企業とディスカッションができる。 上記から Hortonworks Data Platform の導入を決定した。
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめと今後
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. これから これからもHadoopおよびそのエコシステムを使い倒し、データ利活用 を推進していく。 Hortonworks社との連携強化を行い、Hortonworks社のエンジ ニアとともに協力して開発を行うことで、知識の向上とアーキテクチャの 最適化を目指す。 今後も最新のデータ解析周りの製品を貪欲に検証し、ビジネスに生か していく。オープンソースへの貢献も視野に入れる。 1 2 3
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビジネスを踏まえて 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 戦友をさがしています。 石川 信行 Nobuyuki Ishikawa Yes, We Are Hiring!