Submit Search
Upload
リクルート式Hadoopの使い方
•
9 likes
•
4,289 views
Recruit Technologies
Follow
2015/10/14 Hortonworks社主催イベントでの、石川の講演資料になります
Read less
Read more
Technology
Report
Share
Report
Share
1 of 45
Download now
Download to read offline
Recommended
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッド
Tatsuya Sasaki
MLOpsはバズワード
MLOpsはバズワード
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
KnowledgeGraph
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
CSVファイルをLODとして公開するデータソン
CSVファイルをLODとして公開するデータソン
Kouji Kozaki
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
Machine learning CI/CD with OSS
Machine learning CI/CD with OSS
yusuke shibui
Recommended
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッド
Tatsuya Sasaki
MLOpsはバズワード
MLOpsはバズワード
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
KnowledgeGraph
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
CSVファイルをLODとして公開するデータソン
CSVファイルをLODとして公開するデータソン
Kouji Kozaki
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
Machine learning CI/CD with OSS
Machine learning CI/CD with OSS
yusuke shibui
オントロジーとは?
オントロジーとは?
Kouji Kozaki
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
mosa siru
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Linked Open Dataとは
Linked Open Dataとは
Linked Open Dataチャレンジ実行委員会
Hadoop入門
Hadoop入門
Preferred Networks
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
Kouji Kozaki
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
Recruit Technologies
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ
Mitsutoshi Kiuchi
GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介
Takashi Suzuki
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
Takahiro Inoue
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Kouji Kozaki
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
Insight Technology, Inc.
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
Tetsuo Yamabe
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
Core Concept Technologies
ウェーブレット木の世界
ウェーブレット木の世界
Preferred Networks
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Yahoo!デベロッパーネットワーク
More Related Content
What's hot
オントロジーとは?
オントロジーとは?
Kouji Kozaki
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
mosa siru
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Linked Open Dataとは
Linked Open Dataとは
Linked Open Dataチャレンジ実行委員会
Hadoop入門
Hadoop入門
Preferred Networks
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
Kouji Kozaki
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Yuki Arase
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
Recruit Technologies
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ
Mitsutoshi Kiuchi
GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介
Takashi Suzuki
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
Takahiro Inoue
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Kouji Kozaki
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
Insight Technology, Inc.
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
Tetsuo Yamabe
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
Core Concept Technologies
ウェーブレット木の世界
ウェーブレット木の世界
Preferred Networks
What's hot
(20)
オントロジーとは?
オントロジーとは?
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
Linked Open Dataとは
Linked Open Dataとは
Hadoop入門
Hadoop入門
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
オントロジー工学に基づくセマンティック技術(2)ナレッジグラフ入門
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ
GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
Linked Open Data(LOD)を使うと“うれしい”3つの理由
Linked Open Data(LOD)を使うと“うれしい”3つの理由
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
固有表現抽出と適用例のご紹介
固有表現抽出と適用例のご紹介
ウェーブレット木の世界
ウェーブレット木の世界
Viewers also liked
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Yahoo!デベロッパーネットワーク
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologies
DataWorks Summit/Hadoop Summit
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Nagato Kasaki
SEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile games
DataWorks Summit/Hadoop Summit
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
DataWorks Summit/Hadoop Summit
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
20171012 found IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
Ryuji Tamagawa
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
Tokoroten Nakayama
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Makoto SHIMURA
Hadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit Company
Recruit Technologies
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
リクルート式AIの活用法
リクルート式AIの活用法
Recruit Technologies
Viewers also liked
(15)
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Business Innovation cases driven by AI and BigData technologies
Business Innovation cases driven by AI and BigData technologies
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
SEGA : Growth hacking by Spark ML for Mobile games
SEGA : Growth hacking by Spark ML for Mobile games
Case Study: OLAP usability on Spark and Hadoop
Case Study: OLAP usability on Spark and Hadoop
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
20171012 found IT #9 PySparkの勘所
20171012 found IT #9 PySparkの勘所
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
Hadoop’s Impact on Recruit Company
Hadoop’s Impact on Recruit Company
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
リクルート式AIの活用法
リクルート式AIの活用法
Similar to リクルート式Hadoopの使い方
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
Kimihiko Kitase
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
Tetsutaro Watanabe
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
Hadoopカンファレンス2013
Hadoopカンファレンス2013
Recruit Technologies
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
Amazon Web Services Japan
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム
Tetsutaro Watanabe
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!デベロッパーネットワーク
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
Insight Technology, Inc.
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Dell TechCenter Japan
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
Similar to リクルート式Hadoopの使い方
(20)
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Hadoopカンファレンス2013
Hadoopカンファレンス2013
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
[db analytics showcase Sapporo 2018] B25 Hadoop上で動く世界最速のAnalytic DBをSparkと一緒に...
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
More from Recruit Technologies
新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
Recruit Technologies
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
Recruit Technologies
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Recruit Technologies
Tableau活用4年の軌跡
Tableau活用4年の軌跡
Recruit Technologies
LT(自由)
LT(自由)
Recruit Technologies
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
Recruit Technologies
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Recruit Technologies
銀行ロビーアシスタント
銀行ロビーアシスタント
Recruit Technologies
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
Recruit Technologies
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
Recruit Technologies
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Recruit Technologies
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
Recruit Technologies
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
Recruit Technologies
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
Recruit Technologies
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
Recruit Technologies
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
Recruit Technologies
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
Recruit Technologies
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
Recruit Technologies
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
Recruit Technologies
More from Recruit Technologies
(20)
新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Tableau活用4年の軌跡
Tableau活用4年の軌跡
LT(自由)
LT(自由)
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
銀行ロビーアシスタント
銀行ロビーアシスタント
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
Recently uploaded
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
Recently uploaded
(9)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
リクルート式Hadoopの使い方
1.
リクルート式Hadoopの使い方 〜Hortonworks Data Platform
(HDP) の使用感を添えて〜 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータ部 シニアアーキテクト 石川 信行
2.
2Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 シニアアーキテクト 兼アドバンスドテクノロジーラボ 石川 信行 神戸大学大学院農学研究科 害虫制御学専攻 新卒入社6年目。 カーセンサー.netで営業研修、Javaを用いたシステム 開発に参加し、その後Hadoopの導入検証に従事。 主要事業にHadoopを導入したのちビッグデータGに合 流。現事業対応リーダー、画像解析など技術開発に従 事。 海水魚飼育 外国産昆虫飼育 スキューバダイビング 自己紹介
3.
3Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル さまざまなドメインでマッチングモデルに基づいたビジネスを展開。 Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
4.
4Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
5.
5Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Infrastructure /Security Project Management UXD/SEO Internet Marketing Big Data Solutions Technology R&D Systems Development リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Business/ Service Function/ Support
6.
6Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 1 2 最近のデータ活用状況紹介 3 4 5 データ利活用案件紹介 Hortonworks Data Platform の導入経緯 Hortonworks Data Platformの使用感 まとめと今後 アジェンダ
7.
7Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 最近のデータ活用状況紹介
8.
8Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1343.2 TB
9.
9Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介
10.
10Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 紹介案件 画像解析中古車情報サイト ECショップサイト カスタマーアダプティブ UXデザイン ネイルデザイン判定 不適切画像校閲 アイテムレコメンド
11.
11Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 カーセンサー.Net
12.
12Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. カーセンサー:カスタマーアダプティブUXデザイン 全体最適 個別最適 (カスタマーアダプティブUXデザイン) 従来はカスタマーを集合体と捉えた時に、 アクション貢献度の高い画面へ誘導する改善 本施策は検索KWDや絞込み条件などをみて、 一人一人にあった画面(機能)へ誘導する改善 カスタマーアダプティブUXデザインを実現する上で重要となる2つのポイント 1. Hadoopを使った 全カスタマーのログ解析 2. BIGDATAに裏付けられた コンテキストの解釈 通常のツールでは集計に膨大な時間を要する 全カスタマーの「行動(画面遷移)」と「様態 (滞在時間etc)」の解析を、Hadoop利用に より短時間で実現。 Hadoopにより集計したログに基き、カスタマー の行動の要因となった「考え」「コンテキスト」を 推測。「データに血を通わせる」解釈の作業を 加える事で、よりカスタマーアダプティブなUXの 実施に繋げる。 共 通 の 画 面 C V 共 通 の 画 面 共 通 の 画 面 C V 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C 最 適 な 画 面 A 最 適 な 画 面 B 最 適 な 画 面 C
13.
13Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. カーセンサー:個別最適化フレーム 型化した検討プロセス及びデータを用いた膨大な量のカスタマー行動解析と可視化の自動化。 目的・方針整理 仮説の設計 データ解析 モデル化 シナリオ設計 シナリオ検証 型化した検討プロセス 各事業ログ SiteCatalyst アプリログ‥ Hadoop バッチ集計 D3.jsで ログデータを図示化 カスタマー行動モデル の可視化 ※可視化されたデータの表示画面 BIGDATAを用いたカスタマー行動解析及び可視化の自動化 ★自動化
14.
14Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. カーセンサー:打ち手の例 UI施策の一例(バルーン表出) 物件一覧に初回来訪し、物件のヒット件数が30件以上だったカスタマーにだけ、地域絞込み機能の活用を促す導線を表示 物件一覧から地域絞込み画面へ誘導
15.
15Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 ポンパレモール
16.
16Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. ポンパレモール:アイテムレコメンド ポイント確認画面を借りて ポンパレモールへパーソナライズレコメンドを実装
17.
17Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Genesis API ※現在絶賛改装中のため、構成は日々変わっています Hadoop HBase 裏側の仕組み レコメンド用 JavaScript 行動ログ モニタリング API 行動ログ (蓄積) DWH(Exadata) Hadoopクラスタ 事業データ 事業データ レコメンドデータ 作成バッチ ログ蓄積 バッチ 事業データ ディスプレイ API レコメンド API レコメンドデータ ログ蓄積 API モールAPI (アイテム情報取得) 事業は規定の組み込み用JS数行とJS、 CSSファイル配置のみで作業終了 独自デザインのCSSやHTMLでレコメンド面 を作りたい場合でもフロントTのみの作業で 完結 クラウド、オンプレ、スマホ、PC、会員、 非会員のすべてのケースで対応可能 Point
18.
18Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. JSによるリアルタイムグラフ描写 レコメンドの表出ログ、クリックログをリアルタイムに取得し、Hbaseに格納 クリック数やCTRなどの本当に必要な特定項目に絞り、可視化の簡素化 CRMチームが施策実施後直に効果が分かるツールとして積極利用
19.
19Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. データ利活用案件紹介 画像解析
20.
20Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 多様化するデータ解析 レコメンド、帳票以外に「人の作業代替」という新たなジャンルのデータ解析ソリューションが増えつつある。 利益貢献 コスト削減 レコメンデーション 帳票レポート 指標・目的 CVR最大化 CPA最適化 指標・目的 最適化 次期戦略策定 指標・目的 無駄の排除 工数削減 人はよりクリエイティブに 作業代替 (AI領域)
21.
21Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:スマホWEBにおけるネイル判別実装 似ているデザインから探す カラーから探す 39色から選択可能 似ている画像を表示 New① New② New① New②
22.
22Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. ホットペッパービューティ:デザイン判別フロー INPUT画像 爪箇所判別 爪画像のベクトル変換 → ①(0.3,0.2,0.4,…) ②(0.4,0.1,0.3,…) ③(0.3,0.2,0.5,…) ④(0.7,0.8,0.1,…) ⑤(0.4,0.2,0.4,…) 予め作成した判別モ デルとベクトルを照合 ワンカラー フレンチ アニマル リボン 逆フレンチ ① ② ③⑤ ④ デザイン判別結果 逆フレンチ4本 アニマル1本 が映っていると判定
23.
23Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 入力画像に対して判別モデルの持つラベル単位で推定確率を算出して その結果を重み付け処理することにより、最終的に入力画像が以下の いずれに分類されるかを識別する機能を提供するシステムを提供。 Safe 通常の画像・適切な画像 Sexual 女性の裸体など性的な画像・不適切な画像 Grotesque 出血や遺体など残虐、猟奇的な画像・不適切な画像 ギャザリー:不適切校閲
24.
24Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. woman_naked woman sexual man_portrait man safe woman_under ware woman safe woman_norm al woman safe man_sumou man safe man_underwa re man safe image_wound other grotesque image_wound other grotesque plant_flower view safe ※ 上から順に 最高スコアラベル, 最高スコアカテゴリ, 不適切判別結果 ギャザリー:判別結果例
25.
25Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Active Learning Convolutional neural networkで生成したモデルに対して、日々アップロードされる画像から 「これをモデルに追加したら判別精度が上がるはずだという画像」をレコメンドしてくれるシステムを構築。
26.
26Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 1. あらかじめ作成したモデル推定結果 を利用 ActiveLearning 対象データ選定処理 HBase HBase 投入処理 画像 リスト 2. 現状のモデルが推定に迷っているような データを対象として選び出す。 3. 作成した画像の リストを HBase に 投入 4. タグ付け WebUI からタグ付けを行う ギャザリー用 定常画像解析 美容ネイル用 定常画像解析 日々の処理 データの モデル 推定結果 Active Learning学習データ作成フロー 5. モデルに画像を追加し、再構築
27.
27Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Hortonworks Data Platform の導入経緯
28.
28Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 課題感 新たなエコシステム検討の必要性 Sparkによる分析処理高速化 バッチ処理高速化を念頭にHiveの集計高速化 コールドスタート対応などを見越してのストリーム処理の検討 セキュリティ、アクセスコントロールの検討 施策やニーズが多様化し、エコシステムの導入や アーキテクト変更を積極的に実施していく必要が出てきた。
29.
29Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 課題感 データ解析従事者の増加 ・ビッグデータG創設期 (2012年) ・解析従事者 66名 ・2013年 ・解析従事者 119名 ・2015年 10月1日現在 ・解析従事者 212名 社内のデータ活用ニーズの高まりに応じて、データ解析従事者の数が年々増加。 単純に人員増加のほか、人員入れ替えや業務の分割化も進み、 Hadoopならびにエコシステムの知見、チューニングナレッジなどが希薄化していく 傾向が見られていた。
30.
30Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. DataLake構想の必要性 Hadoopの強み生かしたDataLake構想の実現を模索している。 ローデータから自在に定義を作り、Schema on readで施策を推進できる 自由さとスピードの速さ 「すべてのデータはここにある」という絶対的安心感とすぐ隣にあるデータとの 連結容易性 ここにあるデータを一元でマネジメントできればそこから発生するデータに一様 な正確さが出る。 ※ただし、ここでいうローデータとはリクルートでいうRDBMSに格納されてい るような綺麗な整形済みデータを表すのではなく、アプリケーションの生ログや テキスト文そのもの、画像、動画、音声、マシンログなどありとあらゆるデータを 定義するものである。
31.
31Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. データ基盤&ETLデータソース群 私たちの考えるDataLake構想(あくまでも一例) 非構造データ IPGeo TVメタ etc 外部データ DataBase JOBScheduler Ingestion Process Metadata Management 各種DataBase Interactive Analytics 施策接続 Realtime Batch Story Telling ・BI API MLlib、 GraphX DeepLearning クリックログ 位置情報 etc リアルタイム情報 Data Mart (HDFS)
32.
32Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Hadoop環境における課題感・目的意識 施策の多様化・新施策発掘に対応するためのHadoopエコシステムの積極 的活用の推進 急激な人員増加に伴う、Hadoopおよびエコシステム知見の希薄化。 Hadoopのあり方の再検討(DataLake構想の設計) オープンソースコミュニティへの積極的貢献、知見吸収 私たちはユーザー企業でありシステムに何を使うかは検証を行い、公平な立場で導入 判断を行っている。 上記の課題解決・目的達成の解の一つとして2015年4月より、本格的に Hortonworks Data Platformの検証を開始した。
33.
33Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Hortonworks Data Platform の使用感
34.
34Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 検証における観点 システム検証 • 既存環境との差分確認、著しい性能劣化等がないことを目的とした、基本的な動 作確認を行う。 運用検証 • 耐障害性が求められる機能において、想定されるユースケースを元にした擬似障害 を発生させ、期待される動作が行われることを確認する。 監視検証 • 想定される障害に対して、トリガが発動し、正常にアラートが発報されることを確認 する。 エコシステム検証 • 現在使われていない新しいエコシステムの基本機能の確認および活用用途の評価 を実施することを目的とした動作確認を行う。 総合検証 • 実運用を想定した複数ジョブの定常実行時のクラスタ状態の正常性を確認する。 本検証では、以下のとおりの観点で評価を行った。
35.
35Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 検証環境 JournalNode AmbariServer MetricsControler NameNode ResourceManager ZKFailoverController ZookeeperSerer MetricsMonitor JournalNode NameNode ResourceManager ZKFailoverController ZookeeperSerer AppTimelineServer HBaseMaster HistoryServer HiveMetastore HiveServer2 SparkHistoryServer MySQLServer MetricsMonitor JournalNode ZookeeperSerer HBaseMaster HiveMetastore HiveServer2 FalconServer MySQLServer OozieServer RangerAdmin Usersync WebHCatServer MetricsMonitor DataNode RegionServer NodeManager FalconClient HBaseClient HDFSClient HiveClient MapReduce2Client OozieClient Pig SparkClient Sqoop TezClient YARNClient ZookeeperClient MetricsMonitor DataNode RegionServer NodeManager MetricsMonitor Master Node × 3 Slave Node × 10 HDP Cluster 構成図
36.
36Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 検証結果 概要 Hortonworksの環境でも現行の全JOBを同等以上の性能で動かすこと ができた。十分本番でも耐えうる設計であった。 Hortonworks社のサポートレベルは高く有益であった。 100%オープンソースの名に恥じなく、Sparkや、python、Rなど他のオー プンソースとの組み合わせが設計しやすく、Tableauなどエンタープライズ系 製品との接続にも難がほとんどなかった。 Ambariを使っての運用に関して一部不安定な個所が存在する、NFSゲー トウエイが基本的にリードオンリーの設計で使いづらいなど細かなデメリットは あるものの、Hortonworks社の今後の対応に期待している。
37.
37Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. Sparkによる協調フィルタリングの精度改善 データマートの変更: 閲覧ログのアイテムを詳細化 Spark導入によって現実的な処理時間でより多くのアイテムを扱えるようになった レコメンド精度: 現行の約2.5倍の精度を達成 実行時間: Mahoutの約14倍の実行速度を達成 ※AWSで測定 閲覧ログのアイテムの定義 件数 ユーザ数 アイテム数 疎性 現行マート サイト+イベント ※MFB, JLNの一部イベントのみアイテムを付加 146,306,632 11,145,324 1,832,209 0.99999284 Spark IB サイト+イベント+アイテム ※イベントをproductView,purchase等に限定 154,951,882 9,949,873 5,117,420 0.99999696 ■ 現行 ■ Spark IB 0.0269 0.0687 0 0.02 0.04 0.06 0.08 f-measure比較 0.7929 0.6142 0 0.2 0.4 0.6 0.8 1 User Coverage比較 Spark IB Mahout IB 実行時間 0:33:41 7:53:05
38.
38Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. きめ細やかなサポート体制 HDPのバージョンアップにより生じた、解決が難しい課題に関しては、 WEBカンファレンスにて実画面を見ながらサポートいただいた。 このような手厚いサポート体制とレクチャーによる知見獲得は 知識が希薄化しつつある我々組織にとって非常に有益だと考える。
39.
39Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. コミッタによるサポート力 Hortonworks社に在籍するHiveのコミッタであるGopal Vijayaraghavan氏ら と会話し、Hiveのチューニング処理に関して相談。 「基本的にチューニングで10~20秒は早くできる」と断言、configの設定指針など を指南いただいた。 hiveconf hive.prewarm.enabled=true — hiveconf hive.prewarm.numcontainers=<n> Pick a fixed number there, preferably a good fraction of the cluster size (default = 10). set tez.grouping.min-size=4194304; set mapreduce.input.fileinputformat.split.maxsize=67108864; set hive.tez.exec.print.summary=true; ANALYZE TABLE <table> COMPUTE STATISTICS FOR COLUMNS; set hive.stats.fetch.column.stats=true; set hive.stats.fetch.partition.stats=true; set hive.cbo.enable=true;
40.
40Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 設定チューニング後の速度比較 処理時間(秒) 種類 HW(旧設定) HW(Config適応) hiveクエリ① 25 13 hiveクエリ② 29 11 hiveクエリ③ 23 10 hiveクエリ④ 166 14 hiveクエリ⑤ 40 34 hiveクエリ⑥ 27 16 hiveクエリ⑦ 19 12 hiveクエリ⑧ 1,448 693 hiveクエリ⑨ 37 23 hiveクエリ⑩ 58 37 hiveクエリ⑪ 298 347 hiveクエリ⑫ 36 24 hiveクエリ⑬ 28 12 hiveクエリ⑭ 68 34 前項のConfigを適応し、Hiveの処理速度が宣言通り短縮。 こういったきめ細かなチューニングができるのも、コミッタを多く抱える Hortonworksの強みであると確信している。 ※一部FullJoinが走るものは速度劣化があったが、こちらも再度相談中。 ※ ORC圧縮+Snappy形式を適応
41.
41Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. 判断として コストメリットが十分ある。 サポートが的確で、迅速である。 豊富な知見をもち、バグ解決、チューニングを通じて相互に成長ができる。 OSSベースで他のシステムとも親和性が高い。 Hortonworksを導入している海外企業とディスカッションができる。 上記から Hortonworks Data Platform の導入を決定した。
42.
42Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. まとめと今後
43.
43Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. これから これからもHadoopおよびそのエコシステムを使い倒し、データ利活用 を推進していく。 Hortonworks社との連携強化を行い、Hortonworks社のエンジ ニアとともに協力して開発を行うことで、知識の向上とアーキテクチャの 最適化を目指す。 今後も最新のデータ解析周りの製品を貪欲に検証し、ビジネスに生か していく。オープンソースへの貢献も視野に入れる。 1 2 3
44.
44Copyright © Recruit
Technologies Co., Ltd. All Rights Reserved. ビジネスを踏まえて 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 戦友をさがしています。 石川 信行 Nobuyuki Ishikawa Yes, We Are Hiring!
45.
ご静聴ありがとうございました リクルートテクノロジーズ
Download now