ATL におけ 
るBigData 
への取り組み 
株式会社リクルートテクノロジーズ 
伊藤 敬彦 
1
自己紹介 
所属:株式会社リクルートテク 
ノロジーズ ATL 
研究(工学博士): 
トピック:グラフ解析 
ビックデータ活動: 
Hadoop を利用したレコメ 
ンドエンジン等の OSS ツー 
ルを作成 
2
リクルートテクノロジーズ? 
リクルートホールディングス参加の機能会社 
ホールディングス傘下の事業会社にテクノロジー 
を届ける役目 
3
ATL? 
正式名称:Advanced Technology Lab 
リクルートテクノロジーズにおける R&D 組織 
技術のネタをいかに上手く探し(創り)、試し、 
ソリューションに仕立てるか?を追求する 
4
ATLとOSS 
ATL ではビックデータ用途を含め多くの OSS 
プロジェクトを活用 
OSS プロジェクトについて三つの活動(検 
証,貢献,公開)を行っている 
本発表では,OSS に関する三つの活動の具体例 
を紹介する 
5
事例:ATL におけるビック 
データの取り組み 
検証:Jubatus, Storm, ElasticSearch etc.. 
コミット:Apache Spark 
公開:ビルドパイプラインツール 
6
事例:ATL におけるビック 
データの取り組み 
検証:Jubatus, Storm, ElasticSearch etc.. 
コミット:Apache Spark 
公開:ビルドパイプラインツール 
7
事例:検証 
多様な BigData 系 OSS を検証 
Kafka, Storm, Jubatus etc… 
いくつかは導入に本格導入に成功 
Hadoop, Solr の配備 
最近 Elasticsearch を検証した後,検索プラット 
フォームを構築 
8
事例:ATL におけるビック 
データの取り組み 
検証:Jubatus, Storm, Kafka, ElasticSearch 
etc.. 
コミット:Apache Spark 
公開:ビルドパイプラインツール 
9
Apache Spark? 
大規模データ処理を行うフレームワーク 
Hadoop に比べて 10~100倍高速な処理 
Scala で記述 
10
Apache Spark エコシステ 
ム 
Spark Core の上にいく 
つものフレームワークが 
存在する. 
ATL は MLib とよばれる 
コンポーネントに貢献. 
11
MLlib 
Spark 上で動作する機械学習ライブラリ 
分類: Logistic Regression, Naive Bayes 
クラスタリング: K-means 
レコメンド: ALS 
… 
12
MLlib へのコミット 
様々な手法を実装しマージされる 
• 階層型クラスタリング 
• 距離関数群 
• KNN 
• Canopy Clustering 
13
事例:ATL におけるビック 
データの取り組み 
検証:Jubatus, Storm, ElasticSearch etc.. 
コミット:Apache Spark 
公開:ビルドパイプラインツール 
14
作成の動機 
ビルド,配備の流れが Jenkins (デプロイプラグ 
イン)に保存されてしまいポータビリティがない. 
UI を利用して設定をしないといけない 
並列化してデプロイ処理を高速化したい 
特に分散して動作するソフトウェア 
15
ビルドパイプラインツール 
Walter 
! 
シンプルなビルドパイプラインを作成 
ビルド,デプロイ設定を YAML 形式で記述 
記述言語:Go 
GitHub 上で公開: https://github.com/walter-cd/ 
walter 
16
ATLにおけるBigDataへの取り組み

ATLにおけるBigDataへの取り組み