More Related Content Similar to A3RT -The details and actual use cases of“Analytics & Artificial intelligence API via Recruit technologies" (20) More from Recruit Technologies (16) A3RT -The details and actual use cases of“Analytics & Artificial intelligence API via Recruit technologies"1. A3RT
The details and actual use cases of
“Analytics & Artificial intelligence API via
Recruit technologies"
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータプロダクト開発グループ
グループマネージャー
石川 信行
石川 信行
Nobuyuki
Ishikawa
2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
諸注意
本セッションにはHadoop関連のお話はほとんど出てきません。
Hadoopを中心としたデータソース
GPU環境を中心としたモデリング層
API環境を中心としてWEBインターフェース層
事業システム A 事業システム B 事業システム C
ここの話
3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2 A3RT概要
3
4 その他R&Dについて
A3RTを支えるインフラ・運用技術
本日の内容
プロダクトとそのユースケース
5
はじめに
まとめと今後6
5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属 リクルートテクノロジーズ ITソリューション統括部
ビッグデータプロダクト開発G グループマネージャー兼アドバンスドテクノロジーラボ
株式会社ミラセンシズ 代表取締役 CEO
神戸大学大学院農学研究科
害虫制御学専攻
リクルート新卒入社8年目。
カーセンサー.netで営業研修、Javaを用いたシステム開発に参加し、その後
Hadoopの導入検証に従事。
主要事業にHadoopを導入したのちビッグデータGに合流。現事業対応リー
ダー、画像解析など技術開発に従事。
シニアアーキテクトとしてプロフェッショナル職になった後に、現職。
海水魚飼育
外国産昆虫飼育
スキューバダイビング
自己紹介
6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビッグデータ解析部門の組織体制
6
ITソリューション統括部
・
・
・
ビッグデータビジネス
コンサルティング
グループ
ビッグデータ人材領域
グループ
ビッグデータ販促・
バイト領域グループ
ソリューションを軸
とした予測、BI、競
合分析
人材領域を軸とした
各種レコメンドの開
発
販促・バイトを軸と
した各種レコメンド
の開発
ビッグデータID・
ポイント領域グループ
IDポイントを軸とし
た各種レコメンドの
開発
ビッグデータプロダクト
開発グループ
ビッグデータインフラ
グループ
IDポイントビッグ
データシステムグルー
プ
ソリューションを軸
とした各種R&D系
プロダクトの開発
ビックデータ基盤の
構築・運用
ビックデータ部
IDポイントPRJの基
盤の
構築・運用
9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTの導入
リクルートテクノロジーズでは社内での機械学習並びにDeep Learningなどに代表
されるロジックとそのAPIを同一ブランドで統一・整備をし、社内に展開している。
10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
構築にいたった理由
フルスクラッチ開発
一番自由度が高く最適な機能が作れる。
一方、一から検討・開発するため、どう
しても時間・コストがかかるので、全て
のケースに対応できない
他社のAPI群
一部は活用すべきだが、リクルートグ
ループでの活用にそのまま使える機能
が不足
【効果的な機能】リクルートグループ特化による効果的なソリューションの開発
【導入しやすさ】リクルート汎用的な機能についてはAPI化
導入の迅速化/低コスト化
【最新技術】 バックエンドのアルゴリズム、インフラ環境も常に最新かつ適
切なものが適用できるよう継続的に検証
【効率など付加価値】オペレーション部分にも最新技術を適応
精度/運用効率向上に向けた取り組みを継続的に実施
(DeepLearningの自動パラメータチューニング機能他)
リクルートグループにおいて機械学習によるソリューション活用の敷居はまだまだ高く、活用をスピー
ドアップ・拡大するためには設計~開発~運用に工数が多くかかっていた。
データ活用・ロジック作成に気を取られ、ビジネス活用まで考えがいたらない状況。
11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTサービス一覧
A3RTでは現在、下記のようなAPIサービスを整備・開発。
これまでデータ活用が数多く進んでいるカスタマーサイドだけではなく、クライアントサイド、営業
シーン、制作業務などでの利用を想定し、開発を進めている。
レコメンド
バナーターゲティング
OCR 画像解析
原稿サジェスト
文章校閲文章要約
文章分類 音声テキスト化
屋内位置測位
12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
API化による効率化
リクルート内サービス
モデル化
API
API
API
モデル・技術共有
コール
再学習
14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
今回ご紹介するプロダクト
レコメンド
画像解析
原稿サジェスト
文章校閲
屋内位置測位
15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
motiv8r-誰でも簡単に利用できるレコメンド用WebAPI
ヒアリングシートに記入するだけで、迅速・簡単・低コストで利用可能なレコメンドAPI
リクルートオリジナルのリアルタイムレコメンドロジックのほか、Word2Vecを用いた
レコメンドなどを実装
motiv8rを使って実現できること motiv8r利用の特徴
レコメンド機能をWebAPI形式で
お手軽・簡単に実装可能
簡単なヒアリングシート記入で、レコメンド
機能を実装
リアルタイムレコメンドアルゴリズム、Word2Vec
を選択できる。
ユーザの閲覧・CVがあるたびAPIにリクエストを
送るだけでリアルタイムにレコメンド内容が変化
差配を重視したアルゴリズムにより、人気アイテ
ムに偏ることのないパーソナライズドなレコメンド
を実現可能
要件定義にヒアリングシートを送信、Webサイト
側の実装を実施してするだけで利用可能
気軽に
リアルタイム
レコメンド
差配による
パーソナライズ
化
開発工数低
1
2
3
16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
RETiMOアルゴリズム
閲覧/応募
ログ
レコメンドデータ
アイテム
アソシエーション
INPUT
エリア属性
スコア
駅属性
スコア
職種属性
スコア
アソシエーション
分析
閲覧/応募スコア
算出
×
アソシエーション
分析
閲覧/応募スコア
算出
×
アソシエーション
分析
閲覧/応募スコア
算出
×
アソシエーション
分析
バッチ処理 バッチ処理
リアルタイム処理
スコア更新
閲覧済原稿削除
UPDATE
API
Dailyで作成
即更新
17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
motiv8r-事例
複数の人材系事業で導入およびその検討が進行中
レコメンドエンジンは、コールドスタートに対応したReTiMOを採用
概要 成果
• 事業サイドの工数を最小限に
した手軽な導入を実現
• それまで利用していたレコメンド
ツールよりCVR / CTRが大幅に
向上
CVR
ReTiMOをレコメンドエンジンとして活用し、探してい
る仕事と似ている仕事のレコメンドを実装
約6倍
18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
各単語を表現するベクトルを学習
単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習
単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率
を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし
て用いる
w(t)
w(t-1)
w(t+1)
w(t+2)
w(t-2)
INPUT PROJECTION OUTPUT
INPUT:
単語の1-of-k表現
PROJECTION:
単語
線形変換
階層的
soft-max
OUTPUT:
前後の単語の出現確率
𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡))
目的関数
19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
While expanding its
channel for
distribution
information from
paper publication to
the net and mobile,
the company has been
pushing for a shift of
their revenue from
… … …
while(0.1, 0.4, 0.3, 0.7, …)
expanding(0.2, 0.5, 0.7, 0.7,
…)
its(0.1, 0.1, 0.9, 0.6, …)
channel(0.6, 0.4, 0.9, 0.5,
…)
for(0.5, 0.8, 0.2, 0.1, …)
distribution(0.8, 0.4, 0.1, 0.2,
…)
information(0.3, 0.7, 0.3, 0.6,
…)
…
…
…
…
文書データ ベクトルデータ
word2vec
文書データを元に単語毎のベクトルデータを生成する
20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
motiv8r Architecture
BigData Team HadoopService Database
S3 EMR DynamoDB
22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Image Paradise-画像解析処理API
Image Paradiseを使って実現できることの一例 Image Paradiseのメイン技術
画像解析処理、主に物体認識をAPIサービスとして提供
画像ベースレコメンドや不適切画像検出、タグ付与などのサービスを提供
画像に何が映っているかを自動で判別する
ことで、人力でのタグ付与作業負荷を軽減
今まで付与できなかった新たなタグを振る
ことで、よりリッチな検索を実現
1
2
画像から得られる情報(映る物の判別結果や
色)を利用し、画像軸でのレコメンドを実現
不適切画像を定義し、サービスにアップ
ロードされる前や直後に検出
3
4
画像を学習し、未知の画像に何が写っているかを判定
猫
犬
虎
・
・
・
②判別モデル作成
・
・
・
・・・
③未知の画像を
モデルに投入
猫確率:30%
犬確率:10%
虎確率:60%
④虎が映っている
らしいと認識
①学習用データ用意
画像解析に特化したDeep
Learningの手法の一種であ
るCNN1)を活用
1) Convolutional Neural Network の略
23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Image Paradise-事例①(ギャザリー 不適切画像検知)
ギャザリーは、キュレーションメディアであり、カスタマーが自由に記事を作成でき、自身の意思で画像も
投稿することが可能
エロ/グロなどの不適切な画像の検閲を人目で全て行うのは工数が膨大にかかるため、これを機械で代替する
1) Convolutional Neural Network の略
技術概要 実現方法
DeepLearningを活用し、画像を定量化す
るロジックを用いて、
Safe/Sexual/Glotesqueをラベル分け
2段階の判別を採用。最初の判別でラベルの
想定結果を重み付けする機能※により、精
度が約95%まで向上
※…二段階の想定結果重み付けロジックは、現在
特許出願中
3万300枚/時以上の速度で、
画像のラベル分けが可能
① 大量のエロ/グロ/ノーマル画像を収集
・
・
・
② 判別モデル作成
③ 未知の画像をモデルに通し、エロ/グロ確率を算出
グロ確率 89% !!
この画像は優先して
チェックしてください!
24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Image Paradise-事例② カーセンサー 色タグ付与
• カーセンサーでは、一物件
につき、20枚くらいの画像
が存在
• これに外装・トランク・ダッ
シュボード・内装・その他な
どラベルを振り、内装判別
用のモデルを作成
内装の確率が一番高い
画像を探索
色を抽出して、最も広範囲に利用
される色をシートの色として判別
範囲が多い順に
・ライトブルー
・黒
・・・
→シート色のタグとして、
「ライトブルー」を付与!
学習データ収集 内装画像探索 内装色判別
内装判別をするための学習データ
収集
1 2 3
「メディアで不足・もっと見たかったクルマの情報」を調査したところ、1位が「クルマの内装の写真」であること、
また、約 35%の回答者が、中古車の「内装」を重視してクルマ選びをしていることが判明
一方で既存メディアには内装色で検索という機能が存在しない
25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Image Paradise-事例③ 自動車車種判定
自動車を良く知らない初心者の人間にとって、車種や自動車メーカーの名前を知ることは難しく、
より直感的に自動車を探すことができるインターフェースが必要と想定
画像判別により車種を判別できる機能を開発し、初心者フレンドリーなインターフェースを実現
判別精度は人気車種上位30種類において90%以上にものぼる
既存の検索導線へ
26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
neon-リクルート保持の原稿からテキストを自動生成するシステム
リクルートが保持している原稿をDeepLearning(DeepLSTM)を使って学習し、原稿を生成
するシステム
原稿を書いている時に書き方がわからない、次に何を書けばいいか詰まってしまった、という
場合など人の思考補助を行う意味合いでの利用を想定
neonを使って実現できること 機能イメージ
サンプル原稿を
自動で作成する機能
ライティング中に次に
何を書けばいいのか
教えてくれる
サジェスト機能
1
2
過去数年分の事業のクライアント原稿をインプットとしてモデルを作り、
例えば職種やエリアを指定して送ればそれにあうベストな原稿を自動で
生成して返してくれる機能
原稿作成時にフォーム上に入力した文字列をAjax通信で送ると次の一語/フレーズ
/文章を推薦してくれるサジェスト機能
28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ArGON-ルールベースと機械学習のハイブリッドで校閲支援API
リクルートにおける「原稿」は商品そのもの。これに間違いがあると大きな機会損失となる
ルールベースによる校閲機能だけでなく、ルールのカスタマイズや最新の機械学習技術も実装しているた
め、使えば使うほど賢く校閲を実施できる
ルール
ベースによる
校閲機能
機械学習
による
校閲機能
ルール
カスタマイズ
機能
ArGONを使って実現できること ArGONの機能
原稿の中の、誤字
脱字、NGワードなど
を自動で検出
大量の原稿全てに対するチェックを自動化
• 入稿者、校閲者の負担軽減/コスト削減
• 本当に人間の目が必要となるところに
パワーを割くことが可能に
汎用性の高い校閲ルール
例)
・住所の間違い判定
・郵便番号の存在チェック
・電話番号の桁数チェック
・NGワードの検出
ルールベースで実現出来ない部分を補
う機械学習
例)
・誤字脱字の検出
・差別表現の判定
・NGとなりそうなワードの組み合わせサジェスト
管理画面から独自のルール登録が可能
誰でも簡単にルールを
追加
29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
校閲支援API ArGONのロジック
誤字脱字検知のロジック
- Gated Recurrent UnitsというDeep Learning技術を使用
- Residual Learningの要素を取り入れ、精度は85%-90%
正しい文章を大量に学習させ、異常検知的に誤字脱字を検出する
32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Video Analysis-動画の解析API
これまでの画像、テキストの解析技術を生かし、動画中の人や物を認識しタグ付けするAPIを開発
将来的に、動画コンテンツが増加していくことを見込んでの先行開発
Video Analysisを使って実現できること Video Analysisイメージ
動画中の人物の表情の変化(喜怒哀楽)を
可視化
• タグだけではなく、各物体の特徴量も同時
に抽出できるため、動画の分類やクラスタ
リングも行うことも検討
• また動画を静止画像の集合とみなし、それ
ぞれのコマ・シーンごとにタグ付けなども
検討
面接動画の解析や、動画による求人広告の作
成などへの活用も考えられる
動画にどんな物体が映っているか
を認識
動画中の人物の表情の変化
(喜怒哀楽)をタグ付け
1
2
33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
R&Dによるデータ解析活用ポリシー
etc
内製開発、ロジック作成やオープンソース利用のみが、技術によるビジネス貢献ではない
常に情報を探り、集め、あらゆる手段でデータ解析をビジネス貢献の手段として確立させるようベストを尽くす必要がある
Etc…
34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
スタートアップ協業シリーズ
海外出張によって訪問した現地(イスラエル・US)の先進スタートアップ企業とディスカッション。
プロダクト利用だけではなく、協働検証・開発なども行っている。
目的
インフラ
オペレーションAI
類似画像
アフィリエイト
屋内位置情報測位
説明会などイ
ベントでの流
量分析想定
ビッグデータ
部内部Hadoop
環境での利用
画像を生かし
た媒体間の
クロスユース
屋内位置情報取得
によるカスタマー
情報リッチ化
社内インフラ運用
のモニタリングを
知見習得?
インターネット中
の画像を集客元に
社内検証
35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Cotori –屋内位置測位
GPSではできない屋内の測位を正確に行うSDK
屋内でGPSと同じようにトラッキングをしたり、非常に小さ
いジオフェンスを貼ることが可能
またwifiや地磁気の情報を使用するため非常に省電力で動く
ことが特徴
オフラインイベントなどでの解析に利用できないかを検討中
×
37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
共通インフラ機能
グループ内の共通機能を集約し、個別運用による構築負荷/運用負荷・インフラコストを削減
構成イメージ 監視画面イメージ
RAFTEL
・・・・・
ProductA ProductZ
Cloud
API
worker1 worker2
API
Cloud
API
worker1 worker2
API
Batch
proxy
Auth
A3RT Admin
Platform
認証
monitor
バッチ処理
38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
A3RTのAPI基盤
Why AppEngine?
• スケーラビリティ
• A/Bテスト基盤
• NoOps
• BigQuery連携
• 共通API Endopoint
LogStorage
39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
半教師有り学習による精度向上
• VATを用いた半教師有り学習
• 半教師有り学習:少量の教師付きデータと大量の教師なしデータを用いて、比較的高精度のモデル
作成する手法。
mnist[0~9の手書きデータ]を利用し、
以下を検証。
・60000万枚の画像を学習に使った精度
・各枚数を学習に利用した時の精度
・各枚数を教師有り、残りを教師なしと
して学習した精度
教師有りを600枚使っただけで、ほぼ
60000枚全て利用した時と同様の精度が
得られていることがわかる。
学習利用枚数
誤
差
率
(%)
大量の画像全てに正解ラベルを付与しなくても良い。
よって、学習データの収集コストが大幅に下がることが期待できる。
40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
自動ハイパーパラメータチューニングによる工数削減
• DFO[Derivative Free Optimization]を用いたパラメータチューニング
• DFO:目的関数を直接微分不可能なパラメータに対し、その値をずらして誤差率が下がる方向へパラメータを調整
して最適解を得る手法
誤差率をクロスエントロピーで求める場合、右の式となる。
ykは、W,Bから求められるため、WやBでの微分は可能。
ただし、それ以外の学習率などといったパラメータでの
微分は不可。これらのパラメータを少しずつずらし、誤差率の極小値を探索する方法。
42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
データ解析の利用シーン拡大
customer
Client
Attracting
customers
Select Action Effect Information
published
Target
client
Matching
cross tabulation
Recommendation
Image search
Advertising expenses
optimization
Ad Targeting
Manuscript reviewer
Auto review
Article creation support
Sales support
Competitive analysis
43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Diversified data analysis
In addition to recommendation and report, there are more and more new genre data
analysis solutions of "human work alternative"
Profit contribution Cost reduction
Recommendation Report
Indicator/Purpose
CVR maximization
CPA optimization
Indicator/Purpose
Optimization
Next year’s
strategy making
Indicator/Purpose
Reduction of waste
Reduction of man
hours
Having people be
more creative
Work alternative
(AI domain)
44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ブレイン・マーケット構想
特徴・パターン抽出
モデル
判断
・推薦
・予測
・分類
etc
営業の優良クライアント判断モデル
会社独自の人材採用判断モデル
良い原稿制作モデル
etc
これまで人が判断してきた正解データ
45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
イノベーションコミュニティの形成
技術力
施策接続
コミット力
情報力
46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
大切にしたいこと
データの活用周りの商品(エンタープライズ、オープンソース問わず)、
ロジック、活用事例などの最新情報をなるべくキャッチしておく。
どんなデータでも扱えるように知見を集約しておく、難しい技術や課題
にも積極的にチャレンジしていく。
コードのオープンソース化が進み、競合優位要因が「コード保有」から
「データ保有」「施策接続力」にパラダイムシフト。ビジネスの感覚も忘れ
ずに、事業と二人三脚で案件を進める。
1
2
3
47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビジネス利用をとことん見据え
泥臭くかつアグレッシブに
分析・エンジニアリングが
できる方。
ご連絡ください。
右腕探しています。
石川 信行
Nobuyuki
Ishikawa
Yes, We Are Hiring!