SlideShare a Scribd company logo
1 of 69
Download to read offline
リクルート式
自然言語処理技術の適応事例紹介
株式会社リクルートテクノロジーズ
ITソリューション統括部 ビッグデータ2グループ
池田 裕一
2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
趣味etc
学歴
略歴
所属
氏名
自己紹介
RTC ITソリューション統括部
ビッグデータ2G
池田 裕一
東京大学大学院工学系研究科
精密機械工学専攻
社会人5年目。
某大手メーカー系SIerで3年間、Java・C++を使った位
置情報サービスの開発やAndroidアプリの開発に従事。
2014年4月からリクルートテクノロジーズ入社。
レコメンド施策開発のディレクション、自然言語処理やグラ
フ解析の技術開発に従事。
テニス
ゴルフ
旅行
カメラ
3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本日覚えて帰って頂きたい事
 word2vecのレコメンドへの活用
 doc2vecの文書要約への活用
4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
1
2
3
4
word2vecを使ったレコメンドシステム
doc2vecを使った文書要約
リクルートについて
最近のデータ活用状況紹介
アジェンダ
5 まとめ
5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートについて
6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートのビジネスモデル
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートの事業領域
「選択」 をサポートするような情報サービスを展開
Life event area Lifestyle Area
Travel
IT/ TrendLifestyle
Health & Beauty
Job Hunt
Marriage
Job Change
Home Purchase
Car Purchase
Child Birth
Education
8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
リクルートテクノロジーズの立ち位置
Infrastructure
Large project
promotions
UI design/SEO
Big Data
Department
Technology R&D
IT Promotion
Recruit
Holdings
Recruit Career
Recruit Sumai Company
Recruit Lifestyle
Recruit Jobs
Recruit Staffing
Recruit Marketing Partners
Staff service Holdings
Recruit Technologies
Recruit Administration
Recruit Communications
Operation
Service
9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
最近のデータ活用状況紹介
10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
Server Database
数値で見るデータ解析環境
エコシステム
本番165台/開発24台 1342.2TB
11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るHadoopの使われ方
28,344
1038万
1日あたりの全JOBの数
1日あたりの全Hbaseクエリの数
12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
数値で見るデータ解析案件状況
約200 データ解析案件数(年間)
ビッグデータ部の案件従事人数 240
13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecを使ったレコメンドシステム
14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
 各単語を表現するベクトルを学習
 単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習
 単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率
を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし
て用いる
w(t)
w(t-1)
w(t+1)
w(t+2)
w(t-2)
INPUT PROJECTION OUTPUT
INPUT:
単語の1-of-k表現
PROJECTION:
単語
線形変換
階層的
soft-max
OUTPUT:
前後の単語の出現確率
𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡))
目的関数
15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecとは
While expanding its
channel for
distribution
information from
paper publication to
the net and mobile,
the company has been
pushing for a shift of
their revenue from
… … …
while(0.1, 0.4, 0.3, 0.7, …)
expanding(0.2, 0.5, 0.7, 0.7,
…)
its(0.1, 0.1, 0.9, 0.6, …)
channel(0.6, 0.4, 0.9, 0.5,
…)
for(0.5, 0.8, 0.2, 0.1, …)
distribution(0.8, 0.4, 0.1,
0.2, …)
information(0.3, 0.7, 0.3,
0.6, …)
…
…
…
…
文書データ ベクトルデータ
word2vec
文書データを元に単語毎のベクトルデータを生成する
16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仮説 〜 word2vecをレコメンドに使う着眼点
アイテムベクトルの近さがアイテムの類似度として見なせるのではないか?
精度
単語間の文脈の純度を高めれば、類似度の
精度が高まるのでは?
ベクトル
レコメンドしたいアイテムをベクトル化して、類
似度を求められるのでは?
17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドに適したword2vecのインプットデータとは
インプットデータとしてユーザーアクションログを使用する
wikipediaなどの
テキストデータ
サービスユーザーの
アクションログデータ
 ノイズが混じる
 必要なアイテム全てを網羅できない
user1 time1 ~~~~~~
user2 time2 ~~~~~~
user3 time3 ~~~~~~
… … …
 アイテムの関係性を内包する
 必要なアイテム全てを網羅できる
18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
文章 文章
20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文章と単語の作り方
I am a cat. As yet I have no name.
文章 文章
単語
21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アクションログを使った時の文章と単語の作り方
User-1 :
User-2 :
User-3 :
時系列
item-A item-B item-C item-D item-E …
item-V item-W item-X item-Y item-Z …
item-O item-P item-Q item-R item-S …
ユーザー毎のアイテムに対するアクションログ
…
文章 単語
22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
アクションログを使った時の文章と単語の作り方
1ユーザーのアクション履歴を1文章、アイテムを単語、と置き換える
User-1 :
User-2 :
User-3 :
時系列
item-A item-B item-C item-D item-E …
item-V item-W item-X item-Y item-Z …
item-O item-P item-Q item-R item-S …
ユーザー毎のアイテムに対するアクションログ
…
23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
word2vecのアウトプットデータ
アクション
ログデータ
word2vec
itemベクトル
データ
item類似度
データ
cos類似度
user1 item-A item-B item-C…
user2 item-D item-E item-F…
user3 item-G item-Q item-X…
user4 item-L item-K item-V…
… … …
item-A (0.1, 0.9, 0.6, 0.4,
……)
item-B (0.2, 0.5, 0.1, 0.8,
……)
item-C (0.7, 0.3, 0.3, 0.4,
……)
item-D (0.5, 0.9, 0.8, 0.2,
……)
… … …
item-A, item-B, 0.976
item-A, item-C, 0.329
item-A, item-D, 0.743
item-A, item-E, 0.552
… … …
アイテム間の類似度の計算は億オーダの回
数必要になるため、分散処理している
word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D item-E
時系列
①
ユーザーが最直近でア
クションしたアイテムを
10件抽出
31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D item-E
時系列
① ②
ユーザーが最直近でア
クションしたアイテムを
10件抽出
それぞれのアイテムに対
して、cos類似度の高
いアイテムを抽出
item-Q item-I item-O item-P item-L
item-X item-T item-U item-S item-M
item-R item-G item-F item-W item-Z
32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ③
ユーザーが最直近でア
クションしたアイテムを
10件抽出
それぞれのアイテムに対
して、cos類似度の高
いアイテムを抽出
リストを作成
(重複したアイテムを
除く)
item-Q item-I item-O item-P item-L
item-X item-T item-U item-S item-M
レコメンド
item-R item-G item-F item-W item-Z
33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドリストの作成 〜 実サービスへの適用
word2vecを元に作られたベクトルデータを使ってレコメンドリストを作成
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ③
ユーザーが最直近でア
クションしたアイテムを
10件抽出
それぞれのアイテムに対
して、cos類似度の高
いアイテムを抽出
リストを作成
(重複したアイテムを
除く)
item-Q item-I item-O item-P item-L
item-X item-T item-U item-S item-M
レコメンド
item-R item-G item-F item-W item-Z
34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験① 〜 オフラインテスト
従来のレコメンドエンジンと比較して、効果が約1.6倍高い事が分かった
0
0.5
1
1.5
2
2.5
1 2 3 4 5 6 7 8 9 10 11 12
従来ロジックとword2vecによるKPIの比較
(従来ロジックを1とした時の比較)
系列1 系列2
概要
過去のユーザログデータを用いてバックミラー分析を行い、従来ロジックとword2vec
ロジックのレコメンド精度の比較を行う
35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験② 〜 ABテスト
サービスY
CVRが 156% 改善
3.57% ⇒ 9.15%
サービスX
CVRが 31% 改善
46.59%⇒ 61.13%
概要
オンラインで、ユーザーを2つのグループに分け、従来ロジックとword2vecロジックの
レコメンドリストを提示し、CVRの違いを調査する
オンラインでもword2vecロジックによるレコメンドの方が効果が高い
36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 仮説
ベクトルを足し合わせれば、志向ベクトルを作れる!?
ベクトル
ベクトルを足し合わせると、ユーザーの志向を
捉える事が出来るのではないか?
item-A
item-B
User-Vec
item-D
item-C
37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
①
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
① ②
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
Int-Vec
40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
① ②
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
item-Q
item-I
item-O
Int-Vec
③
合成ベクトルと
類似度の高いア
イテムを抽出
41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ④
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
リストを作成
item-Q
item-I
item-O
レコメンド
Int-Vec
③
合成ベクトルと
類似度の高いア
イテムを抽出
42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 ベクトル足し算
ユーザーがアクションしたアイテムの合成ベクトルを志向ベクトルと見なす
ユーザー
item-A item-B item-C item-D item-E
時系列
① ② ④
ユーザーが
最直近でア
クションした
アイテムを
10件抽出
それぞれのアイテ
ムのベクトルを足
し、合成ベクトル
を作成
リストを作成
item-Q
item-I
item-O
レコメンド
Int-Vec
③
合成ベクトルと
類似度の高いア
イテムを抽出
43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンの更なる進化 〜 効果検証
ベクトルを足し合わせる事によってユーザーの志向を捉える事が出来た
サービスZ
CVRが 27% 改善
21.56% ⇒ 27.29%
概要
オンラインで、ユーザーを2つのグループに分け、word2vecロジックとword2vec足
し合わせロジックでのレコメンドリストを提示し、CVRの違いを調査する
44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
レコメンドエンジンへの実装 〜 Hadoop活用
Hadoop
レコメンド生成
バッチ
ユーザー
行動ログ
集計バッチユーザー情報
行動ログ
ユーザー毎の
レコメンド
ユーザー毎のパーソナライズレコメンドを日次で実施(主にHive)
45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ユーザー
Web
HBase
レコメンドテーブルの
参照API
Hadoop
行動ログ
集計バッチ
検索API
APIリクエスト
検索行動
レコメンド取得
レコメンド
バルクロード
テーブル参照
リアルタイムレコメンドへの実装 〜 HBase活用
ユーザーの志向をリアルタイムで捉え、リアルタイムにレコメンドを実施
46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ここまでのまとめ
• ユーザーのアクションログをword2vecのインプットに使用し、ア
イテムをベクトル化している
→文章を1ユーザーのログ、単語をアイテムと見なす
• ベクトル同士のcos類似度を計算することで、レコメンドエンジン
に活用している
• 類似度計算ではHadoopを使って分散処理を行い高速化して
いる
• ベクトルを足し合わせることでユーザーの志向を捉える事ができ
る
47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
doc2vecを使った文書要約
48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
doc2vecとは
文章をベクトル化する
1. I am a cat.
2. As yet I have no name.
3. …
…
1. I am a cat. (0.2, 0.4, 0.9, …)
2. As yet I have no name. (0.5, 0.7, 0.8, …)
3. …
…
doc2vec
49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
仮説 〜 doc2vecを文書要約に使う着眼点
一番大きな領域を作る文章ベクトルを取れば、文書のまとめが作れる!?
ベクトル
領域
複数の文章ベクトルによって作られた領域は、
その中に入るベクトルを意味的に内包するの
ではないか?
50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章10
文章7
文章6
文章3
文章2
文章9 文章5
文章4
文章8
53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章10
文章7
文章6
文章3
文章2
文章9 文章5
文章4
文章8
【参考論文】
http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em
nlp2015.pdf
54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
文書要約のイメージ
文章1
文章2
文章10
文書…
文章3
文章をベクトル化して
プロットする
文章1
文章10
文章7
文章6
文章3
文章2
文章9 文章5
文章4
文章8
【参考論文】
http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em
nlp2015.pdf
文書1,3,6,7,10は
文書2,4,5,8,9を意
味的に内包するので
はないか?
55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
ちなみに試合の内容は…
・4番の中村選手が欠場
・先発の前田投手が好投(7回無失点)
・打線は13安打9得点
・坂本選手が16打席ぶりのヒットを含む2安打3打点
・9回にプエルトリコが3ランホームラン
etc…
実験手順
 記事の内容の把握、及びクレンジング
プレミア12準々決勝 日本vsプエルトリコの試合のニュース記事に関するコメン
ト(計161件)
 投稿のベクトル化、及びまとめに使用する投稿の抽出
今回は5つのコメントを抽出して要約を試みる
56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
結果
前田健太はもう決勝投げないだろうな
今日7回まで行かしたってことはそういうこ
とだな。
来季メジャーもあるし無理はさせな
い。
先発は 大谷と菅野か武田
中継ぎは山崎・則本・牧田
炎上組 松井・増井・西・小川
微妙組 大野・澤村
なんか炎上組は使いたくないし大野
と澤村も内容悪いし
やっぱ中継ぎ全然足りてないわ
CS見てない人にはわからないかもしれん
が、大谷は間隔が空きすぎるとダメになる。
ましてや東京ドームが苦手。
初戦でボコられた韓国サイドは研究に
研究を重ねてリベンジして来ると考えると炎
上して大敗するのが妥当。
よって戦犯大谷ということになる。
まあ、野手が頑張って打撃戦に持ち込
めば話は別だが、相手の先発は何があって
も負けないイデウンだから無理でしょう。
仮に大谷が炎上して負けても大谷一
人のせいにしないで欲しいです(涙)。
調整登板させなかった首脳陣にも問題
があるんだから(震え声)
ツイッター上のハムファン全員が増井燃え
ると予言してて草生えたわw
やはり増井はセーブかホールド機会で
投げさせないとアカンな
平田三塁打→松田犠牲フライで実質
試合終了なものだろ
ここで一番温い試合してしまったのは
問題あるわ
増井に不安がある以上マッスルミュー
ジカルは覚悟しとかないとな
マエケンは7回90球、中4日で決勝先
発は十分ありうる
中村外して中村入れる打線は悪くは
ないんだが中田が案の定6番外れたら内
容が悪くなった
どうすりゃいいんかね?
今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな
いで!
57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実証実験 〜 プレミア12に関する投稿をまとめてみる
特定の偏ったコメントではなく、満遍なくコメントが拾う事が可能
結果
前田健太はもう決勝投げないだろうな
今日7回まで行かしたってことはそういうこ
とだな。
来季メジャーもあるし無理はさせな
い。
先発は 大谷と菅野か武田
中継ぎは山崎・則本・牧田
炎上組 松井・増井・西・小川
微妙組 大野・澤村
なんか炎上組は使いたくないし大野
と澤村も内容悪いし
やっぱ中継ぎ全然足りてないわ
CS見てない人にはわからないかもしれん
が、大谷は間隔が空きすぎるとダメになる。
ましてや東京ドームが苦手。
初戦でボコられた韓国サイドは研究に
研究を重ねてリベンジして来ると考えると炎
上して大敗するのが妥当。
よって戦犯大谷ということになる。
まあ、野手が頑張って打撃戦に持ち込
めば話は別だが、相手の先発は何があって
も負けないイデウンだから無理でしょう。
仮に大谷が炎上して負けても大谷一
人のせいにしないで欲しいです(涙)。
調整登板させなかった首脳陣にも問題
があるんだから(震え声)
ツイッター上のハムファン全員が増井燃え
ると予言してて草生えたわw
やはり増井はセーブかホールド機会で
投げさせないとアカンな
平田三塁打→松田犠牲フライで実質
試合終了なものだろ
ここで一番温い試合してしまったのは
問題あるわ
増井に不安がある以上マッスルミュー
ジカルは覚悟しとかないとな
マエケンは7回90球、中4日で決勝先
発は十分ありうる
中村外して中村入れる打線は悪くは
ないんだが中田が案の定6番外れたら内
容が悪くなった
どうすりゃいいんかね?
今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな
いで!
58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 口コミのまとめ
MROC(Marketing Research Online Community)
ある特定の商品やテーマなど共通の興味を持った人々をメンバー限定のコミュニ
ティに招待し、自由にディスカッションしてもらいながら、消費者のニーズを探る調
査手法
どのような事が話されているかを整
理する事が非常に大変
一つのテーマにつき、数百のコメント
が付く
59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 口コミのまとめ
アットホームな
式にしたい
リゾート挙式が
したい
極力シンプルに
したい
沢山のゲストに
来て欲しい
テーマに対してどのようなコメントが来ているのかをまとめる
60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
①
既存の口コミで領域を
作成
62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
①
既存の口コミで領域を
作成
63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
① ②
既存の口コミで領域を
作成
新規の口コミをプロット
64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
実サービスへの展望 〜 新規コメントの抽出
新規の口コミが「新しい内容を含むかどうか」の判別を行う
① ② ③
既存の口コミで領域を
作成
新規の口コミをプロット 領域に含まれるか否か
を判定
65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
まとめ
66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
本日のまとめ
• ユーザーのアクションログをword2vecのインプットに使用し、ア
イテムをベクトル化している
• ベクトル同士のcos類似度を計算することで、レコメンドエンジン
に活用している
• ベクトルを足し合わせることでユーザーの志向を捉える事ができ
る
• 文書要約にdoc2vecを活用している
• 定性的に見て、doc2vecを使った文書要約が有用であること
が分かった
• doc2vecを口コミの整理や、新たなコメントの内容が新規であ
るかどうかの判断ロジックとして活用を検討
67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
今後の展望
リアルタイムでのユー
ザー志向分析
グラフ分析及び
グラフDBの導入
A
B
C
D
E
w(t)
w(t+1)
w(t+5)
・
・
・
w(t-1)
w(t-5)
・
・
・
68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.
ビジネスを踏まえて
泥臭くかつアグレッシブに
分析・エンジニアリングが
できる方。
ご連絡ください。
戦友をさがしています。
Yes, We Are Hiring! 池田 裕一
ご清聴ありがとうございました

More Related Content

What's hot

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門Yuya Unno
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題joisino
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法Takeshi Mikami
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE広樹 本間
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章Hakky St
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるitoyan110
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
協調フィルタリング入門
協調フィルタリング入門協調フィルタリング入門
協調フィルタリング入門hoxo_m
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話cyberagent
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 

What's hot (20)

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 
レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法レコメンドアルゴリズムの基本と周辺知識と実装方法
レコメンドアルゴリズムの基本と周辺知識と実装方法
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づける
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
協調フィルタリング入門
協調フィルタリング入門協調フィルタリング入門
協調フィルタリング入門
 
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 

Viewers also liked

Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景Masato Nakai
 
AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)Yoshihiko Shiraki
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and DocumentsTomofumi Yoshida
 
DeepLearningとWord2Vecを用いた画像レコメンドの考察
DeepLearningとWord2Vecを用いた画像レコメンドの考察DeepLearningとWord2Vecを用いた画像レコメンドの考察
DeepLearningとWord2Vecを用いた画像レコメンドの考察Tadaichiro Nakano
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vecnaoto moriyama
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみたYoshihiko Shiraki
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...Recruit Technologies
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Recruit Technologies
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所Recruit Technologies
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例Recruit Technologies
 

Viewers also liked (15)

Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景
 
AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)AINOW活用事例(という名のゴマすり)
AINOW活用事例(という名のゴマすり)
 
【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents【論文紹介】Distributed Representations of Sentences and Documents
【論文紹介】Distributed Representations of Sentences and Documents
 
DeepLearningとWord2Vecを用いた画像レコメンドの考察
DeepLearningとWord2Vecを用いた画像レコメンドの考察DeepLearningとWord2Vecを用いた画像レコメンドの考察
DeepLearningとWord2Vecを用いた画像レコメンドの考察
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vec
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
t-SNE
t-SNEt-SNE
t-SNE
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
リクルートグループの現場事例から見る AI/ディープラーニング ビジネス活用の勘所
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 

Similar to リクルート式 自然言語処理技術の適応事例紹介

リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdfJAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdfYuya Modeki
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話ToshiharuSakai
 
LEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APILEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APIAkira Hatsune
 
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Fujio Kojima
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現インフラジスティックス・ジャパン株式会社
 
6万行の TypeScript 移行とその後
6万行の TypeScript 移行とその後6万行の TypeScript 移行とその後
6万行の TypeScript 移行とその後Shingo Sasaki
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようSalesforce Developers Japan
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionTetsutaro Watanabe
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1ITDORAKU
 
IBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみようIBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみようTakuji Kawata
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformDaiyu Hatakeyama
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on AzureDaiyu Hatakeyama
 
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用についてRakuten Group, Inc.
 

Similar to リクルート式 自然言語処理技術の適応事例紹介 (20)

リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdfJAZUG_TOHOKU_modeki_20230324_共有版.pdf
JAZUG_TOHOKU_modeki_20230324_共有版.pdf
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
Klocworkのご紹介
Klocworkのご紹介Klocworkのご紹介
Klocworkのご紹介
 
Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話Redmineの情報を自分好みに見える化した話
Redmineの情報を自分好みに見える化した話
 
LEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 APILEGO MINDSTORMS EV3 API
LEGO MINDSTORMS EV3 API
 
Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化Visual Studio による開発環境・プログラミングの進化
Visual Studio による開発環境・プログラミングの進化
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
 
6万行の TypeScript 移行とその後
6万行の TypeScript 移行とその後6万行の TypeScript 移行とその後
6万行の TypeScript 移行とその後
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみよう
 
ビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年versionビッグデータ処理データベースの全体像と使い分け
2018年version
ビッグデータ処理データベースの全体像と使い分け
2018年version
 
3Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.13Dリッチコンテンツビジネス活用のご提案ver3.1
3Dリッチコンテンツビジネス活用のご提案ver3.1
 
IBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみようIBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみよう
 
React vtecx20170822
React vtecx20170822React vtecx20170822
React vtecx20170822
 
Zyyx inc. data for interop
Zyyx inc. data for interopZyyx inc. data for interop
Zyyx inc. data for interop
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
 
明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure明治大学理工学部 特別講義 AI on Azure
明治大学理工学部 特別講義 AI on Azure
 
houjin.pdf
houjin.pdfhoujin.pdf
houjin.pdf
 
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について
 

More from Recruit Technologies

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場Recruit Technologies
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びRecruit Technologies
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Recruit Technologies
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話Recruit Technologies
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Recruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後Recruit Technologies
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するRecruit Technologies
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントRecruit Technologies
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~Recruit Technologies
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~Recruit Technologies
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupRecruit Technologies
 

More from Recruit Technologies (20)

新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場新卒2年目が鍛えられたコードレビュー道場
新卒2年目が鍛えられたコードレビュー道場
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
Rancherを活用した開発事例の紹介 ~Rancherのメリットと辛いところ~
 
Tableau活用4年の軌跡
Tableau活用4年の軌跡Tableau活用4年の軌跡
Tableau活用4年の軌跡
 
HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話HadoopをBQにマイグレしようとしてる話
HadoopをBQにマイグレしようとしてる話
 
LT(自由)
LT(自由)LT(自由)
LT(自由)
 
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
Company Recommendation for New Graduates via Implicit Feedback Multiple Matri...
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
銀行ロビーアシスタント
銀行ロビーアシスタント銀行ロビーアシスタント
銀行ロビーアシスタント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後ユーザーからみたre:Inventのこれまでと今後
ユーザーからみたre:Inventのこれまでと今後
 
EMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成するEMRでスポットインスタンスの自動入札ツールを作成する
EMRでスポットインスタンスの自動入札ツールを作成する
 
RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)RANCHERを使ったDev(Ops)
RANCHERを使ったDev(Ops)
 
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイントリクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
リクルートにおけるセキュリティ施策方針とCSIRT組織運営のポイント
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
Spring “BigData”
Spring “BigData”Spring “BigData”
Spring “BigData”
 
Struggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit groupStruggle against cross-domain data complexity in Recruit group
Struggle against cross-domain data complexity in Recruit group
 

Recently uploaded

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (11)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

リクルート式 自然言語処理技術の適応事例紹介

  • 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属 氏名 自己紹介 RTC ITソリューション統括部 ビッグデータ2G 池田 裕一 東京大学大学院工学系研究科 精密機械工学専攻 社会人5年目。 某大手メーカー系SIerで3年間、Java・C++を使った位 置情報サービスの開発やAndroidアプリの開発に従事。 2014年4月からリクルートテクノロジーズ入社。 レコメンド施策開発のディレクション、自然言語処理やグラ フ解析の技術開発に従事。 テニス ゴルフ 旅行 カメラ
  • 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本日覚えて帰って頂きたい事  word2vecのレコメンドへの活用  doc2vecの文書要約への活用
  • 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 3 4 word2vecを使ったレコメンドシステム doc2vecを使った文書要約 リクルートについて 最近のデータ活用状況紹介 アジェンダ 5 まとめ
  • 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートについて
  • 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」 をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  • 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートテクノロジーズの立ち位置 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Operation Service
  • 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 最近のデータ活用状況紹介
  • 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番165台/開発24台 1342.2TB
  • 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るHadoopの使われ方 28,344 1038万 1日あたりの全JOBの数 1日あたりの全Hbaseクエリの数
  • 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 240
  • 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecを使ったレコメンドシステム
  • 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは  各単語を表現するベクトルを学習  単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習  単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率 を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし て用いる w(t) w(t-1) w(t+1) w(t+2) w(t-2) INPUT PROJECTION OUTPUT INPUT: 単語の1-of-k表現 PROJECTION: 単語 線形変換 階層的 soft-max OUTPUT: 前後の単語の出現確率 𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡)) 目的関数
  • 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは While expanding its channel for distribution information from paper publication to the net and mobile, the company has been pushing for a shift of their revenue from … … … while(0.1, 0.4, 0.3, 0.7, …) expanding(0.2, 0.5, 0.7, 0.7, …) its(0.1, 0.1, 0.9, 0.6, …) channel(0.6, 0.4, 0.9, 0.5, …) for(0.5, 0.8, 0.2, 0.1, …) distribution(0.8, 0.4, 0.1, 0.2, …) information(0.3, 0.7, 0.3, 0.6, …) … … … … 文書データ ベクトルデータ word2vec 文書データを元に単語毎のベクトルデータを生成する
  • 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仮説 〜 word2vecをレコメンドに使う着眼点 アイテムベクトルの近さがアイテムの類似度として見なせるのではないか? 精度 単語間の文脈の純度を高めれば、類似度の 精度が高まるのでは? ベクトル レコメンドしたいアイテムをベクトル化して、類 似度を求められるのでは?
  • 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドに適したword2vecのインプットデータとは インプットデータとしてユーザーアクションログを使用する wikipediaなどの テキストデータ サービスユーザーの アクションログデータ  ノイズが混じる  必要なアイテム全てを網羅できない user1 time1 ~~~~~~ user2 time2 ~~~~~~ user3 time3 ~~~~~~ … … …  アイテムの関係性を内包する  必要なアイテム全てを網羅できる
  • 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name.
  • 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name. 文章 文章
  • 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章と単語の作り方 I am a cat. As yet I have no name. 文章 文章 単語
  • 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アクションログを使った時の文章と単語の作り方 User-1 : User-2 : User-3 : 時系列 item-A item-B item-C item-D item-E … item-V item-W item-X item-Y item-Z … item-O item-P item-Q item-R item-S … ユーザー毎のアイテムに対するアクションログ … 文章 単語
  • 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アクションログを使った時の文章と単語の作り方 1ユーザーのアクション履歴を1文章、アイテムを単語、と置き換える User-1 : User-2 : User-3 : 時系列 item-A item-B item-C item-D item-E … item-V item-W item-X item-Y item-Z … item-O item-P item-Q item-R item-S … ユーザー毎のアイテムに対するアクションログ …
  • 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … …
  • 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … …
  • 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … …
  • 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  • 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出 アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  • 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … … アイテム間の類似度の計算は億オーダの回 数必要になるため、分散処理している word2vecで出来上がったベクトルデータでアイテム間のcos類似度を算出
  • 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー
  • 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ユーザーが最直近でア クションしたアイテムを 10件抽出
  • 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M item-R item-G item-F item-W item-Z
  • 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ③ ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 リストを作成 (重複したアイテムを 除く) item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M レコメンド item-R item-G item-F item-W item-Z
  • 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドリストの作成 〜 実サービスへの適用 word2vecを元に作られたベクトルデータを使ってレコメンドリストを作成 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ③ ユーザーが最直近でア クションしたアイテムを 10件抽出 それぞれのアイテムに対 して、cos類似度の高 いアイテムを抽出 リストを作成 (重複したアイテムを 除く) item-Q item-I item-O item-P item-L item-X item-T item-U item-S item-M レコメンド item-R item-G item-F item-W item-Z
  • 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験① 〜 オフラインテスト 従来のレコメンドエンジンと比較して、効果が約1.6倍高い事が分かった 0 0.5 1 1.5 2 2.5 1 2 3 4 5 6 7 8 9 10 11 12 従来ロジックとword2vecによるKPIの比較 (従来ロジックを1とした時の比較) 系列1 系列2 概要 過去のユーザログデータを用いてバックミラー分析を行い、従来ロジックとword2vec ロジックのレコメンド精度の比較を行う
  • 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験② 〜 ABテスト サービスY CVRが 156% 改善 3.57% ⇒ 9.15% サービスX CVRが 31% 改善 46.59%⇒ 61.13% 概要 オンラインで、ユーザーを2つのグループに分け、従来ロジックとword2vecロジックの レコメンドリストを提示し、CVRの違いを調査する オンラインでもword2vecロジックによるレコメンドの方が効果が高い
  • 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 仮説 ベクトルを足し合わせれば、志向ベクトルを作れる!? ベクトル ベクトルを足し合わせると、ユーザーの志向を 捉える事が出来るのではないか? item-A item-B User-Vec item-D item-C
  • 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー
  • 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ユーザーが 最直近でア クションした アイテムを 10件抽出
  • 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 Int-Vec
  • 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 item-Q item-I item-O Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  • 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ④ ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 リストを作成 item-Q item-I item-O レコメンド Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  • 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 ベクトル足し算 ユーザーがアクションしたアイテムの合成ベクトルを志向ベクトルと見なす ユーザー item-A item-B item-C item-D item-E 時系列 ① ② ④ ユーザーが 最直近でア クションした アイテムを 10件抽出 それぞれのアイテ ムのベクトルを足 し、合成ベクトル を作成 リストを作成 item-Q item-I item-O レコメンド Int-Vec ③ 合成ベクトルと 類似度の高いア イテムを抽出
  • 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンの更なる進化 〜 効果検証 ベクトルを足し合わせる事によってユーザーの志向を捉える事が出来た サービスZ CVRが 27% 改善 21.56% ⇒ 27.29% 概要 オンラインで、ユーザーを2つのグループに分け、word2vecロジックとword2vec足 し合わせロジックでのレコメンドリストを提示し、CVRの違いを調査する
  • 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. レコメンドエンジンへの実装 〜 Hadoop活用 Hadoop レコメンド生成 バッチ ユーザー 行動ログ 集計バッチユーザー情報 行動ログ ユーザー毎の レコメンド ユーザー毎のパーソナライズレコメンドを日次で実施(主にHive)
  • 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ユーザー Web HBase レコメンドテーブルの 参照API Hadoop 行動ログ 集計バッチ 検索API APIリクエスト 検索行動 レコメンド取得 レコメンド バルクロード テーブル参照 リアルタイムレコメンドへの実装 〜 HBase活用 ユーザーの志向をリアルタイムで捉え、リアルタイムにレコメンドを実施
  • 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ここまでのまとめ • ユーザーのアクションログをword2vecのインプットに使用し、ア イテムをベクトル化している →文章を1ユーザーのログ、単語をアイテムと見なす • ベクトル同士のcos類似度を計算することで、レコメンドエンジン に活用している • 類似度計算ではHadoopを使って分散処理を行い高速化して いる • ベクトルを足し合わせることでユーザーの志向を捉える事ができ る
  • 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. doc2vecを使った文書要約
  • 48. 48Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. doc2vecとは 文章をベクトル化する 1. I am a cat. 2. As yet I have no name. 3. … … 1. I am a cat. (0.2, 0.4, 0.9, …) 2. As yet I have no name. (0.5, 0.7, 0.8, …) 3. … … doc2vec
  • 49. 49Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 仮説 〜 doc2vecを文書要約に使う着眼点 一番大きな領域を作る文章ベクトルを取れば、文書のまとめが作れる!? ベクトル 領域 複数の文章ベクトルによって作られた領域は、 その中に入るベクトルを意味的に内包するの ではないか?
  • 50. 50Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3
  • 51. 51Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする
  • 52. 52Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8
  • 53. 53Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8 【参考論文】 http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em nlp2015.pdf
  • 54. 54Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文書要約のイメージ 文章1 文章2 文章10 文書… 文章3 文章をベクトル化して プロットする 文章1 文章10 文章7 文章6 文章3 文章2 文章9 文章5 文章4 文章8 【参考論文】 http://www.cs.cmu.edu/~dyogatam/papers/yogatama+liu+smith.em nlp2015.pdf 文書1,3,6,7,10は 文書2,4,5,8,9を意 味的に内包するので はないか?
  • 55. 55Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる ちなみに試合の内容は… ・4番の中村選手が欠場 ・先発の前田投手が好投(7回無失点) ・打線は13安打9得点 ・坂本選手が16打席ぶりのヒットを含む2安打3打点 ・9回にプエルトリコが3ランホームラン etc… 実験手順  記事の内容の把握、及びクレンジング プレミア12準々決勝 日本vsプエルトリコの試合のニュース記事に関するコメン ト(計161件)  投稿のベクトル化、及びまとめに使用する投稿の抽出 今回は5つのコメントを抽出して要約を試みる
  • 56. 56Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる 結果 前田健太はもう決勝投げないだろうな 今日7回まで行かしたってことはそういうこ とだな。 来季メジャーもあるし無理はさせな い。 先発は 大谷と菅野か武田 中継ぎは山崎・則本・牧田 炎上組 松井・増井・西・小川 微妙組 大野・澤村 なんか炎上組は使いたくないし大野 と澤村も内容悪いし やっぱ中継ぎ全然足りてないわ CS見てない人にはわからないかもしれん が、大谷は間隔が空きすぎるとダメになる。 ましてや東京ドームが苦手。 初戦でボコられた韓国サイドは研究に 研究を重ねてリベンジして来ると考えると炎 上して大敗するのが妥当。 よって戦犯大谷ということになる。 まあ、野手が頑張って打撃戦に持ち込 めば話は別だが、相手の先発は何があって も負けないイデウンだから無理でしょう。 仮に大谷が炎上して負けても大谷一 人のせいにしないで欲しいです(涙)。 調整登板させなかった首脳陣にも問題 があるんだから(震え声) ツイッター上のハムファン全員が増井燃え ると予言してて草生えたわw やはり増井はセーブかホールド機会で 投げさせないとアカンな 平田三塁打→松田犠牲フライで実質 試合終了なものだろ ここで一番温い試合してしまったのは 問題あるわ 増井に不安がある以上マッスルミュー ジカルは覚悟しとかないとな マエケンは7回90球、中4日で決勝先 発は十分ありうる 中村外して中村入れる打線は悪くは ないんだが中田が案の定6番外れたら内 容が悪くなった どうすりゃいいんかね? 今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな いで!
  • 57. 57Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実証実験 〜 プレミア12に関する投稿をまとめてみる 特定の偏ったコメントではなく、満遍なくコメントが拾う事が可能 結果 前田健太はもう決勝投げないだろうな 今日7回まで行かしたってことはそういうこ とだな。 来季メジャーもあるし無理はさせな い。 先発は 大谷と菅野か武田 中継ぎは山崎・則本・牧田 炎上組 松井・増井・西・小川 微妙組 大野・澤村 なんか炎上組は使いたくないし大野 と澤村も内容悪いし やっぱ中継ぎ全然足りてないわ CS見てない人にはわからないかもしれん が、大谷は間隔が空きすぎるとダメになる。 ましてや東京ドームが苦手。 初戦でボコられた韓国サイドは研究に 研究を重ねてリベンジして来ると考えると炎 上して大敗するのが妥当。 よって戦犯大谷ということになる。 まあ、野手が頑張って打撃戦に持ち込 めば話は別だが、相手の先発は何があって も負けないイデウンだから無理でしょう。 仮に大谷が炎上して負けても大谷一 人のせいにしないで欲しいです(涙)。 調整登板させなかった首脳陣にも問題 があるんだから(震え声) ツイッター上のハムファン全員が増井燃え ると予言してて草生えたわw やはり増井はセーブかホールド機会で 投げさせないとアカンな 平田三塁打→松田犠牲フライで実質 試合終了なものだろ ここで一番温い試合してしまったのは 問題あるわ 増井に不安がある以上マッスルミュー ジカルは覚悟しとかないとな マエケンは7回90球、中4日で決勝先 発は十分ありうる 中村外して中村入れる打線は悪くは ないんだが中田が案の定6番外れたら内 容が悪くなった どうすりゃいいんかね? 今まできつい試合ばかりだったからね、こんな試合もたまにはいいでしょ。でも、気は弛めな いで!
  • 58. 58Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 口コミのまとめ MROC(Marketing Research Online Community) ある特定の商品やテーマなど共通の興味を持った人々をメンバー限定のコミュニ ティに招待し、自由にディスカッションしてもらいながら、消費者のニーズを探る調 査手法 どのような事が話されているかを整 理する事が非常に大変 一つのテーマにつき、数百のコメント が付く
  • 59. 59Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 口コミのまとめ アットホームな 式にしたい リゾート挙式が したい 極力シンプルに したい 沢山のゲストに 来て欲しい テーマに対してどのようなコメントが来ているのかをまとめる
  • 60. 60Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出
  • 61. 61Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① 既存の口コミで領域を 作成
  • 62. 62Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① 既存の口コミで領域を 作成
  • 63. 63Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 ① ② 既存の口コミで領域を 作成 新規の口コミをプロット
  • 64. 64Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 実サービスへの展望 〜 新規コメントの抽出 新規の口コミが「新しい内容を含むかどうか」の判別を行う ① ② ③ 既存の口コミで領域を 作成 新規の口コミをプロット 領域に含まれるか否か を判定
  • 65. 65Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめ
  • 66. 66Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本日のまとめ • ユーザーのアクションログをword2vecのインプットに使用し、ア イテムをベクトル化している • ベクトル同士のcos類似度を計算することで、レコメンドエンジン に活用している • ベクトルを足し合わせることでユーザーの志向を捉える事ができ る • 文書要約にdoc2vecを活用している • 定性的に見て、doc2vecを使った文書要約が有用であること が分かった • doc2vecを口コミの整理や、新たなコメントの内容が新規であ るかどうかの判断ロジックとして活用を検討
  • 67. 67Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 今後の展望 リアルタイムでのユー ザー志向分析 グラフ分析及び グラフDBの導入 A B C D E w(t) w(t+1) w(t+5) ・ ・ ・ w(t-1) w(t-5) ・ ・ ・
  • 68. 68Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビジネスを踏まえて 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 戦友をさがしています。 Yes, We Are Hiring! 池田 裕一