(C) Recruit Technologies Co.,Ltd. All rights reserved.
R-tech BDGにおける
自然言語処理活動
Viviane Oliveira
R-tech ITソリューション統括部
ビッグデータ3G
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department自己紹介
2
氏名 Viviane Oliveira (ヴィヴィアネ オリヴェイラ)
所属 リクルートテクノロジーズ ITソリューション統括部
ビッグデータ3G
横断プロジェクト
略歴 2013年 Panasonic R&D新卒入社: 音声対話、自然言語処理
2015年2月 RTECH入社:データ分析、自然言語処理
学歴 2010年 リオ・デ・ジャネイロ連邦大学を卒業(情報工学科)
2013年 名工大大学院卒業(創成シミューレション工学専攻)
専門分野:音声認識・合成
趣味 読書、外国語、映画鑑賞、旅行
出身 リオ・デ・ジャネイロ、ブラジル
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentRecruit’s Business Model
Recruit operates various matching business dominantly in Japan.
Matching
Business
HR
Bridal
Group
Buying
Used
Cars
Travel
Real
Estate
Beauty Gourmet
Social Games
E-Commerce
Ad Network
New Business
Consumers Enterprise
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentThe Recruit Group
4
Infrastructure
Large project
promotions
UI design/SEO
Big Data
Department
Technology R&D
IT Promotion
Recruit Co., Ltd is a group business with 7 operation companies and 3 service companies
Recruit
Holdings
Recruit Career
Recruit Jobs
Recruit Staffing
Staff service Holdings
Recruit Sumai Company
Recruit Marketing Partners
Recruit Lifestyle
Recruit Technologies
Recruit Administration
Recruit Communications
Service
Operation
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentアジェンダ
1
2
3
4
プロジェクト紹介
本プロジェクトにおけるテキスト解析
本プロジェクトの結果
まとめと今後の取り組み
(C) Recruit Technologies Co.,Ltd. All rights reserved.
1.プロジェクト紹介
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentリーン方式のソリューション提供
7
構築する
計測する
学ぶ
アイデア
製品データ
フィード
バックに
かかる時間
を最小に
初期投資を低く抑え、最低限の機能を持った製品を作る。それ
を少数の顧客で試して反応を見る。
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department提供ソリューションの概要
雰囲気で検索
 こんなカスタマーを対象に:
 インタフェースが複雑すぎて、情報を絞り
きれていない
 既存の検索ツールで、欲しい情報にたどり
着けない
直感的なイメージキーワードを元にした情報検索の仕組みに
より離脱率低下と、アクション数向上を狙う。
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentMVP概要
カーセンサーのスマホページに導入
9
第1層
トップページ
第2層
キーワード選択画面
第3層
タグ付け車種一覧
(C) Recruit Technologies Co.,Ltd. All rights reserved.
2.本プロジェクトにおける
テキスト解析
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentソリューション概念
 What:自動車を雰囲気で検索
 How:雰囲気KWを元に車種にTAG
 Method: 車種口コミのテキスト解析
 Data: CarSensorの車種口コミ
(2015年3月時点)
11
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department車種の口コミ(ドキュメント)分析
ドキュメントの単語頻度を確認し、車種
の特徴を表す人気なKWを抽出
12
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93
DocumentFrequency
Words
スペック、見た目、コストに
関するKWが多い
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department車種のTAGGING手順
13
TF-IDFスコア
抽出
かかり受け
解析
前処理
極性確認 TAGつけ
文書分離
StopWordやsymbolの削除
形容詞グループ化
車種レビューごとの
重要単語を抽出(5-best )
タッグの適切さを確認キーワードに関する
ネガティブ評価を確認
ルールベースのタッグつけ
車種口コミデータ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department前処理
生のテキストデータをクリーニングし、
解析用の入力データを作成
1. 文書を分離
2. Stopwordやシンボルを削除
3. 形容詞のバリエーションをグループ化
例:かわいい、可愛い、可愛らしい等
14
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentTF−IDFスコア抽出
Document=車種口コミの内、重要で
ある単語=キーワードを抽出
15
Term Frequency:
Inverse Document
Frequency:
TF-IDFのスコアから車種の雰囲気並び順を決定
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentTAGの適切さ確認
例:広い
例1:室内空間が広いので、ファミリー向けの車だ
と思います。
例2:小回りが利いて荷室が広かったので街乗りよ
うにはちょうどいいと思います。
例3:車内はあまり広くないですが、それ以外は特
に問題はないのでいいと思います。
16
かかり受け解析から、TAGの適切さを決定
さらに、Pos,Negの極性でTAGの適切さを決定
対象外
→非常に適切
→適切
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA DepartmentTAGつけ手順(まとめ)
17
ドキュメントの5-bestリストに現れたキーワードを
タッグの対象とする
KWが含まれた文書を確認し、TAGの適切さを
確認 全体の極性を計算
かかり受けで重みを決
定
TFIDFのスコアを元に最終スコアを算出
形容詞と名詞のみ
かわいい
(C) Recruit Technologies Co.,Ltd. All rights reserved.
3.本プロジェクトの結果
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department雰囲気キーワードランキングの例
19
かわいい車種ランキング カッコいい車種ランキング
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentキーワードごとの車種数
20
カッコいい 広い 懐かしい
KW 車種数
乗り心地いい 390
広い 390
カッコいい 231
おしゃれ 289
パワフル 100
かわいい 79
速い 41
懐かしい 18
軽い 10
かわいい
(C) Recruit Technologies Co.,Ltd. All rights reserved.
4. まとめと今後の取り組み
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Departmentまとめ
 自然言語処理のソリューションを事業
に導入した
 リーンスタートアップ形式のプロセスで、
ソリューションの影響を計測中
 曖昧なキーワードを用いることで検索が
できるため車種にTAGをつけた
 口コミデータを元にタッグを代表とした車種
を決定
22
(C) Recruit Technologies Co.,Ltd. All rights reserved.
BIG DATA Department今後の取り組み
 ユーザ属性の細かい調査を実施
 他事業展開
 TAGGINGの対象を変更し、反応を確認
 複雑なKWに対応(n-gramなど)
 TAGGINGの自動化
23

R-tech BDGにおける自然言語処理活動

  • 1.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. R-tech BDGにおける 自然言語処理活動 Viviane Oliveira R-tech ITソリューション統括部 ビッグデータ3G
  • 2.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department自己紹介 2 氏名 Viviane Oliveira (ヴィヴィアネ オリヴェイラ) 所属 リクルートテクノロジーズ ITソリューション統括部 ビッグデータ3G 横断プロジェクト 略歴 2013年 Panasonic R&D新卒入社: 音声対話、自然言語処理 2015年2月 RTECH入社:データ分析、自然言語処理 学歴 2010年 リオ・デ・ジャネイロ連邦大学を卒業(情報工学科) 2013年 名工大大学院卒業(創成シミューレション工学専攻) 専門分野:音声認識・合成 趣味 読書、外国語、映画鑑賞、旅行 出身 リオ・デ・ジャネイロ、ブラジル
  • 3.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA DepartmentRecruit’s Business Model Recruit operates various matching business dominantly in Japan. Matching Business HR Bridal Group Buying Used Cars Travel Real Estate Beauty Gourmet Social Games E-Commerce Ad Network New Business Consumers Enterprise
  • 4.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA DepartmentThe Recruit Group 4 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Co., Ltd is a group business with 7 operation companies and 3 service companies Recruit Holdings Recruit Career Recruit Jobs Recruit Staffing Staff service Holdings Recruit Sumai Company Recruit Marketing Partners Recruit Lifestyle Recruit Technologies Recruit Administration Recruit Communications Service Operation
  • 5.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Departmentアジェンダ 1 2 3 4 プロジェクト紹介 本プロジェクトにおけるテキスト解析 本プロジェクトの結果 まとめと今後の取り組み
  • 6.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. 1.プロジェクト紹介
  • 7.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Departmentリーン方式のソリューション提供 7 構築する 計測する 学ぶ アイデア 製品データ フィード バックに かかる時間 を最小に 初期投資を低く抑え、最低限の機能を持った製品を作る。それ を少数の顧客で試して反応を見る。
  • 8.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department提供ソリューションの概要 雰囲気で検索  こんなカスタマーを対象に:  インタフェースが複雑すぎて、情報を絞り きれていない  既存の検索ツールで、欲しい情報にたどり 着けない 直感的なイメージキーワードを元にした情報検索の仕組みに より離脱率低下と、アクション数向上を狙う。
  • 9.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA DepartmentMVP概要 カーセンサーのスマホページに導入 9 第1層 トップページ 第2層 キーワード選択画面 第3層 タグ付け車種一覧
  • 10.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. 2.本プロジェクトにおける テキスト解析
  • 11.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Departmentソリューション概念  What:自動車を雰囲気で検索  How:雰囲気KWを元に車種にTAG  Method: 車種口コミのテキスト解析  Data: CarSensorの車種口コミ (2015年3月時点) 11
  • 12.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department車種の口コミ(ドキュメント)分析 ドキュメントの単語頻度を確認し、車種 の特徴を表す人気なKWを抽出 12 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 DocumentFrequency Words スペック、見た目、コストに 関するKWが多い
  • 13.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department車種のTAGGING手順 13 TF-IDFスコア 抽出 かかり受け 解析 前処理 極性確認 TAGつけ 文書分離 StopWordやsymbolの削除 形容詞グループ化 車種レビューごとの 重要単語を抽出(5-best ) タッグの適切さを確認キーワードに関する ネガティブ評価を確認 ルールベースのタッグつけ 車種口コミデータ
  • 14.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department前処理 生のテキストデータをクリーニングし、 解析用の入力データを作成 1. 文書を分離 2. Stopwordやシンボルを削除 3. 形容詞のバリエーションをグループ化 例:かわいい、可愛い、可愛らしい等 14
  • 15.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA DepartmentTF−IDFスコア抽出 Document=車種口コミの内、重要で ある単語=キーワードを抽出 15 Term Frequency: Inverse Document Frequency: TF-IDFのスコアから車種の雰囲気並び順を決定
  • 16.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA DepartmentTAGの適切さ確認 例:広い 例1:室内空間が広いので、ファミリー向けの車だ と思います。 例2:小回りが利いて荷室が広かったので街乗りよ うにはちょうどいいと思います。 例3:車内はあまり広くないですが、それ以外は特 に問題はないのでいいと思います。 16 かかり受け解析から、TAGの適切さを決定 さらに、Pos,Negの極性でTAGの適切さを決定 対象外 →非常に適切 →適切
  • 17.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA DepartmentTAGつけ手順(まとめ) 17 ドキュメントの5-bestリストに現れたキーワードを タッグの対象とする KWが含まれた文書を確認し、TAGの適切さを 確認 全体の極性を計算 かかり受けで重みを決 定 TFIDFのスコアを元に最終スコアを算出 形容詞と名詞のみ かわいい
  • 18.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. 3.本プロジェクトの結果
  • 19.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department雰囲気キーワードランキングの例 19 かわいい車種ランキング カッコいい車種ランキング
  • 20.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Departmentキーワードごとの車種数 20 カッコいい 広い 懐かしい KW 車種数 乗り心地いい 390 広い 390 カッコいい 231 おしゃれ 289 パワフル 100 かわいい 79 速い 41 懐かしい 18 軽い 10 かわいい
  • 21.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. 4. まとめと今後の取り組み
  • 22.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Departmentまとめ  自然言語処理のソリューションを事業 に導入した  リーンスタートアップ形式のプロセスで、 ソリューションの影響を計測中  曖昧なキーワードを用いることで検索が できるため車種にTAGをつけた  口コミデータを元にタッグを代表とした車種 を決定 22
  • 23.
    (C) Recruit TechnologiesCo.,Ltd. All rights reserved. BIG DATA Department今後の取り組み  ユーザ属性の細かい調査を実施  他事業展開  TAGGINGの対象を変更し、反応を確認  複雑なKWに対応(n-gramなど)  TAGGINGの自動化 23