Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

リクルートにおけるマルチモーダル Deep Learning Web API 開発事例

20,446 views

Published on

2017/01/27 PyData.Tokyo Meetup #12 -強化学習での、舟木の講演資料になります

Published in: Technology
  • Be the first to comment

リクルートにおけるマルチモーダル Deep Learning Web API 開発事例

  1. 1. リクルートにおける マルチモーダル Deep Learning Web API 開発事例 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータプロダクト開発グループ 舟木 類佳
  2. 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 自己紹介
  3. 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 仕事 所属 氏名 RTC ITソリューション統括部 ビッグデータ部 ビッグデータプロダクト開発G 舟木 類佳(ふなき るか) 東京大学大学院情報理工学系研究科 創造情報学専攻 中山英樹研究室 新卒入社1年目 7月配属 uMean プロダクトオーナー 音楽(ピアノ・ドラム・作曲) 自己紹介
  4. 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. アジェンダ  リクルートについて  A3RTについて  マルチモーダル学習とは  開発事例の紹介  まとめ
  5. 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートについて
  6. 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートのビジネスモデル クライアントとカスタマーをつなぐサービスを提供
  7. 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートの事業領域 「選択」 をサポートするような情報サービスを展開 Life event area Lifestyle Area Travel IT/ TrendLifestyle Health & Beauty Job Hunt Marriage Job Change Home Purchase Car Purchase Child Birth Education
  8. 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. リクルートテクノロジーズの立ち位置 リクルートホールディングスは7つの主要事業会社と3つの機能会社から成り立っている。 Infrastructure Large project promotions UI design/SEO Big Data Department Technology R&D IT Promotion Recruit Holdings Recruit Career Recruit Sumai Company Recruit Lifestyle Recruit Jobs Recruit Staffing Recruit Marketing Partners Staff service Holdings Recruit Technologies Recruit Administration Recruit Communications Operation Service
  9. 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ解析部門の組織体制 ビジネス コンサルティング グループ 人材領域グループ 販促・バイト領域 グループ ソリューションを 軸とした予測、 BI、競合分析 人材領域を軸とした 各種レコメンドの 開発 販促・バイトを 軸とした各種 レコメンドの開発 ID・ポイント領域 グループ IDポイントを 軸とした各種 レコメンドの開発 プロダクト開発 グループ インフラグループ IDポイント ビッグデータシステムグルー プ ソリューションを 軸とした各種R&D系 プロダクトの開発 ビックデータ基盤の 構築・運用 IDポイントPRJの 基盤の構築・運用 ビックデータ部
  10. 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTについて
  11. 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTって何?  Deep Learningなどに代表される 機械学習ロジックとそのAPIを A3RTというブランドで統一し、社内に展開
  12. 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT のプロダクト  データ分析や機械学習を社内向けに提供する APIプロダクト
  13. 13. 〜マルチモーダル機械学習を利用した 画像・テキストによる相互検索API〜
  14. 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル学習とは
  15. 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 人の五感  体にはたくさんのセンサーが張り巡らされている 味覚 触覚 嗅覚 視覚 聴覚
  16. 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 人は複数の情報の関係性を知っている  人は経験的複数の感覚を雨という概念と結びつけている 雨の音を 聞く 雨を見る 濡れる雨の匂い を嗅ぐ 雨だ!(知覚)
  17. 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. コンピューターはわからない 17 0101010101010101 0101010101010101 0101010101010101 0101010101010..... ハワイに行きました。 海がとても青くて 陽の光が眩しかったです。 0101010101010101 0101010101010101 0101010101010101 0101010101010..... Icon: http://www.icondrawer.com/ 画素データ 文字列データ 画素データの 数値列 文字コードの 数値列 0101010101010101 0101010101010101 0101010101010101 0101010101010..... 波の音 波形データ 関係は?? 波データの 数値列
  18. 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル学習は情報間の隔たりを埋める 画像 テキスト 画像とテキストの セマンティックギャップ (意味的隔たり) コンピューターの世界 0101010101010101 0101010101010101 0101010101010101 0101010101010..... 0101010101010101 0101010101010101 0101010101010101 0101010101010..... ハワイに行きました。 海がとても青くて 陽の光が眩しかったです。 Icon: http://www.icondrawer.com/
  19. 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 学習に必要なデータ  画像と画像に対する説明文のペアさえあれば学習可能 こういう画像はこういうテキスト 関係性を学習 クリスマスにワイングラスで乾杯。 赤い薔薇とオシャレなテーブル セッティングで素敵なディナーを お召し上がりください。
  20. 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 結合空間へのデータのマッピング  マルチモーダル学習は結合空間に複数の情報が関連性が高いも のを近くにマッピングするように学習する 距離が近ければ関連性が高い ・画像a x4 x1 ・画像b x2 x3 xd ︙ ・テキストc ・テキストd 結合空間 x4 x1 x2 x3 xd ︙ ・画像b ・画像a 画像空間 x4 x1 x2 x3 xd ︙ ・テキストd ・テキストc テキスト空間
  21. 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 2つのDEMO  Map DEMO  対話DEMO
  22. 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. uMeanでできること〜「画像⇔テキスト」相互検索 画像 ............. 画像からテキスト: 画像から連想する テキストを検索する テキストから画像: テキストから連想する 画像を検索する テキスト 画像から画像: 画像から 類似する画像を検索する テキストからテキスト: テキストから 類似するテキストを検索する
  23. 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. もっと赤い uMeanでできること〜もっと検索 もっと検索 画像 画像
  24. 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. イメージを近づけていく 欲しかったもの かわいい かっこいい 和風 洋風
  25. 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 開発事例の紹介
  26. 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 7月に配属されてから行った多岐にわたる仕事  商品企画  データ解析  バックエンド開発  フロントエンド開発  インフラ開発  一緒に働く人探し、面接  売り込み  チームマネジメント  事業会社との調整
  27. 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本番環境 http request Elastic Load Balancing prd_umean_web2 API サーバー prd_umean_web1 API サーバー Amazon Route 53 Internet umean_manager Jenkins サーバー umean_batch Batch サーバー prd-umean fabric ②学習 ①学習データをコピー ③モデル配布 モデル ファイル モデル ファイル 画像情報 テキスト情報 APIアーキテクチャ
  28. 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本番環境 http request Elastic Load Balancing prd_umean_web2 API サーバー prd_umean_web1 API サーバー Amazon Route 53 Internet umean_manager Jenkins サーバー umean_batch Batch サーバー prd-umean fabric ②学習 ①学習データをコピー ③モデル配布 モデル ファイル モデル ファイル 画像情報 テキスト情報 Web APIサーバー
  29. 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Webサーバー カスタマー APIサーバー マルチモーダル学習 プログラム uWSGI protocol WSGIサーバー Webサーバー Internet
  30. 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. webフレームワークの選択  Django等のフレームワークは今回の機械学習API に対しては多機能すぎた  BottleやFlaskで十分  今回はBottleを選択  軽量フレームワークを利用することで 早い開発スピードが実現できた
  31. 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 本番環境 http request Elastic Load Balancing prd_umean_web2 API サーバー prd_umean_web1 API サーバー Amazon Route 53 Internet umean_manager Jenkins サーバー umean_batch Batch サーバー prd-umean fabric ②学習 ①学習データをコピー ③モデル配布 モデル ファイル モデル ファイル 画像情報 テキスト情報 バッチアーキテクチャ
  32. 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. マルチモーダル学習アルゴリズム  今回検討したアルゴリズム  正準相関分析(CCA: Canonical Correlation Analysis)  Visual-Semantic Embedding(VSE)
  33. 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 正準相関分析(CCA)  相関が最大になるように射影する (相関が高くなることはすなわち距離が近くなる) x = (x1, … xp), y = (y1,…,yq)z = aT (x − x) w = bT (y − y) テキスト特徴空間画像特徴空間 結合空間
  34. 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Visual Semantic Embedding 内部状態 Vh をこのキャプションの表現とする。 損失関数 "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models" (Kiros, Salakhutdinov, Zemel. 2014). 文章情報 画像情報
  35. 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. CCAとVSEのどちらが良いか  CCAよりもVSEの方が精度が高いためVSEを選択  しかし、VSEの場合は内積による最適化なので、 単純なユークリッド距離計算ができない (線形計算ができない)ので工夫が必要だった ・画像a x4 x1 ・画像b x2 x3 xd ︙ ・テキストc ・テキストd 結合空間 ※コサイン距離でしか測れない
  36. 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像とテキストのペアを学習する 秋を感じる黄色いコスモスが風に なびいて・・・ 紅葉した木々がきれいな森林 で・・・ オーシャンブルーの海が広がる 沖縄の観光スポット・・・ 青々と茂る大根畑が・・・ ︙ ︙ 画像 キャプション
  37. 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 学習と検索の流れ テキスト Caffeによる 特徴抽出 MeCabによる 形態素解析 画像特徴 VSE 分かち書きテキスト ピクセルデータ 文字列データ テキスト テキスト Caffeによる 特徴抽出 MeCabによる 形態素解析 Image encoder 画像特徴 Sentence encoder VSE分かち書きテキスト ピクセルデータ 文字列データ マルチモーダル空間 における画像特徴 最近傍探索 (コサイン 距離) 学習 モデル 学習 検索 学習画像 学習テキスト テキスト テキスト テキスト 検索画像 検索テキスト マルチモーダル空間 におけるテキスト特徴
  38. 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 文章(または単語)からの画像検索 Image encoder Sentence encoder VSE 最近傍探索 (コサイン距離) テキスト クエリテキスト image_feature.npy sentence_feature.npy マルチモーダル空間 における画像特徴 マルチモーダル空間 におけるテキスト特徴 画像リスト ※クエリテキストは文章でも単語でもよい。 単語は1文字から成る文章と考える。 マルチモーダル空間 における画像特徴 マルチモーダル空間 におけるテキスト特徴
  39. 39. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像から単語の検索 Image encoder Sentence encoder VSE マルチモーダル空間 における画像特徴 ? アップロード画像 image_feature.npy sentence_feature.npy 単語リスト ? 予め用意された単語データはないが、 どのようにすればよいか?
  40. 40. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像から単語の検索  一番良かった方法(アドホックな方法) 単語を TF-IDF順に ソートして 上位を取得 画像に近い文章を20件検索してくる
  41. 41. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 画像から単語の検索 Image encoder Sentence encoder VSE マルチモーダル空間 における画像特徴 最近傍探索 (コサイン距離) アップロード画像 image_feature.npy sentence_feature.npy マルチモーダル空間 におけるテキスト特徴 20件 TF-IDF 計算 単語リスト
  42. 42. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. もっと検索(画像に単語を足す) ・赤い 単純な方法はうまくいかなかった ↓出てこない
  43. 43. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. もっと検索  画像からテキストを10個検索してきて文頭に 「もっと○○」に当たる用語を追加する  その後、センテンスエンコーダーに入力してきて平均を取ることで画 像を検索する +赤い +赤い +赤い +赤い +赤い Sentence Encoder 平均 目的の 画像ベクトル バラが敷き詰められた・・・赤い + 文字列の結合
  44. 44. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめ  マルチモーダル機械学習を利用した画像・テキスト相互検索API、 「uMean」を開発した。  マルチモーダル学習を用いることでこれまでに 出来なかったような新しい探し方ができるようになった。  それを実現するために、アドホックな方法を含め、 色々な方法を試すことが必要だった。  今後もマルチモーダル空間を利用して様々な検索方法ができるよ うに改良していきたい。
  45. 45. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 私達は一緒に働く人を求めています 新しいテクノロジーを利用して ものづくりがしたい人は 是非、一緒に働きましょう!! リクルートテクノロジーズ 舟木 類佳(ふなき るか) ruka_funaki@r.recruit.co.jp 連絡先

×