Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

A3RT - the details and actual use cases of "Analytics & Artificial intelligence API via Recruit technologies"

621 views

Published on

A3RT - the details and actual use cases of "Analytics & Artificial intelligence API via Recruit technologies"

Published in: Technology
  • Be the first to comment

A3RT - the details and actual use cases of "Analytics & Artificial intelligence API via Recruit technologies"

  1. 1. A3RT The details and actual use cases of “Analytics & Artificial intelligence API via Recruit technologies" 株式会社リクルートテクノロジーズ ITソリューション統括部 ビッグデータプロダクト開発グループ グループマネージャー 石川 信行 石川 信行 Nobuyuki Ishikawa
  2. 2. 2Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 諸注意 本セッションにはHadoop関連のお話はほとんど出てきません。 Hadoopを中心としたデータソース GPU環境を中心としたモデリング層 API環境を中心としてWEBインターフェース層 事業システム A 事業システム B 事業システム C ここの話
  3. 3. 3Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 1 2 A3RT概要 3 4 その他R&Dについて A3RTを支えるインフラ・運用技術 本日の内容 プロダクトとそのユースケース 5 はじめに まとめと今後6
  4. 4. 4Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. はじめに
  5. 5. 5Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 趣味etc 学歴 略歴 所属  リクルートテクノロジーズ ITソリューション統括部 ビッグデータプロダクト開発G グループマネージャー兼アドバンスドテクノロジーラボ  株式会社ミラセンシズ 代表取締役 CEO 神戸大学大学院農学研究科 害虫制御学専攻 リクルート新卒入社8年目。 カーセンサー.netで営業研修、Javaを用いたシステム開発に参加し、その後 Hadoopの導入検証に従事。 主要事業にHadoopを導入したのちビッグデータGに合流。現事業対応リー ダー、画像解析など技術開発に従事。 シニアアーキテクトとしてプロフェッショナル職になった後に、現職。 海水魚飼育 外国産昆虫飼育 スキューバダイビング 自己紹介
  6. 6. 6Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビッグデータ解析部門の組織体制 6 ITソリューション統括部 ・ ・ ・ ビッグデータビジネス コンサルティング グループ ビッグデータ人材領域 グループ ビッグデータ販促・ バイト領域グループ ソリューションを軸 とした予測、BI、競 合分析 人材領域を軸とした 各種レコメンドの開 発 販促・バイトを軸と した各種レコメンド の開発 ビッグデータID・ ポイント領域グループ IDポイントを軸とし た各種レコメンドの 開発 ビッグデータプロダクト 開発グループ ビッグデータインフラ グループ IDポイントビッグ データシステムグルー プ ソリューションを軸 とした各種R&D系 プロダクトの開発 ビックデータ基盤の 構築・運用 ビックデータ部 IDポイントPRJの基 盤の 構築・運用
  7. 7. 7Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RT概要
  8. 8. 8Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ご紹介
  9. 9. 9Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTの導入  リクルートテクノロジーズでは社内での機械学習並びにDeep Learningなどに代表 されるロジックとそのAPIを同一ブランドで統一・整備をし、社内に展開している。
  10. 10. 10Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 構築にいたった理由 フルスクラッチ開発 一番自由度が高く最適な機能が作れる。 一方、一から検討・開発するため、どう しても時間・コストがかかるので、全て のケースに対応できない 他社のAPI群  一部は活用すべきだが、リクルートグ ループでの活用にそのまま使える機能 が不足 【効果的な機能】リクルートグループ特化による効果的なソリューションの開発 【導入しやすさ】リクルート汎用的な機能についてはAPI化 導入の迅速化/低コスト化 【最新技術】 バックエンドのアルゴリズム、インフラ環境も常に最新かつ適 切なものが適用できるよう継続的に検証 【効率など付加価値】オペレーション部分にも最新技術を適応 精度/運用効率向上に向けた取り組みを継続的に実施 (DeepLearningの自動パラメータチューニング機能他)  リクルートグループにおいて機械学習によるソリューション活用の敷居はまだまだ高く、活用をスピー ドアップ・拡大するためには設計~開発~運用に工数が多くかかっていた。  データ活用・ロジック作成に気を取られ、ビジネス活用まで考えがいたらない状況。
  11. 11. 11Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTサービス一覧  A3RTでは現在、下記のようなAPIサービスを整備・開発。  これまでデータ活用が数多く進んでいるカスタマーサイドだけではなく、クライアントサイド、営業 シーン、制作業務などでの利用を想定し、開発を進めている。 レコメンド バナーターゲティング OCR 画像解析 原稿サジェスト 文章校閲文章要約 文章分類 音声テキスト化 屋内位置測位
  12. 12. 12Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. API化による効率化 リクルート内サービス モデル化 API API API モデル・技術共有 コール 再学習
  13. 13. 13Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. プロダクトとそのユースケース
  14. 14. 14Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 今回ご紹介するプロダクト レコメンド 画像解析 原稿サジェスト 文章校閲 屋内位置測位
  15. 15. 15Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. motiv8r-誰でも簡単に利用できるレコメンド用WebAPI  ヒアリングシートに記入するだけで、迅速・簡単・低コストで利用可能なレコメンドAPI  リクルートオリジナルのリアルタイムレコメンドロジックのほか、Word2Vecを用いた レコメンドなどを実装 motiv8rを使って実現できること motiv8r利用の特徴 レコメンド機能をWebAPI形式で お手軽・簡単に実装可能 簡単なヒアリングシート記入で、レコメンド 機能を実装  リアルタイムレコメンドアルゴリズム、Word2Vec を選択できる。  ユーザの閲覧・CVがあるたびAPIにリクエストを 送るだけでリアルタイムにレコメンド内容が変化  差配を重視したアルゴリズムにより、人気アイテ ムに偏ることのないパーソナライズドなレコメンド を実現可能  要件定義にヒアリングシートを送信、Webサイト 側の実装を実施してするだけで利用可能 気軽に リアルタイム レコメンド 差配による パーソナライズ 化 開発工数低 1 2 3
  16. 16. 16Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. RETiMOアルゴリズム 閲覧/応募 ログ レコメンドデータ アイテム アソシエーション INPUT エリア属性 スコア 駅属性 スコア 職種属性 スコア アソシエーション 分析 閲覧/応募スコア 算出 × アソシエーション 分析 閲覧/応募スコア 算出 × アソシエーション 分析 閲覧/応募スコア 算出 × アソシエーション 分析 バッチ処理 バッチ処理 リアルタイム処理 スコア更新 閲覧済原稿削除 UPDATE API Dailyで作成 即更新
  17. 17. 17Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. motiv8r-事例  複数の人材系事業で導入およびその検討が進行中  レコメンドエンジンは、コールドスタートに対応したReTiMOを採用 概要 成果 • 事業サイドの工数を最小限に した手軽な導入を実現 • それまで利用していたレコメンド ツールよりCVR / CTRが大幅に 向上 CVR ReTiMOをレコメンドエンジンとして活用し、探してい る仕事と似ている仕事のレコメンドを実装 約6倍
  18. 18. 18Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは  各単語を表現するベクトルを学習  単語から文書中でその単語の前後に現れる単語を予測できるような表現を学習  単語を表す1-of-k表現のベクトルを入力とし、その単語の前後にある単語の出現確率 を出力とするニューラルネットを学習させ、その中間層の値を単語を表現するベクトルとし て用いる w(t) w(t-1) w(t+1) w(t+2) w(t-2) INPUT PROJECTION OUTPUT INPUT: 単語の1-of-k表現 PROJECTION: 単語 線形変換 階層的 soft-max OUTPUT: 前後の単語の出現確率 𝑝(𝑤(𝑡+𝑖)|𝑤(𝑡)) 目的関数
  19. 19. 19Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecとは While expanding its channel for distribution information from paper publication to the net and mobile, the company has been pushing for a shift of their revenue from … … … while(0.1, 0.4, 0.3, 0.7, …) expanding(0.2, 0.5, 0.7, 0.7, …) its(0.1, 0.1, 0.9, 0.6, …) channel(0.6, 0.4, 0.9, 0.5, …) for(0.5, 0.8, 0.2, 0.1, …) distribution(0.8, 0.4, 0.1, 0.2, …) information(0.3, 0.7, 0.3, 0.6, …) … … … … 文書データ ベクトルデータ word2vec 文書データを元に単語毎のベクトルデータを生成する
  20. 20. 20Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. word2vecのアウトプットデータ アクション ログデータ word2vec itemベクトル データ item類似度 データ cos類似度 user1 item-A item-B item-C… user2 item-D item-E item-F… user3 item-G item-Q item-X… user4 item-L item-K item-V… … … … item-A (0.1, 0.9, 0.6, 0.4, ……) item-B (0.2, 0.5, 0.1, 0.8, ……) item-C (0.7, 0.3, 0.3, 0.4, ……) item-D (0.5, 0.9, 0.8, 0.2, ……) … … … item-A, item-B, 0.976 item-A, item-C, 0.329 item-A, item-D, 0.743 item-A, item-E, 0.552 … … …
  21. 21. 21Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. motiv8r Architecture BigData Team HadoopService Database S3 EMR DynamoDB
  22. 22. 22Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Image Paradise-画像解析処理API Image Paradiseを使って実現できることの一例 Image Paradiseのメイン技術  画像解析処理、主に物体認識をAPIサービスとして提供  画像ベースレコメンドや不適切画像検出、タグ付与などのサービスを提供 画像に何が映っているかを自動で判別する ことで、人力でのタグ付与作業負荷を軽減 今まで付与できなかった新たなタグを振る ことで、よりリッチな検索を実現 1 2 画像から得られる情報(映る物の判別結果や 色)を利用し、画像軸でのレコメンドを実現 不適切画像を定義し、サービスにアップ ロードされる前や直後に検出 3 4 画像を学習し、未知の画像に何が写っているかを判定 猫 犬 虎 ・ ・ ・ ②判別モデル作成 ・ ・ ・ ・・・ ③未知の画像を モデルに投入 猫確率:30% 犬確率:10% 虎確率:60% ④虎が映っている らしいと認識 ①学習用データ用意 画像解析に特化したDeep Learningの手法の一種であ るCNN1)を活用 1) Convolutional Neural Network の略
  23. 23. 23Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Image Paradise-事例①(ギャザリー 不適切画像検知)  ギャザリーは、キュレーションメディアであり、カスタマーが自由に記事を作成でき、自身の意思で画像も 投稿することが可能  エロ/グロなどの不適切な画像の検閲を人目で全て行うのは工数が膨大にかかるため、これを機械で代替する 1) Convolutional Neural Network の略 技術概要 実現方法 DeepLearningを活用し、画像を定量化す るロジックを用いて、 Safe/Sexual/Glotesqueをラベル分け 2段階の判別を採用。最初の判別でラベルの 想定結果を重み付けする機能※により、精 度が約95%まで向上 ※…二段階の想定結果重み付けロジックは、現在 特許出願中 3万300枚/時以上の速度で、 画像のラベル分けが可能 ① 大量のエロ/グロ/ノーマル画像を収集 ・ ・ ・ ② 判別モデル作成 ③ 未知の画像をモデルに通し、エロ/グロ確率を算出 グロ確率 89% !! この画像は優先して チェックしてください!
  24. 24. 24Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Image Paradise-事例② カーセンサー 色タグ付与 • カーセンサーでは、一物件 につき、20枚くらいの画像 が存在 • これに外装・トランク・ダッ シュボード・内装・その他な どラベルを振り、内装判別 用のモデルを作成 内装の確率が一番高い 画像を探索 色を抽出して、最も広範囲に利用 される色をシートの色として判別 範囲が多い順に ・ライトブルー ・黒 ・・・ →シート色のタグとして、 「ライトブルー」を付与! 学習データ収集 内装画像探索 内装色判別 内装判別をするための学習データ 収集 1 2 3  「メディアで不足・もっと見たかったクルマの情報」を調査したところ、1位が「クルマの内装の写真」であること、 また、約 35%の回答者が、中古車の「内装」を重視してクルマ選びをしていることが判明  一方で既存メディアには内装色で検索という機能が存在しない
  25. 25. 25Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Image Paradise-事例③ 自動車車種判定  自動車を良く知らない初心者の人間にとって、車種や自動車メーカーの名前を知ることは難しく、 より直感的に自動車を探すことができるインターフェースが必要と想定  画像判別により車種を判別できる機能を開発し、初心者フレンドリーなインターフェースを実現  判別精度は人気車種上位30種類において90%以上にものぼる 既存の検索導線へ
  26. 26. 26Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. neon-リクルート保持の原稿からテキストを自動生成するシステム  リクルートが保持している原稿をDeepLearning(DeepLSTM)を使って学習し、原稿を生成 するシステム  原稿を書いている時に書き方がわからない、次に何を書けばいいか詰まってしまった、という 場合など人の思考補助を行う意味合いでの利用を想定 neonを使って実現できること 機能イメージ サンプル原稿を 自動で作成する機能 ライティング中に次に 何を書けばいいのか 教えてくれる サジェスト機能 1 2 過去数年分の事業のクライアント原稿をインプットとしてモデルを作り、 例えば職種やエリアを指定して送ればそれにあうベストな原稿を自動で 生成して返してくれる機能 原稿作成時にフォーム上に入力した文字列をAjax通信で送ると次の一語/フレーズ /文章を推薦してくれるサジェスト機能
  27. 27. 27Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. neonのデモ
  28. 28. 28Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ArGON-ルールベースと機械学習のハイブリッドで校閲支援API  リクルートにおける「原稿」は商品そのもの。これに間違いがあると大きな機会損失となる  ルールベースによる校閲機能だけでなく、ルールのカスタマイズや最新の機械学習技術も実装しているた め、使えば使うほど賢く校閲を実施できる ルール ベースによる 校閲機能 機械学習 による 校閲機能 ルール カスタマイズ 機能 ArGONを使って実現できること ArGONの機能 原稿の中の、誤字 脱字、NGワードなど を自動で検出 大量の原稿全てに対するチェックを自動化 • 入稿者、校閲者の負担軽減/コスト削減 • 本当に人間の目が必要となるところに パワーを割くことが可能に 汎用性の高い校閲ルール 例) ・住所の間違い判定 ・郵便番号の存在チェック ・電話番号の桁数チェック ・NGワードの検出 ルールベースで実現出来ない部分を補 う機械学習 例) ・誤字脱字の検出 ・差別表現の判定 ・NGとなりそうなワードの組み合わせサジェスト 管理画面から独自のルール登録が可能 誰でも簡単にルールを 追加
  29. 29. 29Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 校閲支援API ArGONのロジック  誤字脱字検知のロジック - Gated Recurrent UnitsというDeep Learning技術を使用 - Residual Learningの要素を取り入れ、精度は85%-90% 正しい文章を大量に学習させ、異常検知的に誤字脱字を検出する
  30. 30. 30Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ArGonのデモ
  31. 31. 31Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. その他R&Dについて
  32. 32. 32Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Video Analysis-動画の解析API  これまでの画像、テキストの解析技術を生かし、動画中の人や物を認識しタグ付けするAPIを開発  将来的に、動画コンテンツが増加していくことを見込んでの先行開発 Video Analysisを使って実現できること Video Analysisイメージ 動画中の人物の表情の変化(喜怒哀楽)を 可視化 • タグだけではなく、各物体の特徴量も同時 に抽出できるため、動画の分類やクラスタ リングも行うことも検討 • また動画を静止画像の集合とみなし、それ ぞれのコマ・シーンごとにタグ付けなども 検討 面接動画の解析や、動画による求人広告の作 成などへの活用も考えられる 動画にどんな物体が映っているか を認識 動画中の人物の表情の変化 (喜怒哀楽)をタグ付け 1 2
  33. 33. 33Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. R&Dによるデータ解析活用ポリシー etc  内製開発、ロジック作成やオープンソース利用のみが、技術によるビジネス貢献ではない  常に情報を探り、集め、あらゆる手段でデータ解析をビジネス貢献の手段として確立させるようベストを尽くす必要がある Etc…
  34. 34. 34Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. スタートアップ協業シリーズ  海外出張によって訪問した現地(イスラエル・US)の先進スタートアップ企業とディスカッション。  プロダクト利用だけではなく、協働検証・開発なども行っている。 目的 インフラ オペレーションAI 類似画像 アフィリエイト 屋内位置情報測位 説明会などイ ベントでの流 量分析想定 ビッグデータ 部内部Hadoop 環境での利用 画像を生かし た媒体間の クロスユース 屋内位置情報取得 によるカスタマー 情報リッチ化 社内インフラ運用 のモニタリングを 知見習得? インターネット中 の画像を集客元に 社内検証
  35. 35. 35Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Cotori –屋内位置測位  GPSではできない屋内の測位を正確に行うSDK  屋内でGPSと同じようにトラッキングをしたり、非常に小さ いジオフェンスを貼ることが可能  またwifiや地磁気の情報を使用するため非常に省電力で動く ことが特徴  オフラインイベントなどでの解析に利用できないかを検討中 ×
  36. 36. 36Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTを支えるインフラ・運用技術
  37. 37. 37Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 共通インフラ機能  グループ内の共通機能を集約し、個別運用による構築負荷/運用負荷・インフラコストを削減 構成イメージ 監視画面イメージ RAFTEL ・・・・・ ProductA ProductZ Cloud API worker1 worker2 API Cloud API worker1 worker2 API Batch proxy Auth A3RT Admin Platform 認証 monitor バッチ処理
  38. 38. 38Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. A3RTのAPI基盤 Why AppEngine? • スケーラビリティ • A/Bテスト基盤 • NoOps • BigQuery連携 • 共通API Endopoint LogStorage
  39. 39. 39Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 半教師有り学習による精度向上 • VATを用いた半教師有り学習 • 半教師有り学習:少量の教師付きデータと大量の教師なしデータを用いて、比較的高精度のモデル 作成する手法。 mnist[0~9の手書きデータ]を利用し、 以下を検証。 ・60000万枚の画像を学習に使った精度 ・各枚数を学習に利用した時の精度 ・各枚数を教師有り、残りを教師なしと して学習した精度 教師有りを600枚使っただけで、ほぼ 60000枚全て利用した時と同様の精度が 得られていることがわかる。 学習利用枚数 誤 差 率 (%) 大量の画像全てに正解ラベルを付与しなくても良い。 よって、学習データの収集コストが大幅に下がることが期待できる。
  40. 40. 40Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 自動ハイパーパラメータチューニングによる工数削減 • DFO[Derivative Free Optimization]を用いたパラメータチューニング • DFO:目的関数を直接微分不可能なパラメータに対し、その値をずらして誤差率が下がる方向へパラメータを調整 して最適解を得る手法 誤差率をクロスエントロピーで求める場合、右の式となる。 ykは、W,Bから求められるため、WやBでの微分は可能。 ただし、それ以外の学習率などといったパラメータでの 微分は不可。これらのパラメータを少しずつずらし、誤差率の極小値を探索する方法。
  41. 41. 41Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. まとめと今後
  42. 42. 42Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. データ解析の利用シーン拡大 customer Client Attracting customers Select Action Effect Information published Target client Matching  cross tabulation  Recommendation  Image search  Advertising expenses optimization  Ad Targeting  Manuscript reviewer  Auto review  Article creation support  Sales support  Competitive analysis
  43. 43. 43Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. Diversified data analysis  In addition to recommendation and report, there are more and more new genre data analysis solutions of "human work alternative" Profit contribution Cost reduction Recommendation Report Indicator/Purpose  CVR maximization  CPA optimization Indicator/Purpose  Optimization  Next year’s strategy making Indicator/Purpose  Reduction of waste  Reduction of man hours  Having people be more creative Work alternative (AI domain)
  44. 44. 44Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ブレイン・マーケット構想 特徴・パターン抽出 モデル 判断 ・推薦 ・予測 ・分類 etc 営業の優良クライアント判断モデル 会社独自の人材採用判断モデル 良い原稿制作モデル etc これまで人が判断してきた正解データ
  45. 45. 45Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. イノベーションコミュニティの形成 技術力 施策接続 コミット力 情報力
  46. 46. 46Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. 大切にしたいこと データの活用周りの商品(エンタープライズ、オープンソース問わず)、 ロジック、活用事例などの最新情報をなるべくキャッチしておく。 どんなデータでも扱えるように知見を集約しておく、難しい技術や課題 にも積極的にチャレンジしていく。 コードのオープンソース化が進み、競合優位要因が「コード保有」から 「データ保有」「施策接続力」にパラダイムシフト。ビジネスの感覚も忘れ ずに、事業と二人三脚で案件を進める。 1 2 3
  47. 47. 47Copyright © Recruit Technologies Co., Ltd. All Rights Reserved. ビジネス利用をとことん見据え 泥臭くかつアグレッシブに 分析・エンジニアリングが できる方。 ご連絡ください。 右腕探しています。 石川 信行 Nobuyuki Ishikawa Yes, We Are Hiring!
  48. 48. ご静聴ありがとうございました リクルートテクノロジーズ

×