自動応答Agent開発の取組み

906 views

Published on

第5回 Machine Learning 15minutes!(2016/10/22)での登壇資料

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
906
On SlideShare
0
From Embeds
0
Number of Embeds
712
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

自動応答Agent開発の取組み

  1. 1. 1© 2016 OKWAVE 自動応答Agent開発の取組み(の一部) 株式会社オウケイウェイヴ 研究開発本部 AIラボグループ 深見俊和
  2. 2. 2© 2016 OKWAVE 誰? 深見 俊和 テキストデータ中心に機械学習・AI関連の 研究に従事 プロフィール ・大学 電気系 ・大学院 計算理工学専攻 データマイニングとか機械学習とか ・前職 某電気メーカ ・液晶パネルの検査工程担当 ・2年目に本社に異動してM&A業務 ・現職 2年ほどテキストマイニングして今の業務に移行 ・趣味 読書、野球観戦
  3. 3. 3© 2016 OKWAVE OKWAVEって? 此処広告枠 ユーザ同士が質問・回答を行うQ&Aサイト運営する会社 最近ではメーカ関係者など専門家も回答に参加 恋愛からIT関係までありとあらゆる質問に対応
  4. 4. 4© 2016 OKWAVE なんでAI、機械学習? 「蓄積されたQ&Aデータを知識化して回答させよう」 此処広告枠 サービス開始17年目に突入 蓄積した質問:800万件以上、回答:2,700万件以上 ※2016年10月現在
  5. 5. 5© 2016 OKWAVE まずはデータを知るところから 性別 年齢 職業
  6. 6. 6© 2016 OKWAVE まずはデータを知るところから 1,000を超えるカテゴリ数 選択は全てユーザまかせ
  7. 7. 7© 2016 OKWAVE • 文章中から共に使われることの多い単語のまとまりを抽出 話題抽出技術(Topic Model) 青い文字と赤い文字が多 いので「遺伝子」の「研 究」についての文章
  8. 8. 8© 2016 OKWAVE LDAのありがたさ • 特徴ワードが把握できるのでクラスタ(トピック)の解釈が容易 • 新たな文章が所属するトピックを推定できる • できあがるトピックの精度が非常に高い(重要) LDA文章 Data New Data 代表ワード 紐付く文章 Topic1 Topic2 Topic3 Topic1 : xx% Topic2 : yy% 推定 … 文章 data1 文章 data2 文章 data3
  9. 9. 9© 2016 OKWAVE 10代女性の質問抽出(16年分) Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 生理 痛み 女子 サイト 電話 足 受験 夢 髪 気になる 妊娠 薬 バイト 場所 名前 服 志望 携帯 水 声 検査 胸 高校生 パソコン 子供 体重 中学 キス 部分 絶対 血 病気 色 購入 内容 明日 合格 口 セックス 部活 出血 お腹 学生 ピアス ネット 効果 専門 鼻 文 私 指 耳 アルバイト 表示 女の子 運動 将来 外 綺麗 猫 吐き気 音 大学生 写真 大好き M 一 手術 私立 クラス トイレ 病院 面接 検索 身長 ソフト 試験 診断 嫌い 結婚 量 汗 中学生 画像 思う サイズ 卒業 歯 障害 先輩 行為 急 父 PC 情報 ~ 苦手 銀行 反応 性格 ※Topic番号の若いものほど出現数(質問数)が多い
  10. 10. 10© 2016 OKWAVE • 「体・病気」「バイト」「受験」なんかの質問が多い。 10代女性の質問抽出(16年分) Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 生理 痛み 女子 サイト 電話 足 受験 夢 髪 気になる 妊娠 薬 バイト 場所 名前 服 志望 携帯 水 声 検査 胸 高校生 パソコン 子供 体重 中学 キス 部分 絶対 血 病気 色 購入 内容 明日 合格 口 セックス 部活 出血 お腹 学生 ピアス ネット 効果 専門 鼻 文 私 指 耳 アルバイト 表示 女の子 運動 将来 外 綺麗 猫 吐き気 音 大学生 写真 大好き M 一 手術 私立 クラス トイレ 病院 面接 検索 身長 ソフト 試験 診断 嫌い 結婚 量 汗 中学生 画像 思う サイズ 卒業 歯 障害 先輩 行為 急 父 PC 情報 ~ 苦手 銀行 反応 性格 ※Topic番号の若いものほど出現数(質問数)が多い 生理 病気 バイト PC 運動 受験
  11. 11. 11© 2016 OKWAVE • 時系列で話題を抽出することで今盛り上がっている話題が見えてくる。 話題の変遷 ※Topic番号の若いものほど出現数(質問数)が多い Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 女子 生理 バイト 受験 父 サイト ダイエット 病気 X 女子 先輩 妊娠 アルバイト 専門 母親 パソコン 体重 痛み ' 髪 男子 出血 電話 授業 結婚 画像 身長 吐き気 # 毛 恋愛 予定日 夢 将来 子供 設定 運動 薬 B 猫 告白 痛み 面接 試験 姉 カード 胸 病院 肌 練習 クラス ゴム プレゼント 塾 両親 購入 E3 ストレス ニキビ 女の子 部活 検査薬 バス 志望 妹 動画 女子 足 C メイク LINE トイレ 店長 合格 兄 アプリ サイズ 診断 Y 声 仲 血 シフト テスト 実家 PC カップ 声 答え 気になる 中学 くる 予約 学部 お母さん 登録 体型 気になる 数学 髪の毛 Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 表示 サイト ピアス 受験 生理 電話 髪 漫画 歌詞 部活 ファイル 画像 バイト 資格 ダイエット 携帯 毛 映画 歌 ~ パソコン 写真 恋愛 専門 妊娠 サイト 肌 小説 CM バス 起動 ネット 気になる 試験 アルバイト X ニキビ 文 プレゼント 練習 PC パソコン 先輩 将来 ~ 銀行 パーマ 作品 ピアノ 夢 インストール サイズ 告白 推薦 足 番号 色 内容 気になる 場所 ソフト 服 クラス 留学 体重 登録 矯正 名前 音 チケット 保存 色 人 学科 痛み 料金 メイク 主人公 音楽 ライブ 設定 無料 女の子 入試 バイト アドレス ヘア 番組 名前 女子 接続 スカート 長文 授業 お腹 変更 縮 放送 ~ ホテル 2013-2015の投稿 2003-2005の投稿
  12. 12. 12© 2016 OKWAVE • 時系列で話題を抽出することで今盛り上がっている話題が見えてくる。 話題の変遷 ※Topic番号の若いものほど出現数(質問数)が多い Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 女子 生理 バイト 受験 父 サイト ダイエット 病気 X 女子 先輩 妊娠 アルバイト 専門 母親 パソコン 体重 痛み ' 髪 男子 出血 電話 授業 結婚 画像 身長 吐き気 # 毛 恋愛 予定日 夢 将来 子供 設定 運動 薬 B 猫 告白 痛み 面接 試験 姉 カード 胸 病院 肌 練習 クラス ゴム プレゼント 塾 両親 購入 E3 ストレス ニキビ 女の子 部活 検査薬 バス 志望 妹 動画 女子 足 C メイク LINE トイレ 店長 合格 兄 アプリ サイズ 診断 Y 声 仲 血 シフト テスト 実家 PC カップ 声 答え 気になる 中学 くる 予約 学部 お母さん 登録 体型 気になる 数学 髪の毛 Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10 表示 サイト ピアス 受験 生理 電話 髪 漫画 歌詞 部活 ファイル 画像 バイト 資格 ダイエット 携帯 毛 映画 歌 ~ パソコン 写真 恋愛 専門 妊娠 サイト 肌 小説 CM バス 起動 ネット 気NIなる 試験 アルバイト X ニキビ 文 プレゼント 練習 PC パソコン 先輩 将来 ~ 銀行 パーマ 作品 ピアノ 夢 インストール サイズ 告白 推薦 足 番号 色 内容 気になる 場所 ソフト 服 クラス 留学 体重 登録 矯正 名前 音 チケット 保存 色 人 学科 痛み 料金 メイク 主人公 音楽 ライブ 設定 無料 女の子 入試 バイト アドレス ヘア 番組 名前 女子 接続 スカート 長文 授業 お腹 変更 縮 放送 ~ ホテル 2013-2015の投稿 新規の話題 規模が大きくなった話題 2003-2005の投稿
  13. 13. 13© 2016 OKWAVE データを調べていたつもりが、、、 • このままAgent創れるんじゃない?
  14. 14. 14© 2016 OKWAVE システム概要 質問Data LDA Topic1 Topic2 Topic3 ・・・ TopicN kw1-1 kw2-1 kw3-1 kwN-1 kw1-2 kw2-2 kw3-2 ・・・ kwN-2 kw1-3 kw2-3 kw3-3 kwN-3 … … … … 質問data1 質問data2 質問data3 質問 dataN …
  15. 15. 15© 2016 OKWAVE システム概要 質問Data LDA Topic1 Topic2 Topic3 ・・・ TopicN kw1-1 kw2-1 kw3-1 kwN-1 kw1-2 kw2-2 kw3-2 ・・・ kwN-2 kw1-3 kw2-3 kw3-3 kwN-3 … … … … 質問data1 質問data2 質問data3 質問 dataN Topic1 Topic2 Topic3 … TopicN1 kw kw kw kw kw kw kw … kw kw kw kw kw … … … … Topic1 Topic2 Topic3 … TopicN2 kw kw kw kw kw kw kw … kw kw kw kw kw … … … … Topic1 Topic2 Topic3 … TopicNm kw kw kw kw kw kw kw … kw kw kw kw kw … … … … … … LDA LDA LDA LDA
  16. 16. 16© 2016 OKWAVE 繰り返し Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic Topic ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・
  17. 17. 17© 2016 OKWAVE 何がうれしいの? Data 十分な量のデータ 少なめのTopic数
  18. 18. 18© 2016 OKWAVE 何がうれしいの? Data 十分な量のデータ 少なめのTopic数 抽象Layer 具体Layer ⇒このTree構造にトピックモデルの推定機能を併用するとAgentに近づく。
  19. 19. 19© 2016 OKWAVE 実際やってみます 質問Data 20万件 100Topic 最大 5Layer ※下位LayerのTopic数はdata数に応じて変更
  20. 20. 20© 2016 OKWAVE できたら使ってみる:推定機能 「オススメの映画教えて」 「オススメ」「映画」「教える」 全話題層
  21. 21. 21© 2016 OKWAVE Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白い TP56: 0.7% : 旅行 ホテル 電車 乗る 観光 バス 東京 駅 新幹線 宿泊 TP27: 0.4% : 購入 商品 売る 安い 販売 メーカー 値段 店 注文 価格全話題層
  22. 22. 22© 2016 OKWAVE Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い TP56: 0.7% : 旅行 ホテル 電車 乗る 観光 バス 東京 駅 新幹線 宿泊 TP27: 0.4% : 購入 商品 売る 安い 販売 メーカー 値段 店 注文 価格 全話題層 コンテンツ層
  23. 23. 23© 2016 OKWAVE Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 TP 2: 2% : 本 書籍 紹介 オススメ 論文 読む 解説 勉強 載る 資料 TP27: 1% : 作品 小説 読む 作家 面白い 設定 主人公 漫画 タイトル TP29: 1% : ドラマ 観る 相棒 面白い シーン 恋愛 tvドラマ オススメ TP56: 1% : dvd レンタル 発売 海外ドラマ 映像 借りる シーズン 全話題層 コンテンツ層
  24. 24. 24© 2016 OKWAVE 全話題層 Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 TP 2: 2% : 本 書籍 紹介 オススメ 論文 読む 解説 勉強 載る 資料 TP27: 1% : 作品 小説 読む 作家 面白い 設定 主人公 漫画 タイトル TP29: 1% : ドラマ 観る 相棒 面白い シーン 恋愛 tvドラマ オススメ TP56: 1% : dvd レンタル 発売 海外ドラマ 映像 借りる シーズン 映画層 コンテンツ層
  25. 25. 25© 2016 OKWAVE 全話題層 映画層 Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 「オススメ」「映画」「教える」 TP4:36% : 映画 観る ドラマ 洋画 面白い 日本 邦画 作品 感動 公開 TP5:29% : 映画 誘う 友達 趣味 上映 観 ゲーム 会話 相手 チケット TP2:25% : 映画 セリフ 本 読む 英語 字幕 アニメ dvd 原作 漫画 TP3: 2% : 映画 シーン 曲 サイト 題名 犬 レンタル 補足 無料 監督 TP6: 2% : 映画 タイトル 主人公 観る 女性 作品 思い出せる 男 女 男性 コンテンツ層
  26. 26. 26© 2016 OKWAVE 全話題層 Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 「オススメ」「映画」「教える」 TP4:36% : 映画 観る ドラマ 洋画 面白い 日本 邦画 作品 感動 公開 TP5:29% : 映画 誘う 友達 趣味 上映 観 ゲーム 会話 相手 チケット TP2:25% : 映画 セリフ 本 読む 英語 字幕 アニメ dvd 原作 漫画 TP3: 2% : 映画 シーン 曲 サイト 題名 犬 レンタル 補足 無料 監督 TP6: 2% : 映画 タイトル 主人公 観る 女性 作品 思い出せる 男 女 男性 オススメ層(?) 映画層 コンテンツ層
  27. 27. 27© 2016 OKWAVE 全話題層 映画層 Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 「オススメ」「映画」「教える」 TP4:36% : 映画 観る ドラマ 洋画 面白い 日本 邦画 作品 感動 公開 「オススメ」「映画」「教える」 TP2:99% : 映画 観る ドラマ 洋画 作品 面白い タイトル 邦画 感動 TP1: 1% : 映画 観る 日本 俳優 監督 アクション セリフ ファン 言葉オススメ層(?) コンテンツ層
  28. 28. 28© 2016 OKWAVE 全話題層 映画層 オススメ層(?) Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 「オススメ」「映画」「教える」 TP4:36% : 映画 観る ドラマ 洋画 面白い 日本 邦画 作品 感動 公開 「オススメ」「映画」「教える」 TP2:99% : 映画 観る ドラマ 洋画 作品 面白い タイトル 邦画 感動 TP1: 1% : 映画 観る 日本 俳優 監督 アクション セリフ ファン 言葉 コンテンツ層
  29. 29. 29© 2016 OKWAVE 全話題層 映画層 オススメ層(?) Agentとして:推定機能の利用 「オススメの映画教えて」 「オススメ」「映画」「教える」 TP65:96% : 本 映画 読む 作品 観る タイトル ドラマ 小説 漫画 面白 い 「オススメ」「映画」「教える」 TP42:92% : 映画 観る 洋画 作品 邦画 面白い dvd 上映 感動 公開 「オススメ」「映画」「教える」 TP4:36% : 映画 観る ドラマ 洋画 面白い 日本 邦画 作品 感動 公開 「オススメ」「映画」「教える」 TP2:99% : 映画 観る ドラマ 洋画 作品 面白い タイトル 邦画 感動 『「ベイマックス」が良い。ベイマックスのデザインは新宿の花園神社の 鈴が関連してるし。他だと「Mr.ビーン」とか』 コンテンツ層
  30. 30. 30© 2016 OKWAVE 従来の検索との違い 検索 DB 「オススメ」「映画」「教える」 ・回答候補1 ・回答候補2 ・回答候補3 Agent 政治 スポー ツ 娯楽 時事 … 小説 アニ メ 映画 マン ガ ストー リ オス スメ デー ト ・回答候補1 ・回答候補2 ・回答候補3 「オススメ」「映画」「教える」 … … Agentの方は上位・並列する概念を所持できる。人間っぽい…
  31. 31. 31© 2016 OKWAVE 計算方法による結果の違い 崩壊型ギブスサンプリング > 変分ベイズ > EMアルゴリズム
  32. 32. 32© 2016 OKWAVE 計算方法による結果の違い 10,000件の質問データから100topic作成 崩壊型ギブスサンプリング:lda 1.0.3 実行時間 277.5sec 変分ベイズ:gensim 実行時間 25.5sec EMアルゴリズム:SparkML Topic 大学 勉強 高校 受験 試験 卒業 合格 学校 入学 Topic 保険 年金 社会 加入 健康 保険料 申請 施設 会社 Topic 映画 記憶 アニメ ドラマ 内容 漫画 作品 小説 シーン Topic 大学 勉強 高校 時代 試験 学生 受験 卒業 合格 Topic たま メイン 起動時 便利 当方 問題 関連 色々 回答 Topic 色々 便利 たま 問題 メイン 当方 回答 物 - Topic 大学 学校 勉強 高校 受験 専門 社会 時代 資格 Topic キーボード 日本語 足 右 税金 耳 ほか 膝 買い物 Topic エラー ログイン パスワード 姑 話 色々 プロ 髪の毛 違法
  33. 33. 33© 2016 OKWAVE その他(個人的)取組み • 質問 - 回答データをencoder-decoderで学習させて質 疑応答modelの構築を目指す。 ⇒DBから10,000件の質問-回答セットをサンプリング。 内容が多岐に渡りすぎてcorpusが巨大化。低頻出 ワードが続出して精度出せず。 • 質問 – タイトルをencoder-decoderで学習させて、タ イトル生成model(要約model)の構築を目指す。 ⇒GPUのmemoryが不足 自前のGTX960 4Gじゃ2秒しかもたなかった…
  34. 34. 34© 2016 OKWAVE その他(個人的)取組み • 質問 - 回答データをencoder-decoderで学習させて質 疑応答modelの構築を目指す。 ⇒DBから10,000件の質問-回答セットをサンプリング。 内容が多岐に渡りすぎてcorpusが巨大化。低頻出 ワードが続出して精度出せず。 • 質問 – タイトルをencoder-decoderで学習させて、タ イトル生成model(要約model)の構築を目指す。 ⇒GPUのmemoryが不足 自前のGTX960 4Gじゃ2秒しかもたなかった…
  35. 35. 35© 2016 OKWAVE その他(個人的)取組み • 質問 - 回答データをencoder-decoderで学習させて質 疑応答modelの構築を目指す。 ⇒DBから10,000件の質問-回答セットをサンプリング。 内容が多岐に渡りすぎてcorpusが巨大化。低頻出 ワードが続出して精度出せず。 • 質問 – タイトルをencoder-decoderで学習させて、タ イトル生成model(要約model)の構築を目指す。 ⇒GPUのmemoryが不足 自前のGTX960 4Gじゃ2秒しかもたなかった…
  36. 36. 36© 2016 OKWAVE その他(個人的)取組み • 質問 - 回答データをencoder-decoderで学習させて質 疑応答modelの構築を目指す。 ⇒DBから10,000件の質問-回答セットをサンプリング。 内容が多岐に渡りすぎてcorpusが巨大化。低頻出 ワードが続出して精度出せず。 • 質問 – タイトルをencoder-decoderで学習させて、タ イトル生成model(要約model)の構築を目指す。 ⇒GPUのmemoryが不足 自前のGTX960 4Gじゃ2秒しかもたなかった…
  37. 37. 37© 2016 OKWAVE ありがとうございます 部署名: 研究開発本部 AIラボグループ

×