SlideShare a Scribd company logo
1 of 49
Download to read offline
2010年2月10日
マイニング探検会#11
@東京大学アントレプレナープラザ会議室


  大規模テキストに基づく
 対話型ナビゲーションシステム
     東京大学情報基盤センター
    学術情報研究部門 特任講師/
   株式会社リッテル 最高技術責任者
         清田 陽司
                      1
これまでの主な研究内容
自然言語処理技術(構文解析など)の情報検索への応用
• 自己組織化マップによる製品ニュース記事の整理シス
  テム (IPSJ NL研究会 1999年)
• 自動要約によるWeb全体のKWICインデックスの生成
  システム (SAINT 2001)
• 大規模テキスト知識ベースに基づく自動質問応答シス
  テム「ダイアログナビ」 (マイクロソフトとの共同研究)
 – ユーザ質問文とテキストの正確で柔軟なマッチングに基づく
   ギャップの解消 (COLING 2002 / 「自然言語処理」2003年)
 – 換喩表現マッチング (IJCNLP-04 / 「自然言語処理」2004年)
 – ダイアログナビ音声インタフェース (ACL 2003)
                                      2
ダイアログナビ
http://www.microsoft.com/japan/navigator/




     • 2002年4月から運用開始
     • 現在まで約25,000回のアクセス                3
ダイアログナビのユーザインタフェース




システムとユーザを   大きめのテキストボックス
  示すアイコン    ⇒自然文による質問の入力を誘導


対話履歴を表示するフレーム

                              4
ダイアログナビのユーザインタフェース




選択肢(マッチしたテキスト)を表示するフレーム




                   テキストの種類とスコアを
                   アイコンで表示


                                  5
対象とするテキスト集合
 マイクロソフトにて作成されたテキスト知識ベース
• 用語集
 – Windowsなどの用語の説明
 – 4,707件   約 70万文字
• ヘルプ集
 – Windows, Officeの操作説明
 – 11,320件     約 600万文字
• サポート技術情報
 – マイクロソフト製品に関する
   障害情報と対処方法など
 – 20,921件 約2,200万文字      6
ダイアログナビ: 研究の背景
現状
• ノウハウを必要とする複雑な製品が増えた
 PC,携帯電話,ディジタル家電 etc.
  → 製品を使う上で様々な疑問が発生
• 疑問に答えるための大量のテキストの蓄積
 (Web,データベースなど)
      たいていの疑問に対応する答え
      (テキスト)がどこかに存在する
問題点
質問に対応するテキストになかなかたどりつけない
    質問とテキストの間にギャップが存在

既存のテキスト検索システムのログを分析し,どのよう
 なギャップが存在するかを調査した      7
質問とテキストの間の
    表現のギャップ
                      プリンタドライバをインス
パソコンが                 トールすると,Windows
固まった                  XPがハングアップする

                      Wordを起動すると,
                      Windows XPがフリーズ
                      する

                      ACPIモードを使用すると,
                      青い画面が表示される
 • キーワードのレベル
  e.g. ハングアップ-フリーズ
 • キーワードを超えるレベル
  e.g. パソコンが固まる-ハングアップ-フリーズ-青い画面
                                   8
質問とテキストの間の
       具体性のギャップ
            52件のテキストが見つかりました。
 Windowsで      • Windows 98を起動したときに、…と
エラーが発生した         いうエラーが発生する
               • Windows XPでアプリケーションを
                起動したときに、エラーが発生する
               • インターネットにダイアルアップで接
                続しようとしたときに、…というエラー
                が発生する
               • 印刷中にエラーが発生して印刷で
                きない
               • …………………………..




                                   9
質問とテキストの間の
       具体性のギャップ
            52件のテキストが見つかりました。
 Windowsで      • Windows 98を起動したときに、…と
エラーが発生した         いうエラーが発生する
               • Windows XPでアプリケーションを
                起動したときに、エラーが発生する
               • インターネットにダイアルアップで接
                続しようとしたときに、…というエラー
                が発生する
               • 印刷中にエラーが発生して印刷で
                きない
               • …………………………..




                                  10
エキスパートやコールセンター
インタラクションで具体性のギャップを解消
(もちろん表現のギャップも柔軟に吸収)
  Windowsで   エラーが発生したの
 エラーが発生した
              はいつですか?


              お使いのWindows
               は何ですか?

              どんなエラーメッ
              セージが出ました
                 か?


                            11
情報検索のモデル
 経済の成長見通しに       テキスト検索
 関する記事が欲しい
             富士山の      Open-domain
             高さは?      QA
 情報要求                                情報集合
             Excelで行   本研究の
                を      タスク
 検索質問        追加したい              テキスト集合
            自然言語処理技術が必要
 内部表現           マッチング                内部表現

テキストの部分集合                    「Excelで行を追加する方
               合致する情報          法は以下の通りです
  「3776m」                            …」  12
テキスト検索           Open-domain QA       本研究のタスク
                                                 S1
                                                      Q1’

              A                                       A1
Q                    Q      Q’ A          Q
                                                 S2
                                                      Q2’
                            具体性のギャップ
                             解消に利用                    A2
•質問(Q)に対応する部分(Q’)   •質問(Q)に対応する部分(Q’)   •質問(Q)に対応する部分(Q’)
がテキスト全体に分散          は多くの場合1文            は多くの場合1文
•答え(A)としてはQを満たす     •答え(A)はQ’の文構造の中     •答え(A)はQ’と同じテキスト
テキスト集合を返せばよい        に埋め込まれている           内に存在
                                        •Q’のまわりに、複数存在する
                                        Aのどちらかを特定できる部
                                        分(S)が存在
浅い処理で十分                       深い処理が必要
                                                      13
(形態素解析)                       (構文解析など)
本研究のアプローチ
         表現のギャップ                              具体性のギャップ
  ユーザ質問文とテキストの                                聞き返しによる
  柔軟で正確なマッチング                                ユーザのナビゲート
   Excelで                          マッチングに基づくボトムアップの聞き返し
 行を追加したい


        •文構造の利用                                    質問
         (係り受け関係への                 USBマウス

          重みづけ)
                                   が動かない                         OR
        •同義表現辞書                                    質問


                 拡張
                               応   対話カードによるトップダウンの聞き返し
        換喩表現マッチング              用         エラーが
                                                    [エラー]
                                                    <UQ>エラーが発生する
               GIFの                      発生した
                                                    <SYS>エラーはいつ発生しますか?

 GIFが             画像が      ?                        Windows起動中
                                   エラーはいつ           ログイン時
 表示されない           表示されない           発生しますか?
                                                    印刷中
                                   1. Windows起動中
•換喩・解釈ペアをコーパスから自動抽出                2. ログイン時
•マッチングへの応用                         3. 印刷中



                  実運用による評価: ダイアログナビ
                                                                   14
同義表現辞書
                          <メール>      <読む>
<メール>                    メール
                                   読む    読み込む
  メイル / メッセージ            メイル
                                  読める   読み込める
                        メッセージ
<読む>
                              <メールを読む>
  読める / 読める / 読み込める メール             メール
<受信>                          読む         受信

  受け取る / 受け取れる メール        メイル       メッセージ
<ブラウザ>              読む         読む         読む

  ブラウザー / 閲覧ソフトメール        メイル       メッセージ
                    読める        読める       読める
<メールを読む>       メール        メイル       メッセージ
  メールを受信する         読み込む       読み込む      読み込む
               メール        メイル       メッセージ
<ハングアップする>        読み込める      読み込める      読み込める
  画面が固まる / 画面が青くなる / フリーズする               15
係り受け重みづけの有効性評価
                   0.85
                   0.84
                   0.83
ヘルプ集       εの平均値
                   0.82
                   0.81
(163質問文)           0.80
                   0.79
                   0.78
                   0.77
                          0.0   0.5   1.0   1.5   2.0   2.5        3.0
                                      m (係り受けへの重みづけ)
                   0.62


サポート               0.61
           εの平均値




技術情報               0.60


(773質問文)           0.59


                   0.58
                          0.0   0.5   1.0   1.5   2.0   2.5        3.0
                                                              16
                                      m (係り受けへの重みづけ)
提案手法の有効性評価
         (係り受け重みづけ以外)
手法               ヘルプ集       サポート技術情報
                 163質問文        773質問文
ベースライン        0.602   (   ) 0.497      (
                                       )
+A)同義表現辞書  0.838 (+0.236) 0.561 (+0.064)
+C)否定表現フラグ 0.602 (      ) 0.512 (+0.015)
+D)文末表現削除  0.605 (+0.003) 0.508 (+0.011)
+E)質問タイプ   0.602 (      ) 0.498 (+0.001)
+F)製品名     0.602 (      ) 0.519 (+0.022)
           0.840 (+0.238) 0.614 (+0.117)
すべて(数値はεの平均値, 係り受け重みづけm=1.0 ) 17
マッチング失敗の分析
εが小さな質問文について分析した
                                ログを分析し
1. 同義表現の不足                      随時追加
   e.g. 文字を大きくする – 文字のサイズを変更
                                 文末への
2. 重要でない箇所とのマッチング                重みづけ
   e.g. フォントをWindows MEにインストールせずにフォントを追加するアプ
   リを使用している場合,TrueTypeフォントキャッシュの内容が破壊される

3. 係り受け重みづけの副作用
 i. 構文解析の誤り                      最新の自然言語
 ii. 格の省略                        処理技術の利用

 iii. 換喩による係り受けのギャップ             本研究で扱う
                                        18
II.   研究紹介: ダイアログナビ
 a. 背景と本研究のアプローチ
 b. ユーザ質問文とテキストの柔軟で正確
    なマッチング
 c. マッチングの拡張: 換喩表現マッチング
 d. マッチングの応用: 聞き返しによるユー
    ザのナビゲート
 e. 実運用による評価
                      19
換喩とは
比喩の一種: あるものをそれと関連する別のも
  のに置き換えて表現する現象(Lakoff 1980;
  山梨1988)
• 漱石を読む.(作者と作品)
• トヨタを買う.(製造者と製品)

重要な言語現象
• ユーザの質問文に頻繁に出現
• 機械翻訳や照応解析などで扱う必要がある20
換喩による係り受けのギャップ
 ユーザ質問文          テキスト文
  (換喩)
               GIFの
                            ?
  GIFを               画像を

   表示する               表示する

         2 2
          × = 0.27    (m=1.0)
         3 5
 係り受けへの重みづけによる副作用               21
換喩表現と換喩解釈表現
以下の2種類の表現の組み合わせを扱う
(α) AP→V      GIFを表示する
(β) A(の)→BP→V GIF(の)画像を表示する
 (A, B: 名詞, V: 動詞, P: 格助詞, →: 係り受け関係)

仮説: (α)と(β)は換喩とその解釈になっている
⇒ (α)を換喩表現, (β)を換喩解釈表現と呼ぶ

コーパスからの自動抽出
• (α),(β)のパターンに合致する表現を抽出
  頻度の閾値: ≧3,名詞句の一部や括弧を含む表現は除外
• 各々の(α)に対応する(β)をペアとして抽出
                                        22
コーパスと抽出されたペアの数
    コーパス              規模      ペア数
   ユーザ質問文
                     約76万文     661
(MSダイアログナビ・話し言葉検索)
    テキスト集合
                     約59万文     288
(MSヘルプ集,サポート技術情報)
   ユーザ質問文+
                     約135万文   1,126
    テキスト集合

ユーザ質問文の寄与が大きい
⇒ 引き続きシステムを運用することで,さら
 に多くのペアが得られる          23
抽出した換喩表現・換喩解釈表現ペア
     換喩表現(α)   #        換喩解釈表現(β)   #
エラーが 出る        1681 エラー 表示が 出る          68
                    エラー 画面が 出る           6
                    エラー メッセージが 出る        3
電源を 入れる        290 電源 スイッチを 入れる          5
Excelを 開く      147 Excel ファイルを 開く   135
                    Excel 文書を 開く         9
印刷を 実行         141 印刷 プレビューを 実行         12
                    印刷 ジョブを 実行           4
動作が 遅い         123 動作 速度が 遅い             8
画像を 挿入          69 画像 ファイルを 挿入           6
JPGで 保存         20 JPG 形式で 保存           13
アドレスを 開く           4 アドレス 帳を 開く         43
MOを 使用             3 MO 装置を 使用           4

   約80%のペアは換喩とその解釈として適切                  24
マッチングへの応用
  得られた換喩表現・換喩解釈表現ペアを
   同義表現辞書に登録
       ユーザ質問文         テキスト文
         (換喩)
                    GIFの
                                ?
         GIFを          画像を

          表示する             表示する

        2 2          3 5
(m=1.0)  × = 0.27     × = 1.0       25
        3 5          3 5
テストセットによる評価結果
                   0.90

                   0.85




           εの平均値
                   0.80

ヘルプ集               0.75

(31質問文)            0.70

                   0.65                           提案手法
                                                  ベースライン
                   0.60
                          0.0   0.5   1.0   1.5    2.0   2.5   3.0
                   0.59         m (係り受け関係への重みづけ)
                   0.58


サポート               0.57
           εの平均値




                   0.56
技術情報               0.55

(140質問文)           0.54

                   0.53

                   0.52
                                                  提案手法
                                                  ベースライン
                   0.51
                          0.0   0.5   1.0   1.5   2.0    2.5   3.0
                                m (係り受け関係への重みづけ)                     26
II.   研究紹介: ダイアログナビ
 a. 背景と本研究のアプローチ
 b. ユーザ質問文とテキストの柔軟で正確
    なマッチング
 c. マッチングの拡張: 換喩表現マッチング
 d. マッチングの応用: 聞き返しによるユー
    ザのナビゲート
 e. 実運用による評価
                      27
聞き返しの必要性

• ユーザの質問とテキストの間には具体性の
  ギャップが存在
  ⇒ 聞き返しが不可欠
• 適切な聞き返しが可能で,かつ大規模なテ
  キスト集合に適用可能な先行研究はみられ
  ない

ユーザ質問文とテキストのマッチング手法を応
 用した聞き返しによるユーザのナビゲート 28
マッチング手法の応用による聞き返し
          質問




 テキスト1           テキスト2

                    質問
   質問




          OR

         状況説明文           29
状況説明文の抽出
     「IE5をインストール後,ページ違反が発生した」
       IE5を起動した際に          タスクスケジューラを使うと

                                   IE5を

                                    インストール後、
       IE5を
                               タスクスケジューラを
         起動した際に                             使うと

         ページ違反が                       ページ違反が

              発生する                            発生する

1.   マッチしたテキスト文の構文木を以下の箇所でセグメント分割
      連用修飾節,「時間」を示す節,読点を伴うデ格
2.   セグメントのうち,すべての文節が質問文と対応するものを削除
3.   末尾のセグメントを状況説明文の核とする
                                                  30
4.   核のセグメントと,それに直接係るセグメントのみを抽出
漠然




ユーザの
 質問



  Windows 95で起
  動時にエラーが
  発生する           マッチング&状況
            具体    説明文の抽出
        テキスト集合
                       31
困ってます
          漠然

               エラーが発生した



ユーザの
 質問



                            ?
                          マッチング&状況
                           説明文の抽出


          具体
       テキスト集合
                                32
困ってます
             漠然

                  エラーが発生した
                   いつ?          対話カードによる
                                  具体化
ユーザの
 質問                Windows起動中
                    お使いの
                    Windowsは?
  Windows95
  (=Windows 95で
   起動時にエラー
   が発生する)                       マッチング&状況
             具体                  説明文の抽出
          テキスト集合
                                      33
対話カード
                         [エラー]
                                            質問とのマッチング
U: エラーが発生した              <UQ>エラーが発生する
                         <SYS>エラーはいつ発生しますか?
S: エラーはいつ発生しますか?
    1. Windows起動中
                         <SELECT>      システムの発話
                          Windows起動中     goto [エラー/Windows起動中]
    2. ログイン時
                          ログイン時          goto [エラー/ログイン時]
    3. 印刷中
                          印刷中            goto [エラー/印刷時]
U: Windows起動中            </SELECT>

S: あなたがお使いのWindowsを選んで   [エラー/Windows起動中]
    ください。                <UQ>Windowsを起動中にエラーが発生する

    1. Windows 95        <SYS>あなたがお使いのWindowsを選んでください。

    2. Windows 98        <SELECT>

    3. Windows XP         Windows 95
                            retrieve 「Windows 95で起動時にエラーが発生する」
U: Windows 95             Windows 98         テキストとのマッチング
                            retrieve 「Windows 98で起動時にエラーが発生する」
                          Windows XP
                            retrieve 「Windows XPで起動時にエラーが発生する」
                                                         34
                         </SELECT>
U: Windows 95                  テキスト集合
  (=Windows 95で起動時にエラーが発生する)

S: 以下の選択肢から選んでください。
    1. 「<ファイル名>が不正かありません」
       というエラーが発生する
    2. 「JISフォントドライバーがインストール
       されていません」 等のエラーが発生
       する
    3. Windows 3.1のロゴ画面が表示され
       ハングアップしてしまう現象が発生
       する
    4. アプリケーションを起動した直後に
       エラーが発生する
    5. …




                                        35
困ってます
             漠然

                  エラーが発生した       トップダウン
                   いつ?          対話カードによる
                                  具体化
ユーザの
 質問                Windows起動中
                    お使いの
                    Windowsは?        相補的
  Windows95
  (=Windows 95で
   起動時にエラー
   が発生する)                       マッチング&状況
             具体                  説明文の抽出
          テキスト集合                 ボトムアップ
                                      36
II.   研究紹介: ダイアログナビ
 a. 背景と本研究のアプローチ
 b. ユーザ質問文とテキストの柔軟で正確
    なマッチング
 c. マッチングの拡張: 換喩表現マッチング
 d. マッチングの応用: 聞き返しによるユー
    ザのナビゲート
 e. 実運用による評価
                      37
実運用による評価の必要性
既存の情報検索システム評価手法
• テストセットによる評価
 – インタラクションを伴うシステムの評価は不可
• タスク指向評価
 – 漠然としたユーザの疑問を反映するシナリオ
   の設定は困難
⇒ 一般ユーザによる実運用評価が必要
Web上で一般公開運用し、対話ログを評価
                           38
評価の観点
1. システムは適切なテキストを提示したか?
 A) 対話セッション単位の評価
2. ユーザとシステムはどう振舞ったか?
 B) ユーザ行動とシステム応答の分布
 C) 質問文の長さとシステム応答の関係
3. 状況説明文の抽出は適切か?
 D) 状況説明文の評価

2002年8月の対話ログから無作為抽出した
   378対話セッションを評価した
                        39
A) 対話セッション単位の評価
     成功             失敗          範囲外
知識有 知識無 知識有 知識無               適切 不適切
 149     25      15      41   57   91
(65%) (11%) (7%) (18%)
  174 (76%)       56 (24%)
                                148
         230 (100%)
                     378
 原因: リソースの不足       顕著な失敗例を分析し,
 •テキスト集合           随時修正・作成
 •同義表現辞書           ⇒成功率 60%台 → 70%台
                                      40
B) ユーザ行動とシステム応答の分布
                             ユーザ質問の入力
                              (キーボード)
              (98回)            計518回                 (420回)
        32回           66回                        261回     159回
対話カード応答           対話カード応答              テキストマッチング         テキストマッチング
(完結した応答)          (選択肢提示)              (該当あり)            (該当なし)
(U: こんにちわ)        (U: エラーが発生した)        (U: 行を追加したい)      (U: サービスパックを
 S: こんにちは。         S: エラーはいつ発生          S: 以下の選択肢から          入れたい)
                      しますか。                選んでください。       S: 該当する情報を見
                                                             つけることができま
                  平均選択肢数:              平均選択肢数:               せんでした。
                      3.24                 14.81

                             14回
                      58回    (CARD)   6回
                                      (RET)
                      ユーザの選択             ユーザの選択
                       (マウス)              (マウス)
                            38回               198回
                        (SHOW)

                              テキストの表示                             41
C) 質問文の長さとシステム応答の関係
質問文の   対話カード応答         知識ベース応答
                                      計
 文節数   完結応答    選択肢提示   該当あり   該当なし

  1       29 17 115              59   220
  2        3 37  46              47   133
 3     短い質問文に対して 33
             10                  30    73
 4     有効に働く 2   22              10    34
5以上              45              13    58
合計       32  66 261             159   518
一般的に、短い質問文ほど漠然としている
⇒ 対話カードによる応答は有効に働いている
                                      42
D) 状況説明文の評価
評価者1名が3段階で評価
 – 最重要情報: ユーザが選択肢を選ぶ上で最も重要な
   情報

評価              基準            選択肢数
妥当    最重要情報が過不足なく含まれている
                             213 ( 61%)
不十分   最重要情報が含まれていない
                             27 ( 8%)
冗長    最重要情報以外の情報が文字数換算で1/2
      以上含まれている               108 ( 31%)
           合計                348 (100%)
      平均文字数: 81.6文字⇒68.9文字
          (圧縮率15.6%)                  43
本研究のまとめ
         表現のギャップ                              具体性のギャップ
  ユーザ質問文とテキストの                                聞き返しによる
  柔軟で正確なマッチング                                ユーザのナビゲート
   Excelで                          マッチングに基づくボトムアップの聞き返し
 行を追加したい


        •文構造の利用                                    質問
         (係り受け関係への                 USBマウス

          重みづけ)
                                   が動かない                         OR
        •同義表現辞書                                    質問


                 拡張
                               応   対話カードによるトップダウンの聞き返し
        換喩表現マッチング              用         エラーが
                                                    [エラー]
                                                    <UQ>エラーが発生する
               GIFの                      発生した
                                                    <SYS>エラーはいつ発生しますか?

 GIFが             画像が      ?                        Windows起動中
                                   エラーはいつ           ログイン時
 表示されない           表示されない           発生しますか?
                                                    印刷中
                                   1. Windows起動中
•換喩・解釈ペアをコーパスから自動抽出                2. ログイン時
•マッチングへの応用                         3. 印刷中



                  実運用による評価: ダイアログナビ
                                                                   44
得られた知見
• 情報検索システムの研究には実運用評価
  が必須
• 実運用のログは自然言語理解研究へのヒ
  ントの宝庫
  比喩(換喩,暗喩など),省略,照応 etc.
• 情報検索プロセスをうまく説明するモデル
  の必要性

                           45
III. 今後の研究計画:
図書館レファレンス・サービス
       の自動化



             46
研究方針
  情報検索システムの研究には一般ユーザによ
   る実運用評価が必要
  ⇒ 実世界から研究へのフィードバックを重視

            自然言語処理技術   一般ユーザの利用


現行サービスの分析   システムの実装        実運用

情報検索プロセスの             評価
  モデル化
              • ユーザの満足度
 自然言語理解       • 関連研究に対する位置づけ
                                 47
レファレンス・サービスとは
図書館の「コンシェルジェ・サービス」
=利用者の調べものに対する援助サービス

利用者の当初の情報要求は曖昧
⇒利用者に対して多角的な問い返しを行う
⇒どのような資料が必要なのかを明確化

                      48
ダイアログナビの方法論の応用
      どんなキーワードで探      漠然
      せばいいの?
                              日本の原子力発電につ
       Kiwi, 言選Web            いて調べたい


   自然言語処理の研究                    NDC(日本十進分類法)
   を始めたい                         による質問の一般化

  東大学術情報DB                   ATS-Pってどんなシステム?


                               百科事典 (Wikipedia)
○○先生の書いた本を
調べたい                               東大の歴史を調べたい


                                       東大図書館FAQ
    OPAC
                      具体
                                                  49
                     文献・資料

More Related Content

Similar to マイニング探検会#11

Eclipse を使った java 開発 111126 杉浦
Eclipse を使った java 開発 111126 杉浦Eclipse を使った java 開発 111126 杉浦
Eclipse を使った java 開発 111126 杉浦urasandesu
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
Distributed Agile using UML
Distributed Agile using UMLDistributed Agile using UML
Distributed Agile using UMLKenji Hiranabe
 
開発チームにローカライズ支援職を置くと…
開発チームにローカライズ支援職を置くと…開発チームにローカライズ支援職を置くと…
開発チームにローカライズ支援職を置くと…Self Employed
 
プレゼンテーション用資料作成のプレゼンテーション資料
プレゼンテーション用資料作成のプレゼンテーション資料プレゼンテーション用資料作成のプレゼンテーション資料
プレゼンテーション用資料作成のプレゼンテーション資料hiroshioda
 
GCSアジャイル開発を使ったゲームの作り方
 GCSアジャイル開発を使ったゲームの作り方 GCSアジャイル開発を使ったゲームの作り方
GCSアジャイル開発を使ったゲームの作り方Hiroyuki Tanaka
 
Java女子部 Java EEハンズオン(応用編)
Java女子部 Java EEハンズオン(応用編)Java女子部 Java EEハンズオン(応用編)
Java女子部 Java EEハンズオン(応用編)Misaki Kajiura
 
テストしなイカ? Seleniumで自動ブラウザテスト
テストしなイカ? Seleniumで自動ブラウザテストテストしなイカ? Seleniumで自動ブラウザテスト
テストしなイカ? Seleniumで自動ブラウザテストOhishi Mikage
 
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張Kosuke Futamata
 
AozoraYomite @InfoTalk 2012/12/21
AozoraYomite @InfoTalk 2012/12/21AozoraYomite @InfoTalk 2012/12/21
AozoraYomite @InfoTalk 2012/12/21Yuki Higuchi
 
Kobe sec#7 summary
Kobe sec#7 summaryKobe sec#7 summary
Kobe sec#7 summaryYukio NAGAO
 
音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティ音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティTakuya Nishimoto
 
インフラエンジニアがk8sでアプリを作って見えた今後のインフラ
インフラエンジニアがk8sでアプリを作って見えた今後のインフラインフラエンジニアがk8sでアプリを作って見えた今後のインフラ
インフラエンジニアがk8sでアプリを作って見えた今後のインフラsusumu tanaka
 
情報セキュリティCAS 第四十八回放送用スライド
情報セキュリティCAS 第四十八回放送用スライド情報セキュリティCAS 第四十八回放送用スライド
情報セキュリティCAS 第四十八回放送用スライドKumasan, LLC.
 

Similar to マイニング探検会#11 (20)

Eclipse を使った java 開発 111126 杉浦
Eclipse を使った java 開発 111126 杉浦Eclipse を使った java 開発 111126 杉浦
Eclipse を使った java 開発 111126 杉浦
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
XP movement In Japan
XP movement In JapanXP movement In Japan
XP movement In Japan
 
SOE-Loc
SOE-LocSOE-Loc
SOE-Loc
 
SOE-LOC
SOE-LOCSOE-LOC
SOE-LOC
 
Localization in SOE
Localization in SOELocalization in SOE
Localization in SOE
 
japan teacher
japan teacherjapan teacher
japan teacher
 
Distributed Agile using UML
Distributed Agile using UMLDistributed Agile using UML
Distributed Agile using UML
 
開発チームにローカライズ支援職を置くと…
開発チームにローカライズ支援職を置くと…開発チームにローカライズ支援職を置くと…
開発チームにローカライズ支援職を置くと…
 
プレゼンテーション用資料作成のプレゼンテーション資料
プレゼンテーション用資料作成のプレゼンテーション資料プレゼンテーション用資料作成のプレゼンテーション資料
プレゼンテーション用資料作成のプレゼンテーション資料
 
GCSアジャイル開発を使ったゲームの作り方
 GCSアジャイル開発を使ったゲームの作り方 GCSアジャイル開発を使ったゲームの作り方
GCSアジャイル開発を使ったゲームの作り方
 
Java女子部 Java EEハンズオン(応用編)
Java女子部 Java EEハンズオン(応用編)Java女子部 Java EEハンズオン(応用編)
Java女子部 Java EEハンズオン(応用編)
 
テストしなイカ? Seleniumで自動ブラウザテスト
テストしなイカ? Seleniumで自動ブラウザテストテストしなイカ? Seleniumで自動ブラウザテスト
テストしなイカ? Seleniumで自動ブラウザテスト
 
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
スタイル変換技術による対訳コーパスから同時通訳コーパスへの拡張
 
OpenSpan_PreMarketing
OpenSpan_PreMarketingOpenSpan_PreMarketing
OpenSpan_PreMarketing
 
AozoraYomite @InfoTalk 2012/12/21
AozoraYomite @InfoTalk 2012/12/21AozoraYomite @InfoTalk 2012/12/21
AozoraYomite @InfoTalk 2012/12/21
 
Kobe sec#7 summary
Kobe sec#7 summaryKobe sec#7 summary
Kobe sec#7 summary
 
音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティ音声インタフェースとWebアクセシビリティ
音声インタフェースとWebアクセシビリティ
 
インフラエンジニアがk8sでアプリを作って見えた今後のインフラ
インフラエンジニアがk8sでアプリを作って見えた今後のインフラインフラエンジニアがk8sでアプリを作って見えた今後のインフラ
インフラエンジニアがk8sでアプリを作って見えた今後のインフラ
 
情報セキュリティCAS 第四十八回放送用スライド
情報セキュリティCAS 第四十八回放送用スライド情報セキュリティCAS 第四十八回放送用スライド
情報セキュリティCAS 第四十八回放送用スライド
 

More from Yoji Kiyota

テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-Yoji Kiyota
 
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーションYoji Kiyota
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討Yoji Kiyota
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析Yoji Kiyota
 
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告Yoji Kiyota
 
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題Yoji Kiyota
 
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―Yoji Kiyota
 
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけIEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけYoji Kiyota
 
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-Yoji Kiyota
 
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みYoji Kiyota
 
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるためにYoji Kiyota
 
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化Yoji Kiyota
 
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組みYoji Kiyota
 
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Yoji Kiyota
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館Yoji Kiyota
 
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組みYoji Kiyota
 
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Yoji Kiyota
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介Yoji Kiyota
 
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜Yoji Kiyota
 
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解Yoji Kiyota
 

More from Yoji Kiyota (20)

テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
 
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
 
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告
 
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題
 
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
 
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけIEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけ
 
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
 
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組み
 
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために
 
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化
 
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
 
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
 
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
 
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
 
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
 
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
 

マイニング探検会#11

  • 1. 2010年2月10日 マイニング探検会#11 @東京大学アントレプレナープラザ会議室 大規模テキストに基づく 対話型ナビゲーションシステム 東京大学情報基盤センター 学術情報研究部門 特任講師/ 株式会社リッテル 最高技術責任者 清田 陽司 1
  • 2. これまでの主な研究内容 自然言語処理技術(構文解析など)の情報検索への応用 • 自己組織化マップによる製品ニュース記事の整理シス テム (IPSJ NL研究会 1999年) • 自動要約によるWeb全体のKWICインデックスの生成 システム (SAINT 2001) • 大規模テキスト知識ベースに基づく自動質問応答シス テム「ダイアログナビ」 (マイクロソフトとの共同研究) – ユーザ質問文とテキストの正確で柔軟なマッチングに基づく ギャップの解消 (COLING 2002 / 「自然言語処理」2003年) – 換喩表現マッチング (IJCNLP-04 / 「自然言語処理」2004年) – ダイアログナビ音声インタフェース (ACL 2003) 2
  • 3. ダイアログナビ http://www.microsoft.com/japan/navigator/ • 2002年4月から運用開始 • 現在まで約25,000回のアクセス 3
  • 4. ダイアログナビのユーザインタフェース システムとユーザを 大きめのテキストボックス 示すアイコン ⇒自然文による質問の入力を誘導 対話履歴を表示するフレーム 4
  • 6. 対象とするテキスト集合 マイクロソフトにて作成されたテキスト知識ベース • 用語集 – Windowsなどの用語の説明 – 4,707件 約 70万文字 • ヘルプ集 – Windows, Officeの操作説明 – 11,320件 約 600万文字 • サポート技術情報 – マイクロソフト製品に関する 障害情報と対処方法など – 20,921件 約2,200万文字 6
  • 7. ダイアログナビ: 研究の背景 現状 • ノウハウを必要とする複雑な製品が増えた PC,携帯電話,ディジタル家電 etc. → 製品を使う上で様々な疑問が発生 • 疑問に答えるための大量のテキストの蓄積 (Web,データベースなど) たいていの疑問に対応する答え (テキスト)がどこかに存在する 問題点 質問に対応するテキストになかなかたどりつけない 質問とテキストの間にギャップが存在 既存のテキスト検索システムのログを分析し,どのよう なギャップが存在するかを調査した 7
  • 8. 質問とテキストの間の 表現のギャップ プリンタドライバをインス パソコンが トールすると,Windows 固まった XPがハングアップする Wordを起動すると, Windows XPがフリーズ する ACPIモードを使用すると, 青い画面が表示される • キーワードのレベル e.g. ハングアップ-フリーズ • キーワードを超えるレベル e.g. パソコンが固まる-ハングアップ-フリーズ-青い画面 8
  • 9. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 9
  • 10. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 10
  • 11. エキスパートやコールセンター インタラクションで具体性のギャップを解消 (もちろん表現のギャップも柔軟に吸収) Windowsで エラーが発生したの エラーが発生した はいつですか? お使いのWindows は何ですか? どんなエラーメッ セージが出ました か? 11
  • 12. 情報検索のモデル 経済の成長見通しに テキスト検索 関する記事が欲しい 富士山の Open-domain 高さは? QA 情報要求 情報集合 Excelで行 本研究の を タスク 検索質問 追加したい テキスト集合 自然言語処理技術が必要 内部表現 マッチング 内部表現 テキストの部分集合 「Excelで行を追加する方 合致する情報 法は以下の通りです 「3776m」 …」 12
  • 13. テキスト検索 Open-domain QA 本研究のタスク S1 Q1’ A A1 Q Q Q’ A Q S2 Q2’ 具体性のギャップ 解消に利用 A2 •質問(Q)に対応する部分(Q’) •質問(Q)に対応する部分(Q’) •質問(Q)に対応する部分(Q’) がテキスト全体に分散 は多くの場合1文 は多くの場合1文 •答え(A)としてはQを満たす •答え(A)はQ’の文構造の中 •答え(A)はQ’と同じテキスト テキスト集合を返せばよい に埋め込まれている 内に存在 •Q’のまわりに、複数存在する Aのどちらかを特定できる部 分(S)が存在 浅い処理で十分 深い処理が必要 13 (形態素解析) (構文解析など)
  • 14. 本研究のアプローチ 表現のギャップ 具体性のギャップ ユーザ質問文とテキストの 聞き返しによる 柔軟で正確なマッチング ユーザのナビゲート Excelで マッチングに基づくボトムアップの聞き返し 行を追加したい •文構造の利用 質問 (係り受け関係への USBマウス 重みづけ) が動かない OR •同義表現辞書 質問 拡張 応 対話カードによるトップダウンの聞き返し 換喩表現マッチング 用 エラーが [エラー] <UQ>エラーが発生する GIFの 発生した <SYS>エラーはいつ発生しますか? GIFが 画像が ? Windows起動中 エラーはいつ ログイン時 表示されない 表示されない 発生しますか? 印刷中 1. Windows起動中 •換喩・解釈ペアをコーパスから自動抽出 2. ログイン時 •マッチングへの応用 3. 印刷中 実運用による評価: ダイアログナビ 14
  • 15. 同義表現辞書 <メール> <読む> <メール> メール 読む 読み込む メイル / メッセージ メイル 読める 読み込める メッセージ <読む> <メールを読む> 読める / 読める / 読み込める メール メール <受信> 読む 受信 受け取る / 受け取れる メール メイル メッセージ <ブラウザ> 読む 読む 読む ブラウザー / 閲覧ソフトメール メイル メッセージ 読める 読める 読める <メールを読む> メール メイル メッセージ メールを受信する 読み込む 読み込む 読み込む メール メイル メッセージ <ハングアップする> 読み込める 読み込める 読み込める 画面が固まる / 画面が青くなる / フリーズする 15
  • 16. 係り受け重みづけの有効性評価 0.85 0.84 0.83 ヘルプ集 εの平均値 0.82 0.81 (163質問文) 0.80 0.79 0.78 0.77 0.0 0.5 1.0 1.5 2.0 2.5 3.0 m (係り受けへの重みづけ) 0.62 サポート 0.61 εの平均値 技術情報 0.60 (773質問文) 0.59 0.58 0.0 0.5 1.0 1.5 2.0 2.5 3.0 16 m (係り受けへの重みづけ)
  • 17. 提案手法の有効性評価 (係り受け重みづけ以外) 手法 ヘルプ集 サポート技術情報 163質問文 773質問文 ベースライン 0.602 ( ) 0.497 ( ) +A)同義表現辞書 0.838 (+0.236) 0.561 (+0.064) +C)否定表現フラグ 0.602 ( ) 0.512 (+0.015) +D)文末表現削除 0.605 (+0.003) 0.508 (+0.011) +E)質問タイプ 0.602 ( ) 0.498 (+0.001) +F)製品名 0.602 ( ) 0.519 (+0.022) 0.840 (+0.238) 0.614 (+0.117) すべて(数値はεの平均値, 係り受け重みづけm=1.0 ) 17
  • 18. マッチング失敗の分析 εが小さな質問文について分析した ログを分析し 1. 同義表現の不足 随時追加 e.g. 文字を大きくする – 文字のサイズを変更 文末への 2. 重要でない箇所とのマッチング 重みづけ e.g. フォントをWindows MEにインストールせずにフォントを追加するアプ リを使用している場合,TrueTypeフォントキャッシュの内容が破壊される 3. 係り受け重みづけの副作用 i. 構文解析の誤り 最新の自然言語 ii. 格の省略 処理技術の利用 iii. 換喩による係り受けのギャップ 本研究で扱う 18
  • 19. II. 研究紹介: ダイアログナビ a. 背景と本研究のアプローチ b. ユーザ質問文とテキストの柔軟で正確 なマッチング c. マッチングの拡張: 換喩表現マッチング d. マッチングの応用: 聞き返しによるユー ザのナビゲート e. 実運用による評価 19
  • 20. 換喩とは 比喩の一種: あるものをそれと関連する別のも のに置き換えて表現する現象(Lakoff 1980; 山梨1988) • 漱石を読む.(作者と作品) • トヨタを買う.(製造者と製品) 重要な言語現象 • ユーザの質問文に頻繁に出現 • 機械翻訳や照応解析などで扱う必要がある20
  • 21. 換喩による係り受けのギャップ ユーザ質問文 テキスト文 (換喩) GIFの ? GIFを 画像を 表示する 表示する 2 2 × = 0.27 (m=1.0) 3 5 係り受けへの重みづけによる副作用 21
  • 22. 換喩表現と換喩解釈表現 以下の2種類の表現の組み合わせを扱う (α) AP→V GIFを表示する (β) A(の)→BP→V GIF(の)画像を表示する (A, B: 名詞, V: 動詞, P: 格助詞, →: 係り受け関係) 仮説: (α)と(β)は換喩とその解釈になっている ⇒ (α)を換喩表現, (β)を換喩解釈表現と呼ぶ コーパスからの自動抽出 • (α),(β)のパターンに合致する表現を抽出 頻度の閾値: ≧3,名詞句の一部や括弧を含む表現は除外 • 各々の(α)に対応する(β)をペアとして抽出 22
  • 23. コーパスと抽出されたペアの数 コーパス 規模 ペア数 ユーザ質問文 約76万文 661 (MSダイアログナビ・話し言葉検索) テキスト集合 約59万文 288 (MSヘルプ集,サポート技術情報) ユーザ質問文+ 約135万文 1,126 テキスト集合 ユーザ質問文の寄与が大きい ⇒ 引き続きシステムを運用することで,さら に多くのペアが得られる 23
  • 24. 抽出した換喩表現・換喩解釈表現ペア 換喩表現(α) # 換喩解釈表現(β) # エラーが 出る 1681 エラー 表示が 出る 68 エラー 画面が 出る 6 エラー メッセージが 出る 3 電源を 入れる 290 電源 スイッチを 入れる 5 Excelを 開く 147 Excel ファイルを 開く 135 Excel 文書を 開く 9 印刷を 実行 141 印刷 プレビューを 実行 12 印刷 ジョブを 実行 4 動作が 遅い 123 動作 速度が 遅い 8 画像を 挿入 69 画像 ファイルを 挿入 6 JPGで 保存 20 JPG 形式で 保存 13 アドレスを 開く 4 アドレス 帳を 開く 43 MOを 使用 3 MO 装置を 使用 4 約80%のペアは換喩とその解釈として適切 24
  • 25. マッチングへの応用 得られた換喩表現・換喩解釈表現ペアを 同義表現辞書に登録 ユーザ質問文 テキスト文 (換喩) GIFの ? GIFを 画像を 表示する 表示する 2 2 3 5 (m=1.0) × = 0.27 × = 1.0 25 3 5 3 5
  • 26. テストセットによる評価結果 0.90 0.85 εの平均値 0.80 ヘルプ集 0.75 (31質問文) 0.70 0.65 提案手法 ベースライン 0.60 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.59 m (係り受け関係への重みづけ) 0.58 サポート 0.57 εの平均値 0.56 技術情報 0.55 (140質問文) 0.54 0.53 0.52 提案手法 ベースライン 0.51 0.0 0.5 1.0 1.5 2.0 2.5 3.0 m (係り受け関係への重みづけ) 26
  • 27. II. 研究紹介: ダイアログナビ a. 背景と本研究のアプローチ b. ユーザ質問文とテキストの柔軟で正確 なマッチング c. マッチングの拡張: 換喩表現マッチング d. マッチングの応用: 聞き返しによるユー ザのナビゲート e. 実運用による評価 27
  • 28. 聞き返しの必要性 • ユーザの質問とテキストの間には具体性の ギャップが存在 ⇒ 聞き返しが不可欠 • 適切な聞き返しが可能で,かつ大規模なテ キスト集合に適用可能な先行研究はみられ ない ユーザ質問文とテキストのマッチング手法を応 用した聞き返しによるユーザのナビゲート 28
  • 29. マッチング手法の応用による聞き返し 質問 テキスト1 テキスト2 質問 質問 OR 状況説明文 29
  • 30. 状況説明文の抽出 「IE5をインストール後,ページ違反が発生した」 IE5を起動した際に タスクスケジューラを使うと IE5を インストール後、 IE5を タスクスケジューラを 起動した際に 使うと ページ違反が ページ違反が 発生する 発生する 1. マッチしたテキスト文の構文木を以下の箇所でセグメント分割 連用修飾節,「時間」を示す節,読点を伴うデ格 2. セグメントのうち,すべての文節が質問文と対応するものを削除 3. 末尾のセグメントを状況説明文の核とする 30 4. 核のセグメントと,それに直接係るセグメントのみを抽出
  • 31. 漠然 ユーザの 質問 Windows 95で起 動時にエラーが 発生する マッチング&状況 具体 説明文の抽出 テキスト集合 31
  • 32. 困ってます 漠然 エラーが発生した ユーザの 質問 ? マッチング&状況 説明文の抽出 具体 テキスト集合 32
  • 33. 困ってます 漠然 エラーが発生した いつ? 対話カードによる 具体化 ユーザの 質問 Windows起動中 お使いの Windowsは? Windows95 (=Windows 95で 起動時にエラー が発生する) マッチング&状況 具体 説明文の抽出 テキスト集合 33
  • 34. 対話カード [エラー] 質問とのマッチング U: エラーが発生した <UQ>エラーが発生する <SYS>エラーはいつ発生しますか? S: エラーはいつ発生しますか? 1. Windows起動中 <SELECT> システムの発話 Windows起動中 goto [エラー/Windows起動中] 2. ログイン時 ログイン時 goto [エラー/ログイン時] 3. 印刷中 印刷中 goto [エラー/印刷時] U: Windows起動中 </SELECT> S: あなたがお使いのWindowsを選んで [エラー/Windows起動中] ください。 <UQ>Windowsを起動中にエラーが発生する 1. Windows 95 <SYS>あなたがお使いのWindowsを選んでください。 2. Windows 98 <SELECT> 3. Windows XP Windows 95 retrieve 「Windows 95で起動時にエラーが発生する」 U: Windows 95 Windows 98 テキストとのマッチング retrieve 「Windows 98で起動時にエラーが発生する」 Windows XP retrieve 「Windows XPで起動時にエラーが発生する」 34 </SELECT>
  • 35. U: Windows 95 テキスト集合 (=Windows 95で起動時にエラーが発生する) S: 以下の選択肢から選んでください。 1. 「<ファイル名>が不正かありません」 というエラーが発生する 2. 「JISフォントドライバーがインストール されていません」 等のエラーが発生 する 3. Windows 3.1のロゴ画面が表示され ハングアップしてしまう現象が発生 する 4. アプリケーションを起動した直後に エラーが発生する 5. … 35
  • 36. 困ってます 漠然 エラーが発生した トップダウン いつ? 対話カードによる 具体化 ユーザの 質問 Windows起動中 お使いの Windowsは? 相補的 Windows95 (=Windows 95で 起動時にエラー が発生する) マッチング&状況 具体 説明文の抽出 テキスト集合 ボトムアップ 36
  • 37. II. 研究紹介: ダイアログナビ a. 背景と本研究のアプローチ b. ユーザ質問文とテキストの柔軟で正確 なマッチング c. マッチングの拡張: 換喩表現マッチング d. マッチングの応用: 聞き返しによるユー ザのナビゲート e. 実運用による評価 37
  • 38. 実運用による評価の必要性 既存の情報検索システム評価手法 • テストセットによる評価 – インタラクションを伴うシステムの評価は不可 • タスク指向評価 – 漠然としたユーザの疑問を反映するシナリオ の設定は困難 ⇒ 一般ユーザによる実運用評価が必要 Web上で一般公開運用し、対話ログを評価 38
  • 39. 評価の観点 1. システムは適切なテキストを提示したか? A) 対話セッション単位の評価 2. ユーザとシステムはどう振舞ったか? B) ユーザ行動とシステム応答の分布 C) 質問文の長さとシステム応答の関係 3. 状況説明文の抽出は適切か? D) 状況説明文の評価 2002年8月の対話ログから無作為抽出した 378対話セッションを評価した 39
  • 40. A) 対話セッション単位の評価 成功 失敗 範囲外 知識有 知識無 知識有 知識無 適切 不適切 149 25 15 41 57 91 (65%) (11%) (7%) (18%) 174 (76%) 56 (24%) 148 230 (100%) 378 原因: リソースの不足 顕著な失敗例を分析し, •テキスト集合 随時修正・作成 •同義表現辞書 ⇒成功率 60%台 → 70%台 40
  • 41. B) ユーザ行動とシステム応答の分布 ユーザ質問の入力 (キーボード) (98回) 計518回 (420回) 32回 66回 261回 159回 対話カード応答 対話カード応答 テキストマッチング テキストマッチング (完結した応答) (選択肢提示) (該当あり) (該当なし) (U: こんにちわ) (U: エラーが発生した) (U: 行を追加したい) (U: サービスパックを S: こんにちは。 S: エラーはいつ発生 S: 以下の選択肢から 入れたい) しますか。 選んでください。 S: 該当する情報を見 つけることができま 平均選択肢数: 平均選択肢数: せんでした。 3.24 14.81 14回 58回 (CARD) 6回 (RET) ユーザの選択 ユーザの選択 (マウス) (マウス) 38回 198回 (SHOW) テキストの表示 41
  • 42. C) 質問文の長さとシステム応答の関係 質問文の 対話カード応答 知識ベース応答 計 文節数 完結応答 選択肢提示 該当あり 該当なし 1 29 17 115 59 220 2 3 37 46 47 133 3 短い質問文に対して 33 10 30 73 4 有効に働く 2 22 10 34 5以上 45 13 58 合計 32 66 261 159 518 一般的に、短い質問文ほど漠然としている ⇒ 対話カードによる応答は有効に働いている 42
  • 43. D) 状況説明文の評価 評価者1名が3段階で評価 – 最重要情報: ユーザが選択肢を選ぶ上で最も重要な 情報 評価 基準 選択肢数 妥当 最重要情報が過不足なく含まれている 213 ( 61%) 不十分 最重要情報が含まれていない 27 ( 8%) 冗長 最重要情報以外の情報が文字数換算で1/2 以上含まれている 108 ( 31%) 合計 348 (100%) 平均文字数: 81.6文字⇒68.9文字 (圧縮率15.6%) 43
  • 44. 本研究のまとめ 表現のギャップ 具体性のギャップ ユーザ質問文とテキストの 聞き返しによる 柔軟で正確なマッチング ユーザのナビゲート Excelで マッチングに基づくボトムアップの聞き返し 行を追加したい •文構造の利用 質問 (係り受け関係への USBマウス 重みづけ) が動かない OR •同義表現辞書 質問 拡張 応 対話カードによるトップダウンの聞き返し 換喩表現マッチング 用 エラーが [エラー] <UQ>エラーが発生する GIFの 発生した <SYS>エラーはいつ発生しますか? GIFが 画像が ? Windows起動中 エラーはいつ ログイン時 表示されない 表示されない 発生しますか? 印刷中 1. Windows起動中 •換喩・解釈ペアをコーパスから自動抽出 2. ログイン時 •マッチングへの応用 3. 印刷中 実運用による評価: ダイアログナビ 44
  • 45. 得られた知見 • 情報検索システムの研究には実運用評価 が必須 • 実運用のログは自然言語理解研究へのヒ ントの宝庫 比喩(換喩,暗喩など),省略,照応 etc. • 情報検索プロセスをうまく説明するモデル の必要性 45
  • 47. 研究方針 情報検索システムの研究には一般ユーザによ る実運用評価が必要 ⇒ 実世界から研究へのフィードバックを重視 自然言語処理技術 一般ユーザの利用 現行サービスの分析 システムの実装 実運用 情報検索プロセスの 評価 モデル化 • ユーザの満足度 自然言語理解 • 関連研究に対する位置づけ 47
  • 49. ダイアログナビの方法論の応用 どんなキーワードで探 漠然 せばいいの? 日本の原子力発電につ Kiwi, 言選Web いて調べたい 自然言語処理の研究 NDC(日本十進分類法) を始めたい による質問の一般化 東大学術情報DB ATS-Pってどんなシステム? 百科事典 (Wikipedia) ○○先生の書いた本を 調べたい 東大の歴史を調べたい 東大図書館FAQ OPAC 具体 49 文献・資料