More Related Content
More from 長岡技術科学大学 自然言語処理研究室
More from 長岡技術科学大学 自然言語処理研究室 (20)
テキストの内容を表す記述要素の自動生成
- 3. 問題設定
3
背景
文の説明内容をすぐに知りたい
普通にテキスト検索をしても……
• クエリを含むか含まないかで判断
他の検索手法
• クエリの置き換え(萩原[2009])
• 検索結果のリランキング(Brin[1998])
• ウェブディレクトリの生成・改良/クラスタリング(鳥澤[2011],
Lee[2008])
• 話題の推定(石井[2004], 今井[1955])
既存研究
話題を求める
話題について書いてある物を探す
話題と文の具体的関係まで求める研究はない
- 7. 記述要素の例
どのような語ならいい?
ローパスフィルタ
個人情報保護法
AKB48
7
効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数,
ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,…
趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規
定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ
ン,原文,…
批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田
敦子,大島優子,切手シート,動画,篠田麻里子,写真,…
- 8. -クエリを詳細化する語を選ぶと-
ローパスフィルタ
個人情報保護法
AKB48
8
効果,特性,出力,役割,性能,役目,設計,清掃,カットオフ周波数,
ゴミ,掃除,定数,周波数,汚れ,クリーニング,カットオフ,…
趣旨,施行,概要,制定,目的,規制,ポイント,全面施行, 義務規
定,遵守体制,施行状況調査結果,三法, 対策ページ,ガイドライ
ン,原文,…
批判,活動,コンセプト,歴史,由来,新曲,板野友美,ファン,前田
敦子,大島優子,切手シート,動画,篠田麻里子,写真,…
仮定:ユーザはクエリに関して詳細化する説明が欲しい
記述要素の例
- 13. 作成した正解セット
13
ローパスフィルタ 個人情報保護法 AKB48
分布 割合 分布 割合 分布 割合
クエリ+の+記
述要素 2 0.02 1 0.02 0 0.00
記述要素を直
接含む 7 0.08 14 0.21 9 0.09
その他のキー
ワード 42 0.50 31 0.47 24 0.23
クエリを詳細化
しない説明 33 0.39 20 0.30 70 0.68
合計 84- 66- 103-
クエリ+の+記述要素
例)「ローパスフィルターの役目は、モアレや偽色の原因となる
細かい模様を、撮像素子に入射してくる前にある程度ぼかして
しまおうというものです」役目
- 14. 作成した正解セット
14
ローパスフィルタ 個人情報保護法 AKB48
分布 割合 分布 割合 分布 割合
クエリ+の+記
述要素 2 0.02 1 0.02 0 0.00
記述要素を直
接含む 7 0.08 14 0.21 9 0.09
その他のキー
ワード 42 0.50 31 0.47 24 0.23
クエリを詳細化
しない説明 33 0.39 20 0.30 70 0.68
合計 84- 66- 103-
記述要素を直接含む
例)「一番簡単なローパスフィルターは、抵抗RとキャパシタCを
一つずつ使用した構成のものでしょう」構成
- 15. 作成した正解セット
15
ローパスフィルタ 個人情報保護法 AKB48
分布 割合 分布 割合 分布 割合
クエリ+の+記
述要素 2 0.02 1 0.02 0 0.00
記述要素を直
接含む 7 0.08 14 0.21 9 0.09
その他のキー
ワード 42 0.50 31 0.47 24 0.23
クエリを詳細化
しない説明 33 0.39 20 0.30 70 0.68
合計 84- 66- 103-
その他のキーワード
例)「ローパスフィルタは低周波を良く通し、ある遮断周波数よ
り高い周波数の帯域を通さないフィルタである」働き
- 16. 作成した正解セット
16
ローパスフィルタ 個人情報保護法 AKB48
分布 割合 分布 割合 分布 割合
クエリ+の+記
述要素 2 0.02 1 0.02 0 0.00
記述要素を直
接含む 7 0.08 14 0.21 9 0.09
その他のキー
ワード 42 0.50 31 0.47 24 0.23
クエリを詳細化
しない説明 33 0.39 20 0.30 70 0.68
合計 84- 66- 103-
クエリを詳細化しない説明
例)ローパスフィルターが無い機種はカメラ内の映像エンジン
や、撮影後にソフトでモアレ低減処理をします
- 17. 作成した正解セット
17
ローパスフィルタ 個人情報保護法 AKB48
分布 割合 分布 割合 分布 割合
クエリ+の+記
述要素 2 0.02 1 0.02 0 0.00
記述要素を直
接含む 7 0.08 14 0.21 9 0.09
その他のキー
ワード 42 0.50 31 0.47 24 0.23
クエリを詳細化
しない説明 33 0.39 20 0.30 70 0.68
合計 84- 66- 103-
ここからわかる事
• クエリを詳細化しない文が多数存在
• 記述要素を直接含むタイプの文は少数
直接的な語の有無以外の判定が大事
- 19. クローズドテスト
19
ローパスフィルタ 個人情報保護法 AKB48
種類 抽出数 精度 抽出数 精度 抽出数 精度
総合 45 0.87 31 0.68 28 0.93
クエリ+の+記述
要素 3 0.67 3 0.33 1 0.00
記述要素を直
接含む 6 1.00 10 0.70 7 1.00
その他のキーワ
ード 36 0.86 18 0.72 20 0.95
クエリを詳細化する文にのみ付与すれば精度68~93%
限定しない場合は55~57%
クエリを詳細化する文を選定することが重要
「その他のキーワード」の精度が高い
• 事前に文を限定し、特定のクエリの元で付与すれば、単純な
キーワードマッチでも高精度を出す可能性がある
オープンテストで検証
- 20. ローパスフィルタ 個人情報保護法 AKB48
種類 抽出数 精度 抽出数 精度 抽出数 精度
総合 10 0.80 66 0.42 33 0.76
クエリ+の+記述
要素 2 0.50 6 0.33 7 0.29
記述要素を直
接含む 5 1.00 40 0.40 8 0.75
その他のキー
ワード 3 0.67 21 0.48 18 0.94
オープンテスト
20
精度は全体として10ポイント低下
• 個人情報保護法の精度が低い
• それ以外は76~80%と高めの値を維持している
「その他のキーワード」による精度は安定していない
誤り解析で原因究明
- 22. 誤り解析
22
ローパス
フィルタ
個人情報
保護法
AKB48
Closed open closed open closed open
話題語が異なる 25 18 6 53 19 77
候補に無い 4 0 5 17 0 1
別パタンにマッチ 1 1 2 14 1 7
照合誤り 0 0 2 5 1 0
その他 0 0 1 2 0 0
• 大部分の誤りは文の話題語がクエリと異なる事により
発生
文を精確に区別するシステムが必要
• 純粋な「その他のキーワード」によるエラーは少量
キーワードマッチそのものは有効である
- 28. まとめ
目的のテキストを見つけたい
記述要素の付与の結果
• キーワードマッチでの精度は42~80%
28
入力文に対して、クエリの詳細を表す語=記述要
素の付与を行うタスクを新たに提案
• 入力文が特定の語を詳細化する説明か、自
動判定する必要がある
• 一部の記述要素は、記述要素固有の語より
も説明内容に共通の語を用いる方が望ましい
一見、精度は安定していないが、誤り原因が明確であ
るため、これに対応するという前提の上で今回のアプロ
ーチは有効と考える
- 32. 記述要素のリスト
32
ローパスフィルタ
効果, 特性, 出力, 役割, 性能, 役目, 設計, 負担, 機能, 働き, 効
き目, 影響, 問題,方式,構成,原理,サイズ,副作用,必要性,素材,
構造,厚み,原材料,形状,基本構成, 活動, 用途, 目的, 能力, 重
要性, 種類, 弱点, 使い方, 作り方, 効率,基本原理, 恩恵, はたら
き, スペック
個人情報保護法
趣旨,適用,規定,施行,制定,目的,規制,精神,重要性,効力,施行
状況,成立,運用, 遵守, 対象, 主旨, 違反, 制約, 対策, 基本理念,
基本精神, 対応, 実効性,原則, 義務, 理念, 基本原則
AKB48
メンバー,魅力,批判,態度,活動,活躍,コンセプト,印象,歴史,人数,
イメージ, アイデンティティー, 由来, 運営, 未来
- 34. 記述要素候補語の条件
34
定義
クエリと文の関係を表す 1 語
例) 「歴史」「機能」
除外条件
「クエリの記述要素とは」の後に固有名詞、固有名
詞のリストが続くようなものは除外(文との関係を表し
たいから)
例)フランスの皇帝
「クエリ+の+記述要素」というパタンに合致
例)「ローパスフィルタの機能」