SlideShare a Scribd company logo
1 of 14
Download to read offline
長岡技術科学大学
久保木武承 山本和英
テキストの内容を表す記述要素の
自動生成手法の検討
1
背景
●目的
検索で目的のページをすぐに見つけたい
●問題
“クエリ”に関するどのような説明がされ
ているか、検索結果ではすぐにわからない
2
提案
●狙い
(1)クエリに関する説明が一目でわかる
→目的の情報にすぐたどり着ける
(2)記述要素が言葉に出来なくても、主な話題を
入力すればどのような説明があるかわかる
→検索サポートにつながる
3
本文を端的に表す“記述要素”の抽出を
行う
記述要素抽出のイメージ
-検索結果-検索
すぐにページ中の内容がわかる
ページ2
ページ1 クエリを含む段落
クエリの実態
クエリの話題
クエリのゲスト
4
記述要素の定義
(1) 「“クエリ” の」で接続される1語
例)“個人情報保護法”の「施行時期」
(2)本文で言及されている事を表す
・記述要素が本文に含まれなくてもいい
(3)クエリ+記述要素のみで完結するもの
○ 個人情報保護法の「内容」
× 個人情報保護法の「内容の変化」
5
記述要素のイメージ
クエリ:個人情報保護法
抽出した本文:
個人情報保護法では5000人以上の個人情報をもつ事業者はすべ
て規制の対象になるが、この場合の個人情報とは個人名を含む。企
業のコンピュータに5000人の人名が入っていないことはまず考えら
れない(たとえば年賀状ソフトには4000万人の住所氏名が入ってい
る)ので、すべての企業は個人情報取扱事業者であり、ほとんどの
企業は違法状態なのである。
“クエリ”の“記述要素”
→個人情報保護法の規制対象
→個人情報保護法の実態
6
記述要素候補の取得
クエリ:個人情報保護法
記述要素の異なり数 366
適正な記述要素 289(79%)
不適切な記述要素 77(21%)
・定義に則った単純な手法
→79%がそのまま利用可能
適切な例:施行,適用,定義,対策,改正,影響
不適切な例:民間事業者,過剰反応,全面
7
記述要素の付与-理論-
記述要素を言及する
文{内容語}ペア
・・・
記述要素Aを表すトリガ= {𝒘 𝟐, 𝒘 𝟑}
記述要素A
入力文章S
-出力-
入力文章Sは
記述要素Aである
8
記述要素の付与-手法-(1)
1.記述要素ごとに題目を含む文を抽出
・文数30以下の記述要素は不使用
2.記述要素ごとにトリガを生成
・記述要素名に一致する形態素は不使用
・全文の10%以上で出現する内容語を使
用
9
記述要素の付与-手法- (2)
3.二度実験してトリガを限定する
(1)一度以上使われたトリガを使用
(2)間違いを2回以上したトリガを不使用
(3)3個以上の異なる記述要素で使われ
たトリガを不使用
10
記述要素の付与-結果-
再現率は高い→クローズドテストの見込み通り
しかし適合率は低い=平均候補数が大きい
名称 Recall Precision F-measure 平均候補数
ans 0.72 0.06 0.10 54
1trigger(1) 0.7 0.07 0.13 41.4
2trigger(1) 0.7 0.08 0.14 36.45
3trigger(1) 0.62 0.09 0.16 27.31
1trigger(1)(2) 0.42 0.15 0.22 5.9
2trigger(1)(2) 0.54 0.10 0.17 20.87
3trigger(1)(2) 0.55 0.10 0.16 21.81
1trigger(1)(2)(3) 0.37 0.16 0.22 3.39
2trigger(1)(2)(3) 0.52 0.10 0.17 18.45
3trigger(1)(2)(3) 0.55 0.10 0.17 20.31
11
記述要素の付与-考察-(1)
●問題点
・適合率が低い
●行った対処
方針:トリガの抽出条件を厳しくする
・トリガの有効頻度/無効頻度
・他の記述要素とのトリガの重なり除去
12
記述要素の付与-考察-(2)
●結論
・有効なトリガは、語の出現頻度や単純な
共起頻度とは相関が低い
→頻度以外の要素の検証が必要
13
トリガに限らず適合率を保証する要因を
見つけ出す必要がある
今後の課題:新しい問題設定
●設定課題
目的:適合率向上
文と記述要素を入力し、適合するか
否かの判定
●検討するポイント
記述要素決定に必要な情報は何か
14

More Related Content

Viewers also liked (17)

Mar judirttttt
Mar judirtttttMar judirttttt
Mar judirttttt
 
Jl Melhor Mail
Jl Melhor MailJl Melhor Mail
Jl Melhor Mail
 
FOTOS
FOTOSFOTOS
FOTOS
 
Romantismo contexto e poetas
Romantismo contexto e poetasRomantismo contexto e poetas
Romantismo contexto e poetas
 
Aula caminha
Aula caminhaAula caminha
Aula caminha
 
Rolls-Royce Super Powers - Science
Rolls-Royce Super Powers - ScienceRolls-Royce Super Powers - Science
Rolls-Royce Super Powers - Science
 
Edrejtapenale
EdrejtapenaleEdrejtapenale
Edrejtapenale
 
Pe antonio vieira
Pe antonio vieiraPe antonio vieira
Pe antonio vieira
 
Tpi v3
Tpi v3Tpi v3
Tpi v3
 
Présentation diaporama
Présentation diaporamaPrésentation diaporama
Présentation diaporama
 
Căn hộ sunview 3 trung tâm gò vấp chỉ 614 tr căn lh 0989.707.653
Căn hộ sunview 3 trung tâm gò vấp chỉ 614 tr căn lh 0989.707.653Căn hộ sunview 3 trung tâm gò vấp chỉ 614 tr căn lh 0989.707.653
Căn hộ sunview 3 trung tâm gò vấp chỉ 614 tr căn lh 0989.707.653
 
Portafolio visual 2014
Portafolio visual 2014Portafolio visual 2014
Portafolio visual 2014
 
[07 03-2011]-pactos entre esposos.
[07 03-2011]-pactos entre esposos.[07 03-2011]-pactos entre esposos.
[07 03-2011]-pactos entre esposos.
 
Kulturclub Musikerinfos
Kulturclub MusikerinfosKulturclub Musikerinfos
Kulturclub Musikerinfos
 
Dadaismo
DadaismoDadaismo
Dadaismo
 
Idade média oriental
Idade média orientalIdade média oriental
Idade média oriental
 
Ejercicios de revisión
Ejercicios de revisiónEjercicios de revisión
Ejercicios de revisión
 

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

テキストの内容を表す記述要素の自動生成手法の検討