SlideShare a Scribd company logo
1 of 17
太田 一行,森 信介
2018 LREC
EDA
効率的学習戦略
係り受け
[サーベイ]
Motivation 効率的に学習したい!
メモリ節約
コーパス制作のコスト
?
Contribution
•追加学習時に、追加するコーパスの有効性をあ
らかじめ推定する手法
提案手法では、アノテーションをすることなしに、追加すべきコーパスがわかる。
•実際に戦略に従って学習コーパスを選び、その
振る舞いを観察した。
•Cut-offの活用による精度向上&メモリ節約
提案手法では、メモリを削減しながら、精度を向上させられる。
構成
1. Material
2. Method
3. Experiment
4. 結果1
5. 結果2
6. 考察
7. 意思決定の例
Materials <コーパス>
• コーパスとしてはBCCWJ を用いる。
• BCCWJは均衡コーパスで
1. OB, (説明)
2. OW ,(…)
3. OC,
4. PB
5. PM
6. PN
の6分野から成る。[http://pj.ninjal.ac.jp/corpus_center/bccwj/]
[どこに記載があるのかわからない]
• 日本語学術研究で広く使用されていて、一般性を確保できる。
• ターゲットコーパスとして、[園芸]に属するある企業のコーパスを用いる。こ
のコーパスはすでに依存構造のアノテーションが行われている。
Materials <コーパス>
OC OW OY PB PM PN SKT
文数 2,114 2.056 2367 2,765 3,009 3095 2,021
単語数 42,924 86,687 40,802 64,829 50,215 69,940 44,743
文字数 60,817 124,817 59,821 89,706 75,641 102,441 64,234
BCCWJ(training)+SKT(target)
諸元[単語数を合わせる]
Method <モデル>
• [OC,OW,OY,PB,PM,PN]
2^6 -1の63通りでグループを構成
• Cut-off = [1,2,4,8,16,32]
6通りのcutoffを用意
Method <モデル>
グループ数*Cut-Offの数だけ、すなわち
378通りのモデルを構築
foreach model
do eda –m model SKT
(human-annotatedと比較した)精度を観察
Method <“近さ”の概念>
• Targetに内容的に近しいコーパスを学習すると、そうでない選択に比べて、
精度が向上する可能性が高いと、[経験的には]考えられている。これを、
ターゲットコーパスと学習コーパスの“近さ”と呼ぶとしよう。
• しかし、“近さ”の考えは今まで[定量的には]検討されてこなかった。“近さ”
を定量的に評価する方法として、文書検索で広く使われてきた、TF-IDF法
が優れていることを示す。
• TF-IDF法は簡便で、しかもアノテーション作業なしに、そのコーパスを追加し
たときに精度がよくなるかどうかを判断できる。
• TF-IDF法を用いて、訓練コーパスと、targetコーパスのcosine類似度を調べ
る。この距離と精度の相関を調べた。また、異なるコントロール条件でも同
様に試して、TF-IDF法が他に比べて優れていることを示した。
Experiment <cutoff>
0.9652
0.9654
0.9656
0.9658
0.966
0.9662
0.9664
0.9666
1 2 4 8 16 32 64
Experiment<精度>
上位3つ
g62 96.94OC OW OY PB PM PN
g54 96.939OC OW PB PM PN
g30 96.931OW OY PB PM PN
下位3つ
g32 0.9560OC PN
g8 0.9555OW PN
g16 0.9530OW PN
参考:精度0.001 = 約4問に相当
g_x はx番目のグループに相当し、それは左のようなコーパスで構成されている。
Experiment <近さと精度の相関>
手法 相関係数
TF-IDF 0.81550
TF-IDF <SVD> 0.81555
TF 0.25779
Dep-TFIDF 0.799912
Dep-TFIDF <SVD> 0.7999
考察2
• 基本的に、コーパスは多ければ多いほどよい。
• 一方で、同じくらいのコーパスの量でも、どのコーパスを選択するか
によって、精度に有意な差が生まれる。
• コーパスの追加にあたっては、TF-IDF法による事前検査が有効である。
この手法は簡便で、しかもアノテーションを行うことなしに、どのコーパ
スを追加すれば精度が向上できるか、予想することができる。
• MST Parserの仕組みを踏まえたdep-featureは、確かに精度と有意な
相関をもつが、TF-IDFよりも劣った。
• 次元削減手法として特異値分解を採用した。するとTF-IDF,dep-
featureでの相関の様子はほとんど変化しなかった。
考察1
• Cutoffと精度の関係は、直観に反して、上に凸の曲線を描く。
=>閾値を大きめに設定することで、メモリを節約しながら精度向上がで
きることがわかった。
=>一般的な日本語の特徴をよく捉えられるようになるから?
[要追加実験]
実際の意思決定の例
[EHJ,NPT,RCP.JNL,NKN]
ここに、5つのコーパスがある。
仮にこれらが未アノテーションだったとして、ひとつだけ、アノテーション
を行って追加学習することができる。
どのコーパスを選択すれば、精度が最も良くなるだろうか?
[要追加実験]
=>targetコーパスとのTF-IDF cosine距離を取り、もっとも距離の近いも
のを選択すればよい、というのが提案手法。
=>この選択が妥当であることを実験的に示す。
TODO

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Eda学習戦略