SlideShare a Scribd company logo
分散表現を用いた語の上位下位関係の学習
―Lexical Memorizationの緩和―
東京大学総合文化研究科
鷲尾光樹 加藤恒昭
はじめに
• 語の意味関係
• 含意関係認識などに重要
• WordNetなどのシソーラスの語彙は限られており、リソースに
ない語に関しても、意味関係を獲得したい。
• パターンベースの手法([Hearst 1992]など)はrecallが低い。
• 語の分散表現を用いて意味関係を獲得する手法。
はじめに
• 本研究は分散表現を用いた上位下位関係の学習について扱う。
• 上位下位関係
• “A is a B”と言えるような二語の間にある意味関係
• A=下位語、B=上位語
• 「車」-「乗り物」、「りんご」-「果物」など
• 訓練データを用いる教師あり学習が主流
• Lexical Memorization [Levy+ 2015]
• 分類器が意味関係を学習せず、訓練データの上位語に過剰適合。
• 訓練データにない語が含まれるペアを適切に分類できない。
本研究について
• Lexical Memorizationという問題を整理し、未解明の部分の原
因を分析・検証して明らかにする。
• 各原因に対応する改善手法を提案し、実験によりそれらが有効
であることを示す。
構成
1. はじめに
2. 上位下位関係の学習と教師あり学習の問題
3. 問題の整理と原因分析
4. 提案手法と実験
5. 結論
分散表現を用いた上位下位関係の学習
• 教師なし学習
• 内省的な直観に基づいた指標を用いて分類を行う。
• 教師あり学習
• 語のペアに意味関係がアノテーションされた訓練データを用いて、分
類器を獲得。
教師なし学習
• 各次元の意味が明確である古典的な共起頻度ベクトルを用いる。
• 分布包含仮説に基づく指標
• 下位語の出現文脈は上位語の出現文脈に包含されるという直観
• 「甘いりんご」 vs. 「酸っぱい果物」「甘い果物」「臭い果物」
• e.g. 𝐼𝑛𝑣𝐶𝐿 𝑢, 𝑣 = 𝐼 𝑢, 𝑣 ∙ (1 − 𝐼 𝑣, 𝑢 ) [Lenci & Benotto 2012]
ただし、𝐼 𝑢, 𝑣 =
𝑖∈𝐹(𝑢)∪𝐹(𝑣) min(𝑢 𝑖,𝑣 𝑖)
𝑖∈𝐹(𝑢)
𝑢 𝑖
𝐹 𝑥 は単語ベクトルの非零の次元の集合を返す関数
𝑣
𝑢
教師なし学習
• 出現文脈の分布のエントロピーを比較する指標
• エントロピーが低い → 局所的な文脈に出現する下位語らしい
• エントロピーが高い → 広範な文脈に出現する上位語らしい
• e.g . 𝐸𝑛𝑡𝑑𝑖𝑓𝑓 𝑢, 𝑣 = 𝐻(𝑣) − 𝐻(𝑢)
ただし、単語𝑥のベクトル 𝑥 = (𝑥1, 𝑥2, ⋯ , 𝑥 𝑛)に対し、
𝐻 𝑥 = − 𝑖 𝑝 𝑥𝑖 𝑥 ∙ log2 𝑝(𝑥𝑖|𝑥)
教師あり学習
• 二語の分散表現から特徴ベクトルを作り、訓練データを用いて分類
器を獲得。
• 主な特徴ベクトルの作り方
• DIFF :二語のベクトルの差
• CONCAT :二語のベクトルの連結
• 非線形分類器は過学習を引き起こしやすいため、線形分類器が用い
られることが多い。
• 教師なし学習よりも性能がいいが、汎化性能に問題がある。
Lexical Memorization [Levy+ 2015]
• 分類器は二語の関係性を学習せず、訓練データにおける「典型
的な上位語」を覚えているだけ。
Lexical Memorization [Levy+ 2015]
• 訓練データとテストデータの語彙を分ける(Lexical Split)と、
分類性能が大幅に下がる。
• 上位語のベクトルだけを用いて学習しても、性能にあまり差が
でない。
• 「車」-「果物」などの、ちぐはぐな上位下位関係ペア
(switched pair)を正例に分類してしまう割合と、recallがほ
ぼ等しい。
Levyらの分析
• なぜ線形分類器は二語の関係性を学習できないのか?
𝐷𝐼𝐹𝐹 𝑢, 𝑣; 𝜃 = 𝜃 ∙ 𝑣 − 𝑢
= 𝜃 ∙ 𝑣 − 𝜃 ∙ 𝑢
𝐶𝑂𝑁𝐶𝐴𝑇 𝑢, 𝑣; 𝜃1, 𝜃2 = (𝜃1⨁𝜃2) ∙ ( 𝑣⨁𝑢)
= 𝜃1 ∙ 𝑣 + 𝜃2 ∙ 𝑢
• これらの式の中に、二語の関係性を捉えるような項( 𝑣 ∙ 𝑢な
ど)はない。
構成
1. はじめに
2. 上位下位関係の学習と教師あり学習の問題
3. 問題の整理と原因分析
4. 提案手法と実験
5. 結論
Lexical Memorizationの整理
𝐷𝐼𝐹𝐹 𝑢, 𝑣; 𝜃 = 𝜃 ∙ 𝑣 − 𝑢
= 𝜃 ∙ 𝑣 − 𝜃 ∙ 𝑢
𝐶𝑂𝑁𝐶𝐴𝑇 𝑢, 𝑣; 𝜃1, 𝜃2 = (𝜃1⨁𝜃2) ∙ ( 𝑣⨁𝑢)
= 𝜃1 ∙ 𝑣 + 𝜃2 ∙ 𝑢
• 二語の関係性は捉えられないが、DIFFはベクトル空間における上位下位
関係の典型的な方向、CONCATは典型的な上位語と下位語のベクトルを捉
えられる。
• 一般性を持つ典型性が捉えられているのならば、Lexical splitを行っても
汎化性能は落ちないはず。
Lexical Memorizationの整理
• 「二語の関係性を学習できないこと」と、「訓練データの上位
語に過剰適合し、未知語に対応できないこと」は独立の問題。
• 前者はLevyの分析で十分と思われる。
• では、なぜ分類器は訓練データの上位語に過剰適合してしまう
のか?
• モデルではなく、訓練データの性質に着眼。
原因分析
• 上位下位関係の訓練データの性質として、正例の上位語の出現
回数の分布の偏りがある。
• 上位下位関係においては、広い意味を持つ語ほど多くの下位語
を持つため、シソーラスからナイーブに上位下位関係のペアを
抽出すると、下位語を多く持つ語ほど、上位語として訓練デー
タに出現することになる。
• 正例の上位語の出現回数の分布の偏りが、学習にどのように悪
影響を及ぼすのか?
原因分析
𝜃 ∙ 𝑣 − 𝜃 ∙ 𝑢
𝜃1 ∙ 𝑣 + 𝜃2 ∙ 𝑢
DIFF
CONCAT
上位語 下位語
原因分析
𝜃 ∙ 𝑣 − 𝜃 ∙ 𝑢
𝜃1 ∙ 𝑣 + 𝜃2 ∙ 𝑢
DIFF
CONCAT
乗り物
乗り物
乗り物
車
飛行機
自転車
上位語 下位語
果物 りんご
原因分析
𝜃 ∙ 𝑣 − 𝜃 ∙ 𝑢
𝜃1 ∙ 𝑣 + 𝜃2 ∙ 𝑢
DIFF
CONCAT
乗り物
乗り物
乗り物
車
飛行機
自転車
上位語 下位語
ベクトルに重複
が多く傾向強
ベクトルに重複
が少なく傾向弱
果物 りんご
原因分析
𝜃 ∙ 𝑣 − 𝜃 ∙ 𝑢
𝜃1 ∙ 𝑣 + 𝜃2 ∙ 𝑢
DIFF
CONCAT
乗り物
乗り物
乗り物
車
飛行機
自転車
上位語 下位語
ベクトルに重複
が多く傾向大
ベクトルに重複
が少なく傾向小
ここがとにかく大きい値
を持つように学習してし
まう
果物 りんご
検証
• 訓練データ
• WeedsWN [Weeds+ 2014]
WordNetから語のペアを抽出。
各語の上位語位置、下位語位置での出現回数が1回ずつ。
• WeedsBLESS [Weeds+ 2014]
BLESSから語のペアを抽出。
各語の出現回数に制約なし。
• テストデータ
• Hyperlex [Vulic+ 2016]からWeedsWN、WeedsBLESSの語彙を含むペアを取り除いたもの。
• 分散表現
• Omer Levyらが公開している、近傍共起前後2語を文脈とした分散表現。
• 英語版Wikipediaから、Skipgram with negative samplingで獲得されたもの。
• 分類
• ロジスティック回帰+L2正則化
検証
平均 分散(標準偏差) 中央値 最頻値
上位語 7.7 139.7(11.8) 4 1
下位語 4.3 3.5(1.9) 4 4
WeedsBLESSの正例の語の出現回数の統計量
下位語位置の語の出現回数は偏りが少ない。上位語位置の語の出現回数は大きく偏って
いる。
WeedsWNはすべての語の出現回数が、各位置で1回ずつ。
検証
precision recall F1
WeedsWN 0.508 0.702 0.589
WeedsBLESS 0.761 0.113 0.198
各データセットで訓練した場合の性能比較(CONCAT)
DIFFは省略。Recallに大きな差。
検証
下位語位置 上位語位置
WeedsWN 0.349(0.591) 0.550(0.742)
WeedsBLESS 0.097(0.312) 0.750(0.866)
CONCATにおける各位置でのパラメータの二乗の平均(平方根)
WeedsWNで学習した分類器は、各位置のベクトルに比較的均等に重みを割り当てている。
WeedsBLESSで学習した分類器は、上位語位置のベクトルに重みが偏っている。
検証
• WeedsBLESSで学習したDIFF分類器において、訓練データ内
の上位語の出現回数ごとの特徴ベクトルとパラメータベクトル
の内積の平均と、上位語の出現回数の相関を調べた。
• 上位語の出現回数と、獲得された上位下位関係性は無相関であ
ることが望ましいが、相関係数が0.903と非常に強い相関が
あった。
• 以上の結果から「上位語への過剰適合」の原因は、訓練データ
における上位語の出現回数の分布の偏りにあると考えられる。
構成
1. はじめに
2. 上位下位関係の学習と教師あり学習の問題
3. 問題の整理と原因分析
4. 提案手法と実験
5. 結論
提案手法
• Lexical Occurence Constraint(LOC)
• 訓練データの語の各位置での出現回数に制約を課す手法。
• 語の出現回数の偏りをなくすことで、分類器の獲得する典型性が改善
し、汎化性能の向上が期待できる。
• Feature of Unsupervised Measures(FUM)
• 特徴ベクトルに、教師なし指標の値を追加する手法。
• 言語学的直観に基づく特徴を追加することで、関係性の学習の促進が
期待できる。
評価実験
• 分散表現と分類器は先の実験と同じ。
• データセット
• Hyperlexと、switched pairを多く含むLEDSを統合したもの。
• Lexical splitを行いつつ30分割交差検定 [Roller and Erk 2016]
• LOCの実装
• まず、訓練データの正例の各位置における出現回数が1回になるよう
に制約をかけ、その後、各位置に出現してない語のペアで構成された
負例を追加していく。
評価実験
• FUMの実装
• 共起頻度ベクトルが必要であるため、近傍共起前後2語の共起頻度行
列を、英語版Wikipediaから獲得し、PPMI行列に変換。
• 各ペアの特徴ベクトルに、以下の指標を追加。
• コサイン類似度 (二語の類似度) ※Skipgramベクトルを用いる。
• InvCL (分布包含性)
• Ent_diff (分布の形状の違い)
評価実験
precision recall F1 match error
baseline 0.723 0.752 0.735 0.393
LOC 適用 0.690 0.820 0.748 0.467
FUM 適用 0.742 0.783 0.761 0.236
ALL 0.716 0.832 0.768 0.346
性能評価(DIFF)
• CONCATは同じ傾向であったため省略。
• match errorは、switched pairを上位下位関係に分類してしまった割合。
• ベースラインはDIFFのみを用いた場合。
• ALLは、LOCとFUMを両方適用したもの。
評価実験
precision recall F1 match error
DIFF 0.723 0.752 0.735 0.393
LOC 適用 0.690 0.820 0.748 0.467
FUM 適用 0.742 0.783 0.761 0.236
ALL 0.716 0.832 0.768 0.346
性能評価(DIFF)
• 提案手法を適用すると、いずれも有意にF1が向上した。
• LOCを適用した場合、recallとmatch errorが上昇し、学習される上位下位関係の典型性が向上して
いる。
• FUMを適用した場合、precision、recallが上昇、match errorが下降し、関係性の学習が促進され
ている。
評価実験
precision recall F1 match error
DIFF 0.723 0.752 0.735 0.393
LOC 適用 0.690 0.820 0.748 0.467
FUM 適用 0.742 0.783 0.761 0.236
ALL 0.716 0.832 0.768 0.346
性能評価(DIFF)
• ALLでは、recallとF1が最も良かった。
• しかし、FUMのみ適用した場合と比べ、match errorが上昇し、F1の差も有意ではなかった。
• これは、LOCによって訓練データが大幅に減ってしまっているためであると思われる。
結論
• 本研究は、上位下位関係の教師あり学習の問題であるLexical
Memorizationを整理し、未解明の原因について明らかにした。
• Lexical Memorizatonを緩和する2つの手法を提案し、その有効
性を実験により示した。
• 今後の課題
• LOCによってデータ数が減少 ➠ 二語の関係性の学習を阻害
• 訓練データを減らさずに、各語の影響力を調整する研究に取り組みた
い。

More Related Content

Featured

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
 

Featured (20)

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 

分散表現を用いた語の上位下位関係の学習―Lexical Memorizationの緩和―

Editor's Notes

  1. ]