SlideShare a Scribd company logo
1 of 12
Download to read offline
 
	
  
κ値について	
	
  
	
  
	
  中山 祐輝	
  
2013/06/22(土)	
  
1
はじめに	
•  研究を行う際にタグ付きコーパスの一致率を
求める必要があったため,一致率の求め方を
まとめた	
  
– 特にκ値に焦点を当てた	
  
– 内容に多少の間違いがあるかもしれません…	
  
•  参考にしたページ	
  
– h+p://d.hatena.ne.jp/asanote/
20081011/1223736381	
  
– h+p://aoki2.si.gunma-­‐u.ac.jp/lecture/Kappa/
kappa.html	
  
2
背景	
•  学術研究において,実験時に評価用のデー
タセットを用意する場合がある	
  
•  自然言語処理の分野では,何らかの仕様に
基づきタグ付けされたコーパスを用意する	
  
– 第一著者が付けました!信頼度高いっす(笑)	
  
– 信頼性の低いタグ付きコーパスによる実験	
  
•  論文をリジェクトするための都合の良い理由となる	
  
•  論文を通すためには,信頼性の高い客観的
な指標を持つタグ付きコーパスが必要→κ値	
3
κ値[Cohen	
  60]とは	
•  二人の作業者の判定結果がどの程度一致し
ているかを表す指標(一致率)	
  
– 多くの論文ではこの指標が使われている	
  
– 三人以上にも使えるように拡張した手法もある	
  
•  以降のページからκ値の計算過程を説明	
  
1.  タグ付け結果のクロス表を作成	
  
2.  偶然一致の割合を計算	
  
3.  κ値の計算	
4
 
1.	
  タグ付け結果のクロス表を作成	
  
	
•  (例)AさんとBさんはコーパス中の名詞に対し
て,固有名詞かどうかの判定を行ったとする	
  
	
  
①:	
  AさんもBさんも固有名詞と判定した名詞の数	
  
②〜④も同様	
  
•  選択肢がN個あるとN×Nのクロス表ができる	
  
5	
Bさん付
けた	
Bさん付けな
かった	
合計	
Aさん付けた	
 ①515	
 ②141	
 656	
Aさん付けなかった	
 ③174	
 ④6486	
 6660	
合計	
 689	
 6627	
 7316
2.	
  偶然一致の割合を計算	
	
  
•  単純な一致率ではだめなのか?	
  
– つまり,(①+④)/7316≒0.957ではだめ?	
  
•  問題点:	
  偶然一致の割合を考慮していない	
  
– 作業者二人がでたらめに,もしくはわからないと
判断したときに生じる一致の割合	
  
– κ値は偶然一致を除いたものが真の一致率と考
える	
  
6	
Bさん付
けた	
Bさん付けな
かった	
合計	
Aさん付けた	
 ①515	
 ②141	
 656	
Aさん付けなかった	
 ③174	
 ④6486	
 6660	
合計	
 689	
 6627	
 7316
 
偶然一致の割合を	
  
どのように計算するか?	
  
	
•  実際には観測できないため,期待値を利用し
て推定	
  
– 起こりうることが期待される値	
  
•  期待値の求め方	
  
– ①の期待値について考えてみる	
  
7	
Bさんが付けた	
 Bさんが付け
なかった	
合計	
Aさん付けた	
 ①?	
 ②?	
 656	
Aさん付けなかった	
 ③?	
 ④?	
 6660	
合計	
 689	
 6627	
 7316
期待値の計算	
•  p.7の表より	
  
–  Aさんが固有名詞と付ける確率は656/7316	
  
–  Bさんが固有名詞と付ける確率は689/7316	
  
•  AさんもBさんも固有名詞と付ける確率は	
  
–  (656/7316)×(689/7316)≒	
  0.0084445	
  
–  ここではAさんとBさんのタグ付けは独立と仮定	
  
•  相談しながらタグ付けは行っていないなどAさんの結果がB
さんの結果に影響を及ぼさない	
  
•  つまり,7316語で両者とも固有名詞と付ける期
待値は	
  
–  7316×0.008445	
  ≒	
  61.04	
  
•  61.04個の名詞が考えずとも一致するという意味	
  
8
期待値を用いた偶然一致の割合	
•  ②〜④の期待値も同様に考えると以下のよ
うな表になる	
  
•  よって,偶然一致の割合は	
  
– (①+④/7316)≒0.834	
  
•  一致している数の中で,約83%の割合が考えずとも一
致しますということ	
9	
Bさん付けた	
 Bさん付けな
かった	
合計	
Aさん付けた	
 ①61.04	
 ②589.96	
 651	
Aさん付けなかった	
 ③624.96	
 ④6040.04	
 6665	
合計	
 686	
 6630	
 7316
3.	
  κ値の計算	
•  κ値は以下のような式で求められる	
  
– κ=(A0-­‐Ae)/(1-­‐Ae)  (-­‐1≦κ≦1)	
  
•  A0:	
  実際に一致した割合	
  
•  Ae:	
  偶然に一致することが期待される割合	
  
– 今回の例では	
  
•  κ=(0.957-­‐0.834)/(1-­‐0.834)=	
  0.741	
  
•  上式の意味	
  
– 偶然一致することが期待される分は除いて,残り
がどれだけの割合で一致したかを表す	
10
κ値の絶対評価(目安)	
•  0.0<κ≦0.4:	
  小程度の一致	
  
–  全然だめ!タグ付けの仕様もしくは作業者に問題がある
からやり直し!	
  
•  0.4<κ≦0.6: 中程度の一致	
  
–  まあまあ一致してるけどリジェクトのネタに成りかねない…
もうちょっとκ値が高くなるようにタグ付けの仕様を変更し
たほうがよいよ!	
  
•  0.6<κ≦0.8:	
  かなりの一致	
  
–  論文に書けるレベルだよ!でも,査読者次第ではリジェク
トされるかも…運ゲーだね…	
  
•  0.8<κ: ほぼ完璧の一致	
  
–  エクセレント!でもκ値ではダメだという査読者もいるらし
いから油断はできないね!	
  
11
まとめ	
•  主要会議になればなるほど実験に用いた
データセットの品質は重要	
  
– 特に計算言語学の会議はうるさいみたいです	
  
•  信頼性を見極める客観的な指標にκ値がある	
  
– 広く使われている指標	
  
•  κ値だけが全てではない	
  
– κ値ではダメだという査読者もいると聞く	
  
– 用いる指標は扱うデータセットによる?	
  
12

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

2013.06.22.kappa

  • 1.     κ値について      中山 祐輝   2013/06/22(土)   1
  • 2. はじめに •  研究を行う際にタグ付きコーパスの一致率を 求める必要があったため,一致率の求め方を まとめた   – 特にκ値に焦点を当てた   – 内容に多少の間違いがあるかもしれません…   •  参考にしたページ   – h+p://d.hatena.ne.jp/asanote/ 20081011/1223736381   – h+p://aoki2.si.gunma-­‐u.ac.jp/lecture/Kappa/ kappa.html   2
  • 3. 背景 •  学術研究において,実験時に評価用のデー タセットを用意する場合がある   •  自然言語処理の分野では,何らかの仕様に 基づきタグ付けされたコーパスを用意する   – 第一著者が付けました!信頼度高いっす(笑)   – 信頼性の低いタグ付きコーパスによる実験   •  論文をリジェクトするための都合の良い理由となる   •  論文を通すためには,信頼性の高い客観的 な指標を持つタグ付きコーパスが必要→κ値 3
  • 4. κ値[Cohen  60]とは •  二人の作業者の判定結果がどの程度一致し ているかを表す指標(一致率)   – 多くの論文ではこの指標が使われている   – 三人以上にも使えるように拡張した手法もある   •  以降のページからκ値の計算過程を説明   1.  タグ付け結果のクロス表を作成   2.  偶然一致の割合を計算   3.  κ値の計算 4
  • 5.   1.  タグ付け結果のクロス表を作成   •  (例)AさんとBさんはコーパス中の名詞に対し て,固有名詞かどうかの判定を行ったとする     ①:  AさんもBさんも固有名詞と判定した名詞の数   ②〜④も同様   •  選択肢がN個あるとN×Nのクロス表ができる   5 Bさん付 けた Bさん付けな かった 合計 Aさん付けた ①515 ②141 656 Aさん付けなかった ③174 ④6486 6660 合計 689 6627 7316
  • 6. 2.  偶然一致の割合を計算   •  単純な一致率ではだめなのか?   – つまり,(①+④)/7316≒0.957ではだめ?   •  問題点:  偶然一致の割合を考慮していない   – 作業者二人がでたらめに,もしくはわからないと 判断したときに生じる一致の割合   – κ値は偶然一致を除いたものが真の一致率と考 える   6 Bさん付 けた Bさん付けな かった 合計 Aさん付けた ①515 ②141 656 Aさん付けなかった ③174 ④6486 6660 合計 689 6627 7316
  • 7.   偶然一致の割合を   どのように計算するか?   •  実際には観測できないため,期待値を利用し て推定   – 起こりうることが期待される値   •  期待値の求め方   – ①の期待値について考えてみる   7 Bさんが付けた Bさんが付け なかった 合計 Aさん付けた ①? ②? 656 Aさん付けなかった ③? ④? 6660 合計 689 6627 7316
  • 8. 期待値の計算 •  p.7の表より   –  Aさんが固有名詞と付ける確率は656/7316   –  Bさんが固有名詞と付ける確率は689/7316   •  AさんもBさんも固有名詞と付ける確率は   –  (656/7316)×(689/7316)≒  0.0084445   –  ここではAさんとBさんのタグ付けは独立と仮定   •  相談しながらタグ付けは行っていないなどAさんの結果がB さんの結果に影響を及ぼさない   •  つまり,7316語で両者とも固有名詞と付ける期 待値は   –  7316×0.008445  ≒  61.04   •  61.04個の名詞が考えずとも一致するという意味   8
  • 9. 期待値を用いた偶然一致の割合 •  ②〜④の期待値も同様に考えると以下のよ うな表になる   •  よって,偶然一致の割合は   – (①+④/7316)≒0.834   •  一致している数の中で,約83%の割合が考えずとも一 致しますということ 9 Bさん付けた Bさん付けな かった 合計 Aさん付けた ①61.04 ②589.96 651 Aさん付けなかった ③624.96 ④6040.04 6665 合計 686 6630 7316
  • 10. 3.  κ値の計算 •  κ値は以下のような式で求められる   – κ=(A0-­‐Ae)/(1-­‐Ae)  (-­‐1≦κ≦1)   •  A0:  実際に一致した割合   •  Ae:  偶然に一致することが期待される割合   – 今回の例では   •  κ=(0.957-­‐0.834)/(1-­‐0.834)=  0.741   •  上式の意味   – 偶然一致することが期待される分は除いて,残り がどれだけの割合で一致したかを表す 10
  • 11. κ値の絶対評価(目安) •  0.0<κ≦0.4:  小程度の一致   –  全然だめ!タグ付けの仕様もしくは作業者に問題がある からやり直し!   •  0.4<κ≦0.6: 中程度の一致   –  まあまあ一致してるけどリジェクトのネタに成りかねない… もうちょっとκ値が高くなるようにタグ付けの仕様を変更し たほうがよいよ!   •  0.6<κ≦0.8:  かなりの一致   –  論文に書けるレベルだよ!でも,査読者次第ではリジェク トされるかも…運ゲーだね…   •  0.8<κ: ほぼ完璧の一致   –  エクセレント!でもκ値ではダメだという査読者もいるらし いから油断はできないね!   11
  • 12. まとめ •  主要会議になればなるほど実験に用いた データセットの品質は重要   – 特に計算言語学の会議はうるさいみたいです   •  信頼性を見極める客観的な指標にκ値がある   – 広く使われている指標   •  κ値だけが全てではない   – κ値ではダメだという査読者もいると聞く   – 用いる指標は扱うデータセットによる?   12