N-gram統計量からの係り受け情報の復元 (YANS2011)

7,517 views

Published on

Published in: Technology
0 Comments
6 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
7,517
On SlideShare
0
From Embeds
0
Number of Embeds
3,596
Actions
Shares
0
Downloads
33
Comments
0
Likes
6
Embeds 0
No embeds

No notes for slide

N-gram統計量からの係り受け情報の復元 (YANS2011)

  1. 1. N-gram 2011/09/22 NLP ⼿手 6 , ⼤大 {unno, hillbig}@prefered.jp
  2. 2. l  N ⾏行行l l  ⾒見見 ⾏行行l  ⽇日 ⾏行行
  3. 3. ⽂文 ⽤用 ⼤大 ⼤大 ⼤大l  ⼊入l  ⾶飛
  4. 4. l l  ⼀一⽅方 ⾼高l  l  ⾔言 ⽂文
  5. 5. ⼤大l  l  l l  l  l l  N
  6. 6. ⻑⾧長l  ⽂文 ⼀一l l  ⽤用 l  ⼤大 ⾻骨 ⾻骨 l l  ⽤用 l  l  ⼤大l  l  ⼤大⾬雨 l 
  7. 7. Eisner [Eisner96] A B C D E root = A D + B D + B C + D root + D El  ⽊木 T S(T)l  S(T) = ∑(m, h) T s(m, h) l  (m, h) T ⾮非l  S(T) ⼤大 Topt O(n3)
  8. 8. Google N-gram ⾃自⼰己 PMIl  Google⽇日 N ⽤用 l  #(mh) m, h l  #(m) ml  Eisner ⾜足 s(m, h) T ⼀一 const
  9. 9. ⼤大 ⾻骨 ⾻骨 ⼤大 ⼤大⾬雨
  10. 10. 1.  ⾃自 l  l 2.  l  l  ⼤大3.  ⾃自 l  ⾃自 l  ⼤大 l  ⼤大 ⾃自
  11. 11. 1. ⾃自l l l  ⾃自l  ⾼高 PMI l  580K   117M   72K l  580K   13.4M   20.5K
  12. 12. 2. ⼤大l  ⼤大l  l  542M  ⼤大 114M   ⼤大 68K l  542M   1.66M   77l  ⼤大
  13. 13. 3. ⾃自 ⼤大l  ⼤大 ⽂文l l 
  14. 14. 1 ⾼高l  PMI ⾔言l 
  15. 15. 1 ⽂文 ⼤大 ⼤大 2l  ⼊入 ⼤大l  ⽊木   
  16. 16. 2 ⼤大⾬雨 ⼤大⾬雨l  ⽊木l     ⽅方l  ⽂文 ⽤用
  17. 17. [⼯工 05][ +06]   (1) 1 0 1 1 0 1 0 1 0 0 0 1(2) 0.95 0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95(3) 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95 0.0 0.0 0.0 0.99 (1)   (2) SSC ( =0.95) (3) l  ⼒力力 l  l 
  18. 18. ⼤大 PMI ⽤用 [Zhou+11]l  PMI ⼊入l  PMI Google ⽤用l  +1 ~ 2
  19. 19. ⽂文l  [Eisner96] J. M. Eisner. Three New Probabilistic Models for Dependency Parsing: An Exploration. COLING ‘96.l  [⼯工 05] ⼯工 . ⽤用 ⼀一 ⽤用. ⾔言 ⼤大 ’05.l  [ +06] ⼤大 , ⼯工 , . ⽤用 ⽤用. NLP ⼿手 ‘06.l  [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web- Derived Selectional Preference to Improve Statistical Dependency Parsing. ACL ’11.

×