N-gram統計量からの係り受け情報の復元 (YANS2011)

Yuya Unno
Yuya Unno-- at Preferred Networks
N-gram

                  2011/09/22
         NLP   ⼿手     6


                       ,      ⼤大
          {unno, hillbig}@prefered.jp
l    N
          ⾏行行

l 


l              ⾒見見      ⾏行行

l        ⽇日          ⾏行行
⽂文             ⽤用


           ⼤大


                ⼤大

                ⼤大



l                        ⼊入
l         ⾶飛
l 


l    ⼀一⽅方             ⾼高
l 
      l     ⾔言   ⽂文
⼤大


l 
      l 
      l 
l 
      l 
      l 




l    N
⻑⾧長

l                    ⽂文        ⼀一

l 


l           ⽤用
      l    ⼤大 ⾻骨     ⾻骨
      l 

l          ⽤用
      l 

      l                   ⼤大
l 
      l            ⼤大⾬雨
      l 
Eisner                                      [Eisner96]


                           A           B       C       D            E       root




                                                       =
 A          D   +     B            D       +       B       C        +   D      root   +   D   E


l                   ⽊木 T                                      S(T)

l    S(T) = ∑(m, h)           T   s(m, h)
      l    (m, h)     T                                       ⾮非
l    S(T)           ⼤大                    Topt                         O(n3)
Google N-gram                              ⾃自⼰己
 PMI




l    Google⽇日       N                      ⽤用
      l    #(mh) m, h
      l    #(m) m
l    Eisner        ⾜足           s(m, h)          T
      ⼀一                 const
⼤大   ⾻骨          ⾻骨




            ⼤大




          ⼤大⾬雨
1.          ⾃自
      l 

      l 



2. 
      l 

      l    ⼤大

3.                 ⾃自
      l                 ⾃自
      l            ⼤大
             l    ⼤大         ⾃自
1.          ⾃自




l 
l 


l          ⾃自
l                        ⾼高        PMI
      l         580K     117M            72K
      l         580K     13.4M            20.5K
2.



                            ⼤大



l          ⼤大

l 
      l         542M  ⼤大    114M        ⼤大   68K
      l         542M          1.66M                77
l          ⼤大
3.         ⾃自



           ⼤大



l    ⼤大        ⽂文


l 
l 
1 ⾼高

l    PMI          ⾔言




l 
1   ⽂文

                         ⼤大

                    ⼤大

                                         2


l                            ⼊入   ⼤大

l    ⽊木                              
2



                            ⼤大⾬雨




                ⼤大⾬雨


l         ⽊木
l                                 ⽅方

l    ⽂文        ⽤用
[⼯工 05][             +06]  

              	
         	
   	
     	
       	
   	
   	
   	
     	
     	
     	
(1)  1    0    1    1    0    1    0    1    0    0    0    1
(2) 0.95 0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95
(3) 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95                   0.0    0.0    0.0   0.99

                   (1)                      (2)     SSC ( =0.95) (3)


      l 
            ⼒力力
      l 
      l 
⼤大          PMI               ⽤用 [Zhou+11]

l            PMI                  ⼊入
l    PMI            Google         ⽤用
l                  +1 ~ 2
⽂文

l  [Eisner96] J. M. Eisner. Three New Probabilistic Models for
    Dependency Parsing: An Exploration. COLING ‘96.
l  [⼯工 05] ⼯工     .                  ⽤用                 ⼀一
        ⽤用. ⾔言                ⼤大 ’05.
l  [      +06]        ⼤大 , ⼯工     ,       .                 ⽤用
                                          ⽤用. NLP ⼿手
         ‘06.
l  [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web-
    Derived Selectional Preference to Improve Statistical
    Dependency Parsing. ACL ’11.
1 of 19

Recommended

前半10 by
前半10前半10
前半10芊如 賴
136 views16 slides
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic... by
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...
ACL2011読み会 Exploiting Web-Derived Selectional Preference to Improve Statistic...Yuya Unno
3.3K views17 slides
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ... by
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...Yuya Unno
11.2K views17 slides
表現学習時代の生成語彙論ことはじめ by
表現学習時代の生成語彙論ことはじめ表現学習時代の生成語彙論ことはじめ
表現学習時代の生成語彙論ことはじめYuya Unno
9K views54 slides
言語と知識の深層学習@認知科学会サマースクール by
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
26.9K views103 slides
Spell checking using an N-gram language model by
Spell checking using an N-gram language modelSpell checking using an N-gram language model
Spell checking using an N-gram language modelRaphael Bouskila
4.9K views15 slides

More Related Content

Viewers also liked

Jubatusの紹介@第6回さくさくテキストマイニング by
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
4.7K views27 slides
Efficient Top-k Algorithms for Fuzzy Search in String Collections by
Efficient Top-k Algorithms for Fuzzy Search in String CollectionsEfficient Top-k Algorithms for Fuzzy Search in String Collections
Efficient Top-k Algorithms for Fuzzy Search in String Collectionsrvernica
2K views56 slides
自然言語処理@春の情報処理祭 by
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭Yuya Unno
8.4K views35 slides
ピーFIの研究開発現場 by
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
8K views23 slides
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW... by
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...Masumi Shirakawa
4.9K views31 slides
Information Extraction from Web-Scale N-Gram Data by
Information Extraction from Web-Scale N-Gram DataInformation Extraction from Web-Scale N-Gram Data
Information Extraction from Web-Scale N-Gram DataGerard de Melo
1.8K views75 slides

Viewers also liked(20)

Jubatusの紹介@第6回さくさくテキストマイニング by Yuya Unno
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno4.7K views
Efficient Top-k Algorithms for Fuzzy Search in String Collections by rvernica
Efficient Top-k Algorithms for Fuzzy Search in String CollectionsEfficient Top-k Algorithms for Fuzzy Search in String Collections
Efficient Top-k Algorithms for Fuzzy Search in String Collections
rvernica2K views
自然言語処理@春の情報処理祭 by Yuya Unno
自然言語処理@春の情報処理祭自然言語処理@春の情報処理祭
自然言語処理@春の情報処理祭
Yuya Unno8.4K views
ピーFIの研究開発現場 by Yuya Unno
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
Yuya Unno8K views
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW... by Masumi Shirakawa
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
N-gram IDF: A Global Term Weighting Scheme Based on Information Distance (WWW...
Masumi Shirakawa4.9K views
Information Extraction from Web-Scale N-Gram Data by Gerard de Melo
Information Extraction from Web-Scale N-Gram DataInformation Extraction from Web-Scale N-Gram Data
Information Extraction from Web-Scale N-Gram Data
Gerard de Melo1.8K views
企業における自然言語処理技術利用の最先端 by Yuya Unno
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
Yuya Unno15.9K views
SAS University Edition - Getting Started by Craig Trim
SAS University Edition - Getting StartedSAS University Edition - Getting Started
SAS University Edition - Getting Started
Craig Trim2.4K views
Text categorization by KU Leuven
Text categorizationText categorization
Text categorization
KU Leuven12.6K views
Statistical Semantic入門 ~分布仮説からword2vecまで~ by Yuya Unno
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno83.4K views
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学) by Yuya Unno
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno18.7K views
Extreme Extraction - Machine Reading in a Week by Shuyo Nakatani
Extreme Extraction - Machine Reading in a WeekExtreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a Week
Shuyo Nakatani27.1K views
「知識」のDeep Learning by Yuya Unno
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
Yuya Unno24.6K views
Short Text Language Detection with Infinity-Gram by Shuyo Nakatani
Short Text Language Detection with Infinity-GramShort Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-Gram
Shuyo Nakatani70.3K views
Semantic Search for Sourcing and Recruiting by Glen Cathey
Semantic Search for Sourcing and RecruitingSemantic Search for Sourcing and Recruiting
Semantic Search for Sourcing and Recruiting
Glen Cathey35.4K views
DeNAの機械学習・深層学習活用した 体験提供の挑戦 by Koichi Hamada
DeNAの機械学習・深層学習活用した体験提供の挑戦DeNAの機械学習・深層学習活用した体験提供の挑戦
DeNAの機械学習・深層学習活用した 体験提供の挑戦
Koichi Hamada32.1K views

More from Yuya Unno

深層学習で切り拓くパーソナルロボットの未来 by
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来Yuya Unno
6K views69 slides
深層学習時代の 自然言語処理ビジネス by
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネスYuya Unno
19.4K views22 slides
ベンチャー企業で言葉を扱うロボットの研究開発をする by
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をするYuya Unno
7.4K views76 slides
PFNにおける セミナー活動 by
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動Yuya Unno
4.8K views12 slides
深層学習フレームワーク Chainerとその進化 by
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化Yuya Unno
3.9K views32 slides
進化するChainer by
進化するChainer進化するChainer
進化するChainerYuya Unno
6.7K views18 slides

More from Yuya Unno(20)

深層学習で切り拓くパーソナルロボットの未来 by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来深層学習で切り拓くパーソナルロボットの未来
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno6K views
深層学習時代の 自然言語処理ビジネス by Yuya Unno
深層学習時代の自然言語処理ビジネス深層学習時代の自然言語処理ビジネス
深層学習時代の 自然言語処理ビジネス
Yuya Unno19.4K views
ベンチャー企業で言葉を扱うロボットの研究開発をする by Yuya Unno
ベンチャー企業で言葉を扱うロボットの研究開発をするベンチャー企業で言葉を扱うロボットの研究開発をする
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno7.4K views
PFNにおける セミナー活動 by Yuya Unno
PFNにおけるセミナー活動PFNにおけるセミナー活動
PFNにおける セミナー活動
Yuya Unno4.8K views
深層学習フレームワーク Chainerとその進化 by Yuya Unno
深層学習フレームワークChainerとその進化深層学習フレームワークChainerとその進化
深層学習フレームワーク Chainerとその進化
Yuya Unno3.9K views
進化するChainer by Yuya Unno
進化するChainer進化するChainer
進化するChainer
Yuya Unno6.7K views
予測型戦略を知るための機械学習チュートリアル by Yuya Unno
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
Yuya Unno23.7K views
深層学習による機械とのコミュニケーション by Yuya Unno
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
Yuya Unno12.7K views
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L... by Yuya Unno
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Yuya Unno5.5K views
Chainer, Cupy入門 by Yuya Unno
Chainer, Cupy入門Chainer, Cupy入門
Chainer, Cupy入門
Yuya Unno68.1K views
Chainerのテスト環境とDockerでのCUDAの利用 by Yuya Unno
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno16.5K views
深層学習フレームワークChainerの特徴 by Yuya Unno
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
Yuya Unno59.4K views
子供の言語獲得と機械の言語獲得 by Yuya Unno
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
Yuya Unno35.7K views
NIP2015読み会「End-To-End Memory Networks」 by Yuya Unno
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno11.5K views
Chainer入門と最近の機能 by Yuya Unno
Chainer入門と最近の機能Chainer入門と最近の機能
Chainer入門と最近の機能
Yuya Unno110K views
Chainerの使い方と 自然言語処理への応用 by Yuya Unno
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
Yuya Unno30.4K views
GPU上でのNLP向け深層学習の実装について by Yuya Unno
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
Yuya Unno31.1K views
深層学習時代の自然言語処理 by Yuya Unno
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno149.4K views
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える- by Yuya Unno
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
Yuya Unno8.1K views
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio... by Yuya Unno
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
Yuya Unno9.5K views

N-gram統計量からの係り受け情報の復元 (YANS2011)

  • 1. N-gram 2011/09/22 NLP ⼿手 6 , ⼤大 {unno, hillbig}@prefered.jp
  • 2. l  N ⾏行行 l  l  ⾒見見 ⾏行行 l  ⽇日 ⾏行行
  • 3. ⽂文 ⽤用 ⼤大 ⼤大 ⼤大 l  ⼊入 l  ⾶飛
  • 4. l  l  ⼀一⽅方 ⾼高 l  l  ⾔言 ⽂文
  • 5. ⼤大 l  l  l  l  l  l  l  N
  • 6. ⻑⾧長 l  ⽂文 ⼀一 l  l  ⽤用 l  ⼤大 ⾻骨 ⾻骨 l  l  ⽤用 l  l  ⼤大 l  l  ⼤大⾬雨 l 
  • 7. Eisner [Eisner96] A B C D E root = A D + B D + B C + D root + D E l  ⽊木 T S(T) l  S(T) = ∑(m, h) T s(m, h) l  (m, h) T ⾮非 l  S(T) ⼤大 Topt O(n3)
  • 8. Google N-gram ⾃自⼰己 PMI l  Google⽇日 N ⽤用 l  #(mh) m, h l  #(m) m l  Eisner ⾜足 s(m, h) T ⼀一 const
  • 9. ⼤大 ⾻骨 ⾻骨 ⼤大 ⼤大⾬雨
  • 10. 1.  ⾃自 l  l  2.  l  l  ⼤大 3.  ⾃自 l  ⾃自 l  ⼤大 l  ⼤大 ⾃自
  • 11. 1. ⾃自 l  l  l  ⾃自 l  ⾼高 PMI l  580K   117M   72K l  580K   13.4M   20.5K
  • 12. 2. ⼤大 l  ⼤大 l  l  542M  ⼤大 114M   ⼤大 68K l  542M   1.66M   77 l  ⼤大
  • 13. 3. ⾃自 ⼤大 l  ⼤大 ⽂文 l  l 
  • 14. 1 ⾼高 l  PMI ⾔言 l 
  • 15. 1 ⽂文 ⼤大 ⼤大 2 l  ⼊入 ⼤大 l  ⽊木   
  • 16. 2 ⼤大⾬雨 ⼤大⾬雨 l  ⽊木 l     ⽅方 l  ⽂文 ⽤用
  • 17. [⼯工 05][ +06]   (1) 1 0 1 1 0 1 0 1 0 0 0 1 (2) 0.95 0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95 (3) 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95 0.0 0.0 0.0 0.99 (1)   (2) SSC ( =0.95) (3) l  ⼒力力 l  l 
  • 18. ⼤大 PMI ⽤用 [Zhou+11] l  PMI ⼊入 l  PMI Google ⽤用 l  +1 ~ 2
  • 19. ⽂文 l  [Eisner96] J. M. Eisner. Three New Probabilistic Models for Dependency Parsing: An Exploration. COLING ‘96. l  [⼯工 05] ⼯工 . ⽤用 ⼀一 ⽤用. ⾔言 ⼤大 ’05. l  [ +06] ⼤大 , ⼯工 , . ⽤用 ⽤用. NLP ⼿手 ‘06. l  [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web- Derived Selectional Preference to Improve Statistical Dependency Parsing. ACL ’11.