SlideShare a Scribd company logo
形態素n-gramと正規表現による
      語法・用例検索の手法

            同志社大学 長谷部陽一郎
       yhasebe@mail.doshisha.ac.jp
          同志社ことばの会 年次大会
               2008年2月11日
はじめに
       本発表で行うこと
           日本語を扱う理論言語学研究で、コーパスを効果的に用いた語法・用
            例検索を行う手法についての考察
           表層形と文法的素性の両面から目標テキストを抽出するために開発し
            たシステムの紹介
           現時点での問題と、それらを回避するための方法の提示
           「追試可能な言語分析」に向けての提案




    2                       同志社ことばの会年次大会   2008年2月11日
理論言語学とコーパス
       理論言語学におけるコーパス利用の目的
           語彙頻度表・分布表の作成・参照
           コロケーションの抽出・分析
           語法・用例の検索


       認知言語学とコーパス言語学との接近
           規則とリストの誤謬
           用法基盤モデルに基づいた文法研究
           必ずしも数量データに重きを置かない方法論の可能性

                                              具体化(elaboration)
                                スキーマ
                                              拡張(extension)

                                              スキーマ化(schematization)

                       プロトタイプ          拡張事例
                                                   (Langacker 2000: 13)


    3                              同志社ことばの会年次大会     2008年2月11日
テキスト検索の一般的手法
例として、次のような英文から「動詞過去形+the+名詞句」をできるだけ多く
抽出することを考える。


Sammy plucked the guitar, while Eddie played the piano.


       通常検索(非正規表現検索)
        ed theで検索
        Sammy plucked the guitar, while Eddie played the piano.


       正規表現検索
        /¥s.*?ed¥sthe¥s.+?[¥s¥.,]/ で検索
        Sammy plucked the guitar, while Eddie played the piano.


    4                                       同志社ことばの会年次大会          2008年2月11日
正規表現とは
       正規表現(regular expressions)
        形式言語理論に起源を持つ、文字列集合を定義するためのメタ言語。プ
        ログラミング言語やテキストエディタにおけるパターンマッチング用の表記
        法として広く用いられている。


Sammy plucked the guitar, while Eddie played the piano.


                _ + ...ed + _ + the + _ + ... + (_ | . | ,)



         正規表現        ¥s.+?ed¥sthe¥s.+?[¥s¥.,]

    5                                同志社ことばの会年次大会       2008年2月11日
正規表現検索の限界
       文字列の表層形だけに着目した検索には限界がある
           不規則動詞の過去形は? the+NP以外の目的語は?
           過去形以外の動詞についても含めたい場合は?


       対象が日本語になるとさらに困難な事柄が増える
           日本語テキストでは空白による分かち書きがなされていない。
           同音異義語が多く、ナイーブな検索の結果には大量のノイズが含ま
            れることが予想される。

           次のような日本語の文から、名詞+格助詞「を」+動詞 という条件を満たす
            文字列を抽出する方法は?

            太郎はピアノを弾き、次郎はギターをかき鳴らした。


6                             同志社ことばの会年次大会   2008年2月11日
形態素解析システムの利用
計算機上のプログラムを用いて、ある程度の精度で日本語テキストの構造
を解析することが可能。(JUMAN, KAKASI, ChaSen, MeCab)
       MeCabの出力例
太郎はピアノを弾き、次郎はギターをかき鳴らした。
太郎       名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
は       助詞,係助詞,*,*,*,*,は,ハ,ワ
ピアノ 名詞,一般,*,*,*,*,ピアノ,ピアノ,ピアノ
を       助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
弾き       動詞,自立,*,*,五段・カ行イ音便,連用形,弾く,ヒキ,ヒキ
、       記号,読点,*,*,*,*,、,、,、
次郎       名詞,固有名詞,人名,名,*,*,次郎,ジロウ,ジロー
は       助詞,係助詞,*,*,*,*,は,ハ,ワ
ギター 名詞,一般,*,*,*,*,ギター,ギター,ギター
を       助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
かき鳴らし         動詞,自立,*,*,五段・サ行,連用形,かき鳴らす,カキナラシ,カキナラシ
た       助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。       記号,句点,*,*,*,*,。,。,。

表層形 品詞,細分類1,細分類2,細分類3,活用形,活用型,原型,読み,発音

    7                                         同志社ことばの会年次大会   2008年2月11日
n-gramについて
       n-gram
           テキストに含まれる文字列の頻度および出現確率を調査するために広
            く用いられる手法。n個のプリミティブごとに文字列を区切ったものを単
            位として計算処理を行う。(1-gram, 2-gram, 3-gram, ...)

       文字をプリミティブとした3-gramの例
             太郎はピアノを弾いた (→ 8個の3-gram)
             太   郎    は
                 郎    は    ピ
                      は    ピ    ア
                           ピ    ア       ノ
                                ア       ノ   を
                                        ノ   を    弾
                                            を    弾   い
                                                 弾   い   た


    8                                           同志社ことばの会年次大会   2008年2月11日
形態素n-gramと正規表現による検索
   形態素解析システムによって出力された形態素データをプリミティブとして
    n-gramを構築する。
   nはマッチングさせたい形態素数により決定される。
    例えば名詞+「を」+動詞が条件ならばn=3である。
                           検索対象                                 正規表現

形態素列(太郎|は|ピアノ|を|弾き|、...)のの3-gram                               表層形     素性

太郎         は         ピアノ                                   1         /名詞/
名詞,固有名詞    助詞,格助詞    名詞,一般                                 2   /を/
           は         ピアノ          を                        3         /動詞/
           助詞,格助詞    名詞,一般        助詞,格助詞
                     ピアノ          を        弾き
                     名詞,一般        助詞,格助詞   動詞,自立
                                  を        弾き      、
                                  名詞,一般    動詞,自立   記号,読点




    9                                      同志社ことばの会年次大会        2008年2月11日
Mconcの開発
    プログラムの特徴
        http://mconc.rubyforge.org からダウンロード可能。
        形態素n-gramと正規表現による語法・用例検索システム。
        開発言語はRuby。Windows上で動作。GUIあり。
        形態素解析にはMeCabを利用(CのAPIを用いてアクセス)。
        検索条件の指定にはYAML形式の設定ファイルを利用。
        入力テキストはプレーンテキスト形式。
        センテンスの単位(基本的に句点ごと)に分割して処理。
        結果の出力はCSV形式(Excel等で読み込めるように)。
        文字コードはUTF-8/EUC/Shift JISのいずれか。
        複数ファイルの指定が可能。

    Mconcの使用例
        日本語の分裂構文(~のは~だ)を含むセンテンスを抽出。
        対象コーパスはWikipedia日本語版のダンプデータ(2007年2月10日版)。


    10                           同志社ことばの会年次大会     2008年2月11日
Mconcの入出力
 条件設定の例                              抽出されたセンテンスの例
 -                          ①
                                        これを手書きにしたのは手塚治虫である。(漫画)
 - surface: /^の$/           ②
   feature: /^名詞/           ③           日本の鉱業の中心を占めるのはイオウである。(日
                                         本)
 - surface: /^は$/           ④
                                        現在の市域が確定するのは19世紀半ばナポレオン3
   feature: /^助詞,係助詞/       ⑤            世治下のことである。(パリ)
 --                         ⑥           したがって、自由な利用が可能となるのは2041年1月
 - feature: /^助動詞,.*特殊・ダ/   ⑦            1日午前零時からである。(著作権の保護)
                                        ただし、日常の口語で使われているのは標準ドイツ語
1.   第1の指定形態素。行頭のハイフンは形態素ユニットの区          ではなく、ドイツ南部等と同じ高地ドイツ語系の方言で
     切り。ハイフンのみの行は1個の任意の形態素にマッチ           ある。(オーストリア)

2.   第2の指定形態素の表層形は「の」                   フランス軍撤退後、混乱を収拾して権力を掌握したの
                                         はオスマン帝国が派遣したアルバニア人部隊の隊長
3.   第2の指定形態素の素性記述は「名詞」で始まる              としてエジプトにやってきた軍人、ムハンマド・アリーで
4.   第3の指定形態素の表層形は「は」                    あった。(エジプト)

5.   第3の指定形態素の素性記述は「助詞,係助詞」で始まる。        特に問題となるのは著作者人格権の中の同一性保持
                                         権の扱いである。(GNU Free Document License)
6.   2個のハイフン(のみ)の行は後続する条件にマッチするま
                                        1656年7月27日に破門を受けたのは、恐らくこのため
     でまたはセンテンス末までの、任意の数の形態素にマッチ
                                         である。(バールーフ・デ・スピノザ)
7.   第4の指定形態素の素性記述は「助動詞」で始まり、「特         こういう場合の「こんにちは」に相当するのはBuenas
     殊・ダ」を含む(すなわち助動詞「だ」か、その活用形「で」)       tardesではなくholaである。(スペイン語)


     11                                  同志社ことばの会年次大会           2008年2月11日
問題とその解決策
    問題
     1. 形態素解析システム(+辞書)の性能の限界。
     2. 条件設定を書くために正規表現とMconcの書式とを習得する必要がある。
     3. 前節の条件設定では、いわゆる分裂構文と認めにくいものも抽出される。
            自然言語が数学的に定義される普遍類別代数系でないのは勿論である。(形式言語)
            そのような生命が未だ発見されていない以上、それについて論議するのは危険である... (生物)

     4. 詳細な条件にマッチさせるためには巨大なコーパスが必要。


    解決策
     1. 不可避だが、常に向上しつつはある。
     2. 現状では不可避。(検索の強力さと手順の複雑さとはトレードオフ)
     3. 多くの場合、条件設定の見直しによりある程度は改善可能。あるいは、出力後
        に目視によるチェックを行うことも現実的な方法として考え得る。
     4. Wikipediaや青空文庫のデータなどはコーパスとして用いるのに十分なサイズを備
        えている。これらは著作権上の問題もクリアしやすい。


    12                                 同志社ことばの会年次大会     2008年2月11日
効用と可能性
    追試可能な言語分析のための基盤として
        理論言語学の議論のためのデータとして、通常は研究者の文法的直感に基づ
         いた作例が用いられている
        文法とはある種のスキーマだとすれば、それを語るには低次の事例/インスタ
         ンスの存在が保証されなければならない。
        科学的な手続きとして、「これこれの手順を踏めば、Aという事例が得られる」と
         いうことを示すことが理想。
        データとプログラムをすべてオープンソースのもので完結させることが重要。


    計量的研究への応用
        上の条件が満たされるならば、同じ手法を計量的な研究に用いることも可能。
        完全でないシステムによる機械処理の結果を、どのような仕組みと過程により
         それが出力されたかを併記しつつ示す。



    13                      同志社ことばの会年次大会   2008年2月11日
まとめ
    形態素n-gramと正規表現を組み合わせることで、語法・用例検索のために
     コーパスを効果的に利用することが可能。
    この手法を実現するプログラムとしてMconcを開発。
    Mconcの実装に内在する問題と、コーパス検索自体に関わるより一般的な問
     題がある。しかし、工夫によってある程度は解決(ないしは回避)できる。
    認知言語学の用法基盤主義を徹底させる上で、分析対象となる語法・用例を
     実際のテキストから抽出する方法の確立は重要。
    現状において、計算機上のシステムは完全でない。しかし、プログラムの仕組
     と処理の過程を公開し、問題の所在をトラッキングする手段を提供する限りに
     おいて、価値は保たれる。

     コーパス            計算処理           理論的考察

       • Wikipedia    • Mconc         • 認知文法
       • 青空文庫         • MeCab         • 認知意味論
       • etc          • etc           • etc


14                          同志社ことばの会年次大会   2008年2月11日
リファレンス
    プログラム
     Mconc         http://mconc.rubyforge.org/
     WP2TXT        http://wp2txt.rubyforge.org/
     MeCab         http://mecab.sourceforge.net/


    コーパス
     Wikipedia     http://ja.wikipedia.org/wiki/WP:DD/
     青空文庫          http://www.aozora.gr.jp/


    参考文献
     長谷部 陽一郎 2006 「Wikipedia日本語版をコーパスとして用いた言語研究の手法」
       『言語文化(同志社大学言語文化学会)』 第9号, 373−403.
     Langacker, Ronald W. 2000. “Dynamic Usage-Based Model,” M. Barlow and S. Kemmer
        (eds.), Usage-Based Models of Language. Stanford: CSLI, 1-65.17




    15                                             同志社ことばの会年次大会         2008年2月11日

More Related Content

What's hot

Upstream and downstream in Requirement Development
Upstream and downstream in Requirement DevelopmentUpstream and downstream in Requirement Development
Upstream and downstream in Requirement Development
Kent Ishizawa
 
醫師公會全聯會醫療政策建言書
醫師公會全聯會醫療政策建言書醫師公會全聯會醫療政策建言書
醫師公會全聯會醫療政策建言書honan4108
 
廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章5045033
 
98學年度生涯發展教育實施計畫
98學年度生涯發展教育實施計畫98學年度生涯發展教育實施計畫
98學年度生涯發展教育實施計畫
Frank Liu
 
夜までラボ☆テレビ7月24日開催分
夜までラボ☆テレビ7月24日開催分夜までラボ☆テレビ7月24日開催分
夜までラボ☆テレビ7月24日開催分
ikiikilab
 
検索キーワードで読み解く2007年
検索キーワードで読み解く2007年検索キーワードで読み解く2007年
検索キーワードで読み解く2007年pipithelhasa
 
アジャツール!オブラブ夏イベント号外発行!!
アジャツール!オブラブ夏イベント号外発行!!アジャツール!オブラブ夏イベント号外発行!!
アジャツール!オブラブ夏イベント号外発行!!
Takeshi Kakeda
 
Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖handbook
 
HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖handbook
 
データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊Hiroshi Ono
 
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介devsumi2009
 
數位城邦計畫2006
數位城邦計畫2006數位城邦計畫2006
數位城邦計畫2006Alex Lee
 
2009年4月8日セミナー 4.レコメンデーション Q&A
2009年4月8日セミナー 4.レコメンデーション Q&A2009年4月8日セミナー 4.レコメンデーション Q&A
2009年4月8日セミナー 4.レコメンデーション Q&A
Preferred Networks
 
08年冬训装备总结
08年冬训装备总结08年冬训装备总结
08年冬训装备总结Moohuo
 
Copyright and Creative Commons
Copyright and Creative CommonsCopyright and Creative Commons
Copyright and Creative CommonsJun Nogata
 
株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北
sunseago
 
【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心devsumi2009
 
Loftwork 20090416
Loftwork 20090416Loftwork 20090416
Loftwork 20090416武 河野
 
2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能
Preferred Networks
 

What's hot (20)

Upstream and downstream in Requirement Development
Upstream and downstream in Requirement DevelopmentUpstream and downstream in Requirement Development
Upstream and downstream in Requirement Development
 
醫師公會全聯會醫療政策建言書
醫師公會全聯會醫療政策建言書醫師公會全聯會醫療政策建言書
醫師公會全聯會醫療政策建言書
 
廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章
 
98學年度生涯發展教育實施計畫
98學年度生涯發展教育實施計畫98學年度生涯發展教育實施計畫
98學年度生涯發展教育實施計畫
 
夜までラボ☆テレビ7月24日開催分
夜までラボ☆テレビ7月24日開催分夜までラボ☆テレビ7月24日開催分
夜までラボ☆テレビ7月24日開催分
 
検索キーワードで読み解く2007年
検索キーワードで読み解く2007年検索キーワードで読み解く2007年
検索キーワードで読み解く2007年
 
アジャツール!オブラブ夏イベント号外発行!!
アジャツール!オブラブ夏イベント号外発行!!アジャツール!オブラブ夏イベント号外発行!!
アジャツール!オブラブ夏イベント号外発行!!
 
Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖
 
HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖
 
データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊
 
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
【12-E-2】 SEC流品質作りこみESQR 組込みソフトウェア開発向け品質作り込みガイドの紹介
 
數位城邦計畫2006
數位城邦計畫2006數位城邦計畫2006
數位城邦計畫2006
 
2009年4月8日セミナー 4.レコメンデーション Q&A
2009年4月8日セミナー 4.レコメンデーション Q&A2009年4月8日セミナー 4.レコメンデーション Q&A
2009年4月8日セミナー 4.レコメンデーション Q&A
 
08年冬训装备总结
08年冬训装备总结08年冬训装备总结
08年冬训装备总结
 
Copyright and Creative Commons
Copyright and Creative CommonsCopyright and Creative Commons
Copyright and Creative Commons
 
Frbifri
FrbifriFrbifri
Frbifri
 
株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北
 
【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心
 
Loftwork 20090416
Loftwork 20090416Loftwork 20090416
Loftwork 20090416
 
2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能2009年4月8日セミナー 2.Sedue新機能
2009年4月8日セミナー 2.Sedue新機能
 

Viewers also liked

正規表現
正規表現正規表現
正規表現
Takashi Masuda
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
Takeshi Arabiki
 
自然言語処理はじめました - Ngramを数え上げまくる
自然言語処理はじめました - Ngramを数え上げまくる自然言語処理はじめました - Ngramを数え上げまくる
自然言語処理はじめました - Ngramを数え上げまくる
phyllo
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
Yudai Shinbo
 
Tokyo r18
Tokyo r18Tokyo r18
Tokyo r18
Takashi Minoda
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
Takeshi Arabiki
 

Viewers also liked (6)

正規表現
正規表現正規表現
正規表現
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
 
自然言語処理はじめました - Ngramを数え上げまくる
自然言語処理はじめました - Ngramを数え上げまくる自然言語処理はじめました - Ngramを数え上げまくる
自然言語処理はじめました - Ngramを数え上げまくる
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
Tokyo r18
Tokyo r18Tokyo r18
Tokyo r18
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
 

Using morphological n-gram and regex for linguistic research

  • 1. 形態素n-gramと正規表現による 語法・用例検索の手法 同志社大学 長谷部陽一郎 yhasebe@mail.doshisha.ac.jp 同志社ことばの会 年次大会 2008年2月11日
  • 2. はじめに  本発表で行うこと  日本語を扱う理論言語学研究で、コーパスを効果的に用いた語法・用 例検索を行う手法についての考察  表層形と文法的素性の両面から目標テキストを抽出するために開発し たシステムの紹介  現時点での問題と、それらを回避するための方法の提示  「追試可能な言語分析」に向けての提案 2 同志社ことばの会年次大会 2008年2月11日
  • 3. 理論言語学とコーパス  理論言語学におけるコーパス利用の目的  語彙頻度表・分布表の作成・参照  コロケーションの抽出・分析  語法・用例の検索  認知言語学とコーパス言語学との接近  規則とリストの誤謬  用法基盤モデルに基づいた文法研究  必ずしも数量データに重きを置かない方法論の可能性 具体化(elaboration) スキーマ 拡張(extension) スキーマ化(schematization) プロトタイプ 拡張事例 (Langacker 2000: 13) 3 同志社ことばの会年次大会 2008年2月11日
  • 4. テキスト検索の一般的手法 例として、次のような英文から「動詞過去形+the+名詞句」をできるだけ多く 抽出することを考える。 Sammy plucked the guitar, while Eddie played the piano.  通常検索(非正規表現検索) ed theで検索 Sammy plucked the guitar, while Eddie played the piano.  正規表現検索 /¥s.*?ed¥sthe¥s.+?[¥s¥.,]/ で検索 Sammy plucked the guitar, while Eddie played the piano. 4 同志社ことばの会年次大会 2008年2月11日
  • 5. 正規表現とは  正規表現(regular expressions) 形式言語理論に起源を持つ、文字列集合を定義するためのメタ言語。プ ログラミング言語やテキストエディタにおけるパターンマッチング用の表記 法として広く用いられている。 Sammy plucked the guitar, while Eddie played the piano. _ + ...ed + _ + the + _ + ... + (_ | . | ,) 正規表現 ¥s.+?ed¥sthe¥s.+?[¥s¥.,] 5 同志社ことばの会年次大会 2008年2月11日
  • 6. 正規表現検索の限界  文字列の表層形だけに着目した検索には限界がある  不規則動詞の過去形は? the+NP以外の目的語は?  過去形以外の動詞についても含めたい場合は?  対象が日本語になるとさらに困難な事柄が増える  日本語テキストでは空白による分かち書きがなされていない。  同音異義語が多く、ナイーブな検索の結果には大量のノイズが含ま れることが予想される。  次のような日本語の文から、名詞+格助詞「を」+動詞 という条件を満たす 文字列を抽出する方法は? 太郎はピアノを弾き、次郎はギターをかき鳴らした。 6 同志社ことばの会年次大会 2008年2月11日
  • 7. 形態素解析システムの利用 計算機上のプログラムを用いて、ある程度の精度で日本語テキストの構造 を解析することが可能。(JUMAN, KAKASI, ChaSen, MeCab)  MeCabの出力例 太郎はピアノを弾き、次郎はギターをかき鳴らした。 太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ ピアノ 名詞,一般,*,*,*,*,ピアノ,ピアノ,ピアノ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 弾き 動詞,自立,*,*,五段・カ行イ音便,連用形,弾く,ヒキ,ヒキ 、 記号,読点,*,*,*,*,、,、,、 次郎 名詞,固有名詞,人名,名,*,*,次郎,ジロウ,ジロー は 助詞,係助詞,*,*,*,*,は,ハ,ワ ギター 名詞,一般,*,*,*,*,ギター,ギター,ギター を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ かき鳴らし 動詞,自立,*,*,五段・サ行,連用形,かき鳴らす,カキナラシ,カキナラシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 。 記号,句点,*,*,*,*,。,。,。 表層形 品詞,細分類1,細分類2,細分類3,活用形,活用型,原型,読み,発音 7 同志社ことばの会年次大会 2008年2月11日
  • 8. n-gramについて  n-gram  テキストに含まれる文字列の頻度および出現確率を調査するために広 く用いられる手法。n個のプリミティブごとに文字列を区切ったものを単 位として計算処理を行う。(1-gram, 2-gram, 3-gram, ...)  文字をプリミティブとした3-gramの例 太郎はピアノを弾いた (→ 8個の3-gram) 太 郎 は 郎 は ピ は ピ ア ピ ア ノ ア ノ を ノ を 弾 を 弾 い 弾 い た 8 同志社ことばの会年次大会 2008年2月11日
  • 9. 形態素n-gramと正規表現による検索  形態素解析システムによって出力された形態素データをプリミティブとして n-gramを構築する。  nはマッチングさせたい形態素数により決定される。 例えば名詞+「を」+動詞が条件ならばn=3である。 検索対象 正規表現 形態素列(太郎|は|ピアノ|を|弾き|、...)のの3-gram 表層形 素性 太郎 は ピアノ 1 /名詞/ 名詞,固有名詞 助詞,格助詞 名詞,一般 2 /を/ は ピアノ を 3 /動詞/ 助詞,格助詞 名詞,一般 助詞,格助詞 ピアノ を 弾き 名詞,一般 助詞,格助詞 動詞,自立 を 弾き 、 名詞,一般 動詞,自立 記号,読点 9 同志社ことばの会年次大会 2008年2月11日
  • 10. Mconcの開発  プログラムの特徴  http://mconc.rubyforge.org からダウンロード可能。  形態素n-gramと正規表現による語法・用例検索システム。  開発言語はRuby。Windows上で動作。GUIあり。  形態素解析にはMeCabを利用(CのAPIを用いてアクセス)。  検索条件の指定にはYAML形式の設定ファイルを利用。  入力テキストはプレーンテキスト形式。  センテンスの単位(基本的に句点ごと)に分割して処理。  結果の出力はCSV形式(Excel等で読み込めるように)。  文字コードはUTF-8/EUC/Shift JISのいずれか。  複数ファイルの指定が可能。  Mconcの使用例  日本語の分裂構文(~のは~だ)を含むセンテンスを抽出。  対象コーパスはWikipedia日本語版のダンプデータ(2007年2月10日版)。 10 同志社ことばの会年次大会 2008年2月11日
  • 11. Mconcの入出力 条件設定の例 抽出されたセンテンスの例 - ①  これを手書きにしたのは手塚治虫である。(漫画) - surface: /^の$/ ② feature: /^名詞/ ③  日本の鉱業の中心を占めるのはイオウである。(日 本) - surface: /^は$/ ④  現在の市域が確定するのは19世紀半ばナポレオン3 feature: /^助詞,係助詞/ ⑤ 世治下のことである。(パリ) -- ⑥  したがって、自由な利用が可能となるのは2041年1月 - feature: /^助動詞,.*特殊・ダ/ ⑦ 1日午前零時からである。(著作権の保護)  ただし、日常の口語で使われているのは標準ドイツ語 1. 第1の指定形態素。行頭のハイフンは形態素ユニットの区 ではなく、ドイツ南部等と同じ高地ドイツ語系の方言で 切り。ハイフンのみの行は1個の任意の形態素にマッチ ある。(オーストリア) 2. 第2の指定形態素の表層形は「の」  フランス軍撤退後、混乱を収拾して権力を掌握したの はオスマン帝国が派遣したアルバニア人部隊の隊長 3. 第2の指定形態素の素性記述は「名詞」で始まる としてエジプトにやってきた軍人、ムハンマド・アリーで 4. 第3の指定形態素の表層形は「は」 あった。(エジプト) 5. 第3の指定形態素の素性記述は「助詞,係助詞」で始まる。  特に問題となるのは著作者人格権の中の同一性保持 権の扱いである。(GNU Free Document License) 6. 2個のハイフン(のみ)の行は後続する条件にマッチするま  1656年7月27日に破門を受けたのは、恐らくこのため でまたはセンテンス末までの、任意の数の形態素にマッチ である。(バールーフ・デ・スピノザ) 7. 第4の指定形態素の素性記述は「助動詞」で始まり、「特  こういう場合の「こんにちは」に相当するのはBuenas 殊・ダ」を含む(すなわち助動詞「だ」か、その活用形「で」) tardesではなくholaである。(スペイン語) 11 同志社ことばの会年次大会 2008年2月11日
  • 12. 問題とその解決策  問題 1. 形態素解析システム(+辞書)の性能の限界。 2. 条件設定を書くために正規表現とMconcの書式とを習得する必要がある。 3. 前節の条件設定では、いわゆる分裂構文と認めにくいものも抽出される。  自然言語が数学的に定義される普遍類別代数系でないのは勿論である。(形式言語)  そのような生命が未だ発見されていない以上、それについて論議するのは危険である... (生物) 4. 詳細な条件にマッチさせるためには巨大なコーパスが必要。  解決策 1. 不可避だが、常に向上しつつはある。 2. 現状では不可避。(検索の強力さと手順の複雑さとはトレードオフ) 3. 多くの場合、条件設定の見直しによりある程度は改善可能。あるいは、出力後 に目視によるチェックを行うことも現実的な方法として考え得る。 4. Wikipediaや青空文庫のデータなどはコーパスとして用いるのに十分なサイズを備 えている。これらは著作権上の問題もクリアしやすい。 12 同志社ことばの会年次大会 2008年2月11日
  • 13. 効用と可能性  追試可能な言語分析のための基盤として  理論言語学の議論のためのデータとして、通常は研究者の文法的直感に基づ いた作例が用いられている  文法とはある種のスキーマだとすれば、それを語るには低次の事例/インスタ ンスの存在が保証されなければならない。  科学的な手続きとして、「これこれの手順を踏めば、Aという事例が得られる」と いうことを示すことが理想。  データとプログラムをすべてオープンソースのもので完結させることが重要。  計量的研究への応用  上の条件が満たされるならば、同じ手法を計量的な研究に用いることも可能。  完全でないシステムによる機械処理の結果を、どのような仕組みと過程により それが出力されたかを併記しつつ示す。 13 同志社ことばの会年次大会 2008年2月11日
  • 14. まとめ  形態素n-gramと正規表現を組み合わせることで、語法・用例検索のために コーパスを効果的に利用することが可能。  この手法を実現するプログラムとしてMconcを開発。  Mconcの実装に内在する問題と、コーパス検索自体に関わるより一般的な問 題がある。しかし、工夫によってある程度は解決(ないしは回避)できる。  認知言語学の用法基盤主義を徹底させる上で、分析対象となる語法・用例を 実際のテキストから抽出する方法の確立は重要。  現状において、計算機上のシステムは完全でない。しかし、プログラムの仕組 と処理の過程を公開し、問題の所在をトラッキングする手段を提供する限りに おいて、価値は保たれる。 コーパス 計算処理 理論的考察 • Wikipedia • Mconc • 認知文法 • 青空文庫 • MeCab • 認知意味論 • etc • etc • etc 14 同志社ことばの会年次大会 2008年2月11日
  • 15. リファレンス  プログラム Mconc http://mconc.rubyforge.org/ WP2TXT http://wp2txt.rubyforge.org/ MeCab http://mecab.sourceforge.net/  コーパス Wikipedia http://ja.wikipedia.org/wiki/WP:DD/ 青空文庫 http://www.aozora.gr.jp/  参考文献 長谷部 陽一郎 2006 「Wikipedia日本語版をコーパスとして用いた言語研究の手法」 『言語文化(同志社大学言語文化学会)』 第9号, 373−403. Langacker, Ronald W. 2000. “Dynamic Usage-Based Model,” M. Barlow and S. Kemmer (eds.), Usage-Based Models of Language. Stanford: CSLI, 1-65.17 15 同志社ことばの会年次大会 2008年2月11日