Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
コーパス日本語学ワークショップ 2012                              1         通時コーパスと言語空間論       山元啓史 †          田中牧郎 ‡           近藤泰弘 ‡∗   ...
コーパス日本語学ワークショップ 2012          2                  通時コーパスの設計     1. 資料の選定     2. 電子化と情報付与       (異文・原文表記、引用、文体など)     3. 各時代...
コーパス日本語学ワークショップ 2012           3              通時コーパスプロジェクト                       発表の主旨     いかに通時をとらえるか?                !  ...
コーパス日本語学ワークショップ 2012         4              通時コーパスプロジェクト                  研究のポイント     • 通時(時間的な幅)     • コーパスによる研究     • 内省...
コーパス日本語学ワークショップ 2012         5               コーパス言語学での議論     • 言語の記述     • 言語の普遍性     • 言語の空間     • 共時態と通時態(←)    → それぞれにつ...
コーパス日本語学ワークショップ 2012             6                       共時態と通時態     • 共時態... 点     • 通時態... 線   「時間を隔てた2つの点が違う」をいうには?    ...
コーパス日本語学ワークショップ 2012                                       7               共時態の各層から差分をとる     A            B           C   ...
コーパス日本語学ワークショップ 2012             8                       方法のポイント     • 変化量に注目       → 比較の計画     • 各時代辞書、各時代シソーラス       → コ...
コーパス日本語学ワークショップ 2012                                        9                        コーパスと記述       Parole                 ...
コーパス日本語学ワークショップ 2012             10                       方法のポイント     • 比較の計画     • 各時代辞書、各時代シソーラス     • 網羅的な調査     • 内省に代...
コーパス日本語学ワークショップ 2012             11                       方法のポイント     • 比較の計画     • 各時代辞書、各時代シソーラス     • 網羅的な調査     • 内省に代...
コーパス日本語学ワークショップ 2012                          12                   コーパスロボット                   ←         →             文字列 ...
コーパス日本語学ワークショップ 2012          13               計画的な比較をするには?     1. 系列:同じ内容、類似の内容       →源氏物語、異本の比較       →ある作品、現代語訳の比較    ...
コーパス日本語学ワークショップ 2012                                                                                                      ...
コーパス日本語学ワークショップ 2012         15               モデルからやりたいこと          「まとまり」の      系統的/網羅的/相対的な分析
コーパス日本語学ワークショップ 2012         16              歌集で変化する共有ノード                「桜」と「吉野」     • 古今集における「桜/吉野」     • 新古今集における「桜/吉野」...
コーパス日本語学ワークショップ 2012   古今集「桜/吉野」の交差   17              古今集「桜/吉野」の交差
コーパス日本語学ワークショップ 2012   新古今集「桜/吉野」の交差   18             新古今集「桜/吉野」の交差
コーパス日本語学ワークショップ 2012                                                              19       Residual  CT   (秋の 末近くなって帰り道につい...
コーパス日本語学ワークショップ 2012                                                    20       +-------- # of pair       | +----- value ...
コーパス日本語学ワークショップ 2012                                                         21    Components of OP      Table 1: Result o...
コーパス日本語学ワークショップ 2012                 22            差分の方法の例:田中(2011)     1. 比較:今昔物語集 v.s. 日本霊異記/宇治拾遺物語       →今昔と宇治拾遺の同文説話表...
コーパス日本語学ワークショップ 2012                                      23         系列比較のための変遷要素の差分モデル               A    2.1            ...
コーパス日本語学ワークショップ 2012             24                       系列比較モデル     1. 何を系列と見るかを考えなければならない。       →源氏物語、異本の比較       →ある作...
コーパス日本語学ワークショップ 2012           25                       今後の課題     1. 処理の単位→ノビチヂミする機構?     2. 作品別形態素解析辞書       →連接確率(syntag...
コーパス日本語学ワークショップ 2012          26                       おわりに     • 概念の整理     • 方法の提案        – 系列比較モデル        – シーケンシャルリーダ  ...
コーパス日本語学ワークショップ 2012                                        27               A    2.1                            f (x)    ...
コーパス日本語学ワークショップ 2012                                                                   28                                 ...
Upcoming SlideShare
Loading in …5
×

Workshop20110305slide01

508 views

Published on

Workshop for the corpus

  • blessing_11111@yahoo.com

    My name is Blessing
    i am a young lady with a kind and open heart,
    I enjoy my life,but life can't be complete if you don't have a person to share it
    with. blessing_11111@yahoo.com

    Hoping To Hear From You
    Yours Blessing
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Workshop20110305slide01

  1. 1. コーパス日本語学ワークショップ 2012 1 通時コーパスと言語空間論 山元啓史 † 田中牧郎 ‡ 近藤泰弘 ‡∗ † 東京工業大学 /カリフォルニア大学サンディエゴ校 ‡ 国立国語研究所言語資源研究系 ∗ 青山学院大学 March 6th 2012
  2. 2. コーパス日本語学ワークショップ 2012 2 通時コーパスの設計 1. 資料の選定 2. 電子化と情報付与 (異文・原文表記、引用、文体など) 3. 各時代対応の形態素解析 → 通時研究の目的は?アプローチは?
  3. 3. コーパス日本語学ワークショップ 2012 3 通時コーパスプロジェクト 発表の主旨 いかに通時をとらえるか? ! → 古代語の調査だけか? → 共時と通時の関係は?
  4. 4. コーパス日本語学ワークショップ 2012 4 通時コーパスプロジェクト 研究のポイント • 通時(時間的な幅) • コーパスによる研究 • 内省がきかない • 知らないふりをしてみる
  5. 5. コーパス日本語学ワークショップ 2012 5 コーパス言語学での議論 • 言語の記述 • 言語の普遍性 • 言語の空間 • 共時態と通時態(←) → それぞれについて十分留意されているか?
  6. 6. コーパス日本語学ワークショップ 2012 6 共時態と通時態 • 共時態... 点 • 通時態... 線 「時間を隔てた2つの点が違う」をいうには? →2点の差をとる(引き算をする) ! • 言語データを数理的な形式に変えて、差分をとる • 各層の差分を変化量として分析する
  7. 7. コーパス日本語学ワークショップ 2012 7 共時態の各層から差分をとる A B C D A-B B-C C-D B-A C-B D-C A+B B+C C+D BC-AB CD-BC 図1 共時態の各層から差分をとる:ABCDは時間軸に並べられた任意の資料。差分をとるだけでなく、 両者の体系に共通の原理を抽出し、その抽出したものをさらに隣接の抽出したものと比較して分析していく。
  8. 8. コーパス日本語学ワークショップ 2012 8 方法のポイント • 変化量に注目 → 比較の計画 • 各時代辞書、各時代シソーラス → コーパス+αの開発 • 現代人は古典語について内省できない → 網羅的な調査 • 内省に代わる感知の機構を手に入れる → 構造性、規則性、原理の探究 →時間軸を紡ぎ、内省を網羅的大量処理で補完する
  9. 9. コーパス日本語学ワークショップ 2012 9 コーパスと記述 Parole Langue コーパス 言語の記述 複雑系の科学 静的 静的 パターンの探索 言語の構造 シーケンシャルリーダ 言語の形式 観察・操作できる 観察・操作できない 結果の可視化 通時的変遷を動的に示せるか? 図2 コーパスと記述、langue と parole: 一般的に記述されたものは静的ではあるが、言語の存在 自体は常に変わりつづける動的なものである。その動的な記述はどうすればできるのであろうか。 言語の要素はさまざまなものからなり、コーパスにて観察できる姿は複雑多岐にわたる要素が 絡み合った現象である。
  10. 10. コーパス日本語学ワークショップ 2012 10 方法のポイント • 比較の計画 • 各時代辞書、各時代シソーラス • 網羅的な調査 • 内省に代わる感知の機構
  11. 11. コーパス日本語学ワークショップ 2012 11 方法のポイント • 比較の計画 • 各時代辞書、各時代シソーラス • 網羅的な調査 • 内省に代わる感知の機構 上記を動的にやってくれるシステム →コーパスロボット
  12. 12. コーパス日本語学ワークショップ 2012 12 コーパスロボット ← → 文字列 配列 図4 コーパスロボット(シーケンシャルリーダ): DNA を構成するアミノ酸探索ロボットからヒント。データマイニングツール。 コーパスの文字列を行き来しながら、何回でも瞬時に仮説を検証することができる機械。
  13. 13. コーパス日本語学ワークショップ 2012 13 計画的な比較をするには? 1. 系列:同じ内容、類似の内容 →源氏物語、異本の比較 →ある作品、現代語訳の比較 →時系列で順に比較 2. モデル:数理的表現に置き換える 3. 比較:差分をとる 4. 集合論:交差を見る 5. 分類:内容の違いと言語の違いを区別
  14. 14. コーパス日本語学ワークショップ 2012 14 数理モデル:鶯と時鳥の統合モデル ふりしぼる 手 6 山時鳥 老 青柳 10 夏山 9 横 挿頭す 6 五月雨 鳴き声 8 8 4 4 4 触れる 聞く11 聞える 夏 14 10 一声 21 縫う 6 69 37 笠 枝 春 39 借りる 12 6 10 10 時鳥 7 23 19 10 とまる 20 去年 35 88 隠れる 梅 泣く 174 29 15 声 10 29 6 56 261 20 62 110 42 花 138 鴬 145 鳴く 26 44 五月 6 今朝 羽ばたく 10 20 9 梢 17 野辺 22 30 山19 11 9 10 8 毎朝 10 9 52 20 6 近く 9 まだ 10 音羽 7 越える 10 折る 立田 8 10 何時の間に 散る 5 7 4 誘い出す 4 10 6 7 あやめ草 はるか 案内 条理 9 10 4 梢高い 7 5 7 木高い 惜しむ 別れ 送る 春霞 立つ 添える 香 鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
  15. 15. コーパス日本語学ワークショップ 2012 15 モデルからやりたいこと 「まとまり」の 系統的/網羅的/相対的な分析
  16. 16. コーパス日本語学ワークショップ 2012 16 歌集で変化する共有ノード 「桜」と「吉野」 • 古今集における「桜/吉野」 • 新古今集における「桜/吉野」 →「吉野」と「雪」
  17. 17. コーパス日本語学ワークショップ 2012 古今集「桜/吉野」の交差 17 古今集「桜/吉野」の交差
  18. 18. コーパス日本語学ワークショップ 2012 新古今集「桜/吉野」の交差 18 新古今集「桜/吉野」の交差
  19. 19. コーパス日本語学ワークショップ 2012 19 Residual CT (秋の 末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け OP — —— — — — — — — — 立田姫 — — — — — — — 手向ける CT (をする)神があるからこそ秋の木の葉(が)幣(となって) 散っ(ているのだろ) う OP — — 神のあれ ば こそ秋の木の葉 [の] 幣 と — — 散る — — — — らめ Figure 1: Example of the matching process in the case of kks 298 in Ko- machiya (1982)
  20. 20. コーパス日本語学ワークショップ 2012 20 +-------- # of pair | +----- value of matching level, exact=17, field=13, group=10 | | +-- # of POS | | | | | | # of element of OP ----+ +- # of element of CT | | | element of OP -+ | | +--- element of CT | | | | | | | 1 17 11 立 田 姫 00 <-> 12 龍 田 姫 (Tatsutahime) 2 17 47 手 04 <-> 25 手 (hand) 3 17 47 向 け る 05 <-> 26 向 け る (toward) 4 17 2 神 06 <-> 32 神 (god) 5 10 61 の 07 <-> 33 が (SUB) 6 17 47 有 り 08 <-> 34 あ る (be) 7 10 64 ば 09 <-> 35 か ら (because) 8 17 65 こ そ 11 <-> 36 こ そ (EM) 9 17 2 秋 12 <-> 38 秋 (autumn) 10 17 71 の 13 <-> 39 の (CON) 11 17 2 木 の 葉 14 <-> 40 木 の 葉 (leaf of tree) 12 17 2 幣 19 <-> 45 幣 (present) 13 17 61 と 20 <-> 46 と (CRD) 14 17 47 散 る 21 <-> 49 散 る (fall) 15 13 74 ら む 22 <-> 54 う (CJR) Figure 2: Example of the matching process
  21. 21. コーパス日本語学ワークショップ 2012 21 Components of OP Table 1: Result of subtracting the elements of OP(298) from those of CT(298, koma): it indicates the ratio of the ingredients of OP(298). OP (valid number of element) = 16 E (ratio of exact match) 12/16 = 0.750 F (ratio of field match) 1/16 = 0.062 G (ratio of group match) 2/16 = 0.125 T (ratio of total match) 15/16 = 0.938 U (ratio of unmatched OP) 1 - T = 0.062
  22. 22. コーパス日本語学ワークショップ 2012 22 差分の方法の例:田中(2011) 1. 比較:今昔物語集 v.s. 日本霊異記/宇治拾遺物語 →今昔と宇治拾遺の同文説話表現の比較 2. 言語の変化により入れ替わったもの 3. 翻訳者が何らかの基準で取捨選択したもの
  23. 23. コーパス日本語学ワークショップ 2012 23 系列比較のための変遷要素の差分モデル A 2.1 f (x) 2.3 A′ 2.2 3.0 1.0 T t1 t2 図3 系列比較のための変遷要素の差分モデル: A は t1 の時に発生した、あるまとまりを持った内容、 A は t2 時に発生した、A に対応するまとまりを持った内容。 T は時間軸。f (x) は A の任意の要素 x を A の要素とするための関数。
  24. 24. コーパス日本語学ワークショップ 2012 24 系列比較モデル 1. 何を系列と見るかを考えなければならない。 →源氏物語、異本の比較 →ある作品、現代語訳の比較 →時系列で順に比較 →任意2対象の相対的な比較 2. 比較は分析の基本的技術。 3. 同じとはどういうことか? →課題はたくさん!
  25. 25. コーパス日本語学ワークショップ 2012 25 今後の課題 1. 処理の単位→ノビチヂミする機構? 2. 作品別形態素解析辞書 →連接確率(syntagmatic) →語彙差分(paradigmatic) 3. 作品間を比較するためのシソーラス →表記の異同をコントロールする仕組み 上記は「研究テーマ集」の一部(基礎編)
  26. 26. コーパス日本語学ワークショップ 2012 26 おわりに • 概念の整理 • 方法の提案 – 系列比較モデル – シーケンシャルリーダ • 追加の作業 – 辞書、シソーラス – 研究テーマ集
  27. 27. コーパス日本語学ワークショップ 2012 27 A 2.1 f (x) 2.3 A′ 2.2 3.0 1.0 S s1 s2 図4 系列比較モデル(共時): 通時のモデルの時間軸 T を共時軸 S にしただけである。 ただし、T は時間しか表さないが、共時軸 S は、同じ時に発生した同じテキストの異なる言い方や文化、 翻訳、方言など、さまざまな場合が考えられる。
  28. 28. コーパス日本語学ワークショップ 2012 28 A′′ 3.0 s2 2.3 synchronic 2.2 f (x) 2.1 A 2.1 f (x) 2.3 A′ 2.2 s1 3.0 1.0 T t1 t2 diachronic S 図5 系列比較モデル(共時/通時): 縦軸が共時 (synchronic)、横軸が通時 (diachronic)。 共時と考えられる関係であっても時間の幅を持つ要素が含まれることもある。

×