Doshisha_2011: 言語研究における統計の活用

5,067 views

Published on

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,067
On SlideShare
0
From Embeds
0
Number of Embeds
199
Actions
Shares
0
Downloads
45
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

Doshisha_2011: 言語研究における統計の活用

  1. 1. 言語研究における統計の活用 小林 雄一郎 (大阪大学/日本学術振興会) 同志社大学文化情報学部 ジョイント・リサーチ I-5 (言語テキスト解析) 2011年6月22日(水) 1
  2. 2. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 2
  3. 3. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 3
  4. 4. 1. 自己紹介• 小林 雄一郎 (こばやし ゆういちろう) – 所属: – 大阪大学言語文化研究科、日本学術振興会 – 関心領域: – コーパス言語学、自然言語処理、言語統計、Digital Humanities etc. – 共著書: – 『日本語とX語の対照―言語を対照することでわかること』(三恵 社、2011年) – 『言語研究のための統計入門』(くろしお出版、2010年) – 『エースクラウン英和辞典』(三省堂、2009年) – 『新自由主義は文学を変えたか―サッチャー以後のイギリス』 (法政大学出版局、2008年) 4
  5. 5. 78/5 1/3 5/0 0/7 SN SNN SN SNN5 3/0 4/58 SN SNN997.5=>DEH 997.5 <DEH 76.21 <MES 76.21=>MES 31.22 <OOB 31.22=>OOB 345.4 <MRF 345.4=>MRF 56.83 <MES 56.83=>MES – 様々な母語を持つ学習者のクラスタリング etc. etc. – 日本人英語と母語話者英語の差異の分析 – 機械学習を用いた英語習熟度の自動推定 • 日本人英語学習者の英作文をマイニング 最近の主な研究テーマ
  6. 6. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 6
  7. 7. 2.1. 何故、言語研究に統計が必要か• 言語学の本流は、伝統的に質的で定性的なもの • 20世紀の言語学に大きな影響を及ぼした生成文法は、母語話者 としての内省や直感により、言語の深層構造を把握することを強調 ↓• コンピュータとインターネットの発達 • 1990年代以降、コンピュータによる大規模データの処理が可能に なり、インターネット上の言語データの自動収集が可能に • 大量のデータを手作業で分析するのは不可能なので、データを統 計的に分析する手法が必要に • 計量的アプローチは、珍しいものを見つけるだけでなく、大規模デー タに内在するパターンを見つけるのが得意◆石川慎一郎・前田忠彦・山崎誠 (編) (2010). 『言語研究のための統計入門』 東京: くろしお出版.◆Biber, D, Conrad, S., & Reppen, R. (1998). Corpus linguistics: Investigating languagestructure and use. Cambridge: Cambridge University Press. 7
  8. 8. • 統計学は、「科学の文法」(grammar of science) • 文法とは、それに依拠して多様な表現を産出し得るものであり、 逆に産出された多様な表現に人々が共通の理解を持つための 礎を与える • 統計学は言語データに基づく実証研究に対して、まさに文法と しての役割を果たす(石川・前田・山崎 2010)• 所謂「文系」の研究者にとって、統計は難しい? • 統計の仕組みを「深く」理解するためには、微分積分、ベクトル、 確率といった数学的な知識が不可欠 • 一方で、近年は使いやすい統計ソフト(e.g. Excel, SPSS, R)も 多数 8
  9. 9. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 9
  10. 10. 2.2. 統計的言語研究の手順データ構築 テキスト処理 統計処理 質的分析テキスト収集 語彙表の作成 検定 結果の解釈 電子化 用例の抽出 多変量解析 実質科学的な考察 etc. etc. etc. etc. 10
  11. 11. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 11
  12. 12. 2.3. 統計的言語研究の小史• シェイクスピアは誰か • シェイクスピア別人説の根拠 • シェイクスピアの個人史には所々大きな空白部分がある • シェイクスピア自身によって書かれた手紙が存在しない • 詳細に書かれたシェイクスピアの遺言書が現存するが、そこ には本や戯曲や詩、その他いかなる書き物についても言及さ れていない • 自分の芸術に関する持論を1つも著していない • 署名が4通りもあり、どれ1つとして似た書体ではない • シェイクスピアの人となりについてはほとんど何も知られてい ない◆村上征勝 (2004). 『シェイクスピアは誰ですか? 計量文献学の世界』 東京: 文春新書.◆「シェイクスピア別人説」(融合のときをもとめて・・・) http://blogs.yahoo.co.jp/igproj_fusion/archive/2011/03/01 12
  13. 13. • 「シェイクスピア=ベーコン」説 • 1890年頃、アメリカの物理学者メンデンホール(T. C. Mendenhall) は「シェイクスピア=ベーコン説」批判を展開 • シェイクスピアの文章の40万語、ベーコンの文章の20万語を比較 • シェイクスピアが4文字の単語を最も多く使用しているのに対し、 ベーコンは3文字の単語を最も多く使用していることを発見 http://blogs.yahoo.co.jp/igproj_fu sion/archive/2011/03/01 13
  14. 14. • 1975年、メンデンホールの結論を再考させる研究が、ウイリアムズ (C. B. Williams)によって発表• 英国の詩人・政治家・軍人だったシドニー(Philip Sidney)の著作を 調べ、同一人物の著作でも散文(prose)と韻文(verse)では、最も 多く使われている単語の長さの値が異なる場合があることを提示• 「シェイクスピアとは誰か」は、未解決のまま http://blogs.yahoo.co.jp/igproj_fu sion/archive/2011/03/01 14
  15. 15. • 読点に注目した著者推定 • 他の言語に比べて、日本語は読点の位置に関する厳密なルー ルがないため、そこに文章の書き手の癖が表れるのではないか • 中島敦、三島由紀夫、谷崎潤一郎、井上靖の作品を読点の位 置で分類◆金明哲 (1996). 「読点から現代作家のクセを検証する」 『統計数理』44(1), 121-125. 15
  16. 16. • 一人三人作家 • 昭和初期の流行作家である長谷川海太郎は、 林不忘、谷譲次、 牧逸馬の3つのペンネームで作品を書き、それぞれ文体を変え たと言われている • 長谷川(林、谷、牧)、中島、三島、井上の作品を読点の位置で 分類すると。。。 16
  17. 17. • その他の研究(主に、著者推定) • プラトンの『第七書簡』は贋作か • 南北戦争の体験談『Q. C. レター』はマーク・トウェインの著作か • ショーロホフの『静かなるドン』は盗作か • 『紅楼夢』は1人の作家が書いたものか • 『旧約聖書』の「イザヤ記」の著者は誰か • 『源氏物語』の著者は、本当に紫式部か • 日蓮遺文の著者は、本当に日蓮か • 英国内閣を攻撃した投書『ジュニアス・レター』は誰が書いたか • パトリシア・ハースト誘拐事件の声明文は誰が書いたか (詳しくは、前掲の村上 2004などを参照) • これら著者推定の技術は、ジャンル判別、言語能力測定、スパ ム判別、ゲノム解析など、様々な分野に応用 17
  18. 18. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 18
  19. 19. 3. 統計的言語研究の例3.1. 仮説検定―単語の頻度差を調べる• 検定とは • 2つ(以上)のデータの間に「統計的に有意(味)な差」があるか どうか、を調べること• (例)2つのクラスのテストの平均点の比較 • 1 1組の平均が50点、2組の平均が50点 50 2 50 → これは明らかに差がない気がする • 1組の平均が90点、2組の平均が10点 → これは、差がある気がする • 1組の平均が55点、2組の平均が45点 → 微妙 検定の必要性 19
  20. 20. • 検定の流れ データの準備 帰無仮説 「差はない」を 立てる 帰無仮説を 帰無仮説を 採択した場合 帰無仮説を採択するか、 棄却した場合 棄却するかを決める 対立仮説を採択し、 対立仮説 「差はない」と結論 「差はない」とは言 する えない、つまり差は あると結論する◆向後千春・冨永敦子 (2007). 『統計学がわかる ハンバーガーショップでむりなく学ぶ、やさしく楽しい統計学』 東京: 技術評論社. 20
  21. 21. • イギリス英語とアメリカ英語におけるhelp の統語構造• (例)help him to find it か、それともhelp him find it か? • イギリス英語 (LOB Corpus) とアメリカ英語 (Brown Corpus) で 頻度を調査 LOB Brown total help (+ obj.) + to-infinitive 38 71 109 help (+ obj.) + bare infinitive 81 22 103 total 119 93 212 * 表中の頻度は、相対頻度ではなく、実測頻度◆齊藤俊雄・中村純作・赤野一郎 (編) (2005). 『英語コーパス言語学 基礎と実践』(改訂新版) 東京: 研究社. 21
  22. 22. • Pearsonのカイ2乗検定を実行してみると。。。 • 統計量 = 41.218 • 自由度 = 1 • P 値 = 1.361e-10 ***• Fisherの正確検定を実行してみると。。。 • 95%信頼区間 = 0.075 0.280 • オッズ比= 0.147 • P 値= 1.361e-10 ***• ともに、0.1%水準で有意 • イギリス英語とアメリカ英語では、help の統語構造に差がある 22
  23. 23. • 19世紀英語と20世紀英語におけるspend の統語構造• (例)spend two hours reading か、それともspend two hours in reading か? • 19世紀のイギリス英語 (19C BrE) と20世紀のイギリス英語 (20C BrE) で頻度を調査 19C BrE 20C BrE total spend + TIME + -ing 16 65 81 spend + TIME + in + -ing 34 5 39 total 50 70 120 * 表中の頻度は、相対頻度ではなく、実測頻度◆鷹家秀史・須賀廣 (1998). 『実践コーパス言語学 英語教師のインターネット活用』 東京: 桐原ユニ. 23
  24. 24. • Pearsonのカイ2乗検定を実行してみると。。。 • 統計量 = 49.241 • 自由度 = 1 • P 値 = 2.264e-12 ***• Fisherの正確検定を実行してみると。。。 • 95%信頼区間 = 0.010 0.116 • オッズ比= 0.038 • P 値= 1.091e-12 ***• ともに、0.1%水準で有意 • 19世紀のイギリスと20世紀のイギリスで、spend の統語構造に差 がある 24
  25. 25. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 25
  26. 26. 3.2. コロケーション統計―共起の強さを計る• political の直後に最も高い頻度で現れる語は何か? • 調査には、BNCweb (全データ)を使用 26
  27. 27. • 答えは、and 27
  28. 28. • コロケーションの研究は、「頻度だけ」ではできない? 28
  29. 29. • コロケーション研究において、何で「頻度」を補正するか?• 1) 分析者の知見• 2) 共起の強さを計る統計値 • Mutual information • MI3 • Z-score • T-score • Log-likelihood • Dice-coefficient (これらは、BNCweb に実装) etc. etc. 29
  30. 30. • コロケーション研究 • 「コロケーションとは、語と語の間における、語彙、意味、文法等 に関する習慣的な共起関係を言う」(堀 2009) • 「語は孤立的に働くのではなく、他の言語的要素と共起 (co- occurrence) して共に機能を果たす」(石川 2008) • 「語は、特定の生起環境の中に置かれることによってのみ、特定 の意味を持つ」(Sinclair 1987) • 語法研究、辞書研究、文体研究、言語教育などに有益な情報 を提示する◆堀正広 (2009). 『英語コロケーション研究』 東京: 研究社.◆石川慎一郎 (2008). 『英語コーパスと言語教育 データとしてのテクスト』 東京: 大修館書店.◆Sinclair, J. (1987). Introduction. In Sinclair, J. (ed.), Collins COBUILD English languagedictionary (pp. xv-xxi). London: Collins ELT. 30
  31. 31. • political のコロケーションの共起強度の比較• 使用データ • BNCweb (全データ) • 右1語(=直後)の共起のみ • 最低頻度 5• 共起強度の指標 • 共起頻度、ダイス係数 (Dice-coefficient)、Tスコア (T-score)、 相互情報量 (Mutual information)、対数尤度比 (Log-likelihood) • 個々の計算方法については、石川 (2008) などを参照 31
  32. 32. • political のコロケーションの共起強度の比較 • 各々上位10語を表示 • ダイス係数、Tスコア、対数尤度比は、比較的高頻度な表現を 抽出する傾向 • Mutual Informationだけは、低頻度語を抽出する傾向 • どれを用いるべきかは、研究の目的とデータに依存 Frequency Dice-coefficient Dice- T-score Mutual information Log-likelihood Log- word freq. word freq. word freq. word freq. word freq. 1 and 1771 parties 1266 parties 1266 correspondent 5 parties 1266 2 parties 1266 prisoners 336 system 739 commisar 10 system 739 3 system 739 system 739 and 1771 persuasions 35 prisoners 336 4 , 562 science 403 party 477 expediency 37 science 403 5 party 477 power 449 power 449 correctness 42 party 477 6 power 449 party 477 science 403 activism 21 power 449 7 science 403 leaders 239 prisoners 336 detainees 42 leaders 239 8 prisoners 336 activity 247 life 330 allegiances 17 activity 247 9 life 330 union 247 activity 247 appointees 21 correspondent 16510 union 247 correspondent 165 union 247 infighting 6 union 247 32
  33. 33. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 33
  34. 34. 3.3. 多変量解析―大量のデータを俯瞰する• 多変量解析とは • 大量のデータ(多数の事物や変数)を分類、整理、縮約すること で、データの全体像を掴んだり、事物の間に潜む相互関係や、 変数間の相互関係、さらには事物と変数の間の複雑な相互関 係を顕在化させるための統計手法の総称 • 多数の個体(コーパス言語学で言えば、「テキスト」や「使用域」、 「サブコーパス」など)が多項目の変数(アンケート項目に対する 回答や、音素・文字列・語彙・構文など言語項目の生起度など) に関して示す振る舞い(反応)を分析する手法 • 対応分析、主成分分析、クラスター分析、多次元尺度法、判別 分析、重回帰分析、独立成分分析、など◆田畑智司 (2007). 「コーパス言語学のための多変量解析入門」 『多変量解析を用いたテキスト分析研究』(統計数理研究所共同研究リポート201), 79-88. 34
  35. 35. • 高頻出語を用いた日本人学習者による英語の特徴抽出 • 多変量解析の1つである対応分析を使用 • 著者推定の方法論を学習者コーパスの分析に応用 • 発達指標研究(どんな語彙や表現が習熟度の異なる学習者の 産出言語を区別する指標となり得るか、という研究)• Research Questions (RQ) • (1) 使用語彙(高頻出語100タイプ)によって、英語習熟度の差 が区別できるか • (2) 使用語彙(高頻出語100タイプ)によって、モード(書き言葉 vs. 話し言葉)の差が区別できるか◆小林雄一郎 (2008). 「高頻出語を用いた学習者コーパスの分類」 『学習者コーパスの解析に基づく客観的作文評価指標の検討』(統計数理研究所共同研究リポート215), 69-82. 35
  36. 36. • 使用データ • JEFLL Corpus(日本人中学生・高校生による英作文コーパス、 約60万語の書き言葉) • NICT-JLE Corpus (日本人によるSSTインタビュー・データを書き 起こしたコーパス、約130万語の話し言葉) • 学年別・習熟度別のサブコーパス分け JEFLL_1 JEFLL_2 JEFLL_3 JEFLL_4 JEFLL_5 JEFLL_6 58859 168200 119649 62291 172541 76367 NICT_1&2 NICT_3 NICT_4 NICT_5 NICT_6 NICT_7 NICT_8 NICT_9 12697 149255 451274 276922 166858 103704 82570 63289◆和泉絵美・内元清貴・井佐原均 (編) (2004). 『日本人1200人の英語スピーキングコーパス』 東京: アルク.◆投野由紀夫 (編) (2007). 『日本人中高生一万人の英語コーパス 中高生が各英文の実態とその分析』 東京: 小学館. 36
  37. 37. • 対応分析とは • 1960年代にフランスのジャン=ポール・ベンゼクリによって提唱 • コレスポンデンス分析や数量化Ⅲ類などの別名 • 頻度表における行・列の関係を組み替え、頻度表に含まれる情 報を少数の次元にまとめることで、行・列を整理する解析 • 分析によって、データが視覚的に布置され、関係を直観的に解 釈することが可能(→データ構造の俯瞰) • 言語データ の分類にとって最も使い易い手法で、単語分類、品 詞分類、コーパス分類、書き手分類などに幅広く適用が可能◆小林雄一郎 (2010). 「コレスポンデンス分析 データ間の構造を整理する」 石川慎一郎・前田忠彦・山崎誠 (編) 『言語研究のための統計入門』(pp. 245-264) 東京: くろしお出版. 37
  38. 38. 38 * 2つの図における位置関係は、互いに対応している * 近くに布置されたものは似た性質を持ち、遠くに布置されたものは異なる性質を持つ Written vs. Spoken )%94.45( 1 noisn emiD )%94.45( 1 noi snemiD4 3 2 1 0 1- 2- 3- 2 1 0 1- t su j - 4 l lew 89 _T CI N _ TCI N 7 _T CI N w on k - 6 _T CI N 1 t ah t ro - mo rf sa 2 5_ TC IN t on ni ht o kre ht e b 6_ LL FEJ 5 _LL FE J e by am re h e es efspg hwl ea fi toioe p lle nh D D e ht en a e cteh r sn a i 4_ LL FE J i wnsn o ffuc hme b td a a m 3_ LL FE J 0 m e e 4 _T CIN e e n n er eh tooo eem osyb p u w h ts alr tti k at sa re w u oy t em i aem ot e n s s s i i ob a t s o h tn i i o o t ahwstud natiae w ve wtu b ih t hn iwee uah o o 2 _L LF EJ n o en o d ya d i f r ae y n n e mo h e ra k il e ek il ts r 0 2 2 I hc um hc um e h o ot ow w oh y eh t t yl lalo oh cs n om usu y e ( 3 _T CI N ( 2 2 doo g y m l li w 6 1 6 e hs og si . . ev il yr ev yn am tsl f ka erb ac 4 4 gn ssrramoi ts ef in aluv 1 1 1 tn aw to e a % % % % k na ht ec ir ) ) 1_ LL FEJ ) ) dae rb on g ni rb yu b 2 s ey 2 ei vo m 2. 1_ TCI N 4 High proficiency vs. Low ProficiencysetanidrooC woR :sisylanA ecnednopserroC setanidrooC nmuloC :sisylanA ecnednopserroC setanidrooC nmuloC :sisylanA ecnednopserroC setanidrooC nmuloC :sisylanA ecnednopserroC setanidrooC nmuloC :sisylanA ecnednopserroC • 結果(布置図)
  39. 39. • 象限別の語彙リスト Ⅰ Ⅱ Ⅲ Ⅳ Word Di m 1 Di m 2 Word Di m 1 Di m 2 Word Di m 1 Di m 2 Word Di m 1 Di m 2yes 3.62 2.75 I -0.07 0.49 went 0.00 -0.12 you 1.83 -0.48thank 3.23 1.82 much -0.07 0.62 that -0.01 -2.03 ma ybe 1.58 -1.04movi e 2.43 3.86 ha ve -0.43 0.01 for -0.01 -0.84 jus t 1.48 -3.81no 2.40 2.17 wa nt -0.44 1.71 me -0.04 -0.44 wha t 1.21 -0.12how 2.29 0.74 buy -0.73 2.38 after -0.17 -0.71 her 1.05 -1.15she 2.15 1.16 very -0.79 1.32 thi nk -0.22 -1.51 know 0.94 -2.77go 1.67 1.25 ma ny -0.83 1.31 it -0.24 -0.65 wel l 0.84 -3.28they 1.58 0.83 he -0.87 0.57 of -0.26 -1.08 thi s 0.71 -0.10two 1.36 0.82 da y -1.00 0.14 s ome -0.29 -0.70 there 0.64 -0.67l i ve 1.35 1.33 fi rs t -1.27 0.28 ca n -0.30 -0.97 or 0.64 -1.86home 1.14 0.39 us ual l y -1.28 0.78 other -0.35 -1.45 a bout 0.49 -0.27one 1.09 0.19 too -1.36 0.51 get -0.37 -1.10 a nd 0.46 -0.13do 0.89 0.17 s chool -1.69 0.74 al l -0.37 -1.16 last 0.42 -0.61 • 第1象限are 0.68 0.40 wi l l -1.72 1.01 as -0.38 -1.63 s ee 0.40 -1.18 初級の話し言葉good 0.58 1.05 yea r -1.85 0.14 hous e -0.41 -0.15 so 0.33 -0.79is 0.30 1.26 money -2.16 0.79 hi s -0.44 -1.06 from 0.31 -1.68 • 第2象限l i ke 0.27 0.42 morni ng -2.31 1.48 we -0.47 -0.24 on 0.30 -0.81my 0.06 0.95 cl a s s -2.38 1.39 then -0.54 -0.94 to 0.29 -0.46 初級の書き言葉 ea t -2.45 1.60 peopl e -0.56 -1.06 now 0.28 -0.82 our -2.55 1.33 ta ke -0.60 -0.68 not 0.27 -1.58 • 第3象限 bri ng -2.77 2.14 beca us e -0.60 -0.89 the 0.27 -0.89 brea kfa s t -2.88 1.29 when -0.60 -1.08 ti me 0.27 -0.41 上級の話し言葉 ri ce fes ti va l -2.92 -2.98 1.76 1.38 by but -0.62 -0.79 -0.53 -0.27 in at 0.23 0.19 -0.05 -0.35 • 第4象限 brea d -3.00 1.96 be -0.81 -1.39 wi th 0.16 -0.20 上級の書き言葉 if -0.83 -1.30 a 0.11 -0.26 them -0.88 -0.90 up -1.02 -0.76 wa s -1.14 -0.74 ha d -1.30 -0.71 39 were -1.37 -0.52
  40. 40. • 第1次元(モード)の分析 NounsⅡ Ⅰ Low Low Low Low Present tense Present tense of lexical verb of BE • 第1次元(横軸)に注目すると、 I 現在形の一般動詞、過去形の 動詞(be動詞も含む)、1人称の Yes / no 代名詞、従属接続詞が書き言葉 を特徴づけるカテゴリー We Past tense Well, so, of lexical verb maybe • 現在形のbe動詞、前置詞が話し High High High High and BE 言葉を特徴づけるカテゴリー Coordinating • 正の帯域(右側)には、yes、no、Ⅲ conjunction Ⅳ well、so、maybeといった話し言 Subordinating conjunction Preposition 葉を特徴づける語が分布 • 特に、yes は、 第1次元の値が最 も大きく、モード間の差異を判別 Written Spoken する指標 40
  41. 41. • 第2次元(習熟度)の分析 NounsⅡ Ⅰ • 第2次元(縦軸)に注目すると、 Low Low Low Low 初級者には、タスク関連の名詞 Present tense Present tense と現在形の基本動詞が見られ I of lexical verb of BE 、彼らの「基本動詞による短文 の羅列」を反映 Yes / no • 動詞の時制に注目すれば、初 級者(第1象限、第2象限)には We Past tense Well, so, 現在形しか見られないが、上級 of lexical verb maybe 者(第3象限、第4象限)になると High High High High and BE 過去形が目立つ CoordinatingⅢ conjunction Ⅳ • 文体の面では、初級者がI-style Subordinating を好むのに対して、上級者は conjunction Preposition We-styleを好んで使用 • その他、上級者に顕著なカテゴ Written Spoken リーとして、従属接続詞や前置 詞 41
  42. 42. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 42
  43. 43. 4. 統計的言語研究を行う際の注意点• データや目的にあった手法を使う • 必ずしも統計の数理的原理を理解する必要はないが、「こういう ときにはこの手法を使う」、あるいは「こういうときにこの手法を使っ てはいけない」という最低限の知識は必要• できるだけシンプルな手法で解く • 無理に高度な手法を使う必要はない • 「何で解くか」ではなく、「何を解くか」• 統計は万能ではない • 統計を使ったからといって、「新しいこと」が分かるとは限らない • 統計的な有意差が言語学的な有意差を意味するとは限らない • 一番大切なものは、データを正しく解釈する能力 43
  44. 44. 概要• 1. 自己紹介• 2. 言語学と統計 • 2.1. 何故、言語学に統計が必要か • 2.2. 統計的言語研究の手順 • 2.3. 統計的言語研究の小史• 3. 統計的言語研究の例 • 3.1. 仮説検定―単語の頻度差を調べる • 3.2. コロケーション統計―共起の強さを計る • 3.3. 多変量解析―大量のデータを俯瞰する• 4. 統計的言語研究を行う際の注意点• 5. 統計的言語研究の参考文献 44
  45. 45. 5. 統計的言語研究の参考文献 • 洋書Oakes, M. (1998). Statistics Johnson, K. (2008). Gries, S. Th. (2009).for corpus linguistics. Quantitative methods in Statistics for linguistics withEdinburgh: Edinburgh linguistics. Oxford: Blackwell. R. Berlin: Mouton.University Press. 45
  46. 46. • 和書金明哲 (2009). 『テキスト 村上征勝 (1994). 『真贋の科 石川慎一郎・前田忠彦・山崎データの統計科学入門』 東 学 計量文献学入門』 東京: 誠 (編) (2010). 『言語研究の京: 岩波書店. 朝倉書店. ための統計入門』 東京: くろし お出版. 46
  47. 47. • オンライン資料 • Jin’s Page (http://www1.doshisha.ac.jp/~mjin/R/) 統計的にテキスト解析 (1) 統計的にテキスト解析 (2) 統計的にテキスト解析 (3) ~形態素解析と構文解析~ 統計的にテキスト解析 (4) ~統計モデルと集計ツール~ 統計的にテキスト解析 (5) ~統計法則と指標~ 統計的にテキスト解析 (6) ~語のネットワーク分析~ 統計的にテキスト解析 (7) ~テキスト記述統計 統計的にテキスト解析 (8) ~確率分布によるテキストデータのモデリング~ 統計的にテキスト解析 (9) ~テキストにおける情報量~ 統計的にテキスト解析 (10) ~テキストにおける推測統計~ 統計的にテキスト解析 (11) ~テキスト分析とカイ2乗統計量~ 統計的にテキスト解析 (12) ~テキストの特徴分析~ 統計的にテキスト解析 (13) ~テキストのクラスター分析~ 統計的にテキスト解析 (14) ~テキストの分類分析1~ 統計的にテキスト解析 (15) ~テキストの分類分析2~ 統計的にテキスト解析 (16) ~テキストの時系列分析~ 統計的にテキスト解析 (17) ~テキストにおけるアソシエション分析と補遺 47
  48. 48. ご清聴ありがとうございました 小林 雄一郎 kobayashi0721@gmail.comhttp://www.geocities.jp/langstat/ twitter id: @langstat 48

×