生産性の漸増が語る統語知識の発達パターン束モデルに基づく段階的発達プロセスの計算的実証日本認知言語学会第11回全国大会 (JCLA 11)2010年9月11日  於 立教大学池袋キャンパスワークショップ第4室「徹底した用法基盤モデルの展開」
1.	はじめに2JCLA11@立教大
統語知識の内実は何か用法基盤モデルに基づく習得研究 e.g., Tomasello 2003「発達的事実の記述」としては秀逸習得プロセスのモデル化にも成功一語文  二語・多語文  抽象構文  …しかし何を習得しているか = 「知識の表示」の議論が希薄両者は裏腹習得プロセスの検証が未実施背後にある問題スキーマの計算理論の不在3JCLA11@立教大
発達プロセスの計算的実証へならば「統語知識の表示」の可能な候補を提示= パターン束モデルの定義する「パターン」≈ スキーマ表示の「発達度」の指標を計算今回はシャノンのエントロピーを使用することによる計算的実証を行ってみようCf. Borensztajnet al.2009具体的にはBrownコーパスin CHILDES(MacWhinney 2000)を使用年齢経過に従って幼児の発話から漸増的パターン生成各時点での生産性を算定4JCLA11@立教大
本発表の構成2節: 前提パターン束理論によるパターンの定義パターンの発達としての統語発達3節: 調査データの詳細・方法の提示生産性の算定方法の紹介4節: 結果と考察結果概要考察・調査の意義の検討5節: 結語5JCLA11@立教大
2.	前提JCLA11@立教大6
パターンの定義 [1]パターン束理論 (PLT)によるパターンの定義任意の事例 eを分節モデルTで分節化 分節列T(e)を得るeの例: 	John hit Mary.Tの例:	単語分節T(e)の例: 	[John, hit, Mary]7JCLA11@立教大John hahitMary= eJohn分節化= T(e)hitMaryJohn
パターンの定義 [2]パターンの定義の続きT(e) の分節を一つずつ変項 Xによって置換この産物をパターンと定義この工程を全分節が変項化されるまで再帰的に適用得られた産物 = eのパターン集合 P(e)JCLA11@立教大8hitMaryJohnパターンhitMary____MaryJohnhit__John
パターン束 (パターンラティス)パターン集合 P(e) の性質pi, pj∈P(e) に部分一致に基づく継承関係を規定可能= 継承関係 (is-a) を「順序」とする半順序集合継承関係を含むパターン集合P(e) = パターン束 L(e)継承関係の図示 (次スライド)e = John hit Maryの場合のL(e)をハッセ図により図示継承関係は推移律を満たすので冗長な関係は除いてある簡略化のため連続する変項は単一化してあるE.g., [John, __, __ ]  [John, __ ]JCLA11@立教大9
パターン束のハッセ図JCLA11@立教大10L(e) (ただし e = John hit Mary.)... 頂点... 語彙パターン... 超語彙パターン... 底 = 事例____ Mary__ hit __John ____ hit MaryJohn __ MaryJohn hit __John hit Mary
パターンの発達としての統語発達パターン = 統語知識の実体なら統語発達 = パターンの発達パターンの発達:a.	利用可能なパターンの総数の増加b.	個々のパターンの性質(e.g., 生産性, 複雑性) の成長注意幼児の統語知識が「XXX構文」となっている保証無し一語文 ~ 語彙依存構文は具体的な語が指定済み以上からパターン =構文の「候補」として網羅的に調査具体的には上記 b について調査 (評価対象は「生産性」)JCLA11@立教大11
3.	調査JCLA11@立教大12
データデータにはCHILDES内のBrownコーパスを使用JCLA11@立教大13CHILDESEnglish(USA)Japanese…BrownMacWhinney…AdamEveSarah…2;3–3;4 [4;10]28/55 files1;6–2;320 files2;3–3;8[5;1]71/139 files
方法 [1](前処理)上記データから (前処理)幼児 = {Adam, Eve, Sarah} の発話のみを抜き出し言いさし・重複, ポーズの含まれる発話を除外前処理後のデータの詳細 (Eve) は予稿集 (p. xxx) 参照JCLA11@立教大14*CHI:	Shadow .*CHI:	read Shadow # Mommy .*CHI:	read Shadow .*CHI:	Shadow .*CHI:	who (th)at ?*MOT:	what is that ?*CHI:	lollipop .*MOT:	+" he sticks to me like +...*CHI:	+, glue .*MOT:	+" and scares away +...*CHI:	piggie squeak .*CHI:	wee wee way home .ポーズ母親の発話重複
方法[2] (漸増型パターン生成)生産性の算定 (漸増型パターン生成)各幼児1ファイル目のデータからパターンを生成ファイルは時系列に沿って番号(id)付けされている“頻度 ≥ 2” かつ “バリエーション ≥ 2” のものを選抜選抜パターンに対し生産性を算定・平均を算出以降nファイルある内の i = 2 ~ nまで1 ~ iファイル目のデータから上記のプロセスを繰り返すJCLA11@立教大15
漸増型パターン生成の模式図JCLA11@立教大16Phase 1Phase 2Phase 3Phase 4…Phase nFile 1File 1File 1File 1File 1File 2File 2File 2File 2File 3File 3File 3Patterns…File 4File 4Patterns…PatternsFile nProductivityPatternsProductivityProductivityPatternsProductivityProductivity
方法 [3] (順序ランダム化)ただし漸増型パターン生成で生産性平均の上昇が示される それは単にデータの量が増えたからでは??幼児の知識の質的変化ではなく知識量の変化の現れ??「段階的習得プロセス」「統語発達」は示せないそこで順序ランダム化データを複数 (50パターン) 用意これを R= {r1, r2, r3, … r50} とするそれぞれに対し漸増型パターン生成を実施結果をオリジナルデータと比較JCLA11@立教大17
順序ランダム化データの例JCLA11@立教大18Phase 1Phase 2Phase 3Phase 4…Phase nFile 8File 8File 8File 8File 8File 3File 3File 3File 3File 12File 12File 12Patterns…File 5File 5Patterns…PatternsFile 14ProductivityPatternsProductivityProductivityPatternsProductivityProductivity
生産性の算定生産性尺度 = シャノンのエントロピー(H)以降単に「エントロピー」or H各変項 (v) に対して計算変項 vのエントロピー (H(v)) :(ただし: p(wi) = i番目の実現値の生起確率)変項が複数ある場合 (e.g., Put __ in __):それぞれの変項に対してエントロピーを計算し各値を合計変項間「共変動率」を見積もり合計値を補正補正の詳細は吉川 (2010) 参照JCLA11@立教大19
4.	結果と考察JCLA11@立教大20
結果概要生産性の上昇どの幼児もファイル数増加毎に生産性が上昇	Adam			   Eve			    Sarah直線は回帰直線(次スライド)JCLA11@立教大21
得られたパターンの例 [~10]JCLA11@立教大22
得られたパターンの例 [11~20]JCLA11@立教大23
得られたパターンの例 [21~28]JCLA11@立教大24
気になるパターンの推移JCLA11@立教大25
線形回帰増加の傾向は?線形回帰 (linear regression) によって確認目的変数: エントロピーの平均値説明変数: データ量(発話数)決定係数(R2) = 回帰の当てはまり度合い ≤ 1Adam: 0.96;	Eve: 0.95;	Sarah: 0.98軒並み高水準順序ランダム化データ(R)との比較Rにもそれぞれ線形回帰を実施“R2 ≥ 0.5”のデータに対し元データ(O)と傾きを比較線形の傾向と言えそうなものを選抜結果 Oと R諸データ間で傾きの違いは顕著JCLA11@立教大26
Oと Rの差の検定順序ランダム化データ (R) との差は有意か?一標本の t検定によって検証帰無仮説:OもRの一種結果: どの幼児も有意差アリAdam:t(49) = -20.4534,p < 2.2e-16Eve:t(49) = -32.5039,p < 2.2e-16Sarah:t(49) = -55.1863,p < 2.2e-16JCLA11@立教大27
AdamJCLA11@立教大28赤: 元データ青: ランダム
EveJCLA11@立教大29赤: 元データ青: ランダム
SarahJCLA11@立教大30赤: 元データ青: ランダム
考察線形回帰の結果は何を表しているか?回帰分析の目的= 説明変数によってどれだけ目的変数が説明可能か今回: データ量の増加でエントロピーの平均が説明できるかしかし:重要な点: Rでは決定係数 & 傾きが落ち込む!= エントロピー平均増加はデータ量増加によるものではない!では説明変数は何か?年齢の経過に伴って増加した見えない尺度これが Rでは崩れてしまっていた  決定係数 & 傾きの減少よって本調査の結果 = 段階的な発達プロセスを捉えている31JCLA11@立教大
本調査の意義注意本調査の結果 = 統語発達の一側面に過ぎない意味に関する情報, パターンの性質等を捨象しているしかし重要な点: 方法論的革新他の尺度を用いて同様の方法論で調査を行えばいい 発達「プロセス」の計算的実証法の確立これはPLTによってもたらされる大きな利点認知言語学にとって有益であることは言うまでもない32JCLA11@立教大
5.	結語JCLA11@立教大33
まとめ本発表ではCHILDES内のBrownコーパスにおける幼児の発話からPLTの定義に従い網羅的にパターンを生成しシャノンのエントロピーでパターンの生産性を算定し年齢経過に伴う段階的な生産性増加を確認したこの結果は生産性という観点からは統語知識は段階的に発達するというTomasello (2003) の主張を支持する用法基盤の習得モデルを実証する結果と言える34JCLA11@立教大
課題 + 宣伝(統計的) 評価方法の不在線形回帰による比較は試験的なもの本当にうまく結果が評価できているか?この点に関しては日本認知科学会 第27回大会 (JCSS 2010)における発表「パターンの生産性に見る統語発達」by 吉川本発表とある意味相補的な内容JCSS 2010 @ 神戸大学鶴甲第1キャンパス (2010/9/17 ~ 19)吉川の発表は初日(9/17)論文は以下からダウンロード可能http://www.jcss.gr.jp/meetings/JCSS2010/proceedings.html35JCLA11@立教大
謝辞と参考文献JCLA11@立教大36
謝辞本ワークショップ参加メンバー黒田 航氏(情報通信研究機構)長谷部 陽一郎氏	(同志社大学)淺尾 仁彦氏		    (ニューヨーク州立大学バッファロー校[院])慶應義塾大学大学院 井上逸兵研究会メンバー井上 逸兵教授(慶應義塾大学)中村 文紀氏		(慶應義塾大学[院])統計検定の補助久保田 ひろい氏	(千葉大学[院])JCLA11@立教大37
追加の参考文献Borensztajn, G., Zuidema,W., & Bod, R. 2009. Children's grammars grow more abstract with age: Evidence from an automatic procedure for identifying the productive units of language. Topics in Cognitive Science, 1 (1), 175–188.JCLA11@立教大38
ご清聴ありがとうございました。JCLA11@立教大39

Jcla11 ws research