SlideShare a Scribd company logo
1 of 15
ニューラルネットワークが文法を覚えるとき<br />浅川伸一<br />はじめに<br />本稿では、ニューラルネットワークによる文法の獲得ということで二つの話題を取り上げる。一方は、エルマンネットワークによる再帰構造の獲得について、他方は人称代名詞の ``you'' と ``I'' などの使い分けを学習するカスケードコリレーションモデルを紹介する。<br />第一の、文法における再帰構造の役割は、言語学者によって強調される事項である。なぜなら、ある文法に多重埋め込み文の処理機構が存在することは、無限に入れ子になった多重埋め込み文を作ることができ、このことは現代のコンピュータ理論では実現することが難しいと考えられてきたからだ。それゆえ人間がこの多重埋め込み文 ---換言すれば言語の再帰構造の理解--- を示すのは、人間のコンピテンスが今日的なコンピュータのそれとは本質的に異なることを主張する根拠となるからである。ところが、エルマンネットワークに再帰構造が学習できるということは上記の理屈を破綻させることにもつながる。<br />第二について、どの言語にもインデクスカル indexical と呼ばれる単語がある。指示対象が発話された場面によって変わるというものである。これには人称代名詞(「わたし」や「あなた」など)や指示代名詞(「これ」「それ」「どれ」「あれ」)などがある。例えば人称代名詞の場合、話し手が誰で聞き手が誰であるかによって、その指示対象が変化する。このような会話の場面によって指示対象が変化するインデクスカルは、言語学習者である子どもにとって難しい問題である。なぜなら、人称代名詞の指示対象が会話場面でのスピーチロールによって変わるからである。子どもに対して向けられた発話だけで使用される人称代名詞を聞いただけでは、人称代名詞とそのスピーチロールとの関係が分かるとは言えない。子どもに対して話しかける大人は、自己(発話者)については、一人称代名詞 ``I'', ``me'' を使う。一方で、子ども(聞き手)に対しては二人称代名詞 ``you'' を使用する。実際、 CITATION Osh921  1041   [Oshima-Takane, 1992]は次のようなエラーが実際に怒っていることを報告している。子どもがクッキーを欲しがっているときに、``I want cookie'' という意味で ``You want cookie'' と言ったときに、母親は ``No, you should say, `I want cookie'.'' と訂正したという。このことは、子どもが大人の自分に対する発話しか聞いていないと、人称代名詞とスピーチロールの関係に気がつかず人称代名詞の使用方法に関する誤った文法知識を学習してしまう可能性を示唆している。すなわち一人称代名詞 ``I'', ``me''は子どもと会話している大人を指し、二人称代名詞 ``you'' は子ども自身を指すものと学習してしまう。このことによって自分がクッキーが欲しいときに、相手がクッキーを欲しがっているというような先の逆転した誤りが生じたものと考えられる。では、どうすれば人称代名詞の正しい知識を獲得できるのであろうか。Oshima-Takane の仮説によれば、子ども以外の他者同士の会話を子どもに聞かせることが重要である。他者同士の会話は、子どもに対して向けられた発話とは異なり、一人称代名詞 ``I'', ``me'' とニ人称代名詞 ``you'' のインデクスカルが、話し手が誰で聞き手が誰であるかによって変化し、その変化規則を観察するので正しい知識を獲得できるという。<br />エルマンネットによる再帰構造の学習<br />Elman ら(1991,1993など) [Elman, Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225., 1991] [Elman J. , 1993]ネットワーク、通常エルマンネットと呼ばれるモデルは時系列データを扱うことができる。このことからエルマンネットが、関係節などを含む再帰的な文法構造を学習すること賀できることが示されてきた。さらにエルマンネットにおいては、刺激の貧困、否定証拠の欠如などの問題があってもニューラルネットワークには文法規則の学習が可能であることが示されている。文法規則に限らずエルマンネットには実に様々なことができる。一般に任意の有限状態機械はニューラルネットワークで実現可能なことが示されている(上坂 CITATION 上坂吉93  1041   [上坂, 1993]などを参照)。有限状態機械が有限のテープ長をもつチューリングマシンと同等なことから、ニューラルネットワークは現在存在するコンピュータの処理能力を表現可能である。このことは、人間の高次脳機能をコンピュータ上に実現使用する言語学、人工知能、認知科学、認知心理学のモデル構成論的試みのすべてはニューラルネットワークとして表現可能であることを意味する。浅川 CITATION 浅川伸031  1041   [浅川, 2003]は、言語理解、単語予測、文法推論、短期記憶、反応時間、選択的注意、間接プライミング、連想記憶などが実現可能であるとしている。<br />エルマンネットの構造<br />エルマンネットでは、入力層は入力信号を処理する入力層ユニットと、直前の時刻までの中間層の状態を入力とする文脈層ユニットとで構成される( REF _Ref74193123  図 1)。文脈ユニットは以前の中間層をコピーするためだけ(すなわち中間層から文脈層ユニットへの結合強度は 1.0)である。結合強度の学習は順方向の結合についてだけ行なわれるので、通常の誤差逆伝播法がそのまま適用できる。<br />図  SEQ 図  ARABIC 1エルマンネット<br />ある時刻 t で処理される内容は、その時点での入力信号と、それ以前の時刻 t-1 までで処理された回路の状態を表す信号とが同時に処理される。すなわち、文脈層は t-1 時刻までの全過去の状態を記憶していることを意味する。この結果、ある時刻 t でのネットワークの状態は現在の入力と過去の入力履歴の集合によって決まることになる( REF _Ref74193123  図 1)。<br />図  SEQ 図  ARABIC 2エルマンネットの時間発展<br />   (  SEQ 数式  ARABIC 1)<br />と表すことができる。ここで I(t) は時刻 t における入力を表している。文脈層からの影響( REF _Ref74193076  図 2中では a と表記) が 1 より小さければ過去の入力からの影響が指数関数に従って小さくなることを表している(1 より大きければ過去の状態からの影響は大きくなる)。このことは、エルマンネットが一つ前の状態を保存しておくという単純な構造にもかかわらず、過去の全履歴に依存した出力を生じることを示している。<br />エルマンネットの再帰処理能力と限界<br />エルマン [Elman, Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225., 1991]は、自身の考案したエルマンネットを用いて文法学習などの複雑な構造を表現できることを示した。文章を構成する単語を逐次入力層に与え、ネットワークは次の単語を予測するように訓練される。この訓練手続きを系列予測課題(または単語予測課題)という。エルマンは、系列予測課題によって次の単語を予想することを繰り返し学習させた結果、文法構造がネットワークの結合係数として学習されることを示した。エルマンネットによって、埋め込み文の処理、時制の一致、性や数の一致、長距離依存などを正しく予測できることが示されている [Elman, Finding structure in time, 1990] [Elman, Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225., 1991] [Elman, Learning and development in neural networks: The importance of starting small, Cognition, 71--99, 1993]。<br />表  SEQ 表  ARABIC 1エルマンの用いた文法規則<br />S    ->  NP VP .NP  ->  PropN | N | N RCVP  -> V (NP)RC  -> who NP VP | who VP (NP)N   -> boy | girl | cat | dog | boys | girls | cats |dogsPropN  ->  John | MaryV  -> chase | feed | see | hear | walk | live |chases|       feeds | seeds | hears | walks | lives<br />これらの規則にはさらに 2 つの制約がある。(1) N と V の数が一致していなければならない。(2)目的語を取る動詞に制限がある。例えば hit, feed は直接目的語が必ず必要であり、see と hear は目的語をとってもとらなくても良い。walk と live では目的語は不要である。<br /> REF _Ref74193293  表 1エルマンの用いた文法規則表にエルマンが用いた文章生成則を示した。文章は 23 個の項目から構成されている。8 個の名詞と 12 個の動詞、関係代名詞 who、及び文の終端を表すピリオドである。<br />この文法規則から生成される文 S は、名詞句 NP と動詞句 VPと最後にピリオドから成り立っている。名詞句 NP は固有名詞 PropN か名詞 N か名詞に関係節 RC が付加したものの何れかである。動詞句 VP は動詞 V と名詞句 NP から構成されるが名詞句が付加されるか否かは動詞の種類によって定まる。関係節 RC は関係代名詞 who で始まり、名詞句 NP と動詞句 VP か、もしくは動詞句だけのどちらかかが続く。<br />入力層においては一ビットが一単語に対応するように単語の数だけユニットが用意された(実際には別の目的もあって 23 ビットではなく 26 ビット、すなわち 26 個のユニットが用意されていた)。出力層のユニットも一ユニットが一単語を表すように入力層と同じ数だけのユニットが用意された。中間層は 70 個のユニットが用意された。エルマンネットの特徴である文脈層ユニットは中間層のユニット数と同数の 70 個である。実際にエルマンが用いたシミュレーションでは入力層と中間層の間にもう一層、中間層と出力層の間にもう一層の計 5 層のネットワークであったのだが中間層の数は、問題の本質でない。<br />エルマンは REF _Ref74193293  表 1エルマンの用いた文法規則に従って生成された文章を一単語ずつ次々にネットワークに示し、次に来る単語を予測させる訓練を行なった。すなわち入力層にある単語を提示し、出力層における教師信号として次に来る単語を与えたのである。<br />訓練の結果、ネットワークは次に来る単語の種類を予測できるようになった。例えば boy が提示されるとネットワークは次に来る単語として、関係代名詞 who もしくは単数を主語とする動詞 feeds, seeds, hears, walks, lines を表わすユニットがほぼ等確率で活性化され、複数形を主語とする s の付かない動詞や他の名詞を示すユニットは全く活性化されなかった。反対に、複数名詞である boys が提示されると who, chase, feed, see, hear, walk, live が等確率で活性化された。ネットワークに boys who Mary chases まで提示されると文頭の主語 boys が複数であるために複数形を主語とする動詞が等しく活性化された。このようにエルマンのネットワークは中央埋め込み文のある、いわゆる長距離依存を正しく予測できたのである。<br />ここで大切なことは、エルマンのネットワークでは文法知識はネットワークの結合係数の大きさとして表象されていることである。明示的な書き換え規則のようなルールは全く与えられていない。さらに、関係代名詞による文章の再帰的構造は中間層の活性値で表現される状態空間の中に表現されていることである。そして、この文法知識は否定的な証拠を提示されることによって獲得されるのではなく、単純に次の単語を予測するだけしか行なっていない点も強調される。<br />エルマンネットの能力限界<br />エルマンネットは上述のように再帰処理能力を有する。それでは、エルマンネットの処理能力には限界がないのであろうか?このような発問に答えるためには、エルマンネットを二つの方向で拡張可能であることを考慮すれば良い。一方は、 REF _Ref74193405  図 3エルマンネットにおける中間層ユニット数の拡張 のごとく中間層のユニット数の増減であり、<br />図  SEQ 図  ARABIC 3エルマンネットにおける中間層ユニット数の拡張<br />他方は、 REF _Ref74193550  図 4エルマンネットの拡張:文脈層の多段化のごとく文脈層の多段化である。<br />図  SEQ 図  ARABIC 4エルマンネットの拡張:文脈層の多段化<br />中間層と文脈相のユニット数を増やすことによって、中間層によって表現される状態空間 CITATION 浅川伸031  1041  [浅川, 2003]が広大(多次元)化し、その結果としてより入れ子の多い多重埋め込み文の処理が可能になると考えられる。<br />他方、文脈層を多段化すれば、一時刻前 t-1 の状態をコピーするだけでなく、ニ時刻前 t-2 の状態も正確に保持しておけることになる。文脈層を n 段化すれば t-n 時刻までの n個の状態空間によって定まる再帰処理能力を容易にする。紙面の都合上、具体的な結果は示せないが、エルマンネットの定量的な処理能力の評価は可能であり、ここに示した二つの拡張と実際の言語話者との比較は意味があると考える。<br />人称代名詞の獲得<br />解くべき課題の複雑さに応じて適応的に自身の複雑さを増すニューラルネットワークモデル、カスケードコリレーション<br />まず最初に、カスケードコリレーションと呼ばれるニューラルネットワークモデルを紹介する。カスケードコリレーションとは、教師付き学習アルゴリズムの一種である。一般に良く知られているようなパーセプトロン型のニューラルネットワークモデルはネットワークの構造があらかじめ決まっていて、変わらない。入力層と出力層のユニット数は解くべき問題に応じて必然的に決まってくるが、このとき中間層のユニット数を適切に定める手段がない。<br />例えば、排他的論理和を解く 3 層のニューラルネットワークを考えた場合では、中間層のユニット数を 2 個以上にすれば解くことができることが知られている(ただし入力層から中間層を経ないで直接出力層に信号を送る経路が存在する場合には中間層のユニットは 1 つで良い)。3 つ以上のユニットは冗長なのであるが、それではいくつに中間層のユニットを用意すれば良いのであろうか。これは解くべき問題の複雑さやネットワークの処理能力など情報論的な側面も含んでおり、難しい問題である。<br />このことに加えて、ニューラルネットワークを実世界の問題に適用しようとする場合、学習速度の遅さが問題になることがある。この学習の遅さの要因の一つは、移動する対象問題に起因する [Fahlman Lebiere, 1990]。これはバックプロパゲーションなどを使って学習をさせる場合、すべての中間層ユニットは全ての提示された課題を解くために、その都度全ての結合係数を少しずつ変化させるという点にある。<br />カスケードコリレーションにおいては、中間層のユニット数は解くべき問題の複雑さに応じて適応的に増えて行く。新たに加えられる中間層ユニットは、既に存在するシステムの出力を受け取って、そのシステムに連結(カスケード)するように付け加えられる。新たに加えられるユニットの出力は、残りの全ユニットからの出力による誤差の総和との相関(コリレーション)を最小化するように訓練させる。このとき新たに加えられたユニットの結合係数が学習されるだけで、すでに存在しているユニットの結合係数は変わらない。このカスケード構造と既に存在するネットワークの学習と凍結して新たに加えられたユニットに対してのみ学習が起こると仮定することによって学習の遅さの問題を解消、すなわち移動する対象問題に起因する学習の遅さを回避することができる。 [Fahlman Lebiere, 1990]によれば極めて複雑な問題、通常の三層バックプロパゲーションで解くと非常に多数の学習回数が必要な問題が、極めて単純時間で学習可能である。<br />学習によってユニットが増加してく様子を REF _Ref74193634  図 5カスケードコリレーションモデルの概念図、始めに中間層1がネットワークに加えられる。それでも学習が収束しないとき誤差との相関(コリレーション)が最も高くなるように中間層2が加えられる。図には中間層2までしか書いていない、しかし、解くべき課題が複雑になると、その目的関数を十分に近似するまで n 個(n>1)の中間層が逐次加えられて行く。に示した。<br />図  SEQ 図  ARABIC 5カスケードコリレーションモデルの概念図、始めに中間層1がネットワークに加えられる。それでも学習が収束しないとき誤差との相関(コリレーション)が最も高くなるように中間層2が加えられる。図には中間層2までしか書いていない、しかし、解くべき課題が複雑になると、その目的関数を十分に近似するまで n 個(n>1)の中間層が逐次加えられて行く。<br />カスケードコリレーションは一種のメタ学習則と考えることができる。個々の学習にバックプロパゲーションやその他の学習則を適用した上で、ネットワークの構造、トポロジーを動的に変化させる学習則であるからだ。<br />Shultz [Shultz, Buckingham, Oshima-Takane, 1994]たちは、最初は単純な課題しか解くことができなかったシステムが、発達に伴って次第に複雑な課題を解くことができるようになっていくという観点から、認知発達のシミュレーションモデルとしてカスケードコリレーションを取り上げている。彼らのモデルでは、子どもの知的段階が一つずつ加わって行く中間層の数として表現されると考え、各発達段階における子どもの知的能力は中間層の数としてモデル化される。<br />メタ学習則であるために既存の技法と組み合わせて用いることができる。例えば、先に紹介した枝刈法と組み合わせてネットワークのトポロジーを動的に変化させながら不要なユニットを削除する方法や、エルマンネットワークのようなフィードバック結合を許すようなネットワークも提案されている。<br />中間層のユニット数決定問題に関しては、大きく分けて二つのアプローチがあることが知られている。一つはあらかじめたくさんの中間層ユニットを用意しておき、学習の途中で使われていないユニットの結合係数を小さくしていく方法で、枝刈り法pruning と呼ばれる。さらには、最適脳損傷法 OBD:opitcal brain damage, [Cun, Denker, Solla, 1990]や最適脳外科手術法OBS:optical brain surgery [Hassibi, Stork, Wolff, 1993]などという、一見すると奇妙な名前の手法も存在する。これらの手法はネットワークの能力を落さずに如何に最小のコストで最適な中間層ユニットを作り出せば良いのかという研究テーマとなっている。<br />OBD, OBS はあらかじめ十分な中間層ユニットを用意しておいて、学習時に無駄な結合を刈り取る方法であったが、一方で、始めは単純な構造から出発して、課題の複雑さに応じて中間層をその都度リクルートする方法も提案されている。この手法のメリットは計算量が相対的に少なくなる点にある。加えて、ニューラルネットワークが解くべき課題の複雑さに応じて自分自身の複雑さを適応的に変化させることができる点にある。代表的な手法に、カスケードコリレーションと呼ばれるアルゴリズムがある。<br />人称代名詞の学習<br />ここまでの話をニューラルネットワークとの関連で議論しておく。<br />他者同士の会話を観察することが、人称代名詞の正しい文法知識の獲得に重要であることはおそらく確かかも知れないが、この考えは推測の域を出ない。なぜなら実験的な検討が不可能だからである。これは、子どもに向けられた発話だけを聞かせる条件で人称代名詞が使われる場面を観察させる心理実験を計画しても、実験場面以外の日常生活で他者同士の会話を聞く機会があるため、その効果を完全に排除することなどできないからである。<br />ニューラルネットワークを用いて文法知識が如何に育つのかを研究する意義がここにある。すなわち、ニューラルネットワークによるシミュレーション実験では、人為的人工的に、他者同士の会話をまったく聞かせない条件を設定し、ニューラルネットワークモデルが人称代名詞の正しい文法知識を獲得することができるかどうかを観察することができる。コンピュータによるシミュレーション実験の大きな利点はまさにこの点であり、倫理的理由により実際の子どもでは許されないような環境条件でも、研究目的に合わせて自由に設定し、その結果を検討することができることにある。その結果から、人間の持つ言語獲得のメカニズムが検討可能である。<br />Shultz, Buckingham and Oshima-Takane(1994) [Shultz, Buckingham, Oshima-Takane, 1994]は先に紹介したカスケードコリレーションを用いたニューラルネットワークのシミュレーション実験によって人称代名詞の獲得のメカニズムを探っている。彼らの結果によれば、母親と父親とがそれぞれ子どもへと向けた発話で ``me'' ``you'' を使用するのを聞かせる「子どもへの発話だけを聞かせる条件」と、母親と父親同士の会話で ``me''と ``you'' とを使用するのを聞かせる「他者への発話を聞かせる条件」を比較した場合、他者への発話を聞かせる条件によって訓練されたニューラルネットワークの方が``me'' と ``you'' との使用パターンの学習がはやくなった。他者への発話を聞かせる条件で訓練されたニューラルネットワークの方は、子どもの使用バターンの訓練場面でエラーのフィードバックを受けると、ただちに ``me'' と``you'' との言語産出エラーを訂正できたが、子どもへの発話だけを聞かせる条件で訓練されたニューラルネットワークは産出エラーを訂正するのにかなりの訓練を必要とした。<br />さらに、彼女らは子どもへの発話だけを聞かせる割合と他者への発話を聞かせる割合とを 0:10, 1:9, 2:8, …, 10:0 と変化させて結果を観察している。子どもに対してしか話しかけない 0:10 と 他者同士の会話しか含まれない 10:0 条件は現実的なシミュレーションではない。しかし、人称代名詞の文法知識を獲得するために、他者同士の会話を聞くことがどの程度決定的な役割を果たすのかを検討するためには必要な条件であろう。<br />このシミュレーションの結果は興味深い。学習中(すなわちカスケードコリレーションが人称代名詞の正しい使用法を獲得する過程において)、子どもへの発話が 9:1 であったニューラルネットワークは、5:5 の混合条件や他者同士の会話だけを聞く 0:10 パターンの場合よりも学習に必要とする回数が多かった。このことは第一子の人称代名詞の産出が、第二子の人称代名詞の産出に比べて遅いという人間のデータ(Oshima-Takane, Goodz, and Derevensky, 1996) [Oshima-Takane, Good, Derevensky, 1996] と一致する。<br />また、子どもへの発話が多い 9:1, 10:0 の条件では、隠れ層のユニットを2 つ組み入れている。ニューラルネットワークの立場から見れば、この条件は解くべき課題の難易度が高く、問題を解くためには自己を適応的に複雑にして対処しなければならなかったことを意味している。<br />一方、子どもへの発話と他者同士の発話の割合が 8:2, 7:3 については、より少ない訓練回数で正しい人称代名詞の知識を獲得することが示されが。訓練回数の少なさは、統計学的にも有意に少なかった。<br />実際、10:0 の条件で訓練されたニューラルネットワークは一人称代名詞と二人称代名詞を逆転して産出していた。他の条件でも、このような間違いは見られたものの中間層の数が増えると速やかに正解に達した。<br />大嶋(1997) CITATION 大嶋百971  1041   [大嶋, 1997]は次のように結論している。「シミュレーションから、カスケードコリレーションネットは、様々な話し手が他者同士の発話を聞く条件で人称代名詞を使用しているのを学習するだけで、子どもが話し手のときの人称代名詞の正しい使い分けを一度も間違えずにできるということがわかった。」また、8:2 の条件であれば、それ以上他者同士の会話を観察する機会がある場合と同様、子ども(この場合カスケードコリレーションモデルの出力結果)の発話パターンは完全に一般化した(すなわち正しい人称代名詞の知識が育った)。<br />おわりに<br />Shultz や大嶋らのニューラルネットワークを用いた言語獲得の研究の意義の一つに次の点が挙げられるだろう。すなわちこれまでの言語獲得の研究では、子どもに対して話しかけられた母親の発話が言語獲得のためのインプットとして重要視されてきた。そして子ども以外の他者に向けられた発話の役割はほとんど無視されて来たといって良い(Oshima-Takane, Goods, and Derevensky, 1996) [Oshima-Takane, Good, Derevensky, 1996]。ところがインデクスカルの代表である人称代名詞の知識を正しく獲得するためには、他者同士の発話を観察することが重要であるという点を指摘したこと、そして、そのメカニズムをニューラルネットワークモデルとして実装し内部状態をも示した点が重要であると考える。<br />本稿のタイトルは「ニューラルネットワークが文法を覚えるとき」であった。しかし、取り上げた文法的知識に関する話題は多重埋め込み文の再帰処理能力とインデクスカルの使用法の獲得に関するわずか 2 つのみであった。しかしニューラルネットワークは万能の関数近似機ite[など]{Uesaka1993} CITATION 上坂吉93  1041  [上坂, 1993]であり、実際に様々なことができる CITATION 浅川伸03  1041  [浅川伸一, 2003]。極論すれば、全ての文法知識はニューラルネットワークとして表現可能であろう。さらなる問題を一つだけ挙げるとすれば、これら多くの文法知識をいかに統合するモデルが作れるかということではないだろうか。<br />引用文献 BIBLIOGRAPHY 上坂吉則. (1993). ニューロコンピューティングの数学的基礎,. 東京: 近代科学社.浅川伸一. (2003). 単純再帰型ニューラルネットワークの心理学モデルとしての 応用可能性. 心理学評論, 46 (2), 274-287.大嶋百合子. (1997). ことばの意味の学習に関するニューラルネットワークモデル -人称代名詞の場合-. 心理学評論, 40, 361-376.ElmanJeffery. (1991). Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225. Machine Learning, 7, 195-225.ElmanJeffery. (1990). Finding structure in time. Cognitive Science, 14, 179-211.ElmanJeffery. (1993). Learning and development in neural networks: The importance of starting small, Cognition, 71--99. Cognition, 71-99.Fahlmanand Lebiere, C.S.E.,. (1990). The cascade correlation learning architecture. 著: TouretzkyD.S., Advances in neural information processing systems (第 2 巻, ページ: 524-532). San Mateo, CA: Morgan Kaufmann.Oshima-TakaneY, GoodE, DerevenskyLJ. (1996). Birth order effects on early language development: Do second born children learn from overhead speech? Child Development, 67, 621-634.Oshima-TakaneYuriko. (1992). Analysis of pronomial errors: A case study. Journal of Child Language, 19, 111-131.ShultzR., Buckingham, D., & Oshima-Takane, Y.T. (1994). A connectionist model of the learning of personal pronouns in English. 著: S. J. HansonPetsche, M. Kearns, & R. L. RivestT., Computational learning theory and natural learning systems Vol. 2: Intersection between theory and experiment (ページ: 347-362). Cambridge, MA: MIT Press.<br />
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学
サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学

More Related Content

More from butest

Com 380, Summer II
Com 380, Summer IICom 380, Summer II
Com 380, Summer IIbutest
 
The MYnstrel Free Press Volume 2: Economic Struggles, Meet Jazz
The MYnstrel Free Press Volume 2: Economic Struggles, Meet JazzThe MYnstrel Free Press Volume 2: Economic Struggles, Meet Jazz
The MYnstrel Free Press Volume 2: Economic Struggles, Meet Jazzbutest
 
MICHAEL JACKSON.doc
MICHAEL JACKSON.docMICHAEL JACKSON.doc
MICHAEL JACKSON.docbutest
 
Social Networks: Twitter Facebook SL - Slide 1
Social Networks: Twitter Facebook SL - Slide 1Social Networks: Twitter Facebook SL - Slide 1
Social Networks: Twitter Facebook SL - Slide 1butest
 
Facebook
Facebook Facebook
Facebook butest
 
Executive Summary Hare Chevrolet is a General Motors dealership ...
Executive Summary Hare Chevrolet is a General Motors dealership ...Executive Summary Hare Chevrolet is a General Motors dealership ...
Executive Summary Hare Chevrolet is a General Motors dealership ...butest
 
Welcome to the Dougherty County Public Library's Facebook and ...
Welcome to the Dougherty County Public Library's Facebook and ...Welcome to the Dougherty County Public Library's Facebook and ...
Welcome to the Dougherty County Public Library's Facebook and ...butest
 
NEWS ANNOUNCEMENT
NEWS ANNOUNCEMENTNEWS ANNOUNCEMENT
NEWS ANNOUNCEMENTbutest
 
C-2100 Ultra Zoom.doc
C-2100 Ultra Zoom.docC-2100 Ultra Zoom.doc
C-2100 Ultra Zoom.docbutest
 
MAC Printing on ITS Printers.doc.doc
MAC Printing on ITS Printers.doc.docMAC Printing on ITS Printers.doc.doc
MAC Printing on ITS Printers.doc.docbutest
 
Mac OS X Guide.doc
Mac OS X Guide.docMac OS X Guide.doc
Mac OS X Guide.docbutest
 
WEB DESIGN!
WEB DESIGN!WEB DESIGN!
WEB DESIGN!butest
 
Download
DownloadDownload
Downloadbutest
 
resume.doc
resume.docresume.doc
resume.docbutest
 
Download.doc.doc
Download.doc.docDownload.doc.doc
Download.doc.docbutest
 
Resume
ResumeResume
Resumebutest
 
Web Design Contract
Web Design ContractWeb Design Contract
Web Design Contractbutest
 
Download a Web Design Proposal Form
Download a Web Design Proposal FormDownload a Web Design Proposal Form
Download a Web Design Proposal Formbutest
 

More from butest (20)

Com 380, Summer II
Com 380, Summer IICom 380, Summer II
Com 380, Summer II
 
PPT
PPTPPT
PPT
 
The MYnstrel Free Press Volume 2: Economic Struggles, Meet Jazz
The MYnstrel Free Press Volume 2: Economic Struggles, Meet JazzThe MYnstrel Free Press Volume 2: Economic Struggles, Meet Jazz
The MYnstrel Free Press Volume 2: Economic Struggles, Meet Jazz
 
MICHAEL JACKSON.doc
MICHAEL JACKSON.docMICHAEL JACKSON.doc
MICHAEL JACKSON.doc
 
Social Networks: Twitter Facebook SL - Slide 1
Social Networks: Twitter Facebook SL - Slide 1Social Networks: Twitter Facebook SL - Slide 1
Social Networks: Twitter Facebook SL - Slide 1
 
Facebook
Facebook Facebook
Facebook
 
Executive Summary Hare Chevrolet is a General Motors dealership ...
Executive Summary Hare Chevrolet is a General Motors dealership ...Executive Summary Hare Chevrolet is a General Motors dealership ...
Executive Summary Hare Chevrolet is a General Motors dealership ...
 
Welcome to the Dougherty County Public Library's Facebook and ...
Welcome to the Dougherty County Public Library's Facebook and ...Welcome to the Dougherty County Public Library's Facebook and ...
Welcome to the Dougherty County Public Library's Facebook and ...
 
NEWS ANNOUNCEMENT
NEWS ANNOUNCEMENTNEWS ANNOUNCEMENT
NEWS ANNOUNCEMENT
 
C-2100 Ultra Zoom.doc
C-2100 Ultra Zoom.docC-2100 Ultra Zoom.doc
C-2100 Ultra Zoom.doc
 
MAC Printing on ITS Printers.doc.doc
MAC Printing on ITS Printers.doc.docMAC Printing on ITS Printers.doc.doc
MAC Printing on ITS Printers.doc.doc
 
Mac OS X Guide.doc
Mac OS X Guide.docMac OS X Guide.doc
Mac OS X Guide.doc
 
hier
hierhier
hier
 
WEB DESIGN!
WEB DESIGN!WEB DESIGN!
WEB DESIGN!
 
Download
DownloadDownload
Download
 
resume.doc
resume.docresume.doc
resume.doc
 
Download.doc.doc
Download.doc.docDownload.doc.doc
Download.doc.doc
 
Resume
ResumeResume
Resume
 
Web Design Contract
Web Design ContractWeb Design Contract
Web Design Contract
 
Download a Web Design Proposal Form
Download a Web Design Proposal FormDownload a Web Design Proposal Form
Download a Web Design Proposal Form
 

サンプル文書1(.doc file) - 東京女子大学HOME - 東京女子大学

  • 1. ニューラルネットワークが文法を覚えるとき<br />浅川伸一<br />はじめに<br />本稿では、ニューラルネットワークによる文法の獲得ということで二つの話題を取り上げる。一方は、エルマンネットワークによる再帰構造の獲得について、他方は人称代名詞の ``you'' と ``I'' などの使い分けを学習するカスケードコリレーションモデルを紹介する。<br />第一の、文法における再帰構造の役割は、言語学者によって強調される事項である。なぜなら、ある文法に多重埋め込み文の処理機構が存在することは、無限に入れ子になった多重埋め込み文を作ることができ、このことは現代のコンピュータ理論では実現することが難しいと考えられてきたからだ。それゆえ人間がこの多重埋め込み文 ---換言すれば言語の再帰構造の理解--- を示すのは、人間のコンピテンスが今日的なコンピュータのそれとは本質的に異なることを主張する根拠となるからである。ところが、エルマンネットワークに再帰構造が学習できるということは上記の理屈を破綻させることにもつながる。<br />第二について、どの言語にもインデクスカル indexical と呼ばれる単語がある。指示対象が発話された場面によって変わるというものである。これには人称代名詞(「わたし」や「あなた」など)や指示代名詞(「これ」「それ」「どれ」「あれ」)などがある。例えば人称代名詞の場合、話し手が誰で聞き手が誰であるかによって、その指示対象が変化する。このような会話の場面によって指示対象が変化するインデクスカルは、言語学習者である子どもにとって難しい問題である。なぜなら、人称代名詞の指示対象が会話場面でのスピーチロールによって変わるからである。子どもに対して向けられた発話だけで使用される人称代名詞を聞いただけでは、人称代名詞とそのスピーチロールとの関係が分かるとは言えない。子どもに対して話しかける大人は、自己(発話者)については、一人称代名詞 ``I'', ``me'' を使う。一方で、子ども(聞き手)に対しては二人称代名詞 ``you'' を使用する。実際、 CITATION Osh921 1041 [Oshima-Takane, 1992]は次のようなエラーが実際に怒っていることを報告している。子どもがクッキーを欲しがっているときに、``I want cookie'' という意味で ``You want cookie'' と言ったときに、母親は ``No, you should say, `I want cookie'.'' と訂正したという。このことは、子どもが大人の自分に対する発話しか聞いていないと、人称代名詞とスピーチロールの関係に気がつかず人称代名詞の使用方法に関する誤った文法知識を学習してしまう可能性を示唆している。すなわち一人称代名詞 ``I'', ``me''は子どもと会話している大人を指し、二人称代名詞 ``you'' は子ども自身を指すものと学習してしまう。このことによって自分がクッキーが欲しいときに、相手がクッキーを欲しがっているというような先の逆転した誤りが生じたものと考えられる。では、どうすれば人称代名詞の正しい知識を獲得できるのであろうか。Oshima-Takane の仮説によれば、子ども以外の他者同士の会話を子どもに聞かせることが重要である。他者同士の会話は、子どもに対して向けられた発話とは異なり、一人称代名詞 ``I'', ``me'' とニ人称代名詞 ``you'' のインデクスカルが、話し手が誰で聞き手が誰であるかによって変化し、その変化規則を観察するので正しい知識を獲得できるという。<br />エルマンネットによる再帰構造の学習<br />Elman ら(1991,1993など) [Elman, Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225., 1991] [Elman J. , 1993]ネットワーク、通常エルマンネットと呼ばれるモデルは時系列データを扱うことができる。このことからエルマンネットが、関係節などを含む再帰的な文法構造を学習すること賀できることが示されてきた。さらにエルマンネットにおいては、刺激の貧困、否定証拠の欠如などの問題があってもニューラルネットワークには文法規則の学習が可能であることが示されている。文法規則に限らずエルマンネットには実に様々なことができる。一般に任意の有限状態機械はニューラルネットワークで実現可能なことが示されている(上坂 CITATION 上坂吉93 1041 [上坂, 1993]などを参照)。有限状態機械が有限のテープ長をもつチューリングマシンと同等なことから、ニューラルネットワークは現在存在するコンピュータの処理能力を表現可能である。このことは、人間の高次脳機能をコンピュータ上に実現使用する言語学、人工知能、認知科学、認知心理学のモデル構成論的試みのすべてはニューラルネットワークとして表現可能であることを意味する。浅川 CITATION 浅川伸031 1041 [浅川, 2003]は、言語理解、単語予測、文法推論、短期記憶、反応時間、選択的注意、間接プライミング、連想記憶などが実現可能であるとしている。<br />エルマンネットの構造<br />エルマンネットでは、入力層は入力信号を処理する入力層ユニットと、直前の時刻までの中間層の状態を入力とする文脈層ユニットとで構成される( REF _Ref74193123 図 1)。文脈ユニットは以前の中間層をコピーするためだけ(すなわち中間層から文脈層ユニットへの結合強度は 1.0)である。結合強度の学習は順方向の結合についてだけ行なわれるので、通常の誤差逆伝播法がそのまま適用できる。<br />図 SEQ 図 ARABIC 1エルマンネット<br />ある時刻 t で処理される内容は、その時点での入力信号と、それ以前の時刻 t-1 までで処理された回路の状態を表す信号とが同時に処理される。すなわち、文脈層は t-1 時刻までの全過去の状態を記憶していることを意味する。この結果、ある時刻 t でのネットワークの状態は現在の入力と過去の入力履歴の集合によって決まることになる( REF _Ref74193123 図 1)。<br />図 SEQ 図 ARABIC 2エルマンネットの時間発展<br /> ( SEQ 数式 ARABIC 1)<br />と表すことができる。ここで I(t) は時刻 t における入力を表している。文脈層からの影響( REF _Ref74193076 図 2中では a と表記) が 1 より小さければ過去の入力からの影響が指数関数に従って小さくなることを表している(1 より大きければ過去の状態からの影響は大きくなる)。このことは、エルマンネットが一つ前の状態を保存しておくという単純な構造にもかかわらず、過去の全履歴に依存した出力を生じることを示している。<br />エルマンネットの再帰処理能力と限界<br />エルマン [Elman, Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225., 1991]は、自身の考案したエルマンネットを用いて文法学習などの複雑な構造を表現できることを示した。文章を構成する単語を逐次入力層に与え、ネットワークは次の単語を予測するように訓練される。この訓練手続きを系列予測課題(または単語予測課題)という。エルマンは、系列予測課題によって次の単語を予想することを繰り返し学習させた結果、文法構造がネットワークの結合係数として学習されることを示した。エルマンネットによって、埋め込み文の処理、時制の一致、性や数の一致、長距離依存などを正しく予測できることが示されている [Elman, Finding structure in time, 1990] [Elman, Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225., 1991] [Elman, Learning and development in neural networks: The importance of starting small, Cognition, 71--99, 1993]。<br />表 SEQ 表 ARABIC 1エルマンの用いた文法規則<br />S -> NP VP .NP -> PropN | N | N RCVP -> V (NP)RC -> who NP VP | who VP (NP)N -> boy | girl | cat | dog | boys | girls | cats |dogsPropN -> John | MaryV -> chase | feed | see | hear | walk | live |chases| feeds | seeds | hears | walks | lives<br />これらの規則にはさらに 2 つの制約がある。(1) N と V の数が一致していなければならない。(2)目的語を取る動詞に制限がある。例えば hit, feed は直接目的語が必ず必要であり、see と hear は目的語をとってもとらなくても良い。walk と live では目的語は不要である。<br /> REF _Ref74193293 表 1エルマンの用いた文法規則表にエルマンが用いた文章生成則を示した。文章は 23 個の項目から構成されている。8 個の名詞と 12 個の動詞、関係代名詞 who、及び文の終端を表すピリオドである。<br />この文法規則から生成される文 S は、名詞句 NP と動詞句 VPと最後にピリオドから成り立っている。名詞句 NP は固有名詞 PropN か名詞 N か名詞に関係節 RC が付加したものの何れかである。動詞句 VP は動詞 V と名詞句 NP から構成されるが名詞句が付加されるか否かは動詞の種類によって定まる。関係節 RC は関係代名詞 who で始まり、名詞句 NP と動詞句 VP か、もしくは動詞句だけのどちらかかが続く。<br />入力層においては一ビットが一単語に対応するように単語の数だけユニットが用意された(実際には別の目的もあって 23 ビットではなく 26 ビット、すなわち 26 個のユニットが用意されていた)。出力層のユニットも一ユニットが一単語を表すように入力層と同じ数だけのユニットが用意された。中間層は 70 個のユニットが用意された。エルマンネットの特徴である文脈層ユニットは中間層のユニット数と同数の 70 個である。実際にエルマンが用いたシミュレーションでは入力層と中間層の間にもう一層、中間層と出力層の間にもう一層の計 5 層のネットワークであったのだが中間層の数は、問題の本質でない。<br />エルマンは REF _Ref74193293 表 1エルマンの用いた文法規則に従って生成された文章を一単語ずつ次々にネットワークに示し、次に来る単語を予測させる訓練を行なった。すなわち入力層にある単語を提示し、出力層における教師信号として次に来る単語を与えたのである。<br />訓練の結果、ネットワークは次に来る単語の種類を予測できるようになった。例えば boy が提示されるとネットワークは次に来る単語として、関係代名詞 who もしくは単数を主語とする動詞 feeds, seeds, hears, walks, lines を表わすユニットがほぼ等確率で活性化され、複数形を主語とする s の付かない動詞や他の名詞を示すユニットは全く活性化されなかった。反対に、複数名詞である boys が提示されると who, chase, feed, see, hear, walk, live が等確率で活性化された。ネットワークに boys who Mary chases まで提示されると文頭の主語 boys が複数であるために複数形を主語とする動詞が等しく活性化された。このようにエルマンのネットワークは中央埋め込み文のある、いわゆる長距離依存を正しく予測できたのである。<br />ここで大切なことは、エルマンのネットワークでは文法知識はネットワークの結合係数の大きさとして表象されていることである。明示的な書き換え規則のようなルールは全く与えられていない。さらに、関係代名詞による文章の再帰的構造は中間層の活性値で表現される状態空間の中に表現されていることである。そして、この文法知識は否定的な証拠を提示されることによって獲得されるのではなく、単純に次の単語を予測するだけしか行なっていない点も強調される。<br />エルマンネットの能力限界<br />エルマンネットは上述のように再帰処理能力を有する。それでは、エルマンネットの処理能力には限界がないのであろうか?このような発問に答えるためには、エルマンネットを二つの方向で拡張可能であることを考慮すれば良い。一方は、 REF _Ref74193405 図 3エルマンネットにおける中間層ユニット数の拡張 のごとく中間層のユニット数の増減であり、<br />図 SEQ 図 ARABIC 3エルマンネットにおける中間層ユニット数の拡張<br />他方は、 REF _Ref74193550 図 4エルマンネットの拡張:文脈層の多段化のごとく文脈層の多段化である。<br />図 SEQ 図 ARABIC 4エルマンネットの拡張:文脈層の多段化<br />中間層と文脈相のユニット数を増やすことによって、中間層によって表現される状態空間 CITATION 浅川伸031 1041 [浅川, 2003]が広大(多次元)化し、その結果としてより入れ子の多い多重埋め込み文の処理が可能になると考えられる。<br />他方、文脈層を多段化すれば、一時刻前 t-1 の状態をコピーするだけでなく、ニ時刻前 t-2 の状態も正確に保持しておけることになる。文脈層を n 段化すれば t-n 時刻までの n個の状態空間によって定まる再帰処理能力を容易にする。紙面の都合上、具体的な結果は示せないが、エルマンネットの定量的な処理能力の評価は可能であり、ここに示した二つの拡張と実際の言語話者との比較は意味があると考える。<br />人称代名詞の獲得<br />解くべき課題の複雑さに応じて適応的に自身の複雑さを増すニューラルネットワークモデル、カスケードコリレーション<br />まず最初に、カスケードコリレーションと呼ばれるニューラルネットワークモデルを紹介する。カスケードコリレーションとは、教師付き学習アルゴリズムの一種である。一般に良く知られているようなパーセプトロン型のニューラルネットワークモデルはネットワークの構造があらかじめ決まっていて、変わらない。入力層と出力層のユニット数は解くべき問題に応じて必然的に決まってくるが、このとき中間層のユニット数を適切に定める手段がない。<br />例えば、排他的論理和を解く 3 層のニューラルネットワークを考えた場合では、中間層のユニット数を 2 個以上にすれば解くことができることが知られている(ただし入力層から中間層を経ないで直接出力層に信号を送る経路が存在する場合には中間層のユニットは 1 つで良い)。3 つ以上のユニットは冗長なのであるが、それではいくつに中間層のユニットを用意すれば良いのであろうか。これは解くべき問題の複雑さやネットワークの処理能力など情報論的な側面も含んでおり、難しい問題である。<br />このことに加えて、ニューラルネットワークを実世界の問題に適用しようとする場合、学習速度の遅さが問題になることがある。この学習の遅さの要因の一つは、移動する対象問題に起因する [Fahlman Lebiere, 1990]。これはバックプロパゲーションなどを使って学習をさせる場合、すべての中間層ユニットは全ての提示された課題を解くために、その都度全ての結合係数を少しずつ変化させるという点にある。<br />カスケードコリレーションにおいては、中間層のユニット数は解くべき問題の複雑さに応じて適応的に増えて行く。新たに加えられる中間層ユニットは、既に存在するシステムの出力を受け取って、そのシステムに連結(カスケード)するように付け加えられる。新たに加えられるユニットの出力は、残りの全ユニットからの出力による誤差の総和との相関(コリレーション)を最小化するように訓練させる。このとき新たに加えられたユニットの結合係数が学習されるだけで、すでに存在しているユニットの結合係数は変わらない。このカスケード構造と既に存在するネットワークの学習と凍結して新たに加えられたユニットに対してのみ学習が起こると仮定することによって学習の遅さの問題を解消、すなわち移動する対象問題に起因する学習の遅さを回避することができる。 [Fahlman Lebiere, 1990]によれば極めて複雑な問題、通常の三層バックプロパゲーションで解くと非常に多数の学習回数が必要な問題が、極めて単純時間で学習可能である。<br />学習によってユニットが増加してく様子を REF _Ref74193634 図 5カスケードコリレーションモデルの概念図、始めに中間層1がネットワークに加えられる。それでも学習が収束しないとき誤差との相関(コリレーション)が最も高くなるように中間層2が加えられる。図には中間層2までしか書いていない、しかし、解くべき課題が複雑になると、その目的関数を十分に近似するまで n 個(n>1)の中間層が逐次加えられて行く。に示した。<br />図 SEQ 図 ARABIC 5カスケードコリレーションモデルの概念図、始めに中間層1がネットワークに加えられる。それでも学習が収束しないとき誤差との相関(コリレーション)が最も高くなるように中間層2が加えられる。図には中間層2までしか書いていない、しかし、解くべき課題が複雑になると、その目的関数を十分に近似するまで n 個(n>1)の中間層が逐次加えられて行く。<br />カスケードコリレーションは一種のメタ学習則と考えることができる。個々の学習にバックプロパゲーションやその他の学習則を適用した上で、ネットワークの構造、トポロジーを動的に変化させる学習則であるからだ。<br />Shultz [Shultz, Buckingham, Oshima-Takane, 1994]たちは、最初は単純な課題しか解くことができなかったシステムが、発達に伴って次第に複雑な課題を解くことができるようになっていくという観点から、認知発達のシミュレーションモデルとしてカスケードコリレーションを取り上げている。彼らのモデルでは、子どもの知的段階が一つずつ加わって行く中間層の数として表現されると考え、各発達段階における子どもの知的能力は中間層の数としてモデル化される。<br />メタ学習則であるために既存の技法と組み合わせて用いることができる。例えば、先に紹介した枝刈法と組み合わせてネットワークのトポロジーを動的に変化させながら不要なユニットを削除する方法や、エルマンネットワークのようなフィードバック結合を許すようなネットワークも提案されている。<br />中間層のユニット数決定問題に関しては、大きく分けて二つのアプローチがあることが知られている。一つはあらかじめたくさんの中間層ユニットを用意しておき、学習の途中で使われていないユニットの結合係数を小さくしていく方法で、枝刈り法pruning と呼ばれる。さらには、最適脳損傷法 OBD:opitcal brain damage, [Cun, Denker, Solla, 1990]や最適脳外科手術法OBS:optical brain surgery [Hassibi, Stork, Wolff, 1993]などという、一見すると奇妙な名前の手法も存在する。これらの手法はネットワークの能力を落さずに如何に最小のコストで最適な中間層ユニットを作り出せば良いのかという研究テーマとなっている。<br />OBD, OBS はあらかじめ十分な中間層ユニットを用意しておいて、学習時に無駄な結合を刈り取る方法であったが、一方で、始めは単純な構造から出発して、課題の複雑さに応じて中間層をその都度リクルートする方法も提案されている。この手法のメリットは計算量が相対的に少なくなる点にある。加えて、ニューラルネットワークが解くべき課題の複雑さに応じて自分自身の複雑さを適応的に変化させることができる点にある。代表的な手法に、カスケードコリレーションと呼ばれるアルゴリズムがある。<br />人称代名詞の学習<br />ここまでの話をニューラルネットワークとの関連で議論しておく。<br />他者同士の会話を観察することが、人称代名詞の正しい文法知識の獲得に重要であることはおそらく確かかも知れないが、この考えは推測の域を出ない。なぜなら実験的な検討が不可能だからである。これは、子どもに向けられた発話だけを聞かせる条件で人称代名詞が使われる場面を観察させる心理実験を計画しても、実験場面以外の日常生活で他者同士の会話を聞く機会があるため、その効果を完全に排除することなどできないからである。<br />ニューラルネットワークを用いて文法知識が如何に育つのかを研究する意義がここにある。すなわち、ニューラルネットワークによるシミュレーション実験では、人為的人工的に、他者同士の会話をまったく聞かせない条件を設定し、ニューラルネットワークモデルが人称代名詞の正しい文法知識を獲得することができるかどうかを観察することができる。コンピュータによるシミュレーション実験の大きな利点はまさにこの点であり、倫理的理由により実際の子どもでは許されないような環境条件でも、研究目的に合わせて自由に設定し、その結果を検討することができることにある。その結果から、人間の持つ言語獲得のメカニズムが検討可能である。<br />Shultz, Buckingham and Oshima-Takane(1994) [Shultz, Buckingham, Oshima-Takane, 1994]は先に紹介したカスケードコリレーションを用いたニューラルネットワークのシミュレーション実験によって人称代名詞の獲得のメカニズムを探っている。彼らの結果によれば、母親と父親とがそれぞれ子どもへと向けた発話で ``me'' ``you'' を使用するのを聞かせる「子どもへの発話だけを聞かせる条件」と、母親と父親同士の会話で ``me''と ``you'' とを使用するのを聞かせる「他者への発話を聞かせる条件」を比較した場合、他者への発話を聞かせる条件によって訓練されたニューラルネットワークの方が``me'' と ``you'' との使用パターンの学習がはやくなった。他者への発話を聞かせる条件で訓練されたニューラルネットワークの方は、子どもの使用バターンの訓練場面でエラーのフィードバックを受けると、ただちに ``me'' と``you'' との言語産出エラーを訂正できたが、子どもへの発話だけを聞かせる条件で訓練されたニューラルネットワークは産出エラーを訂正するのにかなりの訓練を必要とした。<br />さらに、彼女らは子どもへの発話だけを聞かせる割合と他者への発話を聞かせる割合とを 0:10, 1:9, 2:8, …, 10:0 と変化させて結果を観察している。子どもに対してしか話しかけない 0:10 と 他者同士の会話しか含まれない 10:0 条件は現実的なシミュレーションではない。しかし、人称代名詞の文法知識を獲得するために、他者同士の会話を聞くことがどの程度決定的な役割を果たすのかを検討するためには必要な条件であろう。<br />このシミュレーションの結果は興味深い。学習中(すなわちカスケードコリレーションが人称代名詞の正しい使用法を獲得する過程において)、子どもへの発話が 9:1 であったニューラルネットワークは、5:5 の混合条件や他者同士の会話だけを聞く 0:10 パターンの場合よりも学習に必要とする回数が多かった。このことは第一子の人称代名詞の産出が、第二子の人称代名詞の産出に比べて遅いという人間のデータ(Oshima-Takane, Goodz, and Derevensky, 1996) [Oshima-Takane, Good, Derevensky, 1996] と一致する。<br />また、子どもへの発話が多い 9:1, 10:0 の条件では、隠れ層のユニットを2 つ組み入れている。ニューラルネットワークの立場から見れば、この条件は解くべき課題の難易度が高く、問題を解くためには自己を適応的に複雑にして対処しなければならなかったことを意味している。<br />一方、子どもへの発話と他者同士の発話の割合が 8:2, 7:3 については、より少ない訓練回数で正しい人称代名詞の知識を獲得することが示されが。訓練回数の少なさは、統計学的にも有意に少なかった。<br />実際、10:0 の条件で訓練されたニューラルネットワークは一人称代名詞と二人称代名詞を逆転して産出していた。他の条件でも、このような間違いは見られたものの中間層の数が増えると速やかに正解に達した。<br />大嶋(1997) CITATION 大嶋百971 1041 [大嶋, 1997]は次のように結論している。「シミュレーションから、カスケードコリレーションネットは、様々な話し手が他者同士の発話を聞く条件で人称代名詞を使用しているのを学習するだけで、子どもが話し手のときの人称代名詞の正しい使い分けを一度も間違えずにできるということがわかった。」また、8:2 の条件であれば、それ以上他者同士の会話を観察する機会がある場合と同様、子ども(この場合カスケードコリレーションモデルの出力結果)の発話パターンは完全に一般化した(すなわち正しい人称代名詞の知識が育った)。<br />おわりに<br />Shultz や大嶋らのニューラルネットワークを用いた言語獲得の研究の意義の一つに次の点が挙げられるだろう。すなわちこれまでの言語獲得の研究では、子どもに対して話しかけられた母親の発話が言語獲得のためのインプットとして重要視されてきた。そして子ども以外の他者に向けられた発話の役割はほとんど無視されて来たといって良い(Oshima-Takane, Goods, and Derevensky, 1996) [Oshima-Takane, Good, Derevensky, 1996]。ところがインデクスカルの代表である人称代名詞の知識を正しく獲得するためには、他者同士の発話を観察することが重要であるという点を指摘したこと、そして、そのメカニズムをニューラルネットワークモデルとして実装し内部状態をも示した点が重要であると考える。<br />本稿のタイトルは「ニューラルネットワークが文法を覚えるとき」であった。しかし、取り上げた文法的知識に関する話題は多重埋め込み文の再帰処理能力とインデクスカルの使用法の獲得に関するわずか 2 つのみであった。しかしニューラルネットワークは万能の関数近似機ite[など]{Uesaka1993} CITATION 上坂吉93 1041 [上坂, 1993]であり、実際に様々なことができる CITATION 浅川伸03 1041 [浅川伸一, 2003]。極論すれば、全ての文法知識はニューラルネットワークとして表現可能であろう。さらなる問題を一つだけ挙げるとすれば、これら多くの文法知識をいかに統合するモデルが作れるかということではないだろうか。<br />引用文献 BIBLIOGRAPHY 上坂吉則. (1993). ニューロコンピューティングの数学的基礎,. 東京: 近代科学社.浅川伸一. (2003). 単純再帰型ニューラルネットワークの心理学モデルとしての 応用可能性. 心理学評論, 46 (2), 274-287.大嶋百合子. (1997). ことばの意味の学習に関するニューラルネットワークモデル -人称代名詞の場合-. 心理学評論, 40, 361-376.ElmanJeffery. (1991). Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195--225. Machine Learning, 7, 195-225.ElmanJeffery. (1990). Finding structure in time. Cognitive Science, 14, 179-211.ElmanJeffery. (1993). Learning and development in neural networks: The importance of starting small, Cognition, 71--99. Cognition, 71-99.Fahlmanand Lebiere, C.S.E.,. (1990). The cascade correlation learning architecture. 著: TouretzkyD.S., Advances in neural information processing systems (第 2 巻, ページ: 524-532). San Mateo, CA: Morgan Kaufmann.Oshima-TakaneY, GoodE, DerevenskyLJ. (1996). Birth order effects on early language development: Do second born children learn from overhead speech? Child Development, 67, 621-634.Oshima-TakaneYuriko. (1992). Analysis of pronomial errors: A case study. Journal of Child Language, 19, 111-131.ShultzR., Buckingham, D., & Oshima-Takane, Y.T. (1994). A connectionist model of the learning of personal pronouns in English. 著: S. J. HansonPetsche, M. Kearns, & R. L. RivestT., Computational learning theory and natural learning systems Vol. 2: Intersection between theory and experiment (ページ: 347-362). Cambridge, MA: MIT Press.<br />