ビジョンより 2002

『ビジョン　-視覚の計算理論と脳内表現-』
序論
p4
情報処理機械の魅力的な特徴の一つは、それらを完全に理解するためには種々の異なる水準での説明が可
能であり、また必要だということである。
　たとえばここで、通常の人および科学の立場から視知覚が理解できたと言えるために、満足せねばなら
ないさまざまな観点について考えてみよう。まず第一に普通の人の見方がある。誰でも見るということを
知っているので、ある議論や理論の骨子が、直感的に正しいと思われることとあまり一致しなければ、そ
れらはおそらく間違っていると考えられる。（この点は Austin(1962)によって見事に指摘された）。第２に
脳科学者、神経科学者、解剖学者の見方がある。彼らは神経系の構造やその各部の働きを非常によく知っ
ている。それゆえ知覚を完全に説明しようとするならば、彼らが関わっている問題（細胞間の結合様式や
細胞の反応に対する説明、すなわち Barlow(1972)による神経生理学のドグマ）が取り組まれ解明されなけ
ればならない。同様の議論が実験心理学者の場合にも当てはまる。
　一方、小型の家庭用計算機を購入し、使っている人は全く異なる要求をするかもしれない。すなわち、
「もし視覚が本当に情報処理課題であるならば、十分な処理能力と記憶容量をもった自分の計算機に、何
らかの方法で家庭用テレビカメラを接続して、視覚機能をもたすことができるはずだ」と言うかもしれな
い。したがって彼が望む説明はかなり抽象的なものであり、彼には何をプログラムすべきかを教え、可能
ならばその最も良いアルゴリズムのヒントを教えなくてはならない。彼はロドプシンや外側膝状体や抑制
性介在ニューロンについて知りたいとは思っていない。彼は、視覚をプログラムする方法を知りたいので
ある。
　情報処理課題を遂行する装置を理解するためには、多くの異なる種類の説明が必要だということが本書
の基本的な考え方である。第Ⅰ部ではこの点を扱うが、これは本書において重要な役割を果たす。なぜな
ら視覚研究においては、（分子生物学のように最近科学的進歩が見られた他の分野よりも）何が説明を構
成するのかについて注意深く考察されなければならなかったのであり、この点を明確にすることこそが本
書の重要な目的の一つだからである。
（（中略））
　このように説明の仕方が必然的にかなり多くなるということを、しっかり心にとどめておけば、多くの
落とし穴を避けることができる。たとえば、情報処理を強調することによって、人間の脳と計算機を比較
できるようになるかもしれない。もちろん、ある意味では脳は計算機であるが、このことを制限なしに言
えば誤解を招く。なぜなら、脳の本質は単にそれが計算機であるということではなく、ある種のかなり特
別な計算を実行するという特徴をもつ計算機だからである。「計算機」という用語は記憶装置に蓄えられ
たプログラムの制御下で、通常は直列的に、しかし現在においてはしばしば並列的に作動し、かなり標準
的な命令語をもつ機械を通常さしている。そのような計算機を理解するためには、それが何でできている
のか、それがどのように構成されているのか、どのような種類の命令語をもっているのか、どのくらいの

記憶容量があるのか、どのようにアクセスされるのか、その機械をどのように走らせるのかを理解する必
要がある。しかしながらこれだけでは、情報処理課題を実行する計算機を部分的に理解したにすぎない。
p6
　計算機を理解することと計算を理解することとは異なるという点が非常に重要である。ある計算機を理
解するためにはその計算機を研究しなければならない。ある情報処理課題を理解するためにはその情報処
理課題を研究しなければならない。ある特別な情報処理課題を実行している特別な機械を理解するために
はこの両者を研究しなければならない。いずれか一方だけでは不十分なのである。
（（中略））
しかし、本アプローチでは概してこのような最近の知覚論は受け入れず、比較的古い観点を見直すことに
なる。このような観点からすると、感覚はほとんどの場合そこに何が存在するのかを語るものであると考
える。近代の表象理論では、心を内部表象系への参照そのものと見なしている。それゆえ心的状態は、内
部表象が今現在特定している対象によって特徴づけられ、心的過程はこのような内部表象が獲得される方
法と、内部表象が相互に作用し合うしかたによって特徴づけられる。
p7
第Ⅰ部では思想的序説、方法論、視知覚の全過程に対して提唱する表現の枠組みについて述べた。またこ
の枠組みを得た経緯にもふれた。
第１章　思想と方法
1.1　歴史的背景
p8
　それ以来、知覚心理学者は視覚が何であるのかということを全体的に理解しようとせずに、もっぱら知
覚特性と知覚能力の分析に集中した。　
p11
　この研究方法の重要性はその成果にあるのではなく（結果の解釈には議論の余地がある）、それによっ
て取り上げられた問題の種類にある。なぜなら、それまで視覚心理学者は表現の問題を積極的に取り上げ
なかったからである。この種の実験の意味することは、表現の概念を考察すべきだということである。視
覚心理学者の初期の思想は、コンピュータ・ビジョンの研究者の思想と比べて素朴なものであった（コン
ピュータ・ビジョンの研究者は初めから表現の問題に直面しなければならなかった）が、まもなく心理学
者の考え方も洗練された
（（中略））
増幅器が開発されたことによって、Adrian(1928)と共同研究者は、神経信号の伝達に伴って生ずる微小な電
圧変化の記録を行った。彼らの研究によって、このように生じた感覚の特性はどの繊維が情報を伝達した

のかに依存し、どのように繊維が刺激されたかには依存しないことが明らかにされた（この事実は解剖学
的研究から予測されていたかもしれない）。この研究によって、末梢の神経繊維は体の表面に生じた物理
的事象の複製を感覚中枢脳(sensorium)に送る単純な写像として働いていると考えられるようになった (Adrian,
1947)。そしてこれ以上の説明は、心理学の問題であると考えられた。
p12
しかし、おそらく最も興味をそそる進歩は、神経生理学的実験によって心理学上の問題を解明する手がか
りが得られたり、ことによると説明も可能ではないかという考え方が新たに生じたことである。
（（中略））
　この結果からカエルの摂食反応に含まれる感覚機構の大部分は網膜に実際に存在し、生理学的方法では
理解できない、神秘的な「中枢」に存在するのではないことがすぐに理解されるのである。
p13
光は神経節細胞にこの働きをさせる作因である。しかし情報を伝達するのは詳細な光パターンであり、そ
の時点での全体的な照明水準はほとんど完全に無視されている。
（（中略））
神経細胞は視覚像の輝度を感覚中枢脳におおまかに、そして不正確に再写像しているのではない。神経細
胞はパターンの要素を検出し、物体の奥行きを判別し、変動の不適切な原因を無視している。
（（中略））
単一神経細胞の活動が、心的操作に含まれるより基本的で信頼性の高い処理過程の雑音を含んだ指標にす
ぎないと考えるのは今や全く不適当である。そうではなくて、単一の神経細胞がこれらの機構を動かす基
本単位であると考えねばならない。思考は神経細胞によって生ずるのである。我々は「単一神経細胞の活
動が思考過程を反映する」とか「明らかにする」とか「監視する」というような言葉を使うべきではない。
なぜなら神経細胞の活動は全く思考過程そのものだからである。
　このような考え方の変革は生理学的研究から生じたのであり、これによって個々の単一神経細胞の活動
が知覚に重要な役割を果たしていることが理解される。
p16
たとえば、根拠の疑わしい祖母細胞(grandmother cell)を実際に発見したと仮定しよう。このことから本当に
多くのことがわかるのだろうか。確かに祖母細胞の存在はわかる（Gross の手検出器も同様）が、なぜ存在
するのか、すでに発見されている細胞の出力からどのようにそれが構築されるのかはわからない。
（（中略））
　70 年代初頭にこの種の問題について反省がなされた。その結果、神経生理学や心理物理学などの分野
にはない何か重要なものが欠けていることがしだいに明らかになった。神経生理学や心理物理学ではもっ
ぱら細胞や被験者の振舞いを記述することに専念し、それを説明しようとしないということがこの問題を
解く鍵となるのである。大脳の視覚領では実際に何がなされているのであろうか。この場合、説明されね

ばならない問題は何なのだろうか。またどのような水準での記述を説明すべきなのだろうか。
p19
コンピュータ・ビジョンのアドホック（場当たり的）なプログラムも、特別な視覚の小世界に制限するこ
とも、（何らかの方式を実現する手段として用いる場合を除けば）神経細胞による説明もすべて過去のも
のとなった。そして現在必要とされるのは、何を計算すればよいのか、それはどのように計算されるのか、
またその方法の基礎となる物理的仮定、それを実行可能なアルゴリズムについてのある種の分析などを明
確に理解することなのである。
p20
　彼の研究からはっきりとした教訓が得られる。それは問題を理解するもう一つ別の水準が存在するとい
うことである。知覚における情報処理課題の特性は、頭の中でそれを実現している特定の機構や構造とは
独立に、この水準で分析し、理解しなければならないのである。問題を情報処理課題として分析すること、
これが欠けていたのである。このような分析は他の（神経細胞や計算機プログラムの）水準における理解
を排除するものではなく、それらを補うために必要なものなのである。なぜならもしこの水準を考慮しな
ければ、すべての神経細胞の機能を真に理解することはできないからである。
（（中略））
しかし重要なのは、もし異なる種類の理解のしかたをきわめて真剣に受けとめれば、知覚の情報処理に基
づく研究が厳密なものになるという点である。説明を異なるレベルに分離することによって、何をそして
なぜ計算しているのかをはっきりと述べられるようになり、計算の最適性や信頼性の保証を理論的に示す
ことが可能になる。アドホック（場当たり的）な要素は取り除かれ、発見的(heuristic)な計算機プログラムに
代わって本当の研究課題を構築できる確固たる基礎が得られるのである。このような認識（何が欠けてい
たのか、そして何を補えばよいのかを明確にしたこと）が新しい統合的手法を確立する基礎になったので
ある。そしてこの点について述べることが本書の目的なのである。
1.2　複雑な情報処理系を理解すること
p21
もし神経系、成長する胚、代謝経路の集合、びんの中の気体、長い計算機プログラムなどのような複雑な
系を完全に理解しようとするならば、記述の異なる水準で異なる説明を考えなければならない。そして、
たとえ完全に実行できなくても、それらは少なくとも原理的には一つのまとまりのある全体として統合せ
ねばならない。
p23
　このような装置を理解するためにはいくつかの水準を考慮する必要がある。おそらく三つの水準で考え
るのが最も効果的であろう。最も抽象的な水準ではその装置が何 (what)をするのか、そしてなぜ(why)そう

するのかが問われる。
p24
　それでは購入された品目の価格を結合して最終的な勘定書きを得るためにキャッシュ・レジスタはなぜ
加算を実行し、乗算など他の演算を実行しないのだろうか。この説明水準ではたとえばこの理由も答えな
けらばならない。それは、個々の価格を結合するのに適切であると直感的に感じる演算規則が、実際に加
法という数学的演算と一致するからである。これらは制約条件(contraint)として次のように定式化される。
（（中略））
これらの条件が加法の演算を定義するということは数学の定理である。したがって適切な計算方法として
加法が使用できるのである。
　以上の論議はキャッシュ・レジスタの計算理論(computational theory)と呼びうるものである。その重要な特
徴は、（１）何が計算されるのかということとなぜそれが計算されるのかについて議論がなされているこ
と、（２）得られた演算がそれを満たすべき制約条件によって唯一に定義されることである。視覚の処理
過程の理論においては、外界の画像から外界の特性を正確に取り出すことがその基本的課題である。ある
処理過程を定義できるほど十分強力でかつ外界で一般に成立するような制約条件を道程することが、我々
の研究の主題なのである。
　しかしながら、処理過程が実際に機能するには、それが何らかの方式で実現されなければならない。し
たがってその処理過程が取り扱う実体の表現を選択しなければならないのである。処理過程に対する第２
水準の分析では、二つの事柄-（１）処理の入力および出力のための表現(representation)（２）変換を実際に
達成するアルゴリズム(algorithm)-を選択しなければならない。加算の場合は、言うまでもなく入出力がどち
らも数で構成されているのでそれらの表現は同一でも構わない。しかしこれは一般的には正しくない。た
とえばフーリエ変換の場合、入力の表現が時間領域であっても、出力の表現は周波数領域となる。第１水
準で何となぜを問うとすれば、この第２水準ではどのように(how)を問う。
（（中略））
　ここで重要な点が三つある。第１に、通常表現には広い選択範囲があるということである。第２に、ア
ルゴリズムの選択はしばしば採用された表現にかなり大きく依存するということである。そして第３に、
与えられた一つの表現に対してさえ、同じ処理過程を実行できるアルゴリズムがしばしば複数存在すると
いうことである。どのアルゴリズムを選択すべきかはそのアルゴリズムのもつ特に望ましい（あるいは望
ましくない）特徴に通常依存する。たとえば、あるアルゴリズムは他のアルゴリズムより、はるかに効率
的であるとか、他のアルゴリズムはわずかに非効率的であるがロバスト（robust、すなわち、そのアルゴリ
ズムが処理すべきデータに不正確な点がわずかにあってもそれにあまり影響されないこと）であるとかい
うことである。あるいはまた、あるアルゴリズムは並列的であるが、別のアルゴリズムは直列的であると
いうことである。そしてその選択はそのアルゴリズムが物理的に実現されるハードウェアや装置に依存す
る。したがって第３の水準、すなわち処理過程が物理的に実現(implement)される装置の水準が必要となる。
重要な点はここでも、同様に同じアルゴリズムが全く異なる技術によって実現されるということである。
子供が二つの数を右から左へ規則どおりに加え、桁上げを行うときに用いているアルゴリズムは、近所の

スーパーマーケットのキャッシュ・レジスタに電線とトランジスタ・によって実現されているアルゴリズ
ムと同じかもしれないが、この二つのアルゴリズムの物理的実現方法は全く異なっている。
p26
　アルゴリズムの形式によってそれに合う物理的基礎も異なる。たとえば、伝統的なディジタル計算機に
おいては結合の数と素子(gate)の数はほぼ同じだが、脳では結合の数が神経細胞の数より極度に多い (×10
4)。なぜなら生物の構造においては配線が独立にかつ３次元的に成長できるため配線がかなり安価になる
からである。これまで用いられてきた技術では、配線が２次元に制限されるため、並列技術や並列アルゴ
リズムの使用範囲がきわめて限定されてしまう。したがって、同じ操作をしばしば直列的に行うのである。
（（中略））
三つの水準
（（中略））
最上位の水準は、装置の抽象的な計算理論である。この水準では装置の動作がある種の情報から別の情報
への写像として特徴づけられ、この写像の抽象的特性が正確に定義され、手元にある課題に対してその理
論が適切かつ十分であることが示される。真中の水準では、入力と出力の表現および入力を出力に変換す
るのに用いられるアルゴリズムが決定される。そして最下位の水準は、アルゴリズムと表現がどのように
して物理的に実現されるかについて、詳細に理解する（いわば詳細な計算機構造の）水準である。これら
三つの水準は互いに影響し合うが、その影響はわずかである。たとえばアルゴリズムの選択は、その目的
とそれが実行されるハードウェアによって影響される。しかし各水準には広い選択範囲があるだけでなく、
各水準の説明には他の二つの水準とかなり独立な事項を含んでいる。
　三つの水準での各記述は、知覚情報処理の究極的な理解を目的としている。したがってそれらは言うま
でもなく論理的かつ因果的に関係している。しかし重要な点は各水準の連関がかなり弱いため、一つまた
は二つの水準でしか説明できない現象があるということである。これはたとえば、心理物理学的観察の正
しい説明は適切な水準で定式化されねばならないということを意味している。心理物理学的問題を生理学
と関連づけようとする際に、それを扱う水準を間違えることがよくある。たとえば、いくつかの問題は主
として視覚の物理的機構に関係している。残像（たとえば、電球を見つめた後に見えるもの）や三原色を
適切に混合することによってすべての色を作り出せるという事実（原理的には我々人間が３種類の錐体を
もつからである）のような問題がこの例である。他方、ネッカーの立方体（図 1-5）の曖昧さに対しては
別の種類の説明が必要であると思われる。確かに、知覚的に反転するこの現象には、脳のどこかに存在す
る双安定神経回路網）による説明も必要である。しかし、この２次元画像に対して全く妥当な３次元的解
釈が２種類存在することを説明できなければほとんど誰も満足しないだろう。
　現象によっては、必要な説明の種類はかなり明白である。たとえば神経解剖学は主に第３水準、すなわ
ち計算の物理的実現の水準と密接に関連しているのは明らかである。シナプス機構、活動電位、抑制性の
相互作用などについても同じことが言える。神経生理学も大部分はこの水準に関係している。しかし、神
経生理学の場合、先に引用した Barlow の立場を特に受け入れるならば、使用されている表現の種類を理解
するのにも役立つ。しかし神経生理学の発見から使用されているアルゴリズムや表現について推論を行な

う際には細心の注意を払わねばならない。特に表現される情報の種類や実現すべき処理過程が明らかにな
るまでは十分な注意が必要となる。
　他方、心理物理学はアルゴリズムと表現の水準に直接関係している。異なるアルゴリズムは、その能力
の限界まで使われたり、重要な情報が与えられなかったりすると、全く異なる仕方で機能が低下するもの
である。後述するように、主に心理物理学的証拠によって、Poggio と私は我々の最初の立体照合アルゴリ
ズム(Marr and Poggio, 1976)が脳で用いられているものとおおよそ一致していることを示す最も良い証拠も
やはり心理物理学からもたらせれたのである。もちろんいずれの場合も基礎となる計算理論は同一であり、
アルゴリズムだけが異なっていたのである。
　心理物理学は表現の性質を決定する場合にも有効である。
（（中略））
　一般的に言えば、異なる現象は異なる水準で説明される必要があることをはっきりと心に留めておけば、
しばしば提起されるさまざまな反論の妥当性を評価する際にそれが役に立つ。たとえば、脳は並列的であ
り計算機は直列的であるから脳と計算機は全く異なっているという議論がその好例である。もちろんこれ
に対する答は、並列性と直列性との差はアルゴリズムの差であり、それは決して根本的な差ではないとい
うことである。すなわち、並列的にプログラムされたものはどんなものでも直列的に書き直すことができ
るのである（逆は必ずしも成り立たないが）。したがって、脳と計算機がきわめて異なる操作を行なうと
しても、計算機に同じ課題を達成させることはできないということにはならない。
計算理論の重要性
　アルゴリズムや機構は実験的にとらえやすいが、情報処理という観点から非常に重要なのは最高位の水
準である計算理論である。その理由は、知覚の基礎となる計算の性質が、実現される特定のハードウェア
よりも解かなければならない計算論的問題に依存するからである。言い換えれば、アルゴリズムはそれが
実現されている機構（とハードウェア）を調べるよりも、解こうとしている問題の性質から理解していく
方が、理解が容易になるということである。
　同様の理由によって、知覚を神経細胞の研究のみによって理解しようとすることは、鳥の飛行を羽の研
究のみによって理解しようとするようなもので、決してうまくいかないのである。鳥の飛行を理解するた
めには、空気力学を理解しなければならない。そうしてはじめて羽の構造が理解でき、異なる形状の翼の
意味がわかるようになるのである。さらに後述するように、解剖学や生理学を研究するだけでは、網膜神
経節細胞や外側膝状体の神経細胞の受容野がなぜそのような形をしているのかを理解できない。これらの
細胞や神経細胞が実際どのように振舞うかはその結合様式や相互作用を研究すれば理解できる。しかし、
なぜ受容野がそのような特徴をもっているか（なぜそれは円対称なのか、なぜその興奮領域と抑制領域が
特徴的な形や感度分布をしているのか）を理解するためには、微分演算子や帯域通過チャンネルの理論と
不確定性原理の数学を多少は知らなければならないのである（第２章参照）。
　神経科学において高度に専門化された実験的規範のために計算理論の欠如が全く認識されなかったとい
うことはそれほど驚くに足りない。しかし人工知能の初期の発展において、この水準のアプローチが強力

な役割を果たさなかったのは驚くべきことである。あまりにも長い間、ある課題を実行する発見的(heuristic)
なプログラムがその課題に対する理論であると考えられていた。そしてプログラムが何を行なうかという
こととプログラムがそれをどのように行なうかということとの間に存在する差の重要性はあまり認識され
なかった。
（（中略））
　このように何とどのようにの理論的相違を認識できなかったために、人工知能と言語学の分野間におけ
る交流も大きく妨げられた。Chomsky(1965)の変形文法の理論は、先に述べた意味での真の計算理論である。
この理論は英文の構文解析が何であるべきかを指定することのみに関与しており、解析がどのようにして
達成されるべきかを指定することには全く関与していない。Chomsky 自身はこのことを非常にはっきりと認
識していた。
（（中略））
Chomsky の理論を実現するためのアルゴリズムを発見することと理論それ自体を定式化することは全く異な
るということである。我々の言葉を用いれば、これらは異なる水準における研究であり、両方とも研究さ
れなければならない。この点は Marcus(1980)によって正しく認識された。彼はどのようにすれば Chomsky の
理論を実現できるのか、Chomsky の発見した構文上の構造的制約条件を生じさせる人間の文法処理系の能力
にはどのような制約条件があるのか、という問題を厳密に検討したのである。最近文法の「痕跡(trace)」理
論(Chomsky and Lasnik, 1977)が提案され、これら二つのアプローチを統合する方法が与えられたようにさえ思
われる。それはたとえば、計算理論の一部を成すかなりアドホック（場当たり的）な制約条件の一部が、
構文解析を実現する計算能力の弱さが原因で生じたものであることを示している。
J. J. Gibson のアプローチ
p31
　Gibson の重要な貢献は、感覚所与の哲学的考察や感覚の感情依存などの議論から離れ、感覚が外界、特
に視覚の場合には可視表面の知覚をつかさどるチャンネルであることを重視したことである。したがって、
彼は絶えず変化している感覚から、どのようにして日常生活における恒常的な知覚が得られるのかという
非常に重要な問題を提起したのである。これは、確かに適切な疑問であり、このことから Gibson は、知覚
の問題が外界の「妥当な(valid)」特性を感覚情報から復元することであると正しく認識していたことがわか
る。
p32
第１は、画像表面のような物理的不変項の検出は、現代的用語を用いれば厳密に情報処理の問題だという
ことである。そして第２は、彼がそのような検出の本当の難しさを正しく理解しなかったことである。
p33
　基本的な問題は、視覚情報処理が実際には非常に複雑だということである。見るという行為の見かけの

単純さに惑わされた思想家は Gibson だけではなかった。知覚の本質を哲学的に探究してきた研究のいずれ
においても、そこに含まれる情報処理の複雑さをそれほど真剣にとらえていなかったと思われる。たとえ
ば、初期の哲学者が好んだと思われる議論に、我々が時々錯覚にだまされる（たとえば真直ぐな棒の一部
を水に入れると折れ曲がって見える）ので我々は対象そのもではなくむしろ感覚所与を見ているというも
のがある。しかし Austin(1962)は「感覚と感覚可能物(Sense and Sensibilia)」の中でこのような説を見事に否定
した。この問いに対する答えは単に、通常我々の知覚処理は正しく働く（何が存在するかについての正し
い記述を伝える）が、我々の処理が進化によって多くの変化（一定でない照明のような）に対応できるよ
うになったにもかかわらず、水による光の屈折で生ずる乱れには対応できないということである。ところ
で、折れ曲がった棒の例はアリストテレス以来論議されてきたが、たとえばアオサギの知覚の本質を哲学
的に探究した例はまだ見たことがない。アオサギは水面の上から魚を見つけそれをついばむ鳥である。こ
のような鳥の場合は、視覚的な修正が行なわれていてもおかしくない。
p34
　それは変化しない実形状をもつ。しかし実際コインはかなり特殊な例である。まずその輪郭はきわめて
明確であり、非常に安定しているということ、さらに既知で命名できる形状をもつということである。し
かしこのような性質をもたない物は数多く存在する。雲の形状は一体何か。あるいは、猫の場合はどうか。
猫が動くとき、その実形状は常に変化するのか。もしそうでなければどのような姿勢が実形状なのか。さ
らに、その実形状は十分滑らかな輪郭をもつのか。あるいはそれはそれぞれの毛がわかるほど十分に細か
いぎざぎざをもつのか。明らかに、これらの質問に対する答えは存在しないし、答えを出すための規則や
手続きも存在しない。（強調は筆者による）(p67)
　しかし、これらの質問に対する答えは実際存在するのである。すなわち猫の形状を任意の正確さで記述
する方法がある（第５章参照）。そしてそのような記述に到達するための規則や手続きが存在する。それ
がまさに視覚の本質であり、まさにそのために視覚が複雑になっているのである。
p39
私にとって最も重要なことは、彼女が２種類の患者群を区別したことである (Warrington and Taylor, 1978 参
照)。右側損傷患者は、ある意味で自然な方向から観察する状況では、通常の物体を認識することが可能
である。彼女は慣例的(conventional)、非慣例的(unconventional)という語を用いた。すなわち、水バケツやクラ
リネットを側面から見れば、「慣例的」光景が得られるが、端の方から見れば「非慣例的」光景を得るの
である。この患者がその物体を完全に認識できた場合には、その名前やその意味（すなわち、その用途、
目的、大きさ、重さ、材質など）を理解できた。その光景が非慣例的である場合は（たとえばバケツを上
から見れば）、患者はそれを認識できないだけでなく、それがバケツの一側面であることを猛烈に否定し
たのである。一方、左頭頂葉損傷患者は全く異なった振舞いをする。彼らはしばしば言葉をもたず、した
がって観察した物体を名付けることもその目的や意味を述べることもできない。しかし彼らはたとえ非慣

例的光景であっても、その幾何学的構造（すなわちその形状）を正しく知覚したことを伝えることができ
たのである。
　Warrington の話は二つのことを示唆している。第１に、ある物体の形状の表現はその使用目的や目的の表
現とは異なる場所に蓄えられており、したがって全く異なる種類のものであること。そして第２に、たと
えその物体が使用方法や目的の理解という慣例的意味では認識されないときでも、視覚だけが観察物体の
形状の内部記述を形成することができるということである。
（（中略））
しかし、この若い女性が我々に穏やかに語ったことは、患者は、たとえその物体の名前や使用方法が言え
なくても、提示された物体の形状を把握したことを彼女に伝えることができただけでなく、特殊な方向で
提示したり物体の照明方法を変えて、課題を視覚的に極端に困難にしても、この課題を楽しく続けること
ができたということなのである。コンピュータ・ビジョン研究者の直観は完全に誤っており、たとえ困難
な環境においても形状は視覚だけで決定することができるのである。
　次に重要な点は、Elizabeth Warrington が人間の視覚について本質的な事実、すなわち、視覚は形状、空間、
空間的配置を語るものであるということを的確に指摘したことだと思われる。ここに視覚の目的を定式化
することができる。すなわち、それは画像から事物の形状と位置の記述を作り上げることである。もちろ
ん視覚にできることはこれだけではない。視覚によって照明や、形状を生み出す表面の反射率（明るさ、
色、視覚的テクスチャー）や、その動きもわかる。しかしこれらの事項は２次的であると思われる。形状
の表現を形成することが視覚の中心的課題だとする理論においては、それらは一応切り離して考えること
ができる。
第７章　本アプローチに対する弁護
7.2　会話
p368
Q：（（中略））特に、Herace Barlow の第１ドグマ（1972,　p.380）、すなわち「他の神経細胞へ伝達され、
それらに影響を与える単一神経細胞の活動、および他の神経細胞からの影響に対する単一神経細胞の反応
の記述は、神経系の機能を理解するには十分完全な記述である」ということとどのように関係しているの
でしょうか。
A：（（中略））彼のドグマにおける１つの考え方、すなわち細胞の活動を監視するものは何も存在せず、
細胞自体が知覚の最終的な相関物なのであるという考え方は、確かにそのとおりだと思います。しかしな
がら、このドグマでゃ第１水準、すなわち計算理論の水準での分析が考慮されていないのです。神経細胞
についてだけ考えていても立体視を理解することはできないでしょう。一意性、連続性、そして立体視の
基本定理について理解しなければならないのです。運動から構造を復元する問題を理解するには、どのよ

うにすればそのような現象が可能となるのかを示す「運動からの構造復元定理」のようなことを知らなけ
ればなりません。さらに研究者にとってきわめて重要なことですが、説明に水準を考えるアプローチをと
ることにより自らの研究に厳密な知的規律を課すことになります。機構または神経細胞に基づいて考えて
いる限り、直喩(simile)的できわめて不正確に考える傾向になると思います。
（（中略））ここでも問題は機構だけに夢中になり、それを実現する装置が作れるくらいその機構を十分
理解したち感ちがいしてしまうということです（ちょうど立体視という単純な場合もそうでした）。しか
し、第１水準の問題に挑戦すること（21/2 次元スケッチとその関連事項を定式化し、厳密に問題の要点を
述べること）によってのみ真の進歩が可能だったのです。
（（中略））説明水準の考え方はきわめて重要であり、それを考慮せずに、シナプス小胞 (synaptic vesicle)や
神経細胞や軸索(axon)だけを考えていても、決して知覚を理解することはできません。ちょうど羽だけを研
究していても、飛ぶということが理解できないのと同じことです。空気力学によって、羽を適切に理解す
るための背景が与えられるのです。もう一つの重要な点は、ある現象に対する説明はそれに適した水準で
追求されなければならないという点です。たとえば高速フーリエ変換が IBM370 上で走るからといって、
それをトランジスタに基づいて理解しようとしても全く無益なのです。それはあまりにも難しく、そんな
ことをしても全く無益なのです。
p369
網膜が行なうことに対する妥当な記述として何を受け入れるかは、あなたがどのような観点をとるかに依
存します。私は躊躇なく情報処理の観点をとりますので、個人的には▽ 2G を適切な記述として受け入れま
す。網膜生理学者なら、網膜がどのようにしてこの関数を計算するかを正確に知ろうとするでしょうから、
この記述を受け入れないでしょう。他方、受容器の化学者なら、この種の考察が網膜と関係があるという
ことでさえまず認めないでしょう。それぞれの観点は説明の真なる水準に対応しており、最終的にはすべ
てが満たされなければならないのです。
p371
Q：説明の異なる水準は本当に独立なのでしょうか。
A：いえ、そうとも言えません。ただし、ある処理過程に対する計算理論は、解くべき情報処理課題だけ
によって決定されますので、それはアルゴリズムや実現の水準とはかなり独立しています。それに対して
アルゴリズムは、もちろん計算理論に大きく依存しますし、それが実現されるハードウェアの特性にも依
存します。たとえば、生体のハードウェアなら逐次的アルゴリズムより並列アルゴリズムの方を簡単に実
現するでしょうが、今日のディジタル電子技術ではおそらくこれとは逆のことが言えるでしょう。
p372
歴史的にみれば特徴の概念によって我々の考え方は、Lashley の量作用(mass-action)の考え（その考え方によれ
ば、脳は考えるポリッジとも言うべきもので、そのとき活動している脳の割合だけが重要な要因となりま
す）から離れ、単一神経細胞の作用(single-neuron action)という現在我々のもつはるかに明確な視点へと移行し
たのです。この移行は、Barlow(1953)、Kuffler(1953)、Lettvin ら(1959)、そして言うまでもなく Hubel と

Wiesel(1962, 1968)に始まります。本質的にこれらの発見によって、最終的に次のような考えに至るのです。
すなわち、単一神経細胞はある特定の非常に特殊な形態が入力に存在するときには明示的な信号を発する
という働きをその機能の一つとしてもつことができるという考えです。そしてこのような考え方が特徴と
いう言葉で形式化されたのです。
p373
すでに第１章で述べたことですが、最も重要な問題は、環境の記述が実際どのようにして得られるかとい
う問題に関係しています。
（（中略））
一方、われわれは現実の可視表面に対する明示的な性質を非常に明確に計算しています。視覚系の進化の
興味深い一側面は、それが視覚世界のより客観的な側面を表現するという困難な課題へと次第に向かって
いったということです。その結果、より一層の柔軟性が得られたのに対し、その代償として複雑な分析が
必要となり、したがって時間と脳の大きさも必要になったのです。
p374
Q：つまりあなたの主要な主張は、世界はまさに複雑すぎて、特徴検出器の考え方によって示唆されるよ
うな分析を行なうことは不可能だということですね。
A：そのとおりです。もちろんそれは、視覚環境（照明、観察点、可視要素の領域など）に厳しい制約条
件がなければの話いですが。もしそのような条件が設定されているならば、いくらかの前進が可能です。
p375
より複雑な決定基準を用いるか、それともより良い表現を用いるかです。より複雑な決定基準を用いると
いうのは、クラスが特徴の凸クラスターに対応するという望みを捨て、分類過程のある時点で尋ねられた
質問がすでに得られた答えに依存してもよいように、決定の過程に論理的な考え方を導入するということ
です。人工知能の研究はこのようなアプローチから始まったといってもほぼ間違いないでしょう。そこか
ら認識や分類が問題解決課題であるという考え方に至ります。解の決定とそこへの道筋は、その途中で見
い出された部分的結果に敏感に依存しています。そしてこれらの部分的結果によって、処理を進めるため
に次に用いられる情報が決定されるのです。
（（中略））
もう一つの道は、直面している問題により良く適合する表現または表現の系列を用いるということです。
実際、医療診断のような問題には問題解決のアプローチが適しているかもしれませんが、特に視覚研究に
おいては後者の方法がより重要な課題となります。
p377
最初に画像を、そして次にそこから導出された視覚世界の他の側面を望みどおり十分に記述できるような
表現系について考察する方がより実りがあるでしょう。そして、我々の考えをそれほどすぐに神経細胞に

結びつけようとしないことも重要だと私は思います。まず最初に我々の表現とアルゴリズムが妥当かつロ
バストであり、心理物理学的証拠に支えられていることを確かめるべきです。そして、それから神経生理
学への探究が行なえるのです。
p378
問題は人々がそれらを線形合成積器であると同時に特徴検出器であると考えていたことなのです。これは
知的思考における誤りなのです。
p379
しかし残念ながら、これは現実世界には一般化できませんでした。小世界の選択が誤っていたために失敗
したのですが、まさにそれが多くの人工知能研究が陥っている誤りなのです。人工知能研究の大きな利点
は、プログラムを書くことによって各自の考え方を具体化せねばならず、またそうすることによって逆に
その考え方が誤っていたことが明確になったりするということでした。構成的に物事を考えなければなり
ませんので、その結果、たとえばある対象の知覚内容をその対象のすべての可能な外観の集合であると定
義する Bertrand Russell のような考え(Russell, 1921)は認めなかったわけです。しかしプログラムしなければなら
ないことから、非常に多くの要因が単純な形でしか現れないような小世界に研究を限定することがあまり
に多すぎました。そのようなプログラムは個々の問題を何一つとして解決しませんでしたが、概して、運
よく何とか走る程度にはなりました。（（中略））ここで何が考え方として間違っているのかといえば、
問題を分割し易くするために存在しなければならないモジュール性を無視したことなのです。
p380
人間の視覚を構成している一般的処理過程は、ある特定の小世界に制限しても次のような場合を除いては
簡単に研究できないからです。その場合というのは、ランダムドット・ステレオグラムの世界のように、
真のモジュールと対応していると現段階で考えられていいるようなものと関連してその小世界を選択した
ときなのです。
（（中略））
　これが、本書で述べたアプローチと人工知能独自の考え方との真の相違点なのです。人工知能研究では、
問題にしている小世界全体を一つのプログラムにまとめるという絶望的な努力、すなわち膨大な量の仕事
を必要とする努力をしていく中で、必然的に真の理論化の試みを軽視し、最終的にはそれを断念し、その
代わりにより優れた計算機ツールの開発へと進んだのです。この努力はほとんど成功しませんでした。し
たがって人工知能のアプローチは、視覚が単純であるという誤った既成概念から我々を引き離すためには
必要でしたが、真の計算理論とは何であり、それをどのように展開すべきかを認識できなかったために、
結局は限定され実りのないものになってしまったのです。
（（中略））
前に出した飛行の例は多くのことをうまく指摘してくれます。第１に、羽の細かい構造から推測しても鳥
がどのように飛ぶかは明らかに理解できません。ここで当然、次の段階として、鳥がどのように動作する

かをまねようとします。私はこれを模倣段階と呼びます。したがって、人々は模造の翼を作り、それで羽
ばたいてみたのです。しかし、これもまたうまく行きませんでした。この段階は本質的に、下位の二つの
水準あるいはおそらく第２水準だけで真似をしているのです。しかし翼が Berboulli の方程式に従って揚力
を与えることを理解したときにのみ本当の進歩があります。これが第１水準の部分、すなわち空気力学な
のです。これが鳥と 747 が似ている理由であり、その両者がブヨとは似ていない理由なのです。ブヨは翼
を用いるという方法ではなく、本質的に乱動状態で「空気を踏みつける」ことによって自らを空中に保っ
ているのです。
p382
しかし主としてその理由は、眼球運動の第１水準の理論が単純すぎてそれがあることさえ気づかないとい
うことなのです。実際計算理論の一般的な考えは、Gibson の思想の中に見いだせると思いますし、1960 年
の終わりから 1970 年代初めにかけて、Marvin Minsky と Seymour Papert がこういう考えを明らかに示していた
のは確かです。しかし、この一般的な考えの細部は全く埋められなかったのです。その理由を少しひねっ
て言ってみれば、人工知能は常に「大脳切除」されていたということでしょうか。人工知能の研究では、
発見されるべき第１水準理論の存在が決して認識されなかったのです。人工知能は機構論的説明の泥沼に
はまって全く動けなくなっていましたし、今でもなおそのような傾向が見られます。そこでは、記憶があ
る種の神経回路網によって実現されると考えられたり、計算機のある処理によって実現されると考えたり、
手続きの集まりによって実現されると考えられたりしていたわけです。
（（中略））
眼球運動のような単純な場合は、そのようなかなり直接的な方法で考え、うまく解決することができます、
しかしこの種の考え方から、神経機構が解こうとしている計算論的問題に対して何らかの洞察が常に得ら
れるのではないかと期待するのは非常に危険です。
p383
その結論が出るまではフレームや属性リストのような考え方に対して我々は用心しなければならないので
す。なぜならば、そこでは実際、現実の事柄について考えるというよりはむしろ、直喩(simile)として考え
られているからです。それはちょうど視覚研究において、フーリエスペクトルのさまざまな成分に基づい
て考えることが、さまざまな尺度での画像の記述について考える直喩となっているようなものです。それ
は、あまりにも厳密さに欠くため、役に立たないのです。このような例では、我々の第１水準の意味で情
報処理的問題を厳密に定式化することによってのみ、真の進歩をとげることができるのです。
（（中略））
機構に基づくアプローチは本当に危険です。その問題点は、このような研究の目標が真の理解ではなくむ
しろ模倣にあり、よってそのような研究では、人間の能力のある側面を、啓発的でないやり方で模倣して
いるにすぎないプログラムを書くだけになってしまうということなのです。
p384

もし情報処理研究の目的が特定の情報処理問題を定式化し理解することにあると信じるなら、その場合重
要となるのはその問題の構造であってその解法を実現する機構ではないのです。したがってこの事実を念
頭において最初に行なうべきことは、うまく解ける問題を見つけ、その解法を発見し、その理解の上に立
って我々人間の能力を吟味することです。そのような問題の最も実りある源泉は、我々がうまく、流暢に、
ゆえに無意識的に行なっている作業にあります。なぜならその基礎に堅実な方法がなければ、どのように
して信頼性が達成されるかを理解するのは困難だからです。
　残念ながら、明白な理由で問題解決(problem-solving)の研究は我々が頭ではよくわかっているのにうまく解
けないような問題に集中する傾向がありました。それは暗算や覆面算的(cryptarithmetic)幾何定理照明やチェ
ス・ゲームのような問題でこれらはすべて人間の技能が疑わしい性質のもので、うまくやろうと思えば巨
大な知識ベースや専門技術ベースが必要となるように思われる問題なのです。
　以上のことは、そのような課題を我々がどのようにして解いているかがまだ研究されていないことを示
す十二分な根拠となっていると私は考えています。我々が暗算を行なうときに何かをうまく行なっている
ということは疑いのないことですが、それは算数ではなく、我々はそれが何なのか、その要素に一つさえ
全く理解していないというのが現状です。ですから、我々はまず単純な問題に集中すべきであると思いま
す。なぜならそこに、真の発展がいくらか期待されるからです。
p385
空間周波数領域が画像分析において無視されている理由は、それが強度配列からそこに存在する対象につ
いての記述を組立てるという視覚の中心課題に対してほとんど役に立たないからです。視覚生理学者には、
この記述がどのような方法でなされるかという非常に重要な直観が欠けていると思います。
p386
　プロダクション・システムと密接に関係させて我々の遂行能力を研究することは時間の浪費であると思
われます。なぜなら結局それは機構を研究することであって、問題を研究することではないからです。く
り返して言えばそのような研究が追求している機構は、解くべき問題を研究することによって明らかにさ
れるのです。ちょうど視覚研究が視覚の神経機構ではなく視覚の問題に挑戦することで進歩しているのと
同じなのです。
p387
高次の神経系が行なうべきことは、それが解くべき情報処理問題によって決定されるのです。我々は内部
にヒルに似たある種の単純な振動子をもっているかもしれませんし、かなりこじつけて言えば、それが呼
吸のある側面を理解する際に、役に立つようになるかもしれません。しかしそのような結果からは、我々
の視覚の仕組みについて何もわからないでしょう。
（（中略））
Q：一般に説明を最終的には構造に結びつけたいという強い衝動があるものです。もちろんこれは分子生
物学からの影響によるものですが。

（（中略））
A：確かに、私も中枢神経系に対して説明とその構造を結びつけるべきだと思いますが、それは完全には
できないのではないでしょうか。複雑さの障壁があまりに高すぎるのです。しかし我々はそれらの結びつ
けをやり始めているということを忘れないで下さい。（（中略））先ほども言いましたように、高速フー
リエ変換を IBM370 のトランジスタ中に実現されたものとして理解することなどできるはずがありません。
私は各公式を約１０分間かかって理解できるだけです。それを実現している回路図を理解することはもち
ろんできません。最後に一言、私は遺伝的に発生し、発達するプログラムが、その機構からそんなに直接
的に理解できるとは思えません。成長は複雑ですから、それを理解するためには最終的にいくつかの水準
からなる構造が必要であると思うのです。
p390
ここまでの処理過程は高次の思考によってほとんどあるいは全く影響を受けることができないものですか
ら、私は分離するには正しい所であると思います。この過程では計算されたものを伝えるだけで、それ以
上でもそれ以下でもありません。
p394
視野の一部に情報が与えられてからそこへ眼球を動かし、それを捉え、３次元モデルに統合するまでの時
間はおそらく 1/2 秒とかからないでしょう。次に、新しい光景をほんの短い時間見たとき、どれだけそれ
を思い出すことができるでしょうか。それほど多くはないでしょう。粗い構造か、おそらく１、２の細部
を思い出すくらいでしょう。そしていったん目を閉じれば、その豊かさが純粋知覚の水準で現在得られて
いるものに対応し、すぐに思い出せるものが、目を開けている間に作り出された３次元記述ときわめて密
接に関連しているものと思うのです。
Q：知覚が記述の構築であるという考え方の真意がかなりはっきりしてきました。
p395
その第１段階として、視覚が記述の計算であるということを理解することはきわめて重要なことです。
（（中略））
たとえば、ある木を見るとき、なぜそれを同じ木として見続けられるのでしょうか。おそらくいつでもそ
の新しい３次元モデルを作りはじめることができるはずです。もしそうならば、古い木と同じ場所に、新
しい木が経験されるはずです。でも、そんなことはないでしょう。この点についてはどう思われますか。
A：視覚世界の永続性、つまり時間における物体の連続性の問題は視覚のきわめて重要な側面です。そし
て、大人は反射的に時間における連続性を仮定してしまうと私は思います。事実、処理のあらゆる側面は
連続性の関係を発見したり利用したりすること（たとえば第３章における対応処理過程）に基づいている
のです。
p396
この理論は意味的認識や物体の名前付けやその機能については何も述べていません。確かに、外界を認識

するためにはそれが形状の決定と同じくらい有用な方法です(Warrington and Taylor, 1978)。我々が対象の意味
論と呼んでいるものを理解するという問題は魅力的だと思いますが、同時にこの問題は実際非常に難しく、
今のところ視知覚の問題に比べてはるかに取り扱いにくいと思います。
p397
Q：他のたとえば自然言語のような問題に対して、あなたの提唱しているアプローチはどれほど普遍性が
あるのですか。それはどの程度まで適用できるのですか。どのような問題に対してはうまくいかないと思
われますか。
A：モジュール性をもたない系に対してはうまくいかないでしょう。アミノ酸の連鎖が折りたたまれて蛋
白質を形成する過程のように、無視できない多くの影響が存在する複雑で相互作用のある系の場合です。
自然言語理解の研究においてきわめて重要な問題は、言うまでもなく、それがどの程度モジュール的であ
り、何がモジュールであるかということです。
（（中略））
ところで自然言語の問題に戻ると、そこではどのようなモジュールが発見されたのでしょうか。
A：それははっきりしていませんし、自然言語は本質的にモジュール性をもたず、もっと非階層的に
(heterarchically)とらえるべきであると主張する人もいます。
（（中略））
Q：しかし統語構造はどれくらいモジュール的といえるのですか。Schank のような人工知能研究者は統語
構造は分離可能なモジュールでは決してないと主張しているのではないでしょうか。
A：ええそうです。文の構文解析は明らかにその意味解析と全く独立に進めることはできません。しかし
両者の間に必要な相互作用の程度が小さく、構文に関して解くべき問題がきわめて単純に、たとえばある
節は名詞句１を指示するのか、あるいは名詞句２を指示するのかといった問題になるようなしっかりした
議論が構築されつつあります。Marcus(1980)ははじめてこれらの問題を詳細に検討し、非常に満足のいくモ
ジュールを構文解析機構(parsing system)から作り出せることを示したのです。しかしながら構文解析より上
の水準では、何がモジュールとなるかについての手がかりも現在ほとんど得られていません。しかしそれ
は存在するに違いないと私は思っています。
Q：なぜ人工知能の研究者達は構文解析に対する伝統的な Chomsky 流のアプローチにそのような抵抗を示し
たのですか。Marcus だけがそのアプローチを受け入れたように思われますが。
A：それには二つの理由があると思います。第１に、何らかの意味解析を伴わなければっ構文が解析でき
ない例を挙げることは簡単だということです。したがって統語構造は真に独立したモジュールではないこ
とになりますが、この事実から人工知能の研究者達は統語構造は決してモジュールではないという逆の結
論にまで飛躍してしまったのです。この結論は正しくありません。本当は、統語構造はほぼモジュール的
であり、意味構造との相互作用はある程度必要となりますが、その相互作用の型はきわめて少ないのです。
　第２に、これまで何度も述べてきた水準の問題があります。Noam Chomsky の変形文法は第１水準の理論
であり、構文認識がいかにして実現されるのかとは全く関係ないのです。それは単に、任意の文の分解が
何であるべきかを述べた規則にすぎないのです。Chomsky の変形文法を言語能力(competence)の理論だとして

いるのはこのことを彼流に述べているのです。
　しかしながら、この水準の考え方を計算言語学者(computational linguists)は正しく理解してこなかったのです。
事実、Winograd が Chomsky の考え方を否定した理由は、一つに変形構造を逆行させてそれを構文解析機構と
して用いることはできないということだったのです。このような見方をした人は、第１水準（何となぜ）
と第２水準（どのように）の差が理解できていなかったと思われます。しかしながら、このような誤りを
犯したのは Winograd だけではありません。人工知能の研究者は皆そうだったのです。そして言語学者達自
身が計算機アプローチに注目してきている現在、彼らも同じ罠に捕われつつあるのです。その結果、自然
言語の計算機プログラムは自然言語理解にはほとんど寄与してこなかったのではないかと、私は懸念して
います。ただし例外として、Marcus(1980)は最近、我々が用いている構文解析のアルゴリズムについてまさ
に第２水準の理論を構築しつつあります。
p402
事実、人間の個性の構造のある部分は、幾千ものこういった小さな計画から形成されており、その計画す
べてが適切な条件が生じたときに人のある行動を引き起こすように設定されているのです。しかし何かが
これらの計画を書き込まなければなりません。

ビジョンより 2002

Recommended

Recommended

More Related Content

More from TeruKamogashira

More from TeruKamogashira (20)

ビジョンより 2002