Kuroda & Hasebe NLP15 slides on Pattern Lattice Model

Pattern Lattice を使ったヒト
の言語知識と処理のモデル化
黒田航* & 長谷部陽一郎**
*杏林大学 **同志社大学
(*NLP15当時 NICT **NLP15当時同志社大/NICT)

概要
• Pattern Lattice の理論の紹介
• 自然言語の意味の準構成性 (quasi-
compositionality) を適切に扱える処理システ
ムの設計
• Pattern Lattice 処理系の実装例の紹介

一言で表現したPLM (x PSEC)
• PLM x PSEC がやろうとしている事は，
• 言語研究の分野での合成の誤 (fallacy of
composition) からの脱却
• システムを諸部門 components = modules に分け，部門ごと
の最適性を追求しても，一般には全体最適性には至らない
• これを称して「合成の誤」
• 元は経済学
• 一般に存在するシステムは非線型なシステム

もう少し具体的に表現した
PLM (x PSEC)
• PLM x PSEC がやろうとしている事は，
• 言語という知識 (knowledge of language:
KoL) のモデル化で，全体最適性を実現する
ための逆向き工学 (reverse engineering)
の実践

Why a theory of
pattern lattice?

出発点 1/3
• 根本的な問い
• 本当にヒトは文 s = w1 w2 ... wn の意味を，s を構成する
語 w1, w2, …, wn の語彙的意味 l1, l2, …, ln を合成して得て
いるのか？
• そうだとしたら，自然言語の文の意味はもっともっと規則的で
あるはず
• 例えば (規則を基にした) 機械翻訳はもっとうまくいってよい
• 自然言語の意味構築が構成的であるという想定は，事実
や法則というより，研究者の希望的観測ではないのか？

出発点 2/3
• でも，ちょっと待って
• 言語の意味構築は非構成的だと言えばそれで済
むのか？

出発点 2/3
• 発展的に問うべき事
• 意味構築の構成性が希望的観測に過ぎないとし
たら，現実に合った意味構築のシステムはどう
いうものなのか？

出発点 3/3
• 本当の問題
• 意味解釈の概念を緩めて，
• 従来の意味構築モデルに対して上位互換性を持
つようなシステムを構築できないのか？

解決すべき問題の再定義 1/4
• 大前提 P1
• 言語の大きな単位 (e.g., s) の意味は，その部分 p1, p2, …, pn の意味
m1, m1, …, mn で決まる
• 小前提 P2
• 部分 p1, p2, …, pn の意味 m1, m1, …, mn は，究極的にs を構成する語
w1, w2, …, wn の意味 l1, l2, …, ln で決まる
• 帰結 C
• 言語の大きな単位 (e.g., s) の意味は，その語 w1, w2, …, wn の意味 l1,
l1, …, ln で決まる

• 要点
• 大前提 P1は認めるが，小前提 P2 を認めない (結果として，
Cを認めない) 意味構築モデル，準構成性 (quasi-
compositionality) を想定するモデルが実装可能なのでは？
• パターン束モデル (pattern lattice model: PLM) と並
列擬似エラー補正 (parallel simulated error
corretion: PSEC) の組み合わせが，これに対する肯定
的解答の一つ

• 条件
1. 部分 p1, p2, …, pn の認定 (= 操作的定義)
2. それらの意味 m1, m1, …, mn の記述
3. 全体の意味 M = m(s) と部分の意味 m1, m1, …, mn と
の関係の規定
4. 部分の意味 m1, m1, …, mn と，それらの部分になる語
(や形態素) w1, w1, …, wn の意味 l1, l1, …, ln との関係の
規定

• パターン束 (pattern lattice) は
1. 部分 p1, p2, …, pn の認定 (= 操作的定義)
•の (プログラムとして実行可能な) モデル化
•他の条件
2. それらの意味 m1, m1, …, mn の記述
3. 全体の意味 M = m(s) と部分の意味 m1, m1, …, mn との関係の規定
4. 部分の意味 m1, m1, …, mn と，それらの部分になる語 (や形態素) w1, w1, …, wn
の意味 l1, l1, …, ln との関係の規定
•には，2のために意味フレーム理論 (Fillmore 1988, et seq.) を想定し，3,
4 のために PSEC を想定

非構成性の簡単な例 1/2
• 次の二つの文のでは同じ動詞「かかる」が
使われているのに，多くの人は意味が似て
いるとすら感じない
(1) その男は医者にかかっていた
(2) その絵は壁にかかっていた
• しかし ...

非構成性の簡単な例 2/2
• 次のような例で生じる語義の競合は説明不能
(3)??その絵は医者にかかっていた
(4)??その男は壁にかかっていた
• 「かかる」の語義の曖昧性だけで説明できるか?
• ムリではないかも知れないが効率は悪い
• (1, 2)の例で同じ効果が起きない理由が説明できな
い

見こみのある路線 1/3
• 次のような超語彙的パターンに(語の意味に還元不
可能な) 状況喚起の効果を認めるのが効率的
(5) X1 は壁にかかっていた
• X1の典型的な実現値は {(その)絵, (その) 服, (その) コート,
(その) 帽子, ...}
(6) X2 は医者にかかっていた
• X2の典型的な実現値は {その人, 彼, 彼女, (その)男, (その) 少
年, ...}

• (5, 6) の他に次のような超語彙的パターン
の影響もある
(7) その絵は X3 にかかっていた
• X3 の典型的な実現値は {壁, 廊下, 玄関, 居間, ...}
(8) その男は X4 にかかっていた
• X4の典型的な実現値は {病気, 医者, X医, 病院, ...}

• 言語の意味は (5, 6, 7, 8) のような超語彙的パ
ターンからの解釈の引き込み効果=誘引で決まる
• 慣用句やコロケーションは超語彙的パターンの特殊
な場合
• 超語彙的パターン非線型表現 (池原 2009)
• それらで決まっていない “ 間” の部分が語の意
味で “埋め” られる
池原悟 (2009). 非線形言語モデルによる自然言語処理―基礎と応用. 岩波書店.

本発表の立場
• 新たな問題
1. 超語彙的パターンはどれぐらい存在するか?
2. 意味構築が構成的でないなら，どうやって新奇
な表現の意味が理解できるのか?
• 膨大な事例記憶の上のパターン束内での処
理を考える事で，これらに同時に答える

データ観察から
• 規模の大きなコーパスを調査しても，完全
に同一な文が現われる可能性はかなり低い
• その一方で，ほとんどの表現が数百個程度
の基本的なパターンの変異形 (variations)
• 多くの表現にも複数個のパターンが同時並行的
に部分一致する
• ただし

問題1への解答
• ヒトの言語知識が膨大な事例記憶 (黒田 2007, Port 2007)
に基づくものであれば，超語彙的パターンは次
の形で (原理的には) 際限なく存在する
• 基本形の変異 (= 1次変異)
• 変異形の変異 (= 2次変異)
• 変異形の変異形の ... の変異 (= n次変異)
• Pattern Lattice はこの問題を合理的に解決

問題2への解答 1/3
• 準構成的意味構築のモデル化の具体案
• 任意の表現 e について，e に同時並行的に部分一致す
るパターン群 p1, p2, ..., pn の間にうまく統語/意味演
算を定義すれば，アナロジーに基づいた統語/意味処
理の問題は解決する
• 演算は p1, p2, ..., pn の素性の重合わせ (論理和)で ok
• これは (Parallel) Pattern Matching Analysis:
PMA (Kuroda 2000; Kuroda & Iida 2005) の基本的発想

• PMA によるモデル化の難点は，p1, p2, ...,
pn を網羅的に列挙するアルゴリズムが不在
だった点
• その不備を補うのが本発表の Pattern
Lattice の理論

• 言語表現 e の意味解釈は，
• PL(e)の上で (Cascaded) Parallel Simulated
Error Correction ((C)PSEC) の処理として実
現
• (C)PSECの説明は別の機会に
• JCSS 26, NLP 17

PLM x PSEC の重要な含意
• 重要な点
• PSEC を想定する s の意味構築システムでは，意味解釈のもっと
も基本的資源は，s の類似例集合
• これから言える事
• 語や形態素 w1, w2, …, wn の意味 l1, l2, …, ln は存在しない訳
ではないが
• W = {w1, w2, …, wn} を含む複合的な単位の意味解釈で利用さ
れるのは，最後の手段として
• 構成性を想定するモデルは，W の意味がもっとも基本的資源

生成アルゴリズム
1. 表現 e を適当な単位 u1 u2 ... un に分割する
• 単位の認定基準は任意
2. ui を再帰的に変項化 (変項化の結果 = pattern)
3. 2で生成されたパターン集合の instance-of の下での半順
序集合が Pattern Lattice
4. instance-of(pi, pj)の定義:
1. is (pi,k, pj,k) OR
2. instance-of (pi,k, pj,k)

Pattern Lattice Builder
• 長谷部陽一郎が開発したWeb 版と command-line 版あり
• Command-line 版
• https://github.com/yohasebe/rubyplb
• 実行に Ruby, Graphviz が必要
• Web版
• www.kotonoba.net/rubyfca/pattern
• 2015/05/15 現在は稼働していません
• 注意
• 分割数が 6 を超えると graphviz/dot の処理が非常に重くなる

RubyPLB を使った解析例
• 李 (2001)より
• (9) 患者が部屋に消えた．
• (10) 患者が部屋に入った．
• 「消える」は移動動詞でしたっけ？
李在鎬 (2001). 他動詞のゆらぎ現象に対する「構文」的アプローチ. In 言語
科学論集 7, pp. 1–20.

補足情報
• パターン束を使った(1,2,3,4)の解析は，
NLP17の発表「並列疑似エラー補正法に基
づく“破格” な言語表現の (疑似) 解釈」で
扱っています

[患者,が,部屋,に,消え,た]のパターン束

[患者,が,部屋,に,消え,た]と[患者,が,部屋,に,入っ,
た]のパターン束

RubyPLB の入力
• 元は次のようなtextファイル
• 半角空白で区切られた任意の
部分文字列を分節と認識
• MWE は this_book のように
扱う
• UTF-8 に対応済み
• ヘブライ語のような R-to-L
言語にも (先日) 対応

[患者,が,部屋,に,{消え,入っ},た]
• 事例間のパターンの
共有率 r を色温度で
表現
• r は z-score 同一ラン
クのパターンの中での
• 別の指標を使えば別
の共有度の測り方も
可能 (未実装)

注目すべき事
• (9) [患者が部屋に消えた] に最近のパターン集合
• [__, が, 部屋, に, 消え, た], [患者, __, 部屋, に, 消え, た], [患者,
が, __, に, 消え, た], [患者, が, 部屋, __, 消え, た], [患者, が, 部屋,
に, __, た], [患者, が, 部屋, に, 消え, __]
• (10) [患者が部屋に入った] に最近のパターン集合
• [__, が, 部屋, に, 入っ, た], [患者, __, 部屋, に, 入っ, た], [患者,
が, __, に, 入っ, た], [患者, が, 部屋, __, 入っ, た], [患者, が, 部屋,
に, __, た], [患者, が, 部屋, に, 入っ, __]
• が [患者, が, 部屋, に, __, た] を共有している

[患者,が,部屋,に,{消え,入っ},た]

Remark 1/3
• PL上の処理では単語の合成ではなく，超語
彙的パターンの重ね合わせによって目的を
実現するが
• 部分の意味の合成によって全体の意味を構
成する点では従来のモデルと互換

Remark 2/3
• 表現の分割が任意なのは意図的
• 音素の集合 ⥤ 形態素
• 形態素の集合 ⥤ 語
• 語の集合 ⥤ 句
• 句の集合 ⥤ 文
• のような厳密にボトムアップな構成系を考えてい
るわけではない

Pattern Lattice の問題点
• 扱える要素の数に上限がある
• 要素数が7を超えた辺りから急に s/n が大きくなる
• 複数のレベルで Pattern Lattice が成立するのでは?
• 記憶容量より検索の効率化が問題
• 並列処理を想定しても効果的な索引づけが必要
• ヒトの想起の仕組みにトリックがあるのでは?

発表のまとめ
• 自然言語の意味の非構成性を捉えるために
ヒトの言語知識を Pattern Lattice として
モデル化
• 語彙意味論で説明のつかない現象の説明の
可能性を提示し，
• 試験的な実装を紹介した

今後の課題
• 大規模化/データベース化の可能性を検討したい
• 今は使い捨てだが，できれば処理結果をデータベー
スとして蓄積する仕組みを導入したい
• パターンを素性表現して階層性を暗黙化したい
• 変項を意味クラスとして特徴づける仕組みを導
入したい
• 今は文字列一致しか扱えていない

知性観
• ヒトが知的なのは
• すぐれた知性を備えているからというより
• 膨大な事例記憶を効率良く使っているから
• 関連する議論
• Hawkins (2004) の Memory-Prediction
framework

記憶という概念の明確化 1/2
• 覚え (storage) と思い出し=想起 (recall/
remembering)は別の処理
• 覚えには上限がないが，思い出しには強い
制限がかかっている
• 更に言うと想起の基本的仕組みは検索 retrieve
ではない

記憶という概念の明確化 2/2
• 動物の記憶には想起可能な記憶 explicit
memory と想起不可能な記憶 implicit
memory が共存
• てんかんの治療で不幸にして後行性健忘者になっ
た HM は explicit memory は失ったが
implicit memory は失っていない

記憶のパラドックス
A. 知覚したことは覚えていない限り思い出せない
• 将来に必要になるかどうかを見越して覚えるか否か
を先決できない ⥤ 盲目的に覚えるしかない
• 無用な想起は正しい現実認識の邪魔になる
• 患者 S の症状
B. 覚えたことの多くは必要がない限り思い出さな
い方が適応的

パラドックス解消の条件
1. 何から何まで全部覚える
2. 効率的な思い出しのための効果的なインデク
スづけを行なう
• 睡眠時の脳の活動の一部はこれ
3. しかし，実際の想起は思い出しに対する恒常
的な抑制の一時的な弱化によって起こる
• 月元 (2008) の EMILE モデル

Vast Memory の証拠
!
• Solomon Shereshevky(Luria のMnemonist)
• Kim Peek(Savant Syndrome)
• は通常のヒトとどう違うか?
• 彼らは異常な銘記能力を獲得したというより
無用なことを想起さない能力を失っているだ
けでは?

結論の系 1/2
• カテゴリー事例記憶 exemplar memory モ
デル (Nosofsky 1993ほか) は正しい
• ヒトの知性は膨大な事例記憶 Vast Exemplar
Memory: VEM の上に成立している
• Case-based Reasoning システム
(Kolodner 1993 ほか) は正しい

結論の系 2/2
• ヒトは自分が知覚したことありとあらゆること
をそのまま覚えているが，そのほとんどが想起
できない状態にある
• 言語の知識もそういう種類の膨大な事例記憶の
上に成立していると考えると「文法」の役割は
極力小さくできる
• それと同時に単語の辞書は意味をもたなくなる

Kuroda & Hasebe NLP15 slides on Pattern Lattice Model

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (15)

Similar to Kuroda & Hasebe NLP15 slides on Pattern Lattice Model

Similar to Kuroda & Hasebe NLP15 slides on Pattern Lattice Model (6)

More from Kow Kuroda

More from Kow Kuroda (14)

Kuroda & Hasebe NLP15 slides on Pattern Lattice Model