More Related Content
Similar to Kuroda & Hasebe NLP15 slides on Pattern Lattice Model (6)
More from Kow Kuroda (14)
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
- 2. 概要
• Pattern Lattice の理論の紹介
• 自然言語の意味の準構成性 (quasi-
compositionality) を適切に扱える処理システ
ムの設計
• Pattern Lattice 処理系の実装例の紹介
- 3. 一言で表現したPLM (x PSEC)
• PLM x PSEC がやろうとしている事は,
• 言語研究の分野での合成の誤 (fallacy of
composition) からの脱却
• システムを諸部門 components = modules に分け,部門ごと
の最適性を追求しても,一般には全体最適性には至らない
• これを称して「合成の誤 」
• 元は経済学
• 一般に存在するシステムは非線型なシステム
- 4. もう少し具体的に表現した
PLM (x PSEC)
• PLM x PSEC がやろうとしている事は,
• 言語という知識 (knowledge of language:
KoL) のモデル化で,全体最適性を実現する
ための逆向き工学 (reverse engineering)
の実践
- 6. 出発点 1/3
• 根本的な問い
• 本当にヒトは文 s = w1 w2 ... wn の意味を,s を構成する
語 w1, w2, …, wn の語彙的意味 l1, l2, …, ln を合成して得て
いるのか?
• そうだとしたら,自然言語の文の意味はもっともっと規則的で
あるはず
• 例えば (規則を基にした) 機械翻訳はもっとうまくいってよい
• 自然言語の意味構築が構成的であるという想定は,事実
や法則というより,研究者の希望的観測ではないのか?
- 10. 解決すべき問題の再定義 1/4
• 大前提 P1
• 言語の大きな単位 (e.g., s) の意味は,その部分 p1, p2, …, pn の意味
m1, m1, …, mn で決まる
• 小前提 P2
• 部分 p1, p2, …, pn の意味 m1, m1, …, mn は,究極的にs を構成する語
w1, w2, …, wn の意味 l1, l2, …, ln で決まる
• 帰結 C
• 言語の大きな単位 (e.g., s) の意味は,その語 w1, w2, …, wn の意味 l1,
l1, …, ln で決まる
- 11. 解決すべき問題の再定義 2/4
• 要点
• 大前提 P1は認めるが,小前提 P2 を認めない (結果として,
Cを認めない) 意味構築モデル,準構成性 (quasi-
compositionality) を想定するモデルが実装可能なのでは?
• パターン束モデル (pattern lattice model: PLM) と並
列擬似エラー補正 (parallel simulated error
corretion: PSEC) の組み合わせが,これに対する肯定
的解答の一つ
- 12. 解決すべき問題の再定義 3/4
• 条件
1. 部分 p1, p2, …, pn の認定 (= 操作的定義)
2. それらの意味 m1, m1, …, mn の記述
3. 全体の意味 M = m(s) と部分の意味 m1, m1, …, mn と
の関係の規定
4. 部分の意味 m1, m1, …, mn と,それらの部分になる語
(や形態素) w1, w1, …, wn の意味 l1, l1, …, ln との関係の
規定
- 13. 解決すべき問題の再定義 3/4
• パターン束 (pattern lattice) は
1. 部分 p1, p2, …, pn の認定 (= 操作的定義)
•の (プログラムとして実行可能な) モデル化
•他の条件
2. それらの意味 m1, m1, …, mn の記述
3. 全体の意味 M = m(s) と部分の意味 m1, m1, …, mn との関係の規定
4. 部分の意味 m1, m1, …, mn と,それらの部分になる語 (や形態素) w1, w1, …, wn
の意味 l1, l1, …, ln との関係の規定
•には,2のために意味フレーム理論 (Fillmore 1988, et seq.) を想定し,3,
4 のために PSEC を想定
- 18. 見こみのある路線 2/3
• (5, 6) の他に次のような超語彙的パターン
の影響もある
(7) その絵は X3 にかかっていた
• X3 の典型的な実現値は {壁, 廊下, 玄関, 居間, ...}
(8) その男は X4 にかかっていた
• X4の典型的な実現値は {病気, 医者, X医, 病院, ...}
- 19. 見こみのある路線 3/3
• 言語の意味は (5, 6, 7, 8) のような超語彙的パ
ターンからの解釈の引き込み効果=誘引で決まる
• 慣用句やコロケーションは超語彙的パターンの特殊
な場合
• 超語彙的パターン非線型表現 (池原 2009)
• それらで決まっていない “ 間” の部分が語の意
味で “埋め” られる
池原悟 (2009). 非線形言語モデルによる自然言語処理―基礎と応用. 岩波書店.
- 22. 問題1への解答
• ヒトの言語知識が膨大な事例記憶 (黒田 2007, Port 2007)
に基づくものであれば,超語彙的パターンは次
の形で (原理的には) 際限なく存在する
• 基本形の変異 (= 1次変異)
• 変異形の変異 (= 2次変異)
• 変異形の変異形の ... の変異 (= n次変異)
• Pattern Lattice はこの問題を合理的に解決
- 23. 問題2への解答 1/3
• 準構成的意味構築のモデル化の具体案
• 任意の表現 e について,e に同時並行的に部分一致す
るパターン群 p1, p2, ..., pn の間にうまく統語/意味演
算を定義すれば,アナロジーに基づいた統語/意味処
理の問題は解決する
• 演算は p1, p2, ..., pn の素性の重合わせ (論理和)で ok
• これは (Parallel) Pattern Matching Analysis:
PMA (Kuroda 2000; Kuroda & Iida 2005) の基本的発想
- 24. 問題2への解答 2/3
• PMA によるモデル化の難点は,p1, p2, ...,
pn を網羅的に列挙するアルゴリズムが不在
だった点
• その不備を補うのが本発表の Pattern
Lattice の理論
- 25. 問題2への解答 3/3
• 言語表現 e の意味解釈は,
• PL(e)の上で (Cascaded) Parallel Simulated
Error Correction ((C)PSEC) の処理として実
現
• (C)PSECの説明は別の機会に
• JCSS 26, NLP 17
- 26. PLM x PSEC の重要な含意
• 重要な点
• PSEC を想定する s の意味構築システムでは,意味解釈のもっと
も基本的資源は,s の類似例集合
• これから言える事
• 語や形態素 w1, w2, …, wn の意味 l1, l2, …, ln は存在しない訳
ではないが
• W = {w1, w2, …, wn} を含む複合的な単位の意味解釈で利用さ
れるのは,最後の手段として
• 構成性を想定するモデルは,W の意味がもっとも基本的資源
- 28. 生成アルゴリズム
1. 表現 e を適当な単位 u1 u2 ... un に分割する
• 単位の認定基準は任意
2. ui を再帰的に変項化 (変項化の結果 = pattern)
3. 2で生成されたパターン集合の instance-of の下での半順
序集合が Pattern Lattice
4. instance-of(pi, pj)の定義:
1. is (pi,k, pj,k) OR
2. instance-of (pi,k, pj,k)
- 29. Pattern Lattice Builder
• 長谷部陽一郎が開発したWeb 版と command-line 版あり
• Command-line 版
• https://github.com/yohasebe/rubyplb
• 実行に Ruby, Graphviz が必要
• Web版
• www.kotonoba.net/rubyfca/pattern
• 2015/05/15 現在は稼働していません
• 注意
• 分割数が 6 を超えると graphviz/dot の処理が非常に重くなる
- 31. RubyPLB を使った解析例
• 李 (2001)より
• (9) 患者が部屋に消えた.
• (10) 患者が部屋に入った.
• 「消える」は移動動詞でしたっけ?
李 在鎬 (2001). 他動詞のゆらぎ現象に対する「構文」的アプローチ. In 言語
科学論集 7, pp. 1–20.
- 34. [患者,が,部屋,に,消え,た]と[患者,が,部屋,に,入っ,
た]のパターン束
- 37. 注目すべき事
• (9) [患者が部屋に消えた] に最近のパターン集合
• [__, が, 部屋, に, 消え, た], [患者, __, 部屋, に, 消え, た], [患者,
が, __, に, 消え, た], [患者, が, 部屋, __, 消え, た], [患者, が, 部屋,
に, __, た], [患者, が, 部屋, に, 消え, __]
• (10) [患者が部屋に入った] に最近のパターン集合
• [__, が, 部屋, に, 入っ, た], [患者, __, 部屋, に, 入っ, た], [患者,
が, __, に, 入っ, た], [患者, が, 部屋, __, 入っ, た], [患者, が, 部屋,
に, __, た], [患者, が, 部屋, に, 入っ, __]
• が [患者, が, 部屋, に, __, た] を共有している
- 41. Pattern Lattice の問題点
• 扱える要素の数に上限がある
• 要素数が7を超えた辺りから急に s/n が大きくなる
• 複数のレベルで Pattern Lattice が成立するのでは?
• 記憶容量より検索の効率化が問題
• 並列処理を想定しても効果的な索引づけが必要
• ヒトの想起の仕組みにトリックがあるのでは?
- 48. 記憶という概念の明確化 1/2
• 覚え (storage) と思い出し=想起 (recall/
remembering)は別の処理
• 覚えには上限がないが,思い出しには強い
制限がかかっている
• 更に言うと想起の基本的仕組みは検索 retrieve
ではない
- 49. 記憶という概念の明確化 2/2
• 動物の記憶には想起可能な記憶 explicit
memory と想起不可能な記憶 implicit
memory が共存
• てんかんの治療で不幸にして後行性健忘者になっ
た HM は explicit memory は失ったが
implicit memory は失っていない
- 52. Vast Memory の証拠
!
• Solomon Shereshevky(Luria のMnemonist)
• Kim Peek(Savant Syndrome)
• は通常のヒトとどう違うか?
• 彼らは異常な銘記能力を獲得したというより
無用なことを想起さない能力を失っているだ
けでは?
- 53. 結論の系 1/2
• カテゴリー事例記憶 exemplar memory モ
デル (Nosofsky 1993ほか) は正しい
• ヒトの知性は膨大な事例記憶 Vast Exemplar
Memory: VEM の上に成立している
• Case-based Reasoning システム
(Kolodner 1993 ほか) は正しい