A Bayesian framework for
word segmentation:
Exploring the effects of context
Sharon Goldwater a,*, Thomas L. Griffiths b, Mark Johnson c
a School of Informatics, University of Edinburgh, Informatics Forum, 10 Crichton Street,
Edinburgh, EH8 9AB, UK
b Department of Psychology, University of California, Berkeley, CA, United States
c Department of Cognitive and Linguistic Sciences, Brown University, United States 1
担当:谷口彰
Cognition 112 (2009) 21–54 被引用数(2015/07/05時点):229
A b s t r a c t
• Saffran et al. [Saffran, J., Aslin, R., & Newport, E. (1996). Statistical learning in 8-
month-old infants. Science, 274, 1926–1928]の研究以来、幼児がどのように
して音声系列に存在する統計的な規則性を個別の単語を識別するために
使用しているのか、という問題への関心が強くなっている
⇒単語分割の問題
• 本研究では、計算モデル(Computational model)を用いて、学習者(幼
児)が用いる可能性のある単語の性質に関するいくつかの仮説
(Assumptions)の効果を検証する
• 特に、これらの仮説がどのように単語の種類に影響を及ぼすのか
• child-directed speech(子供に向けて発話した音声)の書き起こしコーパス
から単語に分割
• ベイズ理論のフレームワークの中でいくつかのモデルを提案する 2
A b s t r a c t
• 単語に関して仮定する因果関係
1. 個々の単語が独立
2. 他の単語を予測するための手助けとなる(例えば、n-gram)
• 独立性の仮定は、コーパス内の2,3個の単語列をundersegment
(孤立単語として誤認識)することを示す
• 例:What‘sthat, doyou, inthehouse
• その一方、学習者が単語を予測すると仮定したとき、分割結果は、
はるかに正確(far more accurate)になる
• これらの結果は、以下のことが示唆される
• 文脈(context)を考慮に入れることが、統計的単語分割を成功させる
ために重要である
• 若い幼児ですら、通常考えられるよりも、もっとかすかな(subtle)
統計的パターンを発見できるという可能性をもたらす 3
Undersegmentationと Oversegmentation
例:ここ|は|そうはつけん|です
• Undersegmentation
• 本来2つ以上の単語を1つの単語として分割
• 例:ここ|はそうはつけんです
• Oversegmentation
• 本来1つの単語を2つ以上の単語として分割
• 例:ここ|は|そうは|つけ|ん|です
4
くっつけすぎ!
分割しすぎ!
1. Introduction
• 幼児が解決しなければならない最初の問題のひとつとして、単語分割が
ある
• 単語分割:連続音声の中から単語の境界を特定する
• 英語を学習する幼児( English-learning infants )に向けられる発話の約9%は
孤立単語からなる(Brent & Siskind, 2001)
⇒ その他ほとんどは複数単語からなる発話
• 複数単語の発話 (multi-word utterances)は、一般的に単語間の 明らかな区
切りを持たない
• 子供たちは、単語の境界を識別するために、他の手がかりを使用する必
要がある
• 実際には、幼児は単語分割するためにさまざまな手がかり( a wide range of
weak cues )を使用するという証拠がある
5
1. Introduction
• 子供たちは、単語の境界を識別するために、他の手がかりを
使用する必要がある
• これらの手がかりには以下がある
1. 音素配列:phonotactics (Mattys, Jusczyk, Luce, & Morgan, 1999)
2. 異音の変動:allophonic variation (Jusczyk, Hohne, & Bauman,
1999)
3. 韻律(強調)のパターン:metrical (stress) patterns (Jusczyk,
Houston, & Newsome, 1999; Morgan, Bonamo, & Travis, 1995)
4. 調音結合の影響:effects of coarticulation (Johnson & Jusczyk,
2001)
5. 音声中で見つかる音節の配列における統計的な規則性:
statistical regularities in the sequences of syllables found in speech
(Saffran, Aslin, & Newport, 1996)
6
1. Introduction
• 手がかり(5.音節列の統計的な規則性)に関する研究(Thiessen & Saffran,
2003)
• 言語に依存しない形( a language-independent way )で使用される
• 他の手がかりよりも早期に使用される
• これらの事実は、「統計的な系列の情報に基づいた戦略が、自力で単語
分割することにおいて、最初の重要なステップである」ことを示してい
る(Thiessen & Saffran, 2003)
• そして、この戦略は、いくつかの研究者に大きな関心を引き起こしてい
る(Aslin, Saffran, & Newport, 1998; Saffran, Newport, & Aslin, 1996; Saffran et
al., 1996; Toro, Sinnett, & Soto-Faraco, 2005)
• 本稿では、統計的な単語分割に関する研究の多くの基礎となるいくつか
の仮定を検討するために、計算モデルの技術を使用している 7
1. Introduction
• 行動の研究において
• 幼児が(遷移確率(transitional probabilities)のような)この種の予測に対
して影響を受けやすい(敏感である)
ことが示されている(Aslin et al., 1998; Saffran et al., 1996)
• 認知科学と計算科学の両方のたくさんの研究者は、単語もしくは単語の
境界の識別のために統計的な性質がどのように使われるかを明確化する
ために
• 遷移確率
• 相互情報量
• 類似した予測の統計的な手法(similar statistics of predictability)
に基づいたアルゴリズムを開発した(Ando & Lee, 2000; Cohen & Adams,
2001; Feng, Chen, Deng, & Zheng, 2004; Swingley, 2005)
8
1. Introduction
• 単語境界の予測可能性についての2つの異なる種類の仮説を考え
る
1. 単語が他の単語と統計的に独立である
2. 単語が他の単語を予測する手助けとなる
• 人間を対象とした単語分割の多くの人工言語による実験
• ランダムに生成した単語を連結する
• 人間がランダムに生成された配列の統計的な規則性に敏感であること
を実証
• しかしながら
• これは多くの自然言語の複雑さから離れている
• 明らかに抽象化されている
• 規則性は、単語間の関係だけでなく、サブワード単位( sub-word
units )間の関係にも存在する 9
1. Introduction
• 人間が単語を抽出する際、サブワードの規則性を使うことが
知られている
• 本稿では、自然な言語の入力からの学習について調べるため
にコンピュータシミュレーションを使用する
• 単語は
• 単語が統計的に独立であると仮定した学習者
• 単語が後の単語を予測することを仮定した学習者
によってどのように識別(推定)されるのかを問う
• これらの二つの異なる仮定を組み込んだ単語分割の二つの異
なるベイズモデルを開発することで、この問題について調査
する 10
2. Words and transitional probabilities
• 「幼児が連続音声からどのように単語を分割するのか」
という問題(Jusczyk, 1999)は、近年の多くの研究に影響を
与えている
• 多くの様々な手がかりが重要であることが指摘されてい
るが、本研究では一つの特定の手がかりに焦点を当てる
• 自然言語で発生する音の配列における統計的な規則性
11
2. Words and transitional probabilities
• 「幼児が音節間の統計的な依存関係に敏感である」という証
拠は、単語分割において音節間の統計的な依存関係が実際に
人間の学習者によって使用されるというアイデアの根拠にな
りうる (Saffran et al., 1996; Thiessen & Saffran, 2003)
• 具体的には、統計的な単語分割の研究は
• サブワード単位(e.g., segments or syllables)間の遷移確率の考え
に焦点を当ててきた。
• 音節xから音節yへの遷移確率
• xが与えられたもとでのyの条件付き確率p(y|x)
• 自然言語では一般的に「単語内よりも単語境界での遷移確率
の方が低い」という傾向がある(Harris, 1954; Saffran et al., 1996) 12
• 自然言語では一般的に「単語内よりも単語境界での遷移確率
の方が低い」という傾向がある(Harris, 1954; Saffran et al., 1996)
2. Words and transitional probabilities
13
これわぶどうだよ
これがみかんです
ぶどうです
みかんだよ
ぶどうとみかんだよ
みかんとって
おおきいぶどう
・・・
確率が高い
ぶ→ど
ど→う
み→か
か→ん
だ→よ
で→す
確率が低い
わ→ぶ
が→み
う→だ
ん→で
う→と
と→み
2-gram確率コーパス
2. Words and transitional probabilities
• 音節間の統計的な依存関係を考慮する場合
• (一つまたは複数の)前の単語を条件とした各単語を選択するこ
とにより、単語のシーケンスを生成することができる。
• 単語と単語の依存関係の強さに応じて、単語間の遷移確率が変わ
る。
• 一般には、単語境界は低い遷移確率が割り当てられる傾向にある。
• 多くの単語のペアは高い依存性を持たない
• しかしながら、比較的高い遷移確率に単語境界が存在する場合も
ありうる。
• “rubber ducky” や “that’s a”のような2単語は高い関係性を持つ
14
2. Words and transitional probabilities
• 著者らは、言語の性質に関する2つの異なる仮定により
開発されたモデルについて調査する
1. 単語が統計的に独立
2. 単語が次の単語を予測できる
• これら2つの仮定による学習者の違いについて考察する
• それぞれの学習者が考える言語の仮説空間( the space of
linguistic hypotheses )の違い
15
2. Words and transitional probabilities
• 単語が独立だと仮定した学習者が、単語が他の単語を予測すると
仮定した学習者よりも、制限されていることに注意
• 第1の学習者
• 単語の系列の予測なしに文法を学習することができる
• 第2の学習者
• 単語の系列を予測可能な文法を学習することができる
• もし単語が本当に独立である場合、第1の学習者は強い制約の存
在が原因で有利な点をもつだろう
• この学習者は考慮すべき仮説の空間ははるかに小さい
• 一方、もし単語が独立でない場合、第2の学習者は有利な点をも
つだろう
• 独立性を仮定した学習者(第1の学習者)は、正しい仮説に収束する
ことができなくなる 16
2.1. Probabilistic models for word
segmentation
• 確率モデルは、観測データの抽象的な表現(例えば、文法)を推定する
ための自然な方法を提供する
• 観測データを与えられたとき、異なる仮定の表現の上で確率分布を作成す
る
• どのように学習者は事後分布( the posterior distribution )を特定するの
か?
• ベイズルールでは、観測データdを与えられたとき仮説の文法h( a
hypothesized grammar )の確率は、次のように計算することができる
• 分母は、仮説空間内の全ての仮説h’について足し合わせている
• P(d| h)(尤度)は、特定の仮説を与えられたときの観測データの確率であ
る。
17
2.1. Probabilistic models for word
segmentation
• 一般的に、生成モデルを定義することによって尤度は計
算される
• コイン投げの例を考える
• 仮説を与えられたときの観測データを生成するための確率
過程
• nH:観察された表の数
• nT:観察された裏の数 18
2.1.1. Maximum-likelihood estimation
• 確率的生成モデルを使用した学習の標準的な方法
• 最尤推定:尤度関数を最大化するような仮説を選択する
• コイン投げの例
• 尤度が最大化されるようなhは容易に計算できる
• 表が6回、裏が4回観測された場合
• 最尤推定値:h=0.6
19
表
表+裏
2.1.1. Maximum-likelihood estimation
• 言語モデルに一般的に使われるようなより複雑な生成モデルでは
• 最尤の仮説を解析的に得ることは通常不可能である
• この場合、明示的にいくつかの仮説の尤度を計算することで、最
適な仮説を選択することが可能である
• しかしながら、一般的には
• 仮説空間全てを評価する探索のアルゴリズムを設計する必要がある
• 理想的なアルゴリズム
• 全体的に最適な仮説を見つけることが保証されるもの
• 多くの場合では、近似的な探索アルゴリズムが使用されている
• 一般的に、探索空間の局所的な領域内で最適な仮説を求めるアルゴリ
ズム 20
2.1.1. Maximum-likelihood estimation
• Venkataraman (2001) の研究
• 最尤推定に基づいた単語分割の手法を提案
• 3つの異なる生成モデルを提案
• 標準的なユニグラムモデル
• 単語がランダムに独立して生成されてることを仮定
• 観測データ(see Fig. 1)
• 音素に書き起こしした子供向け音声のコーパス
• 発話の境界(入力の一時中断)は既知
• 単語境界は未知
21
Venkataraman, A. (2001). A statistical model for word discovery in transcribed speech. Computational Linguistics, 27(3), 351–
372.
22書き起こしの音素列
(入力コーパス)
書き起こし
(英語のつづり)
2.1.1. Maximum-likelihood estimation
• Venkataraman (2001) の研究
• コーパス内の発話の数:U
• 発話境界(終端文字)を表す識別記号:$
• 確率モデルの基本的な流れ
• 全ての可能な単語の集合上の確率分布:Pw
• 生成された単語は、これまでに生成された単語の列に連結される
• 境界以外の記号は、発話の終わりの記号$が生成されない限り追加される
23
Repeat U times:
Repeat until $ is generated:
1. Generate the next word, w, with probability Pw(W).
2. Generate $ with probability p$.
2.1.1. Maximum-likelihood estimation
• 一つの発話において、生成される単語の確率は
(1)
• 分割されていない発話uの確率は
• 連結されたすべての可能な単語の列の上での足し算によって表
される
24
あらゆる単語の列の組み合わせを
考えている
2.1.1. Maximum-likelihood estimation
• 全コーパスの確率は、個々の発話の確率の積である
• このモデルの仮説空間は、単語と発話境界マーカー$に
確率値を割り当てることによって構成されている
• パラメータ
• 単語wの確率:Pw
• 発話境界$の確率:P$
25
2.1.1. Maximum-likelihood estimation
• 一般的には、モデルの最尤な解は、コーパス内の観測の
相対的な頻度に類似した確率分布である
• Venkataramanの上記のモデルの最尤な解
• 各発話を1つの“単語”として扱う
• すべての発話を分割しない
26
このモデルでの最尤な仮説とは何か?
2.1.1. Maximum-likelihood estimation
• 式(1)のモデルを用いた最尤推定では、唯一の自明な分割結果が見
いだされる
• 式(1)で使用されたPwは、単語が文脈とは無関係に生成される(依
存しない)
• Venkataramanは、2つの他のモデルを提案した
• bigram distribution
• trigram distribution
• 各単語は、1つまたは2つ前の単語に条件づけられて生成される
• bigramモデルは以下で定義される
27
bigram確率
2.1.1. Maximum-likelihood estimation
• Batchelder’s (2002) maximum-likelihood learning system
• 単語の長さが長くなりすぎるのを外部制約(‘‘external
constraint”)を科すことで対応
• Batchelderのアプローチは、よい方向への第一歩であるが、
数学的にはベイズモデリングの方がより理にかなってい
る
• 著者らは、ベイズモデルについて検討する
28
2.1.2. Bayesian models
• 前節では、制約のない最尤推定は仮説の選択に対して悪
い方法であると主張した
• ベイズモデリング
• 尤度の影響は事前分布によって釣り合いをとることができ
る
• 尤度と事前分布の両方を考慮することによって、最尤推定
のようなオーバーフィッティングを避けることができる
29
尤度 事前分布
2.1.2. Bayesian models
• Model-Based Dynamic Programming (MBDP-1)
• Brentは、効率的な探索アルゴリズムによる単語分割のためのベイズモ
デルを提案した(Brent, 1999)
• 仮定
• 各単語は音素記号の列
• 各発話は単語の列
• 入力コーパス
• Fig.1のような子供に向けた音声の音素書き起こしの発話
• いくつかの単語列
• 単語境界を消去するときに一緒に連結される
• コーパス上で見られる記号の列を正確に形成する
• 特定の仮説の単語列が与えられたときの観測データの確率
• 連結された単語がコーパスを形成する場合:1
• しない場合:0 30
Brent, M. (1999). An efficient, probabilistically sound algorithm for segmentation and word discovery. Machine Learning, 34, 71–105.
31書き起こしの音素列
(入力コーパス)
書き起こし
(英語のつづり)
2.1.2. Bayesian models
• 結果として、コーパスと一致した仮説のみを考慮する
• 事前確率は生成モデルを用いて計算される
• コーパス内の単語列は、以下の4ステップにより生成されると
仮定する
• Step 1: 語彙の種類の数を生成する
• Generate the number of types that will be in the lexicon.
• Step 2: 各単語の発話される頻度を生成する
• Generate a token frequency for each lexical type.
• Step 3: 各単語の音素表現を生成する(発話境界「$」を除く)
• Generate the phonemic representation of each type (except for the
single distinguished ‘‘utterance boundary” type, $).
• Step 4: 発話の集合を生成する
• Generate an ordering for the set of tokens.
32
2.1.2. Bayesian models
• コーパスから有力なセグメンテーションを探索するため
に、Brent は効率的なオンラインアルゴリズムを開発し
ている
• アルゴリズムは、これまでのすべての発話から見つけた
セグメンテーションに基づいて、新たな発話を分割する
• このオンラインアルゴリズムの性質
• 以前のバッチ学習アルゴリズムよりも、人間の単語分割の
より現実的なシミュレーションを提供することを意図して
いる(Brent & Cartwright, 1996; de Marcken, 1995)
• 学習者は全てのデータのコーパスを利用できる
(学習者がデータから何度も反復学習可能)
33
2.1.2. Bayesian models
• 本稿の残りの部分では、Brentの研究にインスピレーショ
ンを得た2つの単語分割のベイズモデルについて説明す
る
• 著者らは、生成モデルに基づくベイズのフレームワーク
を使用している
• 始めのモデル( unigram )は、 MBDP-1 modelと類似している
• Brentの研究と異なる点
• 著者らのモデルの方がより柔軟
• 異なるモデルの仮定による影響をより簡単に調査できる
34
2.1.2. Bayesian models
• 著者らの研究は、より最新のベイズの技術に基づいてい
る
• 事後分布からのサンプルをMarkov chain Monte Carlo methods
(Gilks, Richardson, & Spiegelhalter, 1996)により生成できる
• アルゴリズムは、実際に最適解( optimal )または、最適解
の近傍(near-optimal)を得ることを可能にする
35
3. Unigram model
3.1. Generative model
• :分割された単語
• ユニグラムモデルは、i番目の単語Wiが以下のように生成されること
を仮定する
36
3. Unigram model
3.1. Generative model
• 次のように、確率を割り当てる
• α0:モデルのパラメータ
• 𝑛:以前に生成された単語の数(=i-1)
• 𝑛𝑙:単語𝑙の出現回数
• p#:単語境界の生成確率
37
3. Unigram model
3.1. Generative model
• 以前の単語 W-i が与えられたときの𝑤𝑖の分布
• P0:Step 2aでのユニグラム音素分布を参照する
• (The p# and 1-p# factors in this distribution result from the process
used to generate a word from constituent phonemes: after each
phoneme is generated, a word boundary is generated with
probability p# and the process ends, or else no word boundary is
generated with probability 1-p# and another phoneme is generated.) 38
3. Unigram model
3.1. Generative model
• nが小さいとき
• Step 1において、新規な語彙を生成する確率が比較的大きく
なる
• より多くの単語が生成され、nが増える
• 新規な語彙を生成する確率は相対的に減少する
• 完全に消えることはない
39
3. Unigram model
3.1. Generative model
• Step 2aでは
• 音素ごとの確率の積として新規な語彙の確率を定義する
• 非常に長い語彙を発生させにくい
• Step 2bでは
• 単語を生成する確率は発生回数に比例している
• いくつかの単語は頻繁に発生し、ほとんどの単語は1、
2回のみ発生する
• 単語の出現頻度の分布はべき乗分布になることが知られて
いる 40
3. Unigram model
3.1. Generative model
• この種のモデルの例はDirichlet process (Ferguson, 1973)と
して知られている
• Dirichlet process
• ベイズ統計で一般的に使用されるクラスタリングのモデル
• ノンパラメトリックな事前分布を仮定
• The Dirichlet process has two parameters:
• 集中度パラメータ(the concentration parameter): α0
• 基底分布(the base distribution): P0
• the ‘‘Dirichlet process” (DP) modelの詳細はAppendix A 41
3.2. Inference
• すべての可能性の中から最も高い確率となるセグメン
テーションを特定する問題
• Gibbs sampling (Geman & Geman, 1984)
• Markov chain Monte Carlo algorithm (Gilks et al., 1996)の一種
• 条件付き事後分布から変数を繰り返しサンプリング
42
ギブスサンプリング
https://ja.wikipedia.org/wiki/%E3%82%AE%E3%83%96%E3%82%B9%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0
3.2. Inference
• サンプリングでの目的の変数
• 潜在的な単語境界
• 単語境界か単語境界でないかに対応する2値変数
• 境界の初期化
• ランダムまたは任意の方法
• サンプリングの各イテレーション
• あらゆる可能な境界の位置(音素と音素の間)を段階的に行う
• 現時点での他の全ての境界の位置を条件づけた値をリサンプリングす
る
• 境界をサンプリングすることは、単語の列をサンプリングするこ
とに等しい
• ギブスサンプリングアルゴリズムの詳細はAppendix A 43
3.3. Simulations
3.3.1. Data
• 単語分割のこれまでのモデルとの比較を容易にするため
に、Brent (1999) and Venkataraman (2001)で用いられたも
のと同じコーパスでの結果を示す
• the Bernstein–Ratner corpus (Bernstein-Ratner, 1987) of the
CHILDES database (MacWhinney & Snow, 1985)
• 13- to 23-month-olds
• 9790 utterances, with 33,399 word tokens
• 1発話における平均単語数:3.41
• 1単語の長さ(音素数)の平均:2.87 44
3.3.2. Evaluation procedure
• 単語境界の評価
• Brent (1999) and Venkataraman (2001)で使われていた評価指
標と同様のものを採用
• precision (精度):推定されたすべての単語の中での、正しく
推定された単語の数
• recall(再現率):すべての正しい単語の中での、正しく推定
された単語の数
• F-measure or F-score(F値):F0
45
3.3.2. Evaluation procedure
• モデルごとに以下のスコアを計算する
• P, R, F: precision, recall, and F0 on words
• LP, LR, LF: precision, recall, and F0 on the lexicon
• BP, BR, BF: precision, recall, and F0 on potentially ambiguous
boundaries (潜在的にあいまいな境界)
• (i.e. utterance boundaries are not included in the counts).
46
3.3.2. Evaluation procedure
• 分割による単語数:7語
• 正しい分割による単語数:6語
• 単語の一致数:3語
• P = 42.9% (3/7), R = 50.0% (3/6), F = 46.2%
• LP = 50.0% (3/6), LR = 50.0% (3/6), LF = 50.0%
• BP = 66.7% (4/6), BR = 80.0% (4/5), BF = 72.7% 47
例: look at the big dog there
分割例:look at the bigdo g the re
3.3.2. Evaluation procedure
• 比較
• Brent’s MBDP-1 system (Brent, 1999)
• Venkataraman’s n-gram segmentation systems (Venkataraman,
2001)
• NGS-u and NGS-b (for the unigram and bigram models)
• 提案したアルゴリズムの性能評価
• a single sample taken after 20,000 iterations
• an approximation of the MAP solution 48
3.3.3. Results and discussion
• DPモデル(提案モデル)には2つのパラメータがある
• p# (the prior probability of a word boundary)
• α0 (which affects the number of word types proposed)
• Fig. 2 shows the effects of varying of p# and α0.
• p#の値が小さいと、語彙のF値が向上する傾向がある
• より長い単語を許容する
• α0の値が大きいと、語彙のF値が向上する傾向がある
• より新規な単語を許容する
• 他のセクションでは、 p# = 0.5; α0 = 20の結果を示す 49
50
α0を固定
p#を固定
51
10回試行で10サンプル
1回試行で10サンプル
10回試行で10サンプル
提案手法
ユニグラムの単語分割手法の比較
3.3.3. Results and discussion
• 分割されたコーパスと語意を調べることによってシステムの
挙動を分析した
• 語彙の全体の単語のおおよそ30%は、undersegmentation
(collocation) errorsで構成されている
• Fig.3
• コーパス内の最初の40発話のシステムのセグメンテーションを
示す
• Fig.4
• 最も頻繁に推定された35個の単語を示す
• Fig.5
• システムによって単一の単語として最も頻繁に識別された70個
のcollocations を示す 52
53
40発話のコーパスをDPモデルによって単語分割
同じ文字列であるが単語分割
結果が違う
 ギブスサンプリングの性質
によるもの
54
DPモデル DPモデル正解の語彙 正解の語彙
正解の単語
不正解の単語
55
これら2,3語の句が一つの単語として推定された
3.3.3. Results and discussion
• collocations (語と語の繋がり)を検討することは興味深い
• 子供の早期の単語表現に関する文献Peters (1983)
• children’s undersegmentation errors の多くの例を示している
• Fig. 5 (e.g., thank you, that’s right, bye bye, look at this)のような
社会慣習や定型的な形式( ‘‘formulaic frames” )の例において、
collocation errors が発見されている
• しかしながら、システムによって見つかったcollocations の程
度と種類は、これまで幼児で見られたものよりもはるかに多
い
56
3.3.3. Results and discussion
• 強い単語と単語の依存関係を示す、頻繁に共起する単語
のグループは、ユニグラムのモデルの仮定に反する
• 例「what‘s that」
• 単語「that」
• 経験分布(頻度):798/33399 ≒ 0.024
• 単語「What’s」の次に単語「that」
• 経験分布(頻度):263/569 ≒0.46
• 「what’s」と「that」の間の関係は、モデルの独立性の仮定
に反する
• 学習者は、「what‘sthat」を一つの単語であると結論付ける
57
4. Other unigram models
• 先行研究のユニグラムモデルについての説明や考察
58
省略
5. Bigram model
5.1. The hierarchicalDirichletprocessmodel
• 単語分割における依存性の影響を探索に考慮する最初の
ステップ
• 隣接する単語間の依存関係を考慮したモデルを構築する
• 単語の確率がひとつ前の単語に依存していることを仮定
• 単語のペア、bigram
59
5. Bigram model
5.1. The hierarchicalDirichletprocessmodel
• ユニグラムモデルとは異なり、wiは前の単語を考慮するプロセ
スによって生成される
60
5. Bigram model
5.1. The hierarchicalDirichletprocessmodel
61
5. Bigram model
5.1. The hierarchicalDirichletprocessmodel
• α0とα1:モデルパラメータ
• P0:ユニグラムモデルとして定義された語彙のモデル
• 𝑙’:Wi-1のthe lexical form
• :ユニグラムl’の出現集
• :バイグラム<𝑙’, 𝑙>の出現数
• 𝑏:1番目のi-1単語でのバイグラムの数
• the number of bigram types in the first i-1 words
• 𝑏𝑙:2番目の単語𝑙の数
• the number of those types whose second word is 𝑙
62
5. Bigram model
5.1. The hierarchicalDirichletprocessmodel
• Step 1
• 𝑙’が生成された後、新しい単語が生成される
• Step 2a
• ユニグラムの生成プロセスのようなもの
• 確率ユニグラムの単語の代わりにバイグラムで定義されて
いる
• Step 2b
• 𝑙’の後に𝑙を生成する確率
63
5. Bigram model
5.1. The hierarchicalDirichletprocessmodel
• 提案したバイグラムモデルは、a hierarchical Dirichlet
process (HDP) (Teh, Jordan, Beal, & Blei, 2005)として知られ
ている
• HDPはDPの拡張
• それぞれの単語ごとに次の単語の出現確率を表す分布を
持つと仮定することによりバイグラムモデルを定義する
ことができる
• 提案するHDP言語モデルは、hierarchical Pitman–Yor
processes (Goldwater, Griffiths, & Johnson, 2006b; Teh, 2006)
を用いたn-gramモデルに似ている 64
5.2. Simulations
5.2.1. Method
• ユニグラムモデルのシミュレーションと同様
• 入力コーパスと評価尺度を使用
• ギブスサンプリングを実行
• 初期化方法
• 各発話でランダムに単語の境界を割り当てる
• 詳細は、付録A.10に記載
65
5.2.2. Results and discussion
• Fig. 7
• 20,000回のイテレーション
• p#は分割精度に比較的ほとんど影響を及ぼさない、語彙の
精度にはわずかに及ぼす
• α0は語彙のF値に影響を及ぼす
• α0が高い値のとき
• より新規な単語が出やすい
• 語彙のrecallは増大する
• 語彙のprecisionは若干低下する
• 全体としてF値は増加する 66
67
α1、p#を固定
α0を変化
α0、p#を固定
α1を変化
5.2.2. Results and discussion
• α1は結果に最も大きな影響を与える
• 新規なバイグラムを生成する確率を決定するパラメータ
• α1が上昇すると、分割の数が減る
• recallは低下
• precisionは増加
• 語彙はより多く、より正確になる
• α1の適切な値は、コーパスのoversegmentation と
undersegmentationの間のバランスにより達成される
• 単語分割の精度がユニグラムモデルよりも非常に高い
68
5.2.2. Results and discussion
• Table 6
• HDPモデルと他の手法の結果の比較
• バイグラムの依存関係を組み込んだモデルは以前のユニグラム
モデルよりもF値が良い結果を得た
• HDPモデルはDPモデルよりも高い分類の精度を実現した
69
5.2.2. Results and discussion
• Fig. 8
• バイグラムモデルにより推定された分割結果は、ユニグラ
ムモデルで推定された分割結果よりもはるかにエラーが少
ない
• undersegmentationはあまり見られない
70
71
分割された最初
の35発話
頻出した単語
上位35個
5.2.2. Results and discussion
• Table 8
• 10個のサンプルの平均の結果
• MAP解の近似の平均対数事後確率は、サンプリングの場合よりも低い
72
6. General discussion
• 計算モデルでは、入力するデータを表現する方法についていくつ
かの仮定を行う必要がある
• Brent (1999) and Venkataraman (2001)と同様に、本研究では音素を
書き起こした入力コーパスを使用した
• 単語を構築し始める幼児にとって、音素ではなく音節が表現の基
本的なサブワードレベルであることが主張されてきた(Swingley
2005).
• 提案モデルは、音節内に境界がある可能性も考慮している
• 比較的小さいエラーの割合
• 音節構造を仮定することは重大ではない可能性を示唆している
• 事実、最近の研究では、学習者が音節と単語の構造を同時に獲得
することができることを示唆している
• 本手法に類似した仮定のベイズモデル(Johnson, 2008) 73
参考
• https://rekken.g.hatena.ne.jp/murawaki/20090621/p1
74

論文紹介 A Bayesian framework for word segmentation: Exploring the effects of context

  • 1.
    A Bayesian frameworkfor word segmentation: Exploring the effects of context Sharon Goldwater a,*, Thomas L. Griffiths b, Mark Johnson c a School of Informatics, University of Edinburgh, Informatics Forum, 10 Crichton Street, Edinburgh, EH8 9AB, UK b Department of Psychology, University of California, Berkeley, CA, United States c Department of Cognitive and Linguistic Sciences, Brown University, United States 1 担当:谷口彰 Cognition 112 (2009) 21–54 被引用数(2015/07/05時点):229
  • 2.
    A b st r a c t • Saffran et al. [Saffran, J., Aslin, R., & Newport, E. (1996). Statistical learning in 8- month-old infants. Science, 274, 1926–1928]の研究以来、幼児がどのように して音声系列に存在する統計的な規則性を個別の単語を識別するために 使用しているのか、という問題への関心が強くなっている ⇒単語分割の問題 • 本研究では、計算モデル(Computational model)を用いて、学習者(幼 児)が用いる可能性のある単語の性質に関するいくつかの仮説 (Assumptions)の効果を検証する • 特に、これらの仮説がどのように単語の種類に影響を及ぼすのか • child-directed speech(子供に向けて発話した音声)の書き起こしコーパス から単語に分割 • ベイズ理論のフレームワークの中でいくつかのモデルを提案する 2
  • 3.
    A b st r a c t • 単語に関して仮定する因果関係 1. 個々の単語が独立 2. 他の単語を予測するための手助けとなる(例えば、n-gram) • 独立性の仮定は、コーパス内の2,3個の単語列をundersegment (孤立単語として誤認識)することを示す • 例:What‘sthat, doyou, inthehouse • その一方、学習者が単語を予測すると仮定したとき、分割結果は、 はるかに正確(far more accurate)になる • これらの結果は、以下のことが示唆される • 文脈(context)を考慮に入れることが、統計的単語分割を成功させる ために重要である • 若い幼児ですら、通常考えられるよりも、もっとかすかな(subtle) 統計的パターンを発見できるという可能性をもたらす 3
  • 4.
    Undersegmentationと Oversegmentation 例:ここ|は|そうはつけん|です • Undersegmentation •本来2つ以上の単語を1つの単語として分割 • 例:ここ|はそうはつけんです • Oversegmentation • 本来1つの単語を2つ以上の単語として分割 • 例:ここ|は|そうは|つけ|ん|です 4 くっつけすぎ! 分割しすぎ!
  • 5.
    1. Introduction • 幼児が解決しなければならない最初の問題のひとつとして、単語分割が ある •単語分割:連続音声の中から単語の境界を特定する • 英語を学習する幼児( English-learning infants )に向けられる発話の約9%は 孤立単語からなる(Brent & Siskind, 2001) ⇒ その他ほとんどは複数単語からなる発話 • 複数単語の発話 (multi-word utterances)は、一般的に単語間の 明らかな区 切りを持たない • 子供たちは、単語の境界を識別するために、他の手がかりを使用する必 要がある • 実際には、幼児は単語分割するためにさまざまな手がかり( a wide range of weak cues )を使用するという証拠がある 5
  • 6.
    1. Introduction • 子供たちは、単語の境界を識別するために、他の手がかりを 使用する必要がある •これらの手がかりには以下がある 1. 音素配列:phonotactics (Mattys, Jusczyk, Luce, & Morgan, 1999) 2. 異音の変動:allophonic variation (Jusczyk, Hohne, & Bauman, 1999) 3. 韻律(強調)のパターン:metrical (stress) patterns (Jusczyk, Houston, & Newsome, 1999; Morgan, Bonamo, & Travis, 1995) 4. 調音結合の影響:effects of coarticulation (Johnson & Jusczyk, 2001) 5. 音声中で見つかる音節の配列における統計的な規則性: statistical regularities in the sequences of syllables found in speech (Saffran, Aslin, & Newport, 1996) 6
  • 7.
    1. Introduction • 手がかり(5.音節列の統計的な規則性)に関する研究(Thiessen& Saffran, 2003) • 言語に依存しない形( a language-independent way )で使用される • 他の手がかりよりも早期に使用される • これらの事実は、「統計的な系列の情報に基づいた戦略が、自力で単語 分割することにおいて、最初の重要なステップである」ことを示してい る(Thiessen & Saffran, 2003) • そして、この戦略は、いくつかの研究者に大きな関心を引き起こしてい る(Aslin, Saffran, & Newport, 1998; Saffran, Newport, & Aslin, 1996; Saffran et al., 1996; Toro, Sinnett, & Soto-Faraco, 2005) • 本稿では、統計的な単語分割に関する研究の多くの基礎となるいくつか の仮定を検討するために、計算モデルの技術を使用している 7
  • 8.
    1. Introduction • 行動の研究において •幼児が(遷移確率(transitional probabilities)のような)この種の予測に対 して影響を受けやすい(敏感である) ことが示されている(Aslin et al., 1998; Saffran et al., 1996) • 認知科学と計算科学の両方のたくさんの研究者は、単語もしくは単語の 境界の識別のために統計的な性質がどのように使われるかを明確化する ために • 遷移確率 • 相互情報量 • 類似した予測の統計的な手法(similar statistics of predictability) に基づいたアルゴリズムを開発した(Ando & Lee, 2000; Cohen & Adams, 2001; Feng, Chen, Deng, & Zheng, 2004; Swingley, 2005) 8
  • 9.
    1. Introduction • 単語境界の予測可能性についての2つの異なる種類の仮説を考え る 1.単語が他の単語と統計的に独立である 2. 単語が他の単語を予測する手助けとなる • 人間を対象とした単語分割の多くの人工言語による実験 • ランダムに生成した単語を連結する • 人間がランダムに生成された配列の統計的な規則性に敏感であること を実証 • しかしながら • これは多くの自然言語の複雑さから離れている • 明らかに抽象化されている • 規則性は、単語間の関係だけでなく、サブワード単位( sub-word units )間の関係にも存在する 9
  • 10.
    1. Introduction • 人間が単語を抽出する際、サブワードの規則性を使うことが 知られている •本稿では、自然な言語の入力からの学習について調べるため にコンピュータシミュレーションを使用する • 単語は • 単語が統計的に独立であると仮定した学習者 • 単語が後の単語を予測することを仮定した学習者 によってどのように識別(推定)されるのかを問う • これらの二つの異なる仮定を組み込んだ単語分割の二つの異 なるベイズモデルを開発することで、この問題について調査 する 10
  • 11.
    2. Words andtransitional probabilities • 「幼児が連続音声からどのように単語を分割するのか」 という問題(Jusczyk, 1999)は、近年の多くの研究に影響を 与えている • 多くの様々な手がかりが重要であることが指摘されてい るが、本研究では一つの特定の手がかりに焦点を当てる • 自然言語で発生する音の配列における統計的な規則性 11
  • 12.
    2. Words andtransitional probabilities • 「幼児が音節間の統計的な依存関係に敏感である」という証 拠は、単語分割において音節間の統計的な依存関係が実際に 人間の学習者によって使用されるというアイデアの根拠にな りうる (Saffran et al., 1996; Thiessen & Saffran, 2003) • 具体的には、統計的な単語分割の研究は • サブワード単位(e.g., segments or syllables)間の遷移確率の考え に焦点を当ててきた。 • 音節xから音節yへの遷移確率 • xが与えられたもとでのyの条件付き確率p(y|x) • 自然言語では一般的に「単語内よりも単語境界での遷移確率 の方が低い」という傾向がある(Harris, 1954; Saffran et al., 1996) 12
  • 13.
    • 自然言語では一般的に「単語内よりも単語境界での遷移確率 の方が低い」という傾向がある(Harris, 1954;Saffran et al., 1996) 2. Words and transitional probabilities 13 これわぶどうだよ これがみかんです ぶどうです みかんだよ ぶどうとみかんだよ みかんとって おおきいぶどう ・・・ 確率が高い ぶ→ど ど→う み→か か→ん だ→よ で→す 確率が低い わ→ぶ が→み う→だ ん→で う→と と→み 2-gram確率コーパス
  • 14.
    2. Words andtransitional probabilities • 音節間の統計的な依存関係を考慮する場合 • (一つまたは複数の)前の単語を条件とした各単語を選択するこ とにより、単語のシーケンスを生成することができる。 • 単語と単語の依存関係の強さに応じて、単語間の遷移確率が変わ る。 • 一般には、単語境界は低い遷移確率が割り当てられる傾向にある。 • 多くの単語のペアは高い依存性を持たない • しかしながら、比較的高い遷移確率に単語境界が存在する場合も ありうる。 • “rubber ducky” や “that’s a”のような2単語は高い関係性を持つ 14
  • 15.
    2. Words andtransitional probabilities • 著者らは、言語の性質に関する2つの異なる仮定により 開発されたモデルについて調査する 1. 単語が統計的に独立 2. 単語が次の単語を予測できる • これら2つの仮定による学習者の違いについて考察する • それぞれの学習者が考える言語の仮説空間( the space of linguistic hypotheses )の違い 15
  • 16.
    2. Words andtransitional probabilities • 単語が独立だと仮定した学習者が、単語が他の単語を予測すると 仮定した学習者よりも、制限されていることに注意 • 第1の学習者 • 単語の系列の予測なしに文法を学習することができる • 第2の学習者 • 単語の系列を予測可能な文法を学習することができる • もし単語が本当に独立である場合、第1の学習者は強い制約の存 在が原因で有利な点をもつだろう • この学習者は考慮すべき仮説の空間ははるかに小さい • 一方、もし単語が独立でない場合、第2の学習者は有利な点をも つだろう • 独立性を仮定した学習者(第1の学習者)は、正しい仮説に収束する ことができなくなる 16
  • 17.
    2.1. Probabilistic modelsfor word segmentation • 確率モデルは、観測データの抽象的な表現(例えば、文法)を推定する ための自然な方法を提供する • 観測データを与えられたとき、異なる仮定の表現の上で確率分布を作成す る • どのように学習者は事後分布( the posterior distribution )を特定するの か? • ベイズルールでは、観測データdを与えられたとき仮説の文法h( a hypothesized grammar )の確率は、次のように計算することができる • 分母は、仮説空間内の全ての仮説h’について足し合わせている • P(d| h)(尤度)は、特定の仮説を与えられたときの観測データの確率であ る。 17
  • 18.
    2.1. Probabilistic modelsfor word segmentation • 一般的に、生成モデルを定義することによって尤度は計 算される • コイン投げの例を考える • 仮説を与えられたときの観測データを生成するための確率 過程 • nH:観察された表の数 • nT:観察された裏の数 18
  • 19.
    2.1.1. Maximum-likelihood estimation •確率的生成モデルを使用した学習の標準的な方法 • 最尤推定:尤度関数を最大化するような仮説を選択する • コイン投げの例 • 尤度が最大化されるようなhは容易に計算できる • 表が6回、裏が4回観測された場合 • 最尤推定値:h=0.6 19 表 表+裏
  • 20.
    2.1.1. Maximum-likelihood estimation •言語モデルに一般的に使われるようなより複雑な生成モデルでは • 最尤の仮説を解析的に得ることは通常不可能である • この場合、明示的にいくつかの仮説の尤度を計算することで、最 適な仮説を選択することが可能である • しかしながら、一般的には • 仮説空間全てを評価する探索のアルゴリズムを設計する必要がある • 理想的なアルゴリズム • 全体的に最適な仮説を見つけることが保証されるもの • 多くの場合では、近似的な探索アルゴリズムが使用されている • 一般的に、探索空間の局所的な領域内で最適な仮説を求めるアルゴリ ズム 20
  • 21.
    2.1.1. Maximum-likelihood estimation •Venkataraman (2001) の研究 • 最尤推定に基づいた単語分割の手法を提案 • 3つの異なる生成モデルを提案 • 標準的なユニグラムモデル • 単語がランダムに独立して生成されてることを仮定 • 観測データ(see Fig. 1) • 音素に書き起こしした子供向け音声のコーパス • 発話の境界(入力の一時中断)は既知 • 単語境界は未知 21 Venkataraman, A. (2001). A statistical model for word discovery in transcribed speech. Computational Linguistics, 27(3), 351– 372.
  • 22.
  • 23.
    2.1.1. Maximum-likelihood estimation •Venkataraman (2001) の研究 • コーパス内の発話の数:U • 発話境界(終端文字)を表す識別記号:$ • 確率モデルの基本的な流れ • 全ての可能な単語の集合上の確率分布:Pw • 生成された単語は、これまでに生成された単語の列に連結される • 境界以外の記号は、発話の終わりの記号$が生成されない限り追加される 23 Repeat U times: Repeat until $ is generated: 1. Generate the next word, w, with probability Pw(W). 2. Generate $ with probability p$.
  • 24.
    2.1.1. Maximum-likelihood estimation •一つの発話において、生成される単語の確率は (1) • 分割されていない発話uの確率は • 連結されたすべての可能な単語の列の上での足し算によって表 される 24 あらゆる単語の列の組み合わせを 考えている
  • 25.
    2.1.1. Maximum-likelihood estimation •全コーパスの確率は、個々の発話の確率の積である • このモデルの仮説空間は、単語と発話境界マーカー$に 確率値を割り当てることによって構成されている • パラメータ • 単語wの確率:Pw • 発話境界$の確率:P$ 25
  • 26.
    2.1.1. Maximum-likelihood estimation •一般的には、モデルの最尤な解は、コーパス内の観測の 相対的な頻度に類似した確率分布である • Venkataramanの上記のモデルの最尤な解 • 各発話を1つの“単語”として扱う • すべての発話を分割しない 26 このモデルでの最尤な仮説とは何か?
  • 27.
    2.1.1. Maximum-likelihood estimation •式(1)のモデルを用いた最尤推定では、唯一の自明な分割結果が見 いだされる • 式(1)で使用されたPwは、単語が文脈とは無関係に生成される(依 存しない) • Venkataramanは、2つの他のモデルを提案した • bigram distribution • trigram distribution • 各単語は、1つまたは2つ前の単語に条件づけられて生成される • bigramモデルは以下で定義される 27 bigram確率
  • 28.
    2.1.1. Maximum-likelihood estimation •Batchelder’s (2002) maximum-likelihood learning system • 単語の長さが長くなりすぎるのを外部制約(‘‘external constraint”)を科すことで対応 • Batchelderのアプローチは、よい方向への第一歩であるが、 数学的にはベイズモデリングの方がより理にかなってい る • 著者らは、ベイズモデルについて検討する 28
  • 29.
    2.1.2. Bayesian models •前節では、制約のない最尤推定は仮説の選択に対して悪 い方法であると主張した • ベイズモデリング • 尤度の影響は事前分布によって釣り合いをとることができ る • 尤度と事前分布の両方を考慮することによって、最尤推定 のようなオーバーフィッティングを避けることができる 29 尤度 事前分布
  • 30.
    2.1.2. Bayesian models •Model-Based Dynamic Programming (MBDP-1) • Brentは、効率的な探索アルゴリズムによる単語分割のためのベイズモ デルを提案した(Brent, 1999) • 仮定 • 各単語は音素記号の列 • 各発話は単語の列 • 入力コーパス • Fig.1のような子供に向けた音声の音素書き起こしの発話 • いくつかの単語列 • 単語境界を消去するときに一緒に連結される • コーパス上で見られる記号の列を正確に形成する • 特定の仮説の単語列が与えられたときの観測データの確率 • 連結された単語がコーパスを形成する場合:1 • しない場合:0 30 Brent, M. (1999). An efficient, probabilistically sound algorithm for segmentation and word discovery. Machine Learning, 34, 71–105.
  • 31.
  • 32.
    2.1.2. Bayesian models •結果として、コーパスと一致した仮説のみを考慮する • 事前確率は生成モデルを用いて計算される • コーパス内の単語列は、以下の4ステップにより生成されると 仮定する • Step 1: 語彙の種類の数を生成する • Generate the number of types that will be in the lexicon. • Step 2: 各単語の発話される頻度を生成する • Generate a token frequency for each lexical type. • Step 3: 各単語の音素表現を生成する(発話境界「$」を除く) • Generate the phonemic representation of each type (except for the single distinguished ‘‘utterance boundary” type, $). • Step 4: 発話の集合を生成する • Generate an ordering for the set of tokens. 32
  • 33.
    2.1.2. Bayesian models •コーパスから有力なセグメンテーションを探索するため に、Brent は効率的なオンラインアルゴリズムを開発し ている • アルゴリズムは、これまでのすべての発話から見つけた セグメンテーションに基づいて、新たな発話を分割する • このオンラインアルゴリズムの性質 • 以前のバッチ学習アルゴリズムよりも、人間の単語分割の より現実的なシミュレーションを提供することを意図して いる(Brent & Cartwright, 1996; de Marcken, 1995) • 学習者は全てのデータのコーパスを利用できる (学習者がデータから何度も反復学習可能) 33
  • 34.
    2.1.2. Bayesian models •本稿の残りの部分では、Brentの研究にインスピレーショ ンを得た2つの単語分割のベイズモデルについて説明す る • 著者らは、生成モデルに基づくベイズのフレームワーク を使用している • 始めのモデル( unigram )は、 MBDP-1 modelと類似している • Brentの研究と異なる点 • 著者らのモデルの方がより柔軟 • 異なるモデルの仮定による影響をより簡単に調査できる 34
  • 35.
    2.1.2. Bayesian models •著者らの研究は、より最新のベイズの技術に基づいてい る • 事後分布からのサンプルをMarkov chain Monte Carlo methods (Gilks, Richardson, & Spiegelhalter, 1996)により生成できる • アルゴリズムは、実際に最適解( optimal )または、最適解 の近傍(near-optimal)を得ることを可能にする 35
  • 36.
    3. Unigram model 3.1.Generative model • :分割された単語 • ユニグラムモデルは、i番目の単語Wiが以下のように生成されること を仮定する 36
  • 37.
    3. Unigram model 3.1.Generative model • 次のように、確率を割り当てる • α0:モデルのパラメータ • 𝑛:以前に生成された単語の数(=i-1) • 𝑛𝑙:単語𝑙の出現回数 • p#:単語境界の生成確率 37
  • 38.
    3. Unigram model 3.1.Generative model • 以前の単語 W-i が与えられたときの𝑤𝑖の分布 • P0:Step 2aでのユニグラム音素分布を参照する • (The p# and 1-p# factors in this distribution result from the process used to generate a word from constituent phonemes: after each phoneme is generated, a word boundary is generated with probability p# and the process ends, or else no word boundary is generated with probability 1-p# and another phoneme is generated.) 38
  • 39.
    3. Unigram model 3.1.Generative model • nが小さいとき • Step 1において、新規な語彙を生成する確率が比較的大きく なる • より多くの単語が生成され、nが増える • 新規な語彙を生成する確率は相対的に減少する • 完全に消えることはない 39
  • 40.
    3. Unigram model 3.1.Generative model • Step 2aでは • 音素ごとの確率の積として新規な語彙の確率を定義する • 非常に長い語彙を発生させにくい • Step 2bでは • 単語を生成する確率は発生回数に比例している • いくつかの単語は頻繁に発生し、ほとんどの単語は1、 2回のみ発生する • 単語の出現頻度の分布はべき乗分布になることが知られて いる 40
  • 41.
    3. Unigram model 3.1.Generative model • この種のモデルの例はDirichlet process (Ferguson, 1973)と して知られている • Dirichlet process • ベイズ統計で一般的に使用されるクラスタリングのモデル • ノンパラメトリックな事前分布を仮定 • The Dirichlet process has two parameters: • 集中度パラメータ(the concentration parameter): α0 • 基底分布(the base distribution): P0 • the ‘‘Dirichlet process” (DP) modelの詳細はAppendix A 41
  • 42.
    3.2. Inference • すべての可能性の中から最も高い確率となるセグメン テーションを特定する問題 •Gibbs sampling (Geman & Geman, 1984) • Markov chain Monte Carlo algorithm (Gilks et al., 1996)の一種 • 条件付き事後分布から変数を繰り返しサンプリング 42 ギブスサンプリング https://ja.wikipedia.org/wiki/%E3%82%AE%E3%83%96%E3%82%B9%E3%82%B5%E3%83%B3%E3%83%97%E3%83%AA%E3%83%B3%E3%82%B0
  • 43.
    3.2. Inference • サンプリングでの目的の変数 •潜在的な単語境界 • 単語境界か単語境界でないかに対応する2値変数 • 境界の初期化 • ランダムまたは任意の方法 • サンプリングの各イテレーション • あらゆる可能な境界の位置(音素と音素の間)を段階的に行う • 現時点での他の全ての境界の位置を条件づけた値をリサンプリングす る • 境界をサンプリングすることは、単語の列をサンプリングするこ とに等しい • ギブスサンプリングアルゴリズムの詳細はAppendix A 43
  • 44.
    3.3. Simulations 3.3.1. Data •単語分割のこれまでのモデルとの比較を容易にするため に、Brent (1999) and Venkataraman (2001)で用いられたも のと同じコーパスでの結果を示す • the Bernstein–Ratner corpus (Bernstein-Ratner, 1987) of the CHILDES database (MacWhinney & Snow, 1985) • 13- to 23-month-olds • 9790 utterances, with 33,399 word tokens • 1発話における平均単語数:3.41 • 1単語の長さ(音素数)の平均:2.87 44
  • 45.
    3.3.2. Evaluation procedure •単語境界の評価 • Brent (1999) and Venkataraman (2001)で使われていた評価指 標と同様のものを採用 • precision (精度):推定されたすべての単語の中での、正しく 推定された単語の数 • recall(再現率):すべての正しい単語の中での、正しく推定 された単語の数 • F-measure or F-score(F値):F0 45
  • 46.
    3.3.2. Evaluation procedure •モデルごとに以下のスコアを計算する • P, R, F: precision, recall, and F0 on words • LP, LR, LF: precision, recall, and F0 on the lexicon • BP, BR, BF: precision, recall, and F0 on potentially ambiguous boundaries (潜在的にあいまいな境界) • (i.e. utterance boundaries are not included in the counts). 46
  • 47.
    3.3.2. Evaluation procedure •分割による単語数:7語 • 正しい分割による単語数:6語 • 単語の一致数:3語 • P = 42.9% (3/7), R = 50.0% (3/6), F = 46.2% • LP = 50.0% (3/6), LR = 50.0% (3/6), LF = 50.0% • BP = 66.7% (4/6), BR = 80.0% (4/5), BF = 72.7% 47 例: look at the big dog there 分割例:look at the bigdo g the re
  • 48.
    3.3.2. Evaluation procedure •比較 • Brent’s MBDP-1 system (Brent, 1999) • Venkataraman’s n-gram segmentation systems (Venkataraman, 2001) • NGS-u and NGS-b (for the unigram and bigram models) • 提案したアルゴリズムの性能評価 • a single sample taken after 20,000 iterations • an approximation of the MAP solution 48
  • 49.
    3.3.3. Results anddiscussion • DPモデル(提案モデル)には2つのパラメータがある • p# (the prior probability of a word boundary) • α0 (which affects the number of word types proposed) • Fig. 2 shows the effects of varying of p# and α0. • p#の値が小さいと、語彙のF値が向上する傾向がある • より長い単語を許容する • α0の値が大きいと、語彙のF値が向上する傾向がある • より新規な単語を許容する • 他のセクションでは、 p# = 0.5; α0 = 20の結果を示す 49
  • 50.
  • 51.
  • 52.
    3.3.3. Results anddiscussion • 分割されたコーパスと語意を調べることによってシステムの 挙動を分析した • 語彙の全体の単語のおおよそ30%は、undersegmentation (collocation) errorsで構成されている • Fig.3 • コーパス内の最初の40発話のシステムのセグメンテーションを 示す • Fig.4 • 最も頻繁に推定された35個の単語を示す • Fig.5 • システムによって単一の単語として最も頻繁に識別された70個 のcollocations を示す 52
  • 53.
  • 54.
  • 55.
  • 56.
    3.3.3. Results anddiscussion • collocations (語と語の繋がり)を検討することは興味深い • 子供の早期の単語表現に関する文献Peters (1983) • children’s undersegmentation errors の多くの例を示している • Fig. 5 (e.g., thank you, that’s right, bye bye, look at this)のような 社会慣習や定型的な形式( ‘‘formulaic frames” )の例において、 collocation errors が発見されている • しかしながら、システムによって見つかったcollocations の程 度と種類は、これまで幼児で見られたものよりもはるかに多 い 56
  • 57.
    3.3.3. Results anddiscussion • 強い単語と単語の依存関係を示す、頻繁に共起する単語 のグループは、ユニグラムのモデルの仮定に反する • 例「what‘s that」 • 単語「that」 • 経験分布(頻度):798/33399 ≒ 0.024 • 単語「What’s」の次に単語「that」 • 経験分布(頻度):263/569 ≒0.46 • 「what’s」と「that」の間の関係は、モデルの独立性の仮定 に反する • 学習者は、「what‘sthat」を一つの単語であると結論付ける 57
  • 58.
    4. Other unigrammodels • 先行研究のユニグラムモデルについての説明や考察 58 省略
  • 59.
    5. Bigram model 5.1.The hierarchicalDirichletprocessmodel • 単語分割における依存性の影響を探索に考慮する最初の ステップ • 隣接する単語間の依存関係を考慮したモデルを構築する • 単語の確率がひとつ前の単語に依存していることを仮定 • 単語のペア、bigram 59
  • 60.
    5. Bigram model 5.1.The hierarchicalDirichletprocessmodel • ユニグラムモデルとは異なり、wiは前の単語を考慮するプロセ スによって生成される 60
  • 61.
    5. Bigram model 5.1.The hierarchicalDirichletprocessmodel 61
  • 62.
    5. Bigram model 5.1.The hierarchicalDirichletprocessmodel • α0とα1:モデルパラメータ • P0:ユニグラムモデルとして定義された語彙のモデル • 𝑙’:Wi-1のthe lexical form • :ユニグラムl’の出現集 • :バイグラム<𝑙’, 𝑙>の出現数 • 𝑏:1番目のi-1単語でのバイグラムの数 • the number of bigram types in the first i-1 words • 𝑏𝑙:2番目の単語𝑙の数 • the number of those types whose second word is 𝑙 62
  • 63.
    5. Bigram model 5.1.The hierarchicalDirichletprocessmodel • Step 1 • 𝑙’が生成された後、新しい単語が生成される • Step 2a • ユニグラムの生成プロセスのようなもの • 確率ユニグラムの単語の代わりにバイグラムで定義されて いる • Step 2b • 𝑙’の後に𝑙を生成する確率 63
  • 64.
    5. Bigram model 5.1.The hierarchicalDirichletprocessmodel • 提案したバイグラムモデルは、a hierarchical Dirichlet process (HDP) (Teh, Jordan, Beal, & Blei, 2005)として知られ ている • HDPはDPの拡張 • それぞれの単語ごとに次の単語の出現確率を表す分布を 持つと仮定することによりバイグラムモデルを定義する ことができる • 提案するHDP言語モデルは、hierarchical Pitman–Yor processes (Goldwater, Griffiths, & Johnson, 2006b; Teh, 2006) を用いたn-gramモデルに似ている 64
  • 65.
    5.2. Simulations 5.2.1. Method •ユニグラムモデルのシミュレーションと同様 • 入力コーパスと評価尺度を使用 • ギブスサンプリングを実行 • 初期化方法 • 各発話でランダムに単語の境界を割り当てる • 詳細は、付録A.10に記載 65
  • 66.
    5.2.2. Results anddiscussion • Fig. 7 • 20,000回のイテレーション • p#は分割精度に比較的ほとんど影響を及ぼさない、語彙の 精度にはわずかに及ぼす • α0は語彙のF値に影響を及ぼす • α0が高い値のとき • より新規な単語が出やすい • 語彙のrecallは増大する • 語彙のprecisionは若干低下する • 全体としてF値は増加する 66
  • 67.
  • 68.
    5.2.2. Results anddiscussion • α1は結果に最も大きな影響を与える • 新規なバイグラムを生成する確率を決定するパラメータ • α1が上昇すると、分割の数が減る • recallは低下 • precisionは増加 • 語彙はより多く、より正確になる • α1の適切な値は、コーパスのoversegmentation と undersegmentationの間のバランスにより達成される • 単語分割の精度がユニグラムモデルよりも非常に高い 68
  • 69.
    5.2.2. Results anddiscussion • Table 6 • HDPモデルと他の手法の結果の比較 • バイグラムの依存関係を組み込んだモデルは以前のユニグラム モデルよりもF値が良い結果を得た • HDPモデルはDPモデルよりも高い分類の精度を実現した 69
  • 70.
    5.2.2. Results anddiscussion • Fig. 8 • バイグラムモデルにより推定された分割結果は、ユニグラ ムモデルで推定された分割結果よりもはるかにエラーが少 ない • undersegmentationはあまり見られない 70
  • 71.
  • 72.
    5.2.2. Results anddiscussion • Table 8 • 10個のサンプルの平均の結果 • MAP解の近似の平均対数事後確率は、サンプリングの場合よりも低い 72
  • 73.
    6. General discussion •計算モデルでは、入力するデータを表現する方法についていくつ かの仮定を行う必要がある • Brent (1999) and Venkataraman (2001)と同様に、本研究では音素を 書き起こした入力コーパスを使用した • 単語を構築し始める幼児にとって、音素ではなく音節が表現の基 本的なサブワードレベルであることが主張されてきた(Swingley 2005). • 提案モデルは、音節内に境界がある可能性も考慮している • 比較的小さいエラーの割合 • 音節構造を仮定することは重大ではない可能性を示唆している • 事実、最近の研究では、学習者が音節と単語の構造を同時に獲得 することができることを示唆している • 本手法に類似した仮定のベイズモデル(Johnson, 2008) 73
  • 74.