文法誤り訂正モデルは訂正に必要な文法を学習しているか（NLP2021）

文法誤り訂正モデルは訂正に必要な
文法を学習しているか
三⽥雅⼈（理研/東北⼤）, ⾕中瞳（理研）
2021/03/17 ⾔語処理学会第27回年次⼤会

RIKEN AIP / Tohoku University
文法誤り訂正（GEC）
1
• テキストに含まれる文法誤りを自動訂正するタスク
− 入力: 文法誤りを含む文
− 出力: 文法的に正しい文
Machine is design to help people.
Machines are designed to help people.
主流なアプローチ：機械翻訳（MT）の一種と見なして解く
Ø 誤りを含む文から正しい文への翻訳タスク
モデル（例: Encoder-Decoder）

課題：モデル構築に必要なリソース増
2
• 擬似データ生成が盛ん
− Wikipedia等の文法的な文集合から擬似的に誤りを生成
• 訓練データ増加
− モデル構築に必要なリソース増加（GPUの数, 訓練時間…etc.）
− 2pt性能を上げるために約60M文対以上増やす必要 [Kiyono+2019]
Figure from [Kiyono+2019]

Q: 訂正に必要な文法知識を汎化できてる？
3
文法規則に基づく誤り（例: 主語と動詞の一致誤り）
Every dog [run → runs] quickly
文法規則に基づかない誤り（例: コロケーション誤り）
I listen [in → to] his speech carefully
文法規則に基づく誤り：
• 汎化できている場合→ 大量のデータを必要としない可能性
• 汎化できていない場合→ ルールに基づく手法との組み合わせといった
改善が必要
• GECが対象とする誤りは2種類ある
丸暗記する必要あり
文法規則さえわかれば
丸暗記する必要ない

本研究の概要
4
目的:
モデルが訂正に必要な文法知識を汎化しているか調査
調査方針:
未知の誤りに対するモデルの汎化性能を評価
文法知識を汎化させて
未知の誤りを訂正できるか
例: 主語と動詞の一致誤り
学習データ
Every cat [*smile → smiles] awkwardly
評価データ
Every dog [*run → runs] quickly
学習データに含まれない訂正パターン

関連研究
5
• 言語モデルが自然言語の文法性を獲得しているかに
関する分析[Linzen+2016],[Gulordava+2018]
The farmer *smile/smiles
! smiles The, farmer) > !(∗smile | The, farmer) ??
先行研究:
• 言語モデルを題材に正しい文と非文の識別（検出）能力に関する文法性を評価
• ほとんどが人工データのみで検証
本研究:
• GECモデルを題材に誤りの検出だけでなく訂正能力に関する文法性を評価
− GEC: 言語モデル + 翻訳モデル（訂正パターン）の合わせ技
• 人工データおよび実データの両設定で検証し，文の複雑さと性能の関係を分析

提案手法
6
• 学習・評価セットの誤り箇所に現れる語彙を制御したデータセット
を自動構築
• 既知の誤りを訂正した場合の性能（既知の語彙設定）と同じ誤りタ
イプの未知の誤りを訂正した場合の性能（未知の語彙設定）を比較
学習データ:
評価データ 1:
(既知の語彙設定)
Every polite cow *smile / smiles awkwardly
評価データ 2:
(未知の語彙設定)
Every white fox *run / runs quickly
Every dog *run / runs quickly
That slimy duck smiles awkwardly
Some slimy cows smile dramatically (無編集⽂対)
(無編集⽂対)
② 語彙制御
① 訂正パターン制御

2種類のデータセット：人工データと実データ
7
人工データ実データ
構築方法
文脈自由文法（CFG）
を用いて合成
学習者コーパスから
サンプリング
① 訂正パターン制御 ✔ ✔
② 語彙制御 ✔
• ERRANT[Bryant+,2017]の誤りタイプのうち，文法規則
に基づく5タイプの誤りを対象に構築
− 主語と動詞の一致誤り（VERB:SVA）
− 動詞の態誤り（VERB:FORM）
− 語順誤り（WO）
− 形態素誤り（MORPH）
− 名詞の単複誤り（NOUN:NUM）
補助的な設定

CFGによる人工データ構築
8
• WO以外：各誤りタイプを含
むCFG規則と，正しいCFG規
則の2種類を用意して文を生
成し，誤り訂正ペアを作成
• WO：正しいCFG規則で生成
した文に対し，ランダムな位
置で順番を入れ替えて誤り訂
正ペアを作成
作成したCFG規則（抜粋）

学習者コーパスを用いた実データ構築
9
1. ERRANTを用いて誤りタイプおよび訂正パターンを自動付与
2. 一文一誤りになるようにデータを分割
3. データ全体で訂正パターンに基づいてソートし，パターンに重複
があるものを学習，重複のないものを評価にし未知の語彙設定を構築
Alison [go → goes] to a bus stop and she [waiting → waits] for a bus .
Alison go to a bus stop and she [waiting → waits] for a bus .
Alison [go → goes] to a bus stop and she waiting for a bus .
VERB:SVA VERB:FORM
VERB:SVA
VERB:FORM

自動構築した誤り訂正ペアデータ例
10
1
VERB:SVA Every white dog *run/runs quickly My mother and father *is/are really an affectionate couple
VERB:FORM Some white dogs *running/ran quickly I am interested in *work/working with you
WO *White every/Every white dog ran quickly I’ve never seen it *before like this/like this before
MORPH Some white dogs ran *quick/quickly We have a good *relation/relationship , she is my main friend
NOUN:NUM Every *dogs/dog ran You know that I love action *film/films like this
Every dog *smile/smiles awkwardly
smiles
Bryant [9]
VERB:SVA
VERB:FORM WO
MORPH NOUN:NUM 5
人工データ：語彙や構文が制限された文
実データ：語彙および構文に多様性がある文

実験設定
11
• モデル：Transformer-big [Vaswani+2017]
• 評価尺度：ERRANT[Bryant+2017]
• データセット：自動構築した人工データおよび実データ*
− 実データ: 元データとしてBEA-train/validの結合データ約2M文対を使用
− 人工データ: 学習が十分にできるようなサイズ（各誤りタイプ毎に50K文対）
に調整
*実験に使用したデータセット詳細は論文（付録B）をご参照ください
「標準的なアーキテクチャ」

2
VERB:SVA VERB:FORM WO MORPH NOUN:NUM
99.61 99.17 99.09 98.44 97.47
46.05 56.93 84.00 29.35 65.55
Δ -53.56 -42.24 -15.09 -69.09 -31.92
87.84 86.36 74.89 87.77 83.75
6.28 6.28 9.25 3.83 12.49
Δ -81.56 -80.08 -65.64 -83.94 -71.26
GEC
1
seq2seq
fairseq [11] “Transformer big ”
3
4.2
2
WO
実験結果
12
• 人工データでは，WOを除き，未知の語彙設定で性能が大幅減少
Ø WO以外は文法知識を汎化できていない

2
99.61 99.17 99.09 98.44 97.47
46.05 56.93 84.00 29.35 65.55
Δ -53.56 -42.24 -15.09 -69.09 -31.92
87.84 86.36 74.89 87.77 83.75
6.28 6.28 9.25 3.83 12.49
Δ -81.56 -80.08 -65.64 -83.94 -71.26
GEC
1
seq2seq
fairseq [11] “Transformer big ”
3
4.2
2
WO
実験結果
13
実データでは，未知の語彙設定で全ての誤りタイプの性能が大幅減少
Ø 語彙や構文が多様な実用的な設定では，文法知識の汎化がより困難である
ことを示唆

Encoder vs. Decoder
14
Q. 文法知識の汎化失敗した要因はどこにある？
1. 誤りを検出するのに失敗（Encoder issue）
2. 誤りは検出しているが正しい単語の復元に失敗（Decoder issue）
0
20
40
60
80
100
F
0.5
訂正 (既知)
検出 (未知)
訂正 (未知)

エラー分析
15
正解: Some polite ducks smiled [awkward → awkwardly] .
予測: Some polite ducks smiled [awkward → smoothly] .
例: MORPH（未知の語彙設定）
副詞（+ ly）に修正する
ルールは学習できている
単語/フレーズ頻度
awkwardly 366回
smoothly 365回
smiled awkwardly 65回
smiled smoothly 89回
訓練データにおける頻度
Decoder側の言語モデル
によって選択された可能性

0
20
40
60
80
100
F
0.5
訂正 (既知)
訂正 (未知)
言語モデル vs. 翻訳モデル
16
本検証設定は，翻訳モデル（i.e. 訂正パターン）が訂正性能にどのくらい貢
献しているかの一種のアブレーション実験とみなせる
− 既知設定: 言語モデル（Every dog runs）+ 翻訳モデル（ *run→runs ）
− 未知設定: 言語モデル
Ø 言語モデルは語順に頑健という既存研究と整合性のある結果
[Futrell and Levy, 2019]
WOは言語モデルだけで
ある程度解けている

文の複雑さと性能の関係
17
ノイズなしノイズあり
VERB:SVA 9.95 5.78
VERB:FORM 12.33 5.47
WO 7.89 9.35
MORPH 6.32 3.90
NOUN:NUM 24.16 12.49
• 実データにおける複雑さに関与する2つの要因
1. 文のノイジーさ
2. 文の長さ
• WOは文の複雑さに対して頑健
Ø 実データにおいても相対的に汎化性能が高かった理由と考えられる
WOの性能は文の
長さに依存しない
WOの性能は文のノイ
ジーさに依存しない
一文中に誤りが
1つ含まれるケース
一文中に誤りが2つ
以上含まれるケース

まとめ
18
• 現行のGECモデルが訂正に必要な文法知識をどの程度汎化
できているかについて調査
• 実験の結果，語順誤りを除き，語彙および構文が単純な設
定でさえも文法知識を汎化できていないことを確認
• 大量の訓練データを必要としない軽量なモデルを実現する
ためには，ルールに基づく手法との組み合わせといった改
善が必要であることが示唆

文法誤り訂正モデルは訂正に必要な文法を学習しているか（NLP2021）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 文法誤り訂正モデルは訂正に必要な文法を学習しているか（NLP2021）

Similar to 文法誤り訂正モデルは訂正に必要な文法を学習しているか（NLP2021） (13)

文法誤り訂正モデルは訂正に必要な文法を学習しているか（NLP2021）