多言語統語・意味情報コーパス
Parallel Meaning Bank
日本語版の構築
谷中 瞳、峯島 宏次、山田 彬尭、山口 悠、
窪田 悠介、Lasha Abzianidze、Johan Bos
1
Parallel Meaning Bank[Abzianidze, 2000]とは
● 統語・意味解析情報つき多言語・多ジャンルコーパス
● 組合せ範疇文法(Combinatory Categorial Grammar,
CCG) [Steedman, 2000]に基づく統語解析結果
● 談話表示理論 (Discourse Representation Theory, DRT)
[Kamp and Reyle, 2000]に基づく意味解析情報
● 言語処理と言語学研究の双方に貢献
2
https://pmb.let.rug.nl/
研究目的
● Ver. 2.2.0までは英語・オランダ語・ドイツ語・
イタリア語の計4ヶ国語を対象言語としており、
西洋圏外の言語は含まれていなかった
● 現在では、アジア言語として日本語と中国語の2ヶ国語
をPMBコーパスに追加する試みが行われている
● 今回は日本語版の構築方針と進捗状況を報告
3
PMBのアノテーションパイプライン
4
(1)CCG構文解析器を軸とした自動アノテーション
(2)人手による修正・追加情報 (Bits of Wisdom, BoW)
                  を組み合わせて付与
自動アノテーション:Bits of Wisdom(BoW)
・Bits of Wisdom:人手による追加・修正情報
・自動付与されたアノテーション情報の大部分は、
 PMB Explorer(https://pmb.let.rug.nl/)上で編集可能
・BoWを用いて各プロセスの言語解析モデルの再学習を
 定期的に行い、自動アノテーションの高精度化を図る
5
PMBのアノテーションパイプライン
6
(1)トークン化
自動アノテーション(1)トークン化
・複単語表現 (MWE)を1つのトークンとして扱うことで、
 意味合成時の語彙情報のマッピングを容易にする
・日本語Universal Dependenciesコーパスで学習した
 UDpipeによる自動解析結果で自動付与+BoW
7
PMBのアノテーションパイプライン
8
(2)単語アラインメント
自動アノテーション(2)単語アラインメント
・語彙情報:意味現象タグ(現在76種)、DRSに現れる述
語、語義タグ(WordNet synset)、意味役割タグ(VerbNet)
・GIZA++[Och and Ney, 2003]による単語間アラインメントに
 基づき、英語から他言語へ自動付与
9
PMBのアノテーションパイプライン
10
(3)CCG構文解析
自動アノテーション(3)CCG構文解析
・単語の統語範疇と少数の組合せ規則に基づき、
 文の統語構造から意味表現へ簡潔なマッピングを実現
・Supertagging:depccg[Yoshikawa, 2017]の自動解析結果+BoW
・CCG構文解析器:日本語独自のタイプ変換規則を
 EasyCCG[Lewis and Steedman, 2014]に追加し文の導出木を自動付与
11
自動アノテーション(3)CCG構文解析
・CCG構文解析器:日本語独自のタイプ変換規則を
 EasyCCG[Lewis and Steedman, 2014]に追加し文の導出木を自動付与
12
PMBのアノテーションパイプライン
13
(4)意味合成
自動アノテーション(4)意味合成
・自動的に割り当てられた単語の意味表示から
 ラムダ計算に基づく意味合成によって
 談話表示構造(DRS)に基づく文の意味表示を自動で導出
・多言語に対応した意味解析器Boxer[Bos, 2015]を使用
14
日本語のアノテーション例
15
日本語のアノテーション例:文の意味表示
16
PMBの統計情報(2020/02/12現在)
17
文 トークン BoW
英 334,529 3,324,139 322,996
独 221,224 2,336,565 14,252
蘭 124,479 955,094 10,520
伊 48,497 462,551 8,878
中 45,111 338,250 2,047
日 91,687 955,686 5,247
Gold Silver Bronze
トークン 英 22,990 5,365 274,854
日 1,418 18 88,586
意味現象
タグ
英 13,039 105,818 184,352
日 296 187 89,554
CCG
統語範疇
英 10,104 4,441 288,655
日 175 199 89,664
日本語固有の問題点(1)表出的意味
例: 彼は日曜日にはいつもゴルフをします。(00/0843)
例: お兄さんが結婚なさったのですね。 (20/1850)
● 英語などでは明示的に表現されない意味要素を表す
● 対応する意味タグがない
● 意味タグの拡張をどのような基準で行う?
一般性と網羅性の兼ね合い
● (理論的な問題:) 構成的な意味表示を組み上げる際に、
「表出的意味」は真理条件的意味とは分けて扱う必要
がある[Potts, 2003]
18
日本語固有の問題点(2)呼応表現
例: ひょっとして彼女は答えを知っているのかもしれない。
  (12/0785)
● PMBの意味タグは原則、意味要素と単語の一対一対応を
前提としている
● 「ひょっとして」と「かもしれない」のどちらに
認識的モーダルの意味を担わせるか?
● 以下のどちらも言えることに注意:
 ひょっとすると彼女は答えを知っている。
 彼女は答えを知っているのかもしれない。
19
関連する言語資源との比較
NPCMJ/Treebank Semantics (TBS) [Butler, 2015]
共通点:
● PMBもTBSも文の論理意味表示を組み上げる
パイプライン処理システム
● ともにDRTに基づいた意味表示を出力として出す
相違点:
● PMBはTBSに比べて構成的意味論が標準的
- CCG構文木からλ計算により一意に文全体の意味表示が決まる
● 自動処理とシームレスに統合されたアノテーション環境
20
まとめと今後の展望
● 多言語統語・意味情報コーパスParallel Meaning Bank
日本語版の構築方針と進捗状況を報告
● PMBの有用性
○ PMBの統語情報・意味情報を用いた自然言語処理:
多言語モデルの学習改善[Abdou+2018][Yanaka+2019]
機械翻訳の品質評価[Belinkov+2017]
○ 言語学:
Meaning Bank構築 = 構成的意味論の実証的検証
形式意味論、語彙意味論研究のための多言語データベース
21
ありがとうございました!
https://pmb.let.rug.nl/
hitomi.yanaka@riken.jp

多言語統語・意味情報コーパスParallel Meaning Bank日本語版の構築