More Related Content Similar to 2012/08/06 annotation WS Similar to 2012/08/06 annotation WS (14) 2012/08/06 annotation WS3. 言語コーパスを利用した研究
アノテーションのないコーパス利用
• 言語学
– コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、
言語の運用実態を分析する
• 言語処理
– 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す
る
アノテーションがないコーパスによる研究形態には限界がある
アノテーション: コーパスに付与する各種言語情報
メタデータ
文境界・語境界・形態論情報(品詞、活用)・文節境界
固有表現、属性-属性値、評価表現、事象のモダリティ
統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
省略、共参照、事象の時間的順序関係、因果関係
2012/08/05 テキストアノテーションWS at NII 3
4. 言語コーパスを利用した研究
アノテーションのあるコーパス利用
• 言語学
– コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、
言語の運用実態を分析する
– アノテーションを手掛かりとして、分析対象を絞り込んで調査することができ
る
• 言語処理
– 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す
る
– 構造学習(識別モデル)などを利用して、アノテーションを再現することによ
り言語解析器を実現することができる
アノテーション: コーパスに付与する各種言語情報
メタデータ
文境界・語境界・形態論情報(品詞、活用)・文節境界
固有表現、属性-属性値、評価表現、事象のモダリティ
統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
省略、共参照、事象の時間的順序関係、因果関係
2012/08/05 テキストアノテーションWS at NII 4
5. アノテーションの誤りと揺れの存在
アノテーションの利用者の立場
• 言語学
– 言語の運用実態を分析する上での典拠となるアノテーション
正しく一貫して付与されていることを求める
• 言語処理
– 学習用訓練データや、評価用ベンチマークデータとなるアノテーショ
ン
正しく一貫して付与されていることを求める
アノテーションの生産者の立場
• 誤り: 作業マニュアル・言語テストの整備、作業環境の整備、作
業者を訓練することにより、できる限り誤りが入らないようにする
• 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定
することにより、一意にアノテーションができるようにする
このようなノウハウは ISO/TC37/SC4 language resource management で情報共有
されており MAF, LAF, SynAF, SemAF, PISA などが公開されている
2012/08/05 テキストアノテーションWS at NII 5
6. コーパスとアノテーションの関係
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
Text
productive
Writer
2012/08/05 テキストアノテーションWS at NII 6
7. コーパスとアノテーションの関係
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による
Annotation
Annotation
Text
productive receptive
Writer Reader
2012/08/05 テキストアノテーションWS at NII 7
8. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による
Annotation
Annotation
Text
productive receptive
① 書き手と読み手が
Writer 言語規範を
Reader
共有しているとは限らない
2012/08/05 テキストアノテーションWS at NII 8
9. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による
Annotation
②書き手が常に言語規
範どおりの処理を行っ Annotation
ているわけでもない
Text
productive receptive
① 書き手と読み手が
Writer 言語規範を
Reader
共有しているとは限らない
2012/08/05 テキストアノテーションWS at NII 9
10. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による
Annotation
②書き手が常に言語規 ③読み手が常に言語規
範どおりの処理を行っ Annotation 範どおりの処理を行っ
ているわけでもない ているわけでもない
Text
productive receptive
① 書き手と読み手が
Writer 言語規範を Reader
共有しているとは限らない
2012/08/05 テキストアノテーションWS at NII 10
11. アノテーションの誤りと揺れの原因を探る
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による
Annotation
Annotation 3
Annotation 2
②書き手が常に言語規 ③読み手が常に言語規
範どおりの処理を行っ Annotation 1 範どおりの処理を行っ
ているわけでもない ているわけでもない
Text
productive receptive
① 書き手と読み手が
Writer 言語規範を Reader1 Reader2 Reader3
共有しているとは限らない
④ 複数の読み手が言語規範を
2012/08/05 テキストアノテーションWS at NII 11
共有しているとは限らない
12. アノテーションの誤りや揺れをまず認める
次に何をするか
• アノテーションのないコーパス
– 書き手(Writer) による生成過程(productive process)による Text
• アノテーション
– 読み手(Reader) による受容過程(receptive process)による
Annotation
アノテーションの誤りや揺れの原因:まとめ
① 書き手と読み手が言語規範を共有しているとは限らない
② 書き手が常に言語規範どおりの処理を行っているわけでもない
③ 読み手が常に言語規範どおりの処理を行っているわけでもない
④ 複数の読み手が言語規範を共有しているとは限らない
定量的に「誤りやすさ」や「揺れやすさ」を評価する
2012/08/05 テキストアノテーションWS at NII 12
13. アノテーションの誤りと揺れの定量的な評価
過去に行ったこと
以下では、主に統語論情報(係り受け)レベルのアノテーションについて、
誤りと揺れの定量的な評価を試みたものを示す
1. BCCWJの係り受けアノテーション作業の作業者間の揺れの評価
BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、
自動解析器により係り受け構造の付与したものを修正している。
評価しているものは「先行工程の誤りを検出できるか否か」
2. ゲームによる係り受けアノテーションの揺れの評価
係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作
成し、全く係り受けアノテーションがない文を複数人にアノテーションさせる
心理言語学実験で用いられる作例を正解率や反応時間を測定する
– 中間埋め込み文に基づくガーデンパス文
• 一意の構造を持つもの (誤りを評価)
• 複数の可能な構造を持つもの (揺れを評価)
アノテーション基準を示しコーパス全体に網羅的に評価することが困難
2012/08/05 テキストアノテーションWS at NII 13
14. 私が実施したいこと
心理言語学的な実験結果をコーパスに付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がと
れている最小集合 (約30万語)」 に、心理言語実験の一次
情報(読解速度など)を網羅的に付与する
⇒先行研究:Dundee Eye Tracking Corpus [Kennedy+ 2003]
• 英語、フランス語を対象
• 10人の母語話者の視線走査情報を収録
• 新聞社説 20 ファイル (5行 40 画面)
• 研究用途に一次情報が配布されている
(Kennedy 氏の web ページより)
2012/08/05 テキストアノテーションWS at NII 14
15. 私が実施したいこと
心理言語学的な実験結果をコーパスに付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最小
集合 (約30万語)」 に、心理言語学的な実験結果(一次情報:読解速
度)を網羅的に付与する
自己ペース読文法
視線走査法
アノテーショ
ン
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2学習者 L1学習者
BCCWJ
教科書コーパス
2012/08/05 テキストアノテーションWS at NII 15
16. アノテーション方法
• 読文速度の取得
– 視線走査装置を利用した読文速度の取得
– 自己ペース読文法による読文速度の取得
• 被験者の情報取得
– アンケート
– 語彙数推定
– ワーキングメモリ容量推定
2012/08/05 テキストアノテーションWS at NII 16
17. アノテーション方法
視線走査装置を利用した読文速度の取得
• 視線走査装置
– Eyelink CL
• NINJAL と NII に1台ずつ調達ずみ
• BCCWJ から適切なサンプルを抽出し、被験者実
験を行う
• 被験者の眼球運動から読文速度を取得する
2012/08/05 テキストアノテーションWS at NII 17
18. アノテーション方法
視線走査装置を利用した読文速度の取得
• 文字単位に Interest Area を設定
2012/08/05 テキストアノテーションWS at NII 18
19. アノテーション方法
視線走査装置を利用した読文速度の取得
• 停留箇所の出力
2012/08/05 テキストアノテーションWS at NII 19
20. アノテーション方法
視線走査装置を利用した読文速度の取得
• サッケードの出力
2012/08/05 テキストアノテーションWS at NII 20
21. アノテーション方法
視線走査装置を利用した読文速度の取得
• BCCWJ の各単位との重ね合わせ
– 文字単位、短単位、文節単位の分析が可能
2012/08/05 テキストアノテーションWS at NII 21
22. アノテーション方法
自己ペース読文法による読文速度の取得
• 視線走査を用いない、安価な機器で可能な実験方法
• 被験者がスペースキーを
おしながら文字列を表示
させ、順に読んでいく
• 後戻りはできない
• 英語では視線走査法との
相関が示されているが、
日本語では示されていない
(単位を考慮するべき)
• 本研究では最適な単位を実験により調査する
2012/08/05 テキストアノテーションWS at NII 22
23. アノテーション方法
読文に際しての課題
• 被験者がきちんと文を読んでいるかを確認するために課
題を課す
– 文の内容を問う問題
– 単語の有無を問う問題
2012/08/05 テキストアノテーションWS at NII 23
24. アノテーション方法
被験者の情報取得
• 読文速度に顕著な差異が出た場合の原因究明
– 被験者の語彙数によるものか
– 被験者のワーキングメモリ容量によるものか
• 以下の被験者に対する調査を行う
– アンケート
言語形成地・年齢・性別・最終学歴(学部・専
攻)・学年(L1言語学習者)・母語(L2言語学習者)
– 語彙数推定
– ワーキングメモリ容量推定
2012/08/05 テキストアノテーションWS at NII 24
25. アノテーション方法
被験者の情報取得~語彙数推定
単語親密度に基づく語彙数推定実験「百羅漢」[天野+ 2003]
– 50語提示して、単語を知っているか否かを答えてもらう
– 単語親密度順に並べ、連続2語「知らない」と答えた部分をもっ
て語彙数を推定する
2012/08/05 テキストアノテーションWS at NII 25
27. アノテーション方法
まとめ
• 読文速度の取得(一次情報の取得)
– 視線走査装置を利用した読文速度の取得
機材は調達ずみ (NINJAL 1 台, NII 1 台)
利用経験のある研究者の協力を得て、実験方法を確立する
– 自己ペース読文法による読文速度の取得
英語では視線走査法との相関が示されている [Just+ 1982]
日本語では視線走査法との相関が自明ではないので、さまざまな単位で評価する
• 被験者の情報取得(読み手側の情報)
– アンケート
言語形成地・年齢・性別・最終学歴(学部・専攻)・学年(L1言語学習者)・母語(L2言語
学習者)
– 語彙数推定
「百羅漢」 [天野 2003]
– ワーキングメモリ容量推定
リーディングスパンテスト [苧坂 2002]
2012/08/05 テキストアノテーションWS at NII 27
28. 自己ペース読文法
視線走査法
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
BCCWJ
教科書コーパス
目的:
• BCCWJ コアデータのアノテーションが誤りやすい部分の検出
• 読み手をプロファイルした時空間的な分析
• 言語教育に資する適切なリーダビリティ評価
• 言語政策に資する言語現象の難易度評価
• 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共
有化し、心理言語学の実験結果の信頼性をサポート
• 言語処理、特に言語解析器の訓練データやデザインに利用
• 文脈ありと文脈なしでの差分
2012/08/05 テキストアノテーションWS at NII 28
29. 自己ペース読文法
視線走査法
アノテーション
BCCWJ コアデータ
(約 100万語)
誤り検出 心理言語学で利
用される作例 大人 L2 L1
ゆれ検出 BCCWJ
教科書コーパス
目的: BCCWJ コアデータのアノテーションが誤りやすい部分の検出
視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情
報を網羅的に付与し、文読解に負担がかかる文を同定する
• 文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する
• 文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する
2012/08/05 テキストアノテーションWS at NII 29
30. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
書き手の 用される作例 大人 L2 L1
プロファイル BCCWJ 読み手の
教科書コーパス
プロファイル
目的: 読み手をプロファイルした時空間的な分析
読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述され
たプロファイルと比較調査する
• 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調
査する
• プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らか
にする
2012/08/05 テキストアノテーションWS at NII 30
31. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
共通ベンチマー 言語学習者の
BCCWJ
ク 教科書コーパス
一次データ
目的: 言語教育に資する適切なリーダビリティ評価
BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者
のデータを収集する
• 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する
• 何が読みにくいテキスト足らしめているのかを各種アノテーションをもとに明
らかにする
2012/08/05 テキストアノテーションWS at NII 31
32. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
共通ベンチマー 言語学習者の
BCCWJ
ク 教科書コーパス
一次データ
目的: 言語政策に資する言語現象の難易度評価
教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集す
る
• 教科書コーパスの難易度(文字・語彙)の妥当性を検証する
2012/08/05 テキストアノテーションWS at NII 32
33. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
作例と均衡コーパ
BCCWJ
スの対比 教科書コーパス
目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有
化し、心理言語学の実験結果の信頼性をサポート
心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ)
と混ぜて、再実験を行い、心理言語実験結果の信頼性をサポートする
2012/08/05 テキストアノテーションWS at NII 33
34. 自己ペースリーディング
人の動作を
機械に組み込む 視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
BCCWJ
教科書コーパス
目的: 言語処理、特に言語解析器の訓練データやデザインに利用
• 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習)
• 人間の読解情報に基づく特徴量デザインの再検討
• 人間の読解情報に基づくアルゴリズムデザインの再検討
2012/08/05 テキストアノテーションWS at NII 34
35. 自己ペースリーディング
視線走査
アノテーション
BCCWJ コアデータ
(約 100万語)
心理言語学で利
文脈の有無による 用される作例 大人 L2 L1
対比
BCCWJ
教科書コーパス
目的: 文脈ありと文脈なしでの差分分析
文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、
差分から文間の関係認識が必要な個所を同定する
• 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要
2012/08/05 テキストアノテーションWS at NII 35
36. 私が実施したいこと [再掲]
心理言語学的な実験結果をコーパス全体に付与す
る
アノテーションの誤りや揺れの原因:まとめ
① 書き手と読み手が言語規範を共有しているとは限らない
② 書き手が常に言語規範どおりの処理を行っているわけでもない
③ 読み手が常に言語規範どおりの処理を行っているわけでもない
④ 複数の読み手が言語規範を共有しているとは限らない
自己ペース読文法
視線走査 読み手の
心理言語実験 言語規範の
書き手の アノテーション 1次情報 モデル化
言語規範の
モデル化 BCCWJ コアデータ
(約 100万語)
心理言語学で利
用される作例 大人 L2 L1
BCCWJ
教科書コーパス
2012/08/05 テキストアノテーションWS at NII 36
37. おわりに
言語の受容過程の記録として読文速度・視線情報アノテーション
• 心理言語実験手法に基づくアノテーション
– 視線走査法
– 自己ペース読文法
– 被験者を多角的に評価
• アンケート・語彙数・ワーキングメモリ容量
• 利用目的
– BCCWJ コアデータのアノテーションが誤りやすい部分の検出
– 読み手をプロファイルした時空間的な分析
– 言語教育に資する適切なリーダビリティ評価
– 言語政策に資する言語現象の難易度評価
– 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、
共有化し、心理言語学の実験結果の信頼性をサポート
– 言語処理、特に言語解析器の訓練データやデザインに利用
– 文脈ありと文脈なしでの差分
2012/08/05 テキストアノテーションWS at NII 37