SlideShare a Scribd company logo
1 of 37
Download to read offline
『現代日本語書き言葉均衡コーパス』に対する
 読文時間・視線情報アノテーションに向けて

           浅原      正幸                      狩野      芳伸
          国立国語研究所                        科学技術振興機構


            小野      創                      植田      禎子
             近畿大学                  日本システムアプリケーション




National Institute for Japanese Language and Linguistics
Center for Corpus Development
はじめに~研究内容~
均衡コーパスに読文時間を付与します




 2012/08/05   テキストアノテーションWS at NII   2
言語コーパスを利用した研究
            アノテーションのないコーパス利用
•   言語学
    – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、
      言語の運用実態を分析する
•   言語処理
    – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す
      る


    アノテーションがないコーパスによる研究形態には限界がある


アノテーション:          コーパスに付与する各種言語情報
         メタデータ
         文境界・語境界・形態論情報(品詞、活用)・文節境界
         固有表現、属性-属性値、評価表現、事象のモダリティ
         統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
         省略、共参照、事象の時間的順序関係、因果関係

     2012/08/05       テキストアノテーションWS at NII   3
言語コーパスを利用した研究
            アノテーションのあるコーパス利用
•   言語学
    – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、
      言語の運用実態を分析する
    – アノテーションを手掛かりとして、分析対象を絞り込んで調査することができ
      る
•   言語処理
    – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す
      る
    – 構造学習(識別モデル)などを利用して、アノテーションを再現することによ
      り言語解析器を実現することができる

アノテーション:          コーパスに付与する各種言語情報
         メタデータ
         文境界・語境界・形態論情報(品詞、活用)・文節境界
         固有表現、属性-属性値、評価表現、事象のモダリティ
         統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格)
         省略、共参照、事象の時間的順序関係、因果関係

     2012/08/05       テキストアノテーションWS at NII   4
アノテーションの誤りと揺れの存在


アノテーションの利用者の立場
• 言語学
    – 言語の運用実態を分析する上での典拠となるアノテーション
       正しく一貫して付与されていることを求める
•   言語処理
    – 学習用訓練データや、評価用ベンチマークデータとなるアノテーショ
      ン
       正しく一貫して付与されていることを求める

 アノテーションの生産者の立場
• 誤り: 作業マニュアル・言語テストの整備、作業環境の整備、作
  業者を訓練することにより、できる限り誤りが入らないようにする
• 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定
  することにより、一意にアノテーションができるようにする
    このようなノウハウは ISO/TC37/SC4 language resource management で情報共有
       されており MAF, LAF, SynAF, SemAF, PISA などが公開されている
    2012/08/05       テキストアノテーションWS at NII                    5
コーパスとアノテーションの関係


•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text




                           Text
       productive



       Writer


    2012/08/05       テキストアノテーションWS at NII               6
コーパスとアノテーションの関係


•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text
•   アノテーション
    – 読み手(Reader) による受容過程(receptive process)による
      Annotation



                        Annotation
                           Text
       productive                           receptive



       Writer                               Reader


    2012/08/05       テキストアノテーションWS at NII               7
アノテーションの誤りと揺れの原因を探る


•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text
•   アノテーション
    – 読み手(Reader) による受容過程(receptive process)による
      Annotation



                       Annotation
                          Text
       productive                           receptive


                     ① 書き手と読み手が
       Writer           言語規範を
                                           Reader
                    共有しているとは限らない

    2012/08/05      テキストアノテーションWS at NII                8
アノテーションの誤りと揺れの原因を探る


•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text
•   アノテーション
    – 読み手(Reader) による受容過程(receptive process)による
      Annotation


    ②書き手が常に言語規
    範どおりの処理を行っ         Annotation
     ているわけでもない
                          Text
       productive                           receptive



                     ① 書き手と読み手が
       Writer           言語規範を
                                           Reader
                    共有しているとは限らない

    2012/08/05      テキストアノテーションWS at NII                9
アノテーションの誤りと揺れの原因を探る


•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text
•   アノテーション
    – 読み手(Reader) による受容過程(receptive process)による
      Annotation


    ②書き手が常に言語規                             ③読み手が常に言語規
    範どおりの処理を行っ         Annotation          範どおりの処理を行っ
     ているわけでもない                              ているわけでもない
                          Text
       productive                             receptive


                     ① 書き手と読み手が
       Writer           言語規範を               Reader
                    共有しているとは限らない


    2012/08/05      テキストアノテーションWS at NII                  10
アノテーションの誤りと揺れの原因を探る


•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text
•   アノテーション
    – 読み手(Reader) による受容過程(receptive process)による
      Annotation
                       Annotation 3
                       Annotation 2
    ②書き手が常に言語規                              ③読み手が常に言語規
    範どおりの処理を行っ         Annotation 1         範どおりの処理を行っ
     ているわけでもない                               ているわけでもない
                          Text
       productive                                receptive


                     ① 書き手と読み手が
        Writer          言語規範を              Reader1   Reader2   Reader3
                    共有しているとは限らない

                                              ④ 複数の読み手が言語規範を
    2012/08/05      テキストアノテーションWS at NII                     11
                                               共有しているとは限らない
アノテーションの誤りや揺れをまず認める
           次に何をするか
•   アノテーションのないコーパス
    – 書き手(Writer) による生成過程(productive process)による Text
•   アノテーション
    – 読み手(Reader) による受容過程(receptive process)による
      Annotation

アノテーションの誤りや揺れの原因:まとめ
①   書き手と読み手が言語規範を共有しているとは限らない
②   書き手が常に言語規範どおりの処理を行っているわけでもない
③   読み手が常に言語規範どおりの処理を行っているわけでもない
④   複数の読み手が言語規範を共有しているとは限らない


    定量的に「誤りやすさ」や「揺れやすさ」を評価する

     2012/08/05     テキストアノテーションWS at NII                12
アノテーションの誤りと揺れの定量的な評価
           過去に行ったこと
以下では、主に統語論情報(係り受け)レベルのアノテーションについて、
誤りと揺れの定量的な評価を試みたものを示す

1.   BCCWJの係り受けアノテーション作業の作業者間の揺れの評価
     BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、
     自動解析器により係り受け構造の付与したものを修正している。
     評価しているものは「先行工程の誤りを検出できるか否か」

2.   ゲームによる係り受けアノテーションの揺れの評価
     係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作
     成し、全く係り受けアノテーションがない文を複数人にアノテーションさせる
     心理言語学実験で用いられる作例を正解率や反応時間を測定する
     – 中間埋め込み文に基づくガーデンパス文
         •   一意の構造を持つもの (誤りを評価)
         •   複数の可能な構造を持つもの (揺れを評価)
     アノテーション基準を示しコーパス全体に網羅的に評価することが困難



     2012/08/05          テキストアノテーションWS at NII       13
私が実施したいこと
    心理言語学的な実験結果をコーパスに付与する

「BCCWJ コアデータ (約100万語)」 もしくは「均衡がと
れている最小集合 (約30万語)」 に、心理言語実験の一次
情報(読解速度など)を網羅的に付与する

⇒先行研究:Dundee Eye Tracking Corpus [Kennedy+ 2003]
•   英語、フランス語を対象
•   10人の母語話者の視線走査情報を収録
•   新聞社説 20 ファイル (5行 40 画面)
•   研究用途に一次情報が配布されている



                  (Kennedy 氏の web ページより)
     2012/08/05        テキストアノテーションWS at NII        14
私が実施したいこと
 心理言語学的な実験結果をコーパスに付与する
「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最小
集合 (約30万語)」 に、心理言語学的な実験結果(一次情報:読解速
度)を網羅的に付与する
                                                 自己ペース読文法

                                 視線走査法
 アノテーショ
    ン
       BCCWJ コアデータ
         (約 100万語)


               心理言語学で利
                用される作例          大人      L2学習者   L1学習者
                 BCCWJ
               教科書コーパス


  2012/08/05             テキストアノテーションWS at NII           15
アノテーション方法
• 読文速度の取得
 – 視線走査装置を利用した読文速度の取得
 – 自己ペース読文法による読文速度の取得


• 被験者の情報取得
 – アンケート
 – 語彙数推定
 – ワーキングメモリ容量推定

 2012/08/05     テキストアノテーションWS at NII   16
アノテーション方法
    視線走査装置を利用した読文速度の取得

• 視線走査装置
 – Eyelink CL
     • NINJAL と NII に1台ずつ調達ずみ


• BCCWJ から適切なサンプルを抽出し、被験者実
  験を行う
• 被験者の眼球運動から読文速度を取得する



 2012/08/05     テキストアノテーションWS at NII   17
アノテーション方法
     視線走査装置を利用した読文速度の取得

• 文字単位に Interest Area を設定




  2012/08/05    テキストアノテーションWS at NII   18
アノテーション方法
    視線走査装置を利用した読文速度の取得

• 停留箇所の出力




 2012/08/05    テキストアノテーションWS at NII   19
アノテーション方法
    視線走査装置を利用した読文速度の取得

• サッケードの出力




 2012/08/05    テキストアノテーションWS at NII   20
アノテーション方法
    視線走査装置を利用した読文速度の取得

• BCCWJ の各単位との重ね合わせ
 – 文字単位、短単位、文節単位の分析が可能




 2012/08/05    テキストアノテーションWS at NII   21
アノテーション方法
    自己ペース読文法による読文速度の取得

• 視線走査を用いない、安価な機器で可能な実験方法
• 被験者がスペースキーを
  おしながら文字列を表示
  させ、順に読んでいく
• 後戻りはできない
• 英語では視線走査法との
  相関が示されているが、
  日本語では示されていない
  (単位を考慮するべき)
• 本研究では最適な単位を実験により調査する

 2012/08/05    テキストアノテーションWS at NII   22
アノテーション方法
              読文に際しての課題

• 被験者がきちんと文を読んでいるかを確認するために課
  題を課す
 – 文の内容を問う問題
 – 単語の有無を問う問題




 2012/08/05    テキストアノテーションWS at NII   23
アノテーション方法
              被験者の情報取得

• 読文速度に顕著な差異が出た場合の原因究明
 – 被験者の語彙数によるものか
 – 被験者のワーキングメモリ容量によるものか


• 以下の被験者に対する調査を行う
 – アンケート
   言語形成地・年齢・性別・最終学歴(学部・専
   攻)・学年(L1言語学習者)・母語(L2言語学習者)
 – 語彙数推定
 – ワーキングメモリ容量推定

 2012/08/05    テキストアノテーションWS at NII   24
アノテーション方法
               被験者の情報取得~語彙数推定

単語親密度に基づく語彙数推定実験「百羅漢」[天野+ 2003]
 – 50語提示して、単語を知っているか否かを答えてもらう
 – 単語親密度順に並べ、連続2語「知らない」と答えた部分をもっ
   て語彙数を推定する




  2012/08/05      テキストアノテーションWS at NII   25
アノテーション方法
 被験者の情報取得~ワーキングメモリ容量推定

• リーディングスパンテスト[苧坂 2002]
• 1か所だけ下線が引か
  れた例文を被験者に
  呈示し、音読させな
  がら、下線部単語を
  記憶してもらう
• 全ての文呈示後に、
  下線部単語を順に
  回答させる


  2012/08/05    テキストアノテーションWS at NII   26
アノテーション方法
                    まとめ
•   読文速度の取得(一次情報の取得)
    – 視線走査装置を利用した読文速度の取得
        機材は調達ずみ (NINJAL 1 台, NII 1 台)
        利用経験のある研究者の協力を得て、実験方法を確立する
    – 自己ペース読文法による読文速度の取得
        英語では視線走査法との相関が示されている [Just+ 1982]
        日本語では視線走査法との相関が自明ではないので、さまざまな単位で評価する


•   被験者の情報取得(読み手側の情報)
    – アンケート
        言語形成地・年齢・性別・最終学歴(学部・専攻)・学年(L1言語学習者)・母語(L2言語
        学習者)
    – 語彙数推定
        「百羅漢」 [天野 2003]
    – ワーキングメモリ容量推定
        リーディングスパンテスト [苧坂 2002]
    2012/08/05        テキストアノテーションWS at NII        27
自己ペース読文法


                                   視線走査法

    アノテーション

               BCCWJ コアデータ
                 (約 100万語)


                  心理言語学で利
                   用される作例          大人      L2       L1

                    BCCWJ
                  教科書コーパス




目的:
• BCCWJ コアデータのアノテーションが誤りやすい部分の検出
• 読み手をプロファイルした時空間的な分析
• 言語教育に資する適切なリーダビリティ評価
• 言語政策に資する言語現象の難易度評価
• 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共
  有化し、心理言語学の実験結果の信頼性をサポート
• 言語処理、特に言語解析器の訓練データやデザインに利用
• 文脈ありと文脈なしでの差分
  2012/08/05                 テキストアノテーションWS at NII              28
自己ペース読文法


                                      視線走査法

       アノテーション

                  BCCWJ コアデータ
                    (約 100万語)



誤り検出                 心理言語学で利
                      用される作例          大人      L2       L1
ゆれ検出                   BCCWJ
                     教科書コーパス




目的: BCCWJ コアデータのアノテーションが誤りやすい部分の検出

視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情
報を網羅的に付与し、文読解に負担がかかる文を同定する

•   文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する
•   文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する



     2012/08/05                 テキストアノテーションWS at NII              29
自己ペースリーディング


                                    視線走査

     アノテーション

                BCCWJ コアデータ
                  (約 100万語)


                   心理言語学で利
 書き手の               用される作例          大人      L2       L1

プロファイル               BCCWJ                                  読み手の
                   教科書コーパス
                                                           プロファイル

 目的: 読み手をプロファイルした時空間的な分析

 読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述され
 たプロファイルと比較調査する

 • 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調
   査する
 • プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らか
   にする
   2012/08/05                 テキストアノテーションWS at NII                 30
自己ペースリーディング


                                    視線走査

     アノテーション

                BCCWJ コアデータ
                  (約 100万語)


                   心理言語学で利
                    用される作例          大人      L2       L1
共通ベンチマー                                                    言語学習者の
                     BCCWJ
   ク               教科書コーパス
                                                            一次データ

目的: 言語教育に資する適切なリーダビリティ評価

BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者
のデータを収集する

• 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する
• 何が読みにくいテキスト足らしめているのかを各種アノテーションをもとに明
  らかにする

   2012/08/05                 テキストアノテーションWS at NII                 31
自己ペースリーディング


                                    視線走査

     アノテーション

                BCCWJ コアデータ
                  (約 100万語)


                   心理言語学で利
                    用される作例          大人      L2       L1
共通ベンチマー                                                    言語学習者の
                     BCCWJ
   ク               教科書コーパス
                                                            一次データ

目的: 言語政策に資する言語現象の難易度評価

教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集す
る

• 教科書コーパスの難易度(文字・語彙)の妥当性を検証する




   2012/08/05                 テキストアノテーションWS at NII                 32
自己ペースリーディング


                                     視線走査

      アノテーション

                 BCCWJ コアデータ
                   (約 100万語)


                    心理言語学で利
                     用される作例          大人      L2       L1
作例と均衡コーパ
                      BCCWJ
  スの対比              教科書コーパス




 目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有
 化し、心理言語学の実験結果の信頼性をサポート

 心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ)
 と混ぜて、再実験を行い、心理言語実験結果の信頼性をサポートする




    2012/08/05                 テキストアノテーションWS at NII                 33
自己ペースリーディング
         人の動作を
        機械に組み込む                    視線走査

    アノテーション

               BCCWJ コアデータ
                 (約 100万語)


                  心理言語学で利
                   用される作例          大人      L2       L1

                    BCCWJ
                  教科書コーパス




目的: 言語処理、特に言語解析器の訓練データやデザインに利用

• 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習)
• 人間の読解情報に基づく特徴量デザインの再検討
• 人間の読解情報に基づくアルゴリズムデザインの再検討




  2012/08/05                 テキストアノテーションWS at NII                 34
自己ペースリーディング


                                     視線走査

      アノテーション

                 BCCWJ コアデータ
                   (約 100万語)


                    心理言語学で利
文脈の有無による             用される作例          大人      L2       L1
   対比
                      BCCWJ
                    教科書コーパス




 目的: 文脈ありと文脈なしでの差分分析

 文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、
 差分から文間の関係認識が必要な個所を同定する

 • 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要




    2012/08/05                 テキストアノテーションWS at NII                 35
私が実施したいこと [再掲]
      心理言語学的な実験結果をコーパス全体に付与す
                 る
アノテーションの誤りや揺れの原因:まとめ
①   書き手と読み手が言語規範を共有しているとは限らない
②   書き手が常に言語規範どおりの処理を行っているわけでもない
③   読み手が常に言語規範どおりの処理を行っているわけでもない
④   複数の読み手が言語規範を共有しているとは限らない

                                                       自己ペース読文法


                                        視線走査 読み手の
                                心理言語実験         言語規範の
 書き手の      アノテーション               1次情報           モデル化
言語規範の
 モデル化         BCCWJ コアデータ
                (約 100万語)


                      心理言語学で利
                       用される作例          大人         L2   L1
                        BCCWJ
                      教科書コーパス


         2012/08/05             テキストアノテーションWS at NII              36
おわりに

言語の受容過程の記録として読文速度・視線情報アノテーション
• 心理言語実験手法に基づくアノテーション
    – 視線走査法
    – 自己ペース読文法
    – 被験者を多角的に評価
            • アンケート・語彙数・ワーキングメモリ容量
•   利用目的
    – BCCWJ コアデータのアノテーションが誤りやすい部分の検出
    – 読み手をプロファイルした時空間的な分析
    – 言語教育に資する適切なリーダビリティ評価
    – 言語政策に資する言語現象の難易度評価
    – 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、
      共有化し、心理言語学の実験結果の信頼性をサポート
    – 言語処理、特に言語解析器の訓練データやデザインに利用
    – 文脈ありと文脈なしでの差分



        2012/08/05    テキストアノテーションWS at NII   37

More Related Content

Similar to 2012/08/06 annotation WS

ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...Yusuke Oda
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentKodaira Tomonori
 
EASE クイックチェック表および その他の雑誌編集者向けリソース
EASE クイックチェック表およびその他の雑誌編集者向けリソースEASE クイックチェック表およびその他の雑誌編集者向けリソース
EASE クイックチェック表および その他の雑誌編集者向けリソースSylwiaU
 
オブジェクト指向講座
オブジェクト指向講座オブジェクト指向講座
オブジェクト指向講座Kaito Sato
 
発話自動採点システムの研究と開発
発話自動採点システムの研究と開発発話自動採点システムの研究と開発
発話自動採点システムの研究と開発早稲田大学
 
2020rindoku slide
2020rindoku slide2020rindoku slide
2020rindoku slideYukiEma1
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニングMunenori Sugimura
 
Session2:「グローバル化する情報処理」/伊藤敬彦
Session2:「グローバル化する情報処理」/伊藤敬彦Session2:「グローバル化する情報処理」/伊藤敬彦
Session2:「グローバル化する情報処理」/伊藤敬彦Preferred Networks
 

Similar to 2012/08/06 annotation WS (14)

2012 09-25-sig-ifat
2012 09-25-sig-ifat2012 09-25-sig-ifat
2012 09-25-sig-ifat
 
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
ACL Reading @NAIST: Fast and Robust Neural Network Joint Model for Statistica...
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition Building Evaluation Sets for Textual Entailment Recognition
Building Evaluation Sets for Textual Entailment Recognition
 
WordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of DocumentWordNet-Based Lexical Simplification of Document
WordNet-Based Lexical Simplification of Document
 
EASE クイックチェック表および その他の雑誌編集者向けリソース
EASE クイックチェック表およびその他の雑誌編集者向けリソースEASE クイックチェック表およびその他の雑誌編集者向けリソース
EASE クイックチェック表および その他の雑誌編集者向けリソース
 
オブジェクト指向講座
オブジェクト指向講座オブジェクト指向講座
オブジェクト指向講座
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
発話自動採点システムの研究と開発
発話自動採点システムの研究と開発発話自動採点システムの研究と開発
発話自動採点システムの研究と開発
 
2020rindoku slide
2020rindoku slide2020rindoku slide
2020rindoku slide
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニング
 
Session2:「グローバル化する情報処理」/伊藤敬彦
Session2:「グローバル化する情報処理」/伊藤敬彦Session2:「グローバル化する情報処理」/伊藤敬彦
Session2:「グローバル化する情報処理」/伊藤敬彦
 

2012/08/06 annotation WS

  • 1. 『現代日本語書き言葉均衡コーパス』に対する 読文時間・視線情報アノテーションに向けて 浅原 正幸 狩野 芳伸 国立国語研究所 科学技術振興機構 小野 創 植田 禎子 近畿大学 日本システムアプリケーション National Institute for Japanese Language and Linguistics Center for Corpus Development
  • 3. 言語コーパスを利用した研究 アノテーションのないコーパス利用 • 言語学 – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、 言語の運用実態を分析する • 言語処理 – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す る アノテーションがないコーパスによる研究形態には限界がある アノテーション: コーパスに付与する各種言語情報 メタデータ 文境界・語境界・形態論情報(品詞、活用)・文節境界 固有表現、属性-属性値、評価表現、事象のモダリティ 統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格) 省略、共参照、事象の時間的順序関係、因果関係 2012/08/05 テキストアノテーションWS at NII 3
  • 4. 言語コーパスを利用した研究 アノテーションのあるコーパス利用 • 言語学 – コーパスコンコーダンサを利用して、コーパス中の用例や頻度を手掛かりとし、 言語の運用実態を分析する – アノテーションを手掛かりとして、分析対象を絞り込んで調査することができ る • 言語処理 – 統計的機械学習(生成モデル)などを利用して、人間の言語生産過程を再現す る – 構造学習(識別モデル)などを利用して、アノテーションを再現することによ り言語解析器を実現することができる アノテーション: コーパスに付与する各種言語情報 メタデータ 文境界・語境界・形態論情報(品詞、活用)・文節境界 固有表現、属性-属性値、評価表現、事象のモダリティ 統語論情報(係り受け、句構造、並列)、意味論情報(表層格、深層格) 省略、共参照、事象の時間的順序関係、因果関係 2012/08/05 テキストアノテーションWS at NII 4
  • 5. アノテーションの誤りと揺れの存在 アノテーションの利用者の立場 • 言語学 – 言語の運用実態を分析する上での典拠となるアノテーション 正しく一貫して付与されていることを求める • 言語処理 – 学習用訓練データや、評価用ベンチマークデータとなるアノテーショ ン 正しく一貫して付与されていることを求める アノテーションの生産者の立場 • 誤り: 作業マニュアル・言語テストの整備、作業環境の整備、作 業者を訓練することにより、できる限り誤りが入らないようにする • 揺れ:本質的にあいまいな言語現象について、統制した仕様を策定 することにより、一意にアノテーションができるようにする このようなノウハウは ISO/TC37/SC4 language resource management で情報共有 されており MAF, LAF, SynAF, SemAF, PISA などが公開されている 2012/08/05 テキストアノテーションWS at NII 5
  • 6. コーパスとアノテーションの関係 • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text Text productive Writer 2012/08/05 テキストアノテーションWS at NII 6
  • 7. コーパスとアノテーションの関係 • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation Annotation Text productive receptive Writer Reader 2012/08/05 テキストアノテーションWS at NII 7
  • 8. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation Annotation Text productive receptive ① 書き手と読み手が Writer 言語規範を Reader 共有しているとは限らない 2012/08/05 テキストアノテーションWS at NII 8
  • 9. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation ②書き手が常に言語規 範どおりの処理を行っ Annotation ているわけでもない Text productive receptive ① 書き手と読み手が Writer 言語規範を Reader 共有しているとは限らない 2012/08/05 テキストアノテーションWS at NII 9
  • 10. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation ②書き手が常に言語規 ③読み手が常に言語規 範どおりの処理を行っ Annotation 範どおりの処理を行っ ているわけでもない ているわけでもない Text productive receptive ① 書き手と読み手が Writer 言語規範を Reader 共有しているとは限らない 2012/08/05 テキストアノテーションWS at NII 10
  • 11. アノテーションの誤りと揺れの原因を探る • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation Annotation 3 Annotation 2 ②書き手が常に言語規 ③読み手が常に言語規 範どおりの処理を行っ Annotation 1 範どおりの処理を行っ ているわけでもない ているわけでもない Text productive receptive ① 書き手と読み手が Writer 言語規範を Reader1 Reader2 Reader3 共有しているとは限らない ④ 複数の読み手が言語規範を 2012/08/05 テキストアノテーションWS at NII 11 共有しているとは限らない
  • 12. アノテーションの誤りや揺れをまず認める 次に何をするか • アノテーションのないコーパス – 書き手(Writer) による生成過程(productive process)による Text • アノテーション – 読み手(Reader) による受容過程(receptive process)による Annotation アノテーションの誤りや揺れの原因:まとめ ① 書き手と読み手が言語規範を共有しているとは限らない ② 書き手が常に言語規範どおりの処理を行っているわけでもない ③ 読み手が常に言語規範どおりの処理を行っているわけでもない ④ 複数の読み手が言語規範を共有しているとは限らない 定量的に「誤りやすさ」や「揺れやすさ」を評価する 2012/08/05 テキストアノテーションWS at NII 12
  • 13. アノテーションの誤りと揺れの定量的な評価 過去に行ったこと 以下では、主に統語論情報(係り受け)レベルのアノテーションについて、 誤りと揺れの定量的な評価を試みたものを示す 1. BCCWJの係り受けアノテーション作業の作業者間の揺れの評価 BCCWJ の係り受けアノテーションは1人の作業者により並列構造をアノテーションし、 自動解析器により係り受け構造の付与したものを修正している。 評価しているものは「先行工程の誤りを検出できるか否か」 2. ゲームによる係り受けアノテーションの揺れの評価 係り受けアノテーションを shift-reduce 法に基づくアクションを人手で指定する UI を作 成し、全く係り受けアノテーションがない文を複数人にアノテーションさせる 心理言語学実験で用いられる作例を正解率や反応時間を測定する – 中間埋め込み文に基づくガーデンパス文 • 一意の構造を持つもの (誤りを評価) • 複数の可能な構造を持つもの (揺れを評価) アノテーション基準を示しコーパス全体に網羅的に評価することが困難 2012/08/05 テキストアノテーションWS at NII 13
  • 14. 私が実施したいこと 心理言語学的な実験結果をコーパスに付与する 「BCCWJ コアデータ (約100万語)」 もしくは「均衡がと れている最小集合 (約30万語)」 に、心理言語実験の一次 情報(読解速度など)を網羅的に付与する ⇒先行研究:Dundee Eye Tracking Corpus [Kennedy+ 2003] • 英語、フランス語を対象 • 10人の母語話者の視線走査情報を収録 • 新聞社説 20 ファイル (5行 40 画面) • 研究用途に一次情報が配布されている (Kennedy 氏の web ページより) 2012/08/05 テキストアノテーションWS at NII 14
  • 15. 私が実施したいこと 心理言語学的な実験結果をコーパスに付与する 「BCCWJ コアデータ (約100万語)」 もしくは「均衡がとれている最小 集合 (約30万語)」 に、心理言語学的な実験結果(一次情報:読解速 度)を網羅的に付与する 自己ペース読文法 視線走査法 アノテーショ ン BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2学習者 L1学習者 BCCWJ 教科書コーパス 2012/08/05 テキストアノテーションWS at NII 15
  • 16. アノテーション方法 • 読文速度の取得 – 視線走査装置を利用した読文速度の取得 – 自己ペース読文法による読文速度の取得 • 被験者の情報取得 – アンケート – 語彙数推定 – ワーキングメモリ容量推定 2012/08/05 テキストアノテーションWS at NII 16
  • 17. アノテーション方法 視線走査装置を利用した読文速度の取得 • 視線走査装置 – Eyelink CL • NINJAL と NII に1台ずつ調達ずみ • BCCWJ から適切なサンプルを抽出し、被験者実 験を行う • 被験者の眼球運動から読文速度を取得する 2012/08/05 テキストアノテーションWS at NII 17
  • 18. アノテーション方法 視線走査装置を利用した読文速度の取得 • 文字単位に Interest Area を設定 2012/08/05 テキストアノテーションWS at NII 18
  • 19. アノテーション方法 視線走査装置を利用した読文速度の取得 • 停留箇所の出力 2012/08/05 テキストアノテーションWS at NII 19
  • 20. アノテーション方法 視線走査装置を利用した読文速度の取得 • サッケードの出力 2012/08/05 テキストアノテーションWS at NII 20
  • 21. アノテーション方法 視線走査装置を利用した読文速度の取得 • BCCWJ の各単位との重ね合わせ – 文字単位、短単位、文節単位の分析が可能 2012/08/05 テキストアノテーションWS at NII 21
  • 22. アノテーション方法 自己ペース読文法による読文速度の取得 • 視線走査を用いない、安価な機器で可能な実験方法 • 被験者がスペースキーを おしながら文字列を表示 させ、順に読んでいく • 後戻りはできない • 英語では視線走査法との 相関が示されているが、 日本語では示されていない (単位を考慮するべき) • 本研究では最適な単位を実験により調査する 2012/08/05 テキストアノテーションWS at NII 22
  • 23. アノテーション方法 読文に際しての課題 • 被験者がきちんと文を読んでいるかを確認するために課 題を課す – 文の内容を問う問題 – 単語の有無を問う問題 2012/08/05 テキストアノテーションWS at NII 23
  • 24. アノテーション方法 被験者の情報取得 • 読文速度に顕著な差異が出た場合の原因究明 – 被験者の語彙数によるものか – 被験者のワーキングメモリ容量によるものか • 以下の被験者に対する調査を行う – アンケート 言語形成地・年齢・性別・最終学歴(学部・専 攻)・学年(L1言語学習者)・母語(L2言語学習者) – 語彙数推定 – ワーキングメモリ容量推定 2012/08/05 テキストアノテーションWS at NII 24
  • 25. アノテーション方法 被験者の情報取得~語彙数推定 単語親密度に基づく語彙数推定実験「百羅漢」[天野+ 2003] – 50語提示して、単語を知っているか否かを答えてもらう – 単語親密度順に並べ、連続2語「知らない」と答えた部分をもっ て語彙数を推定する 2012/08/05 テキストアノテーションWS at NII 25
  • 26. アノテーション方法 被験者の情報取得~ワーキングメモリ容量推定 • リーディングスパンテスト[苧坂 2002] • 1か所だけ下線が引か れた例文を被験者に 呈示し、音読させな がら、下線部単語を 記憶してもらう • 全ての文呈示後に、 下線部単語を順に 回答させる 2012/08/05 テキストアノテーションWS at NII 26
  • 27. アノテーション方法 まとめ • 読文速度の取得(一次情報の取得) – 視線走査装置を利用した読文速度の取得 機材は調達ずみ (NINJAL 1 台, NII 1 台) 利用経験のある研究者の協力を得て、実験方法を確立する – 自己ペース読文法による読文速度の取得 英語では視線走査法との相関が示されている [Just+ 1982] 日本語では視線走査法との相関が自明ではないので、さまざまな単位で評価する • 被験者の情報取得(読み手側の情報) – アンケート 言語形成地・年齢・性別・最終学歴(学部・専攻)・学年(L1言語学習者)・母語(L2言語 学習者) – 語彙数推定 「百羅漢」 [天野 2003] – ワーキングメモリ容量推定 リーディングスパンテスト [苧坂 2002] 2012/08/05 テキストアノテーションWS at NII 27
  • 28. 自己ペース読文法 視線走査法 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 BCCWJ 教科書コーパス 目的: • BCCWJ コアデータのアノテーションが誤りやすい部分の検出 • 読み手をプロファイルした時空間的な分析 • 言語教育に資する適切なリーダビリティ評価 • 言語政策に資する言語現象の難易度評価 • 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共 有化し、心理言語学の実験結果の信頼性をサポート • 言語処理、特に言語解析器の訓練データやデザインに利用 • 文脈ありと文脈なしでの差分 2012/08/05 テキストアノテーションWS at NII 28
  • 29. 自己ペース読文法 視線走査法 アノテーション BCCWJ コアデータ (約 100万語) 誤り検出 心理言語学で利 用される作例 大人 L2 L1 ゆれ検出 BCCWJ 教科書コーパス 目的: BCCWJ コアデータのアノテーションが誤りやすい部分の検出 視線走査や自己ペースリーディングなどの心理言語学的な実験結果の一次情 報を網羅的に付与し、文読解に負担がかかる文を同定する • 文読解に時間がかかる文から順に、アノテーション誤りの有無を調査する • 文読解の時間の分散が大きい順に、アノテーションゆれの有無を調査する 2012/08/05 テキストアノテーションWS at NII 29
  • 30. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 書き手の 用される作例 大人 L2 L1 プロファイル BCCWJ 読み手の 教科書コーパス プロファイル 目的: 読み手をプロファイルした時空間的な分析 読み手の世代、性別、地域などをプロファイルし、BCCWJ のメタデータに記述され たプロファイルと比較調査する • 書き手と読み手の世代差、性差、地域差が、文読解にどう影響を与えるかを調 査する • プロファイル毎に共有されない言語規範を各種アノテーションをもとに明らか にする 2012/08/05 テキストアノテーションWS at NII 30
  • 31. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 共通ベンチマー 言語学習者の BCCWJ ク 教科書コーパス 一次データ 目的: 言語教育に資する適切なリーダビリティ評価 BCCWJ コアデータを共通ベンチマークとし、大人、L2 言語学習者、L1 言語学習者 のデータを収集する • 誰にとってどのくらい読みにくいテキストなのかを定量的に評価する • 何が読みにくいテキスト足らしめているのかを各種アノテーションをもとに明 らかにする 2012/08/05 テキストアノテーションWS at NII 31
  • 32. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 共通ベンチマー 言語学習者の BCCWJ ク 教科書コーパス 一次データ 目的: 言語政策に資する言語現象の難易度評価 教科書コーパスを共通ベンチマークとし、大人、L1 言語学習者のデータを収集す る • 教科書コーパスの難易度(文字・語彙)の妥当性を検証する 2012/08/05 テキストアノテーションWS at NII 32
  • 33. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 作例と均衡コーパ BCCWJ スの対比 教科書コーパス 目的: 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、共有 化し、心理言語学の実験結果の信頼性をサポート 心理言語学研究者に作例を提供していただき、均衡コーパス(BCCWJ コアデータ) と混ぜて、再実験を行い、心理言語実験結果の信頼性をサポートする 2012/08/05 テキストアノテーションWS at NII 33
  • 34. 自己ペースリーディング 人の動作を 機械に組み込む 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 BCCWJ 教科書コーパス 目的: 言語処理、特に言語解析器の訓練データやデザインに利用 • 人間の読解情報を直接訓練データに利用する(Ando 法に基づく半教師あり学習) • 人間の読解情報に基づく特徴量デザインの再検討 • 人間の読解情報に基づくアルゴリズムデザインの再検討 2012/08/05 テキストアノテーションWS at NII 34
  • 35. 自己ペースリーディング 視線走査 アノテーション BCCWJ コアデータ (約 100万語) 心理言語学で利 文脈の有無による 用される作例 大人 L2 L1 対比 BCCWJ 教科書コーパス 目的: 文脈ありと文脈なしでの差分分析 文脈あり(文書単位提示) と文脈なし(文単位提示) の両方の実験を行い、 差分から文間の関係認識が必要な個所を同定する • 文脈がないことにより処理が時間がかかる⇒言語処理でも文間の処理が必要 2012/08/05 テキストアノテーションWS at NII 35
  • 36. 私が実施したいこと [再掲] 心理言語学的な実験結果をコーパス全体に付与す る アノテーションの誤りや揺れの原因:まとめ ① 書き手と読み手が言語規範を共有しているとは限らない ② 書き手が常に言語規範どおりの処理を行っているわけでもない ③ 読み手が常に言語規範どおりの処理を行っているわけでもない ④ 複数の読み手が言語規範を共有しているとは限らない 自己ペース読文法 視線走査 読み手の 心理言語実験 言語規範の 書き手の アノテーション 1次情報 モデル化 言語規範の モデル化 BCCWJ コアデータ (約 100万語) 心理言語学で利 用される作例 大人 L2 L1 BCCWJ 教科書コーパス 2012/08/05 テキストアノテーションWS at NII 36
  • 37. おわりに 言語の受容過程の記録として読文速度・視線情報アノテーション • 心理言語実験手法に基づくアノテーション – 視線走査法 – 自己ペース読文法 – 被験者を多角的に評価 • アンケート・語彙数・ワーキングメモリ容量 • 利用目的 – BCCWJ コアデータのアノテーションが誤りやすい部分の検出 – 読み手をプロファイルした時空間的な分析 – 言語教育に資する適切なリーダビリティ評価 – 言語政策に資する言語現象の難易度評価 – 作例ベースに基づくデータと均衡コーパスに基づくデータを統合し、 共有化し、心理言語学の実験結果の信頼性をサポート – 言語処理、特に言語解析器の訓練データやデザインに利用 – 文脈ありと文脈なしでの差分 2012/08/05 テキストアノテーションWS at NII 37