SlideShare a Scribd company logo
『現代日本語書き言葉均衡コーパス』に対する
        時間情報アノテーション
                小西 光・浅原 正幸・前川 喜久雄
               国立国語研究所 コーパス開発センター
概要: コーパス中の時間表現の正規化

       type=“DATE”                                  type=“DATE”
     value=“2002-04”                             value=“2002-05-2J”
       mod=“start”
今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始
める。
                               [出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊

TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部 に付与
        (白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2)

           アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中

2012/9/6                     第2回コーパス日本語学WS                                 1
背景―目的
文書中の時間情報解析・時間順序関係推定
テキストからの時系列の情報抽出
• 時系列に配信される文書からの事象構造解析
      いつ、事象Aが起きたか?
      文書作成日時と事象Aの時間的順序関係は?
      事象A と事象Bはどういう時間的順序で発生したか?
• テキストで言及されている時間表現は表層だけでは時間
  軸上の1点を指すことができないものが多い
       “5月” - 何年かはわからないが、ある年の5月
       “来年” - 何年かはわからないが、文書作成日時の翌年
       “2時間半後” ― ある事象とある事象の間の時間
       “中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現

       時間情報を正規化したアノテーションが求められる
2012/9/6            第2回コーパス日本語学WS           2
背景―先行研究                               TempEval, TempEval-2 などの
                                  評価型会議で多数の解析手法が提案されている
英語の研究動向
英語に関する研究動向
MUC-6 [Grishman+ 1996]          評価型会議    時間情報表現の切り出し
[Setzer 2001]                   タグ付け基準   時間情報表現の切り出しと正規化
TERN [DARPA TIDES 2004]         評価型会議    時間情報表現の切り出しと正規化
TimeML [Pustejovsky+ 2003b]     タグ付け基準   事象間の時間的順序関係
TimeBank [Pustejovsky+ 2003a]   コーパス     TimeML基準のタグ付きコーパス
Aquaint TimeML Corpus           コーパス     TimeML基準のタグ付きコーパス
[Boguraev+ 2005]                解析手法     時間情報表現-事象表現間の時間的順序関係
                                         解析
[Mani 2006]                     解析手法     二事象表現間の時間的順序関係解析
TempEval [Verhagen+ 2007]       評価型会議    時間情報表現-事象表現間、二事象表現間の
                                         時間的順序関係解析
ISO-TimeML [ISO-24617-1]        標準化      タグ付け基準の国際標準化
TempEval-2 [Verhagen+ 2010]     評価型会議    時間情報の正規化、時間情報表現-事象表現
                                         間、二事象表現間の時間的順序関係解析
                   英語だけでなく、フランス語、スペイン語、ドイツ語、中国
2012/9/6                          語、
                          第2回コーパス日本語学WS                         3
背景―先行研究
日本語の研究動向
日本語に関する研究動向
IREX [IREX実行委員会 1999]   評価型会議       時間情報表現の切り出し
拡張固有表現体系 [Sekine+ 2002] タグ付け基準      時間情報表現の切り出し
拡張固有表現体系コーパス            コーパス        時間情報表現の切り出し
[橋本+ 2009]


         時間情報表現の切り出しにとどまっており、
  時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおら
                  ず、
           他の言語と比べて後れを取っている




2012/9/6                第2回コーパス日本語学WS             4
アノテーション基準―概要
TimeML 互換のアノテーション基準
 XMLベースのタグ付け基準
      <TIMEX3>タグにさまざまな属性を付与する
      @tid, @type, @value, @valueFromSurface, @temporalFunction,
      @freq, @quant, @mod

⟨SENTENCE TYPE="QUASI"⟩⟨TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20"
VALUEFROMSURFACE="2003-10-20"⟩二〇〇三年十月二十日⟨/TIMEX3⟩                     ⟨TIMEX3 TID="T2"
TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"⟩月 曜 日
⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC_ORIGINAL" /⟩ ⟨SENTENCE TYPE="QUASI"⟩
⟨TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX-
XXT17:30:XX"⟩ 午後五時三十分⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC ORIGINAL" /⟩ ⟨BLOCKEND
/⟩ ⟨PARAGRAPH⟩ ⟨SENTENCE⟩ ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像
に見入っていた。⟨/SENTENCE⟩ ⟨SENTENCE⟩ 彼女は伸びをし、腕時計に目をやった。⟨/SENTENCE⟩
⟨SENTENCE⟩⟨TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"⟩二
時間半⟨/TIMEX3⟩ で収穫ゼロ。⟨/SENTENCE⟩
                             タグ付け例 (PB59_00001)

2012/9/6                         第2回コーパス日本語学WS                                      5
アノテーション基準
@tid, @type
@tid: TIMEX3 の identifier
      文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別す
      るための ID を機械的に付与する
      (例)“t1”, “t2”, …


@type: 時間表現のタイプ (4種類)

           @type=“DATE”      日付表現      「一九二九年二月」「前日」
           @type=“TIME”      時刻表現      「午前十時ごろ」「昼」「九日
                                       昼」
           @type=“DURATION   時間表現      「二時間半」
           ”
           @type=“SET”       頻度集合表現    「毎日」

2012/9/6                     第2回コーパス日本語学WS              6
アノテーション基準
@value, @valueFromSurface, (@temporalFunction)
@value: 正規化された時間情報
      文脈情報を用いて、わかる限りの情報を復元して付与する
@valueFromSurface: 表層形からわかる時間情報
      文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する


@temporalFunction:
      true: @valueFromSurface では特定の時区間を指定できない場合
      (underspecified)
      false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified)


注)         @temporalFunctionがtrueでも、文脈が足りないために
           @value が特定の時区間を指定できない場合もある

2012/9/6                  第2回コーパス日本語学WS                       7
日付表現の例                                                      時間表現の例
単位        記号                   日付表現例       @value          単位       記号     時間表現例   @value
年月日       XXXX-XX-XX           1980年7月7日   1980-07-07      年        PnY    3年間     P3Y
曜日        XXXX-WXX-X           水曜日         XXXX-WXX-3      月        PnM    2ヶ月     P2M
季節        XXXX-{SP,SU,FA,WI}   冬           XXXX-WI         日        PnD    5日      P1D
四半期       XXXX-QX              第一四半期       XXXX-Q1         時間       PTnH   3時間     PT3H
年度        FYXXXX               1998年度      FY1998          分        PTnM   30分     PT30M
世紀        XXXX                 11世紀        10XX            秒        PTnS   9秒80    PT9.80S
                               紀元前202                      週        PnW    1週間     P1W
紀元前       BCXXXX                           BC0202
                               年
                               4000年前      KA4
                               2億年前        MA200

時刻表現の例                                                                               曜日表現の例
単位          記号                    時刻表現例                    @value                    曜日表現例   @value
                                  2006年8月8日午前8時45分                                   月曜日     XXXX-WXX-1
時刻          XXXX-XX-XXTXX:XX:XX                            2006-08-08T08:45:30
                                  30秒                                                火曜日     XXXX-WXX-2
時刻 (略記)     TXX:XX:XX             午前8時45分30秒               T08:45:30                 水曜日     XXXX-WXX-3
その他         XXXX-XX-XXTXX         未明 *                     XXXX-XX-XXTDN             木曜日     XXXX-WXX-4
                                  朝                        XXXX-XX-XXTMO             金曜日     XXXX-WXX-5
                                  昼                        XXXX-XX-XXTMI             土曜日     XXXX-WXX-6
                                  日中                       XXXX-XX-XXTDT             日曜日     XXXX-WXX-7
                                  午後                       XXXX-XX-XXTAF             週末      XXXX-WXX-WE
                                  夕方                       XXXX-XX-XXTEV
                                  夜                        XXXX-XX-XXTNI
                                  深夜 *                     XXXX-XX-XXTMN
不定な時間表現の例
                                                        * は、日本語向けに独自に設定したも
時間表現例          @value                                            の
「今」「現
               PRESENT_REF
在」
「近年」「以
               PAST_REF
前」
 2012/9/6
「今後」「将                                        第2回コーパス日本語学WS                                         8
               FUTURE_REF
来」
アノテーション基準
@freq, @quant ー頻度集合表現
頻度集合表現(@type=“SET”) は @value, @freq, @quant
の組み合わせにより正規化する

@freq: 頻度情報の提示
      ⟨TIMEX3 type="SET" value="P1W" freq="2X"⟩週に2回⟨/TIMEX3⟩


@quant: 集合情報の提示
      ⟨TIMEX3 type="SET" value="P1D" quant="EACH"⟩ 毎日⟨/TIMEX3⟩
      ⟨TIMEX3 type="SET" value="XXXX-10" quant="EACH"⟩ 毎10月
      ⟨/TIMEX3⟩
      ⟨TIMEX3 type="SET" value="P10D" quant="EVERY"⟩ 10日おき
      ⟨/TIMEX3⟩

2012/9/6                    第2回コーパス日本語学WS                        9
アノテーション基準
@mod
時間情報表現を修飾するさまざまなモダリティ表現を扱う
  値                       定義               例
  @mod=START          日付時刻表現の初期   「初め」「初頭」
  @mod=MID            日付時刻表現の中期   「半ば」「中ごろ」
  @mod=END            日付時刻表現の後期   「末」 「暮れ」
  @mod=APPROX         近似表現        「ごろ」
  @mod=BEFORE         日付時刻表現より前   「前」
  @mod=AFTER          日付時刻表現より後   「過ぎ」
  @mod=ON_OR_BEFORE   日付時刻表現以前    「以前」
  @mod=ON_OR_AFTER    日付時刻表現以後    「以降」「以来」
  @mod=EQUAL_OR_LES   時間表現の範囲以下 「以内」
  S
  @mod=EQUAL_OR_MO    時間表現の範囲以上 「以上」
  RE
  @mod=LESS_THAN      時間表現の範囲未満 「未満」「近く」
  @mod=MORE_THAN      時間表現の範囲超過 「余り」「過ぎ」

2012/9/6                 第2回コーパス日本語学WS         10
タグの分析
@type毎の統計
BCCWJの一部に対するアノテーション
     白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A)
     → http://goo.gl/rLukS にアノテーション優先順位あり
     ジャンル ファイル数       DATE    TIME DURATION     SET    合計
     OW         17     596       0    191        6     703
    (白書)       [16]   (414)     (0)   (0)       (0)
     PB         25     209      28    105       14     356
    (書籍)       [25]    (51)    (12)   (0)       (0)
     PN        110    1323     193    553       41     2110
    (新聞)      [110]   (999)   (162)   (0)       (0)
     OC        518     341      70    184       37     632
    (知恵袋)     [250]    (95)    (19)   (0)       (0)
     PM         23     333      37    131       28     529
    (雑誌)       [23]   (108)     (2)   (0)       (1)
     OY        257     632     161    117       22     932
    (ブログ)     [198]   (215)    (58)   (1)       (0)

                                            []内 時間情報表現を含むファイルの数
                                            ()内 文脈により曖昧性解消可能な表現数
2012/9/6                  第2回コーパス日本語学WS                       11
タグの分析
頻度集合表現の統計
@freq, @quant の2軸での集計
                 @freq=nil              @freq= n X           otherwise
@quant=nil                   3                    43                     2
@quant=EACH                  75                   2                      5
@quant=EVERY                 18                   0                      0

出現回数の多い表現
     「毎日」        @quant=“EACH”, @freq=nil              75件
     「1日3回」「週2度」 @quant=nil, @freq=“nX”                43件


複雑な表現                                                        @freq に時間が入る
     「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M”



2012/9/6                          第2回コーパス日本語学WS                              12
タグの分析
@mod の統計
@type                DATE          TIME     DURATION   SET

@mod=START           27            11          1       0
@mod=MID              5             0          2       0
@mod=END             72             0          5       1
@mod=APPROX          19            35         95       2
@mod=BEFORE           0             5          -       0
@mod=AFTER            0             6          -       0
@mod=ON OR BEFORE     7             0          -       0
@mod=ON OR AFTER     36            21          -       0
@mod=EQUAL OR LESS    -             -         16       0
@mod=EQUAL OR MORE    -             -         29       0
@mod=LESS THAN        -             -         13       0
@mod=MORE THAN        -             -          5       0

2012/9/6                    第2回コーパス日本語学WS                    13
まとめ
BCCWJに対する時間情報アノテーション
ジャンル横断的な日本語時間情報アノテーション
     –     ジャンルにより時間情報表現の分布が異なる
     –     多くの時間情報表現が表層情報のみからは正規化できない
     –     頻度集合表現の正規化手法
     –     多様なモダリティ表現


スタンドオフ形式で配布中
     https://github.com/masayu-a/BCCWJ-Timebank




2012/9/6                      第2回コーパス日本語学WS       14
今後の予定
 時間的順序関係のアノテーション
                   eventID/timeID      TimeML                Allen


                                     AFTER                   after
                                     IAFTER                  met-by
                                                             overlapped-by
                                     ENDS                    finishes
                                     DURING/IS_INCLUDED      during        is_included
                                     BEGUN_BY                started-by
  relatedToTime
  or                                 SIMULTANEOUS/IDENTITY   equal         identity
  relatedToEvent                     BEGINS                  starts
                                     INCLUDES/DURING_INV     contains      includes
                                     ENDED_BY                finished-by
                                                             overlaps
                                     IBEFORE                 meets
                                     BEFORE                  before



注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係
例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する”
 2012/9/6                    第2回コーパス日本語学WS                                            15
今後の予定
テンス・アスペクト情報のアノテーション
• 形態論的な情報
     –     「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ
           ンでは時間の正規化に寄与しない
     –     準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」
           「シテシマウ」
• 構文的な情報
     –     組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ
           ロダ」「シタコトガアル」
     –     格(参加者の性格)
• 語彙的な情報
     –     動詞
           •   派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」
           •   派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」
           •   範疇性 動作動詞-変化動詞・非限界動詞-限界動詞
     –     副詞
           •   質的「マダ」「モウ」「スデニ」
           •   量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」
               「ナンドモ」「タマニ」「トキドキ」



2012/9/6                   第2回コーパス日本語学WS                   16

More Related Content

Featured

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 

Featured (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

2012 09-06-poster

  • 1. 『現代日本語書き言葉均衡コーパス』に対する 時間情報アノテーション 小西 光・浅原 正幸・前川 喜久雄 国立国語研究所 コーパス開発センター 概要: コーパス中の時間表現の正規化 type=“DATE” type=“DATE” value=“2002-04” value=“2002-05-2J” mod=“start” 今月初めから町内全戸を対象に希望調査を行っており、五月中旬から回収を始 める。 [出典: PN2e_00001] 2002年4月11日付北海道新聞朝刊 TimeML 互換 [Pustejovsky 2003a]の時間表現の正規化情報を BCCWJ の一部 に付与 (白書 1/4, 書籍 1/4, 雑誌 1/4, 新聞 2/5, Yahoo! 知恵袋 1/2, Yahoo! ブログ 1/2) アノテーションを https://github.com/masayu-a/BCCWJ-Timebank にて公開中 2012/9/6 第2回コーパス日本語学WS 1
  • 2. 背景―目的 文書中の時間情報解析・時間順序関係推定 テキストからの時系列の情報抽出 • 時系列に配信される文書からの事象構造解析 いつ、事象Aが起きたか? 文書作成日時と事象Aの時間的順序関係は? 事象A と事象Bはどういう時間的順序で発生したか? • テキストで言及されている時間表現は表層だけでは時間 軸上の1点を指すことができないものが多い “5月” - 何年かはわからないが、ある年の5月 “来年” - 何年かはわからないが、文書作成日時の翌年 “2時間半後” ― ある事象とある事象の間の時間 “中ごろ”, “末”, “過ぎ”, “以来” ―多様なモダリティ表現 時間情報を正規化したアノテーションが求められる 2012/9/6 第2回コーパス日本語学WS 2
  • 3. 背景―先行研究 TempEval, TempEval-2 などの 評価型会議で多数の解析手法が提案されている 英語の研究動向 英語に関する研究動向 MUC-6 [Grishman+ 1996] 評価型会議 時間情報表現の切り出し [Setzer 2001] タグ付け基準 時間情報表現の切り出しと正規化 TERN [DARPA TIDES 2004] 評価型会議 時間情報表現の切り出しと正規化 TimeML [Pustejovsky+ 2003b] タグ付け基準 事象間の時間的順序関係 TimeBank [Pustejovsky+ 2003a] コーパス TimeML基準のタグ付きコーパス Aquaint TimeML Corpus コーパス TimeML基準のタグ付きコーパス [Boguraev+ 2005] 解析手法 時間情報表現-事象表現間の時間的順序関係 解析 [Mani 2006] 解析手法 二事象表現間の時間的順序関係解析 TempEval [Verhagen+ 2007] 評価型会議 時間情報表現-事象表現間、二事象表現間の 時間的順序関係解析 ISO-TimeML [ISO-24617-1] 標準化 タグ付け基準の国際標準化 TempEval-2 [Verhagen+ 2010] 評価型会議 時間情報の正規化、時間情報表現-事象表現 間、二事象表現間の時間的順序関係解析 英語だけでなく、フランス語、スペイン語、ドイツ語、中国 2012/9/6 語、 第2回コーパス日本語学WS 3
  • 4. 背景―先行研究 日本語の研究動向 日本語に関する研究動向 IREX [IREX実行委員会 1999] 評価型会議 時間情報表現の切り出し 拡張固有表現体系 [Sekine+ 2002] タグ付け基準 時間情報表現の切り出し 拡張固有表現体系コーパス コーパス 時間情報表現の切り出し [橋本+ 2009] 時間情報表現の切り出しにとどまっており、 時間情報表現の正規化、時間的順序関係のアノテーションなどが進んでおら ず、 他の言語と比べて後れを取っている 2012/9/6 第2回コーパス日本語学WS 4
  • 5. アノテーション基準―概要 TimeML 互換のアノテーション基準 XMLベースのタグ付け基準 <TIMEX3>タグにさまざまな属性を付与する @tid, @type, @value, @valueFromSurface, @temporalFunction, @freq, @quant, @mod ⟨SENTENCE TYPE="QUASI"⟩⟨TIMEX3 TID="T1" TYPE="DATE" VALUE="2003-10-20" VALUEFROMSURFACE="2003-10-20"⟩二〇〇三年十月二十日⟨/TIMEX3⟩ ⟨TIMEX3 TID="T2" TYPE="DATE" VALUE="2003-W43-1" VALUEFROMSURFACE="XXXX-WXX-1"⟩月 曜 日 ⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC_ORIGINAL" /⟩ ⟨SENTENCE TYPE="QUASI"⟩ ⟨TIMEX3 TID="T3" TYPE="TIME" VALUE="2003-10-20T17:30:XX" VALUEFROMSURFACE="XXXX-XX- XXT17:30:XX"⟩ 午後五時三十分⟨/TIMEX3⟩⟨/SENTENCE⟩ ⟨BR TYPE="AUTOMATIC ORIGINAL" /⟩ ⟨BLOCKEND /⟩ ⟨PARAGRAPH⟩ ⟨SENTENCE⟩ ステイシーはだらけた姿勢でモニターの前に陣取り、白黒の画像 に見入っていた。⟨/SENTENCE⟩ ⟨SENTENCE⟩ 彼女は伸びをし、腕時計に目をやった。⟨/SENTENCE⟩ ⟨SENTENCE⟩⟨TIMEX3 TID="T4" TYPE="DURATION" VALUE="PT2H30M" VALUEFROMSURFACE="PT2H30M"⟩二 時間半⟨/TIMEX3⟩ で収穫ゼロ。⟨/SENTENCE⟩ タグ付け例 (PB59_00001) 2012/9/6 第2回コーパス日本語学WS 5
  • 6. アノテーション基準 @tid, @type @tid: TIMEX3 の identifier 文書作成日時を “t0” とし、文書中に出現する時間情報表現を一意に判別す るための ID を機械的に付与する (例)“t1”, “t2”, … @type: 時間表現のタイプ (4種類) @type=“DATE” 日付表現 「一九二九年二月」「前日」 @type=“TIME” 時刻表現 「午前十時ごろ」「昼」「九日 昼」 @type=“DURATION 時間表現 「二時間半」 ” @type=“SET” 頻度集合表現 「毎日」 2012/9/6 第2回コーパス日本語学WS 6
  • 7. アノテーション基準 @value, @valueFromSurface, (@temporalFunction) @value: 正規化された時間情報 文脈情報を用いて、わかる限りの情報を復元して付与する @valueFromSurface: 表層形からわかる時間情報 文脈情報を用いず、表層文字列から機械的に復元できる情報を付与する @temporalFunction: true: @valueFromSurface では特定の時区間を指定できない場合 (underspecified) false: @valueFromSurface で特定の時区間を指定できる場合(fully-specified) 注) @temporalFunctionがtrueでも、文脈が足りないために @value が特定の時区間を指定できない場合もある 2012/9/6 第2回コーパス日本語学WS 7
  • 8. 日付表現の例 時間表現の例 単位 記号 日付表現例 @value 単位 記号 時間表現例 @value 年月日 XXXX-XX-XX 1980年7月7日 1980-07-07 年 PnY 3年間 P3Y 曜日 XXXX-WXX-X 水曜日 XXXX-WXX-3 月 PnM 2ヶ月 P2M 季節 XXXX-{SP,SU,FA,WI} 冬 XXXX-WI 日 PnD 5日 P1D 四半期 XXXX-QX 第一四半期 XXXX-Q1 時間 PTnH 3時間 PT3H 年度 FYXXXX 1998年度 FY1998 分 PTnM 30分 PT30M 世紀 XXXX 11世紀 10XX 秒 PTnS 9秒80 PT9.80S 紀元前202 週 PnW 1週間 P1W 紀元前 BCXXXX BC0202 年 4000年前 KA4 2億年前 MA200 時刻表現の例 曜日表現の例 単位 記号 時刻表現例 @value 曜日表現例 @value 2006年8月8日午前8時45分 月曜日 XXXX-WXX-1 時刻 XXXX-XX-XXTXX:XX:XX 2006-08-08T08:45:30 30秒 火曜日 XXXX-WXX-2 時刻 (略記) TXX:XX:XX 午前8時45分30秒 T08:45:30 水曜日 XXXX-WXX-3 その他 XXXX-XX-XXTXX 未明 * XXXX-XX-XXTDN 木曜日 XXXX-WXX-4 朝 XXXX-XX-XXTMO 金曜日 XXXX-WXX-5 昼 XXXX-XX-XXTMI 土曜日 XXXX-WXX-6 日中 XXXX-XX-XXTDT 日曜日 XXXX-WXX-7 午後 XXXX-XX-XXTAF 週末 XXXX-WXX-WE 夕方 XXXX-XX-XXTEV 夜 XXXX-XX-XXTNI 深夜 * XXXX-XX-XXTMN 不定な時間表現の例 * は、日本語向けに独自に設定したも 時間表現例 @value の 「今」「現 PRESENT_REF 在」 「近年」「以 PAST_REF 前」 2012/9/6 「今後」「将 第2回コーパス日本語学WS 8 FUTURE_REF 来」
  • 9. アノテーション基準 @freq, @quant ー頻度集合表現 頻度集合表現(@type=“SET”) は @value, @freq, @quant の組み合わせにより正規化する @freq: 頻度情報の提示 ⟨TIMEX3 type="SET" value="P1W" freq="2X"⟩週に2回⟨/TIMEX3⟩ @quant: 集合情報の提示 ⟨TIMEX3 type="SET" value="P1D" quant="EACH"⟩ 毎日⟨/TIMEX3⟩ ⟨TIMEX3 type="SET" value="XXXX-10" quant="EACH"⟩ 毎10月 ⟨/TIMEX3⟩ ⟨TIMEX3 type="SET" value="P10D" quant="EVERY"⟩ 10日おき ⟨/TIMEX3⟩ 2012/9/6 第2回コーパス日本語学WS 9
  • 10. アノテーション基準 @mod 時間情報表現を修飾するさまざまなモダリティ表現を扱う 値 定義 例 @mod=START 日付時刻表現の初期 「初め」「初頭」 @mod=MID 日付時刻表現の中期 「半ば」「中ごろ」 @mod=END 日付時刻表現の後期 「末」 「暮れ」 @mod=APPROX 近似表現 「ごろ」 @mod=BEFORE 日付時刻表現より前 「前」 @mod=AFTER 日付時刻表現より後 「過ぎ」 @mod=ON_OR_BEFORE 日付時刻表現以前 「以前」 @mod=ON_OR_AFTER 日付時刻表現以後 「以降」「以来」 @mod=EQUAL_OR_LES 時間表現の範囲以下 「以内」 S @mod=EQUAL_OR_MO 時間表現の範囲以上 「以上」 RE @mod=LESS_THAN 時間表現の範囲未満 「未満」「近く」 @mod=MORE_THAN 時間表現の範囲超過 「余り」「過ぎ」 2012/9/6 第2回コーパス日本語学WS 10
  • 11. タグの分析 @type毎の統計 BCCWJの一部に対するアノテーション 白書 (A), 書籍(A), 新聞(A)(B), Y!知恵袋(A),雑誌(A), Y!ブログ(A) → http://goo.gl/rLukS にアノテーション優先順位あり ジャンル ファイル数 DATE TIME DURATION SET 合計 OW 17 596 0 191 6 703 (白書) [16] (414) (0) (0) (0) PB 25 209 28 105 14 356 (書籍) [25] (51) (12) (0) (0) PN 110 1323 193 553 41 2110 (新聞) [110] (999) (162) (0) (0) OC 518 341 70 184 37 632 (知恵袋) [250] (95) (19) (0) (0) PM 23 333 37 131 28 529 (雑誌) [23] (108) (2) (0) (1) OY 257 632 161 117 22 932 (ブログ) [198] (215) (58) (1) (0) []内 時間情報表現を含むファイルの数 ()内 文脈により曖昧性解消可能な表現数 2012/9/6 第2回コーパス日本語学WS 11
  • 12. タグの分析 頻度集合表現の統計 @freq, @quant の2軸での集計 @freq=nil @freq= n X otherwise @quant=nil 3 43 2 @quant=EACH 75 2 5 @quant=EVERY 18 0 0 出現回数の多い表現 「毎日」 @quant=“EACH”, @freq=nil 75件 「1日3回」「週2度」 @quant=nil, @freq=“nX” 43件 複雑な表現 @freq に時間が入る 「1ヶ月あたり1時間」 @value=“PT1H”, @freq=“P1M” 2012/9/6 第2回コーパス日本語学WS 12
  • 13. タグの分析 @mod の統計 @type DATE TIME DURATION SET @mod=START 27 11 1 0 @mod=MID 5 0 2 0 @mod=END 72 0 5 1 @mod=APPROX 19 35 95 2 @mod=BEFORE 0 5 - 0 @mod=AFTER 0 6 - 0 @mod=ON OR BEFORE 7 0 - 0 @mod=ON OR AFTER 36 21 - 0 @mod=EQUAL OR LESS - - 16 0 @mod=EQUAL OR MORE - - 29 0 @mod=LESS THAN - - 13 0 @mod=MORE THAN - - 5 0 2012/9/6 第2回コーパス日本語学WS 13
  • 14. まとめ BCCWJに対する時間情報アノテーション ジャンル横断的な日本語時間情報アノテーション – ジャンルにより時間情報表現の分布が異なる – 多くの時間情報表現が表層情報のみからは正規化できない – 頻度集合表現の正規化手法 – 多様なモダリティ表現 スタンドオフ形式で配布中 https://github.com/masayu-a/BCCWJ-Timebank 2012/9/6 第2回コーパス日本語学WS 14
  • 15. 今後の予定 時間的順序関係のアノテーション eventID/timeID TimeML Allen AFTER after IAFTER met-by overlapped-by ENDS finishes DURING/IS_INCLUDED during is_included BEGUN_BY started-by relatedToTime or SIMULTANEOUS/IDENTITY equal identity relatedToEvent BEGINS starts INCLUDES/DURING_INV contains includes ENDED_BY finished-by overlaps IBEFORE meets BEFORE before 注:IS_INCLUDED/IDENTITY/INCLUDES は event-subevent 間の関係 例) “卵を割る” is_included “オムライスを作る” / “車を買う” identity “車を購入する” 2012/9/6 第2回コーパス日本語学WS 15
  • 16. 今後の予定 テンス・アスペクト情報のアノテーション • 形態論的な情報 – 「スル」vs.「シタ」vs.「シテイル」vs.「シテイタ」の対立のアノテーショ ンでは時間の正規化に寄与しない – 準アスペクトの扱い「シテアル」「シテオク」「シテクル」「シテイク」 「シテシマウ」 • 構文的な情報 – 組立形式「シヨウトスル」「シツツアル」「スルトコロダ」vs.「シタトコ ロダ」「シタコトガアル」 – 格(参加者の性格) • 語彙的な情報 – 動詞 • 派生動詞「シハジメル」「シダス」vs.「シツヅケル」vs.「シオワル」「シヤメル」 • 派生動詞「シカケル」「シカカル」「シトオス」「シツクス」「シキル」 • 範疇性 動作動詞-変化動詞・非限界動詞-限界動詞 – 副詞 • 質的「マダ」「モウ」「スデニ」 • 量的「ズット」「シバラク」「イッシュン」「シダイニ」「トツゼン」「イチド」 「ナンドモ」「タマニ」「トキドキ」 2012/9/6 第2回コーパス日本語学WS 16