SlideShare a Scribd company logo
⽂書要約⼊⾨


             NISHIKAWA Hitoshi



2011/09/10         TokyoNLP #7   1
ばくっとした⽂書要約のお話
• 字義の通り 機械(計算機)に⽂書を要
  字義の通り、機械(計算機)に⽂書を要
  約させること
• なんで計算機にそんなことさせるのか?
      – みんな忙しいので⻑い⽂書なんざ読んでいら
        れない(俗なところでは、「今北産業」)
      – 厳 いところでは安全保障上の要請
        厳ついところでは安全保障上の要請
             • アラブ⼈が悪さしてないかアメリカ⼈は知りたい
             • アラビア語で書かれた新聞記事を機械翻訳、英語
               にして⾃動要約 (TIDES program by DARPA)

2011/09/10                TokyoNLP #7             2
ばくっとした⽂書要約のお話
• ⾃然⾔語処理技術(計算機で⾃然⾔語(
  ⽇本語や英語)を扱う技術)の⼀種で、
  機械翻訳などと同様に応⽤側の技術
• 形態素解析など⾃然⾔語処理の様々な基
  礎技術の上に成⽴




2011/09/10   TokyoNLP #7   3
⽂書要約
• 情報のソ スを受け取り そこから内容を抽出し も
  情報のソースを受け取り、そこから内容を抽出し、もっ
  とも重要な内容をユーザに、簡約した形で、かつ、ユー
  ザやアプリケ ションの要求に応じた形で提⽰すること
  ザやアプリケーションの要求に応じた形で提⽰すること
  (Mani, 2001)


                            • 単⼀の、あるいは複
                              数のニュース記事の
                              要約
                            • 情報検索システムや
                              質問応答システムの
                              出⼒部

2011/09/10    TokyoNLP #7                 4
⽬次
• 導⼊
  – ⽂書要約の種類
             • 単 /複数 報知的/指⽰的 抽出的/⽣成的 クエリ⾮依存/クエリ
               単⼀/複数、報知的/指⽰的、抽出的/⽣成的、クエリ⾮依存/クエリ
               依存
      – ⽂書要約の要素技術
             • ⽂分割、⽂短縮、重要⽂抽出、⽂の順序付け
• 具体的な⼿法(重要⽂抽出を中⼼に)
  – ⽬的関数の設計、argmax操作の実⾏
• 要約の評価
  – ROUGE、DUC Linguistic Quality Test
• まとめ

2011/09/10                TokyoNLP #7             5
導⼊


2011/09/10   TokyoNLP #7   6
⽂書要約の種類 1/3
1. ⽬的:指⽰的要約/報知的要約
1 ⽬的 指⽰的要約/報知的要約
      – 指⽰的:原⽂書を読むべきか判断するための
        要約(e.g.新聞の⾒出し)
      – 報知的:原⽂書の代わりとする要約(e.g.
        ニュースの字幕)
2.
2 ⼊⼒:単⼀⽂書要約/複数⽂書要約
      – 単⼀:⼀つの⽂書を要約
      – 複数:⼀つ以上の⽂書を要約


2011/09/10       TokyoNLP #7    7
⽂書要約の種類 2/3
3. 内容:クエリ依存/クエリ⾮依存
3 内容 クエリ依存/クエリ⾮依存
      – クエリ依存:何らかのクエリ(特定の情報へ
        の要求)に対する要約(e.g.スニペット)
      – クエリ⾮依存:特定の情報に依らない要約
4. ⼿法:抽出的要約/⽣成的要約
      – 抽出的要約 原⽂書を⽂に分解し 要約とし
        抽出的要約:原⽂書を⽂に分解し、要約とし
        て相応しい⽂を選び(重要⽂抽出)、それら
        を繋げることで作る要約
        を繋げ  と 作 要約
      – ⽣成的要約:原⽂書にない表現を含む(新し
        い表現を⽣成する)要約
2011/09/10       TokyoNLP #7    8
⽂書要約の種類 3/3
• まとめると こんな感じ
  まとめると、こんな感じ
             1.目的    指示的               報知的
             2.入力     単一                複数
             3 内容
             3.内容   クエリ依存             クエリ非依存
             4.手法    抽出的               生成的

• 今回は「指⽰的」で「クエリ⾮依存」の
  「抽出的要約」の、⼊⼒が単⼀の場合と
  「抽出的要約」の ⼊⼒が単 の場合と
  複数の場合をざっくりとご紹介
2011/09/10              TokyoNLP #7            9
⽂書要約の要素技術 1/6

                      反政府派と大統領派が2日、激しく衝突し
                      多数の死傷者が出たエジプト・カイロは、
     ムバラク大統領に対する      一夜明け、双方で散発的に投石が行われ
                       夜明け 双方で散発的に投石が行われ
                      るなど、緊迫した状態が続いている。
     抗議デモが続くエジプトで、
                      エジプトで続く反政府デモは、2日から3日
     反体制派が4日に大規模
     デモを実施する。大統領
     デ を実施する 大統領      未明にかけて、反政府派と大統領支持派
                      未明にかけて 反政府派と大統領支持派
     に即時退陣を迫る構え。      の衝突に発展し、火炎瓶が建物や車に引
                      火し、至るところで火の手が上がり、黒煙
                      が立ち込めた。




2011/09/10           TokyoNLP #7             10
⽂書要約の要素技術:⽂分割 2/6
                         反政府派と大統領派が2日、激しく衝突し多
                         数の死傷者が出たエジプト・カイロは、一夜
                         明け、双方で散発的に投石が行われるな
      ムバラク大統領に対する        ど、緊迫した状態が続いている。
      抗議デモが続くエジプトで、      エジプトで続く反政府デモは、2日から3日
      反体制派が4日に大規模        未明にかけて、反政府派と大統領支持派
      デモを実施する。大統領        の衝突に発展し、火炎瓶が建物や車に引
      に即時退陣を迫る構え。
                         火し、至るところで火の手が上がり、黒煙が
                         立ち込めた。
                         立ち込めた


                   3. 反政府派と大統領派が2日、激しく衝突し多数の
  1. ムバラク大統領に対する      死傷者が出たエジプト・カイロは、一夜明け、双方
     抗議デモが続くエジプトで、    で散発的に投石が行われるなど、緊迫した状態が
     反体制派が4日に大規模      続いている。
                      続   る
     デモを実施する。      4. エジプトで続く反政府デモは、2日から3日未明に
  2. 大統領に即時退陣を迫る      かけて、反政府派と大統領支持派の衝突に発展し、
     構え。
     構え               火炎瓶が建物や車に引火し、至るところで火の手
                      火炎瓶が建物や車に引火し 至るところで火の手
                      が上がり、黒煙が立ち込めた。
2011/09/10            TokyoNLP #7           11
⽂書要約の要素技術:⽂短縮 3/6

                3a.反政府派と大統領派が2日、激しく衝突し
                   多数の死傷者が出たエジプト・カイロは、
3. 反政府派と大統領
                    夜明け、双方で散発的に投石が行われ
                   一夜明け、双方で散発的に投石が行われ
   派が2日、激しく衝
                   るなど、緊迫した状態が続いている。
   突し多数の死傷者
   が出たエジプト・カイ   3b.多数の死傷者が出たエジプト・カイロは、
                   多数 死傷者 出   ジ      、
   ロは、一夜明け、双
    は   夜明け 双
                   一夜明け、双方で散発的に投石が行われ
   方で散発的に投石        るなど、緊迫した状態が続いている。
   が行われるなど、緊
   迫した状態が続い     3c.エジプト・カイロは、一夜明け、双方で散発
   ている。
                   的に投石が行われるなど、緊迫した状態
                   が続いている。




2011/09/10      TokyoNLP #7           12
⽂書要約の要素技術:重要⽂抽出 4/6
                      3. 反政府派と大統領派が2日、激しく衝突し多
   1.
   1 ムバラク大統領に対する
                         数の死傷者が出たエジプト・カイロは、一夜
      抗議デモが続くエジプトで、
                         明け、双方で散発的に投石が行われるなど、
      反体制派が4日に大規模
                         緊迫した状態が続いている。
      デモを実施する。
      デモを実施する
                      4. エジプトで続く反政府デモは、2日から3日未
   2. 大統領に即時退陣を迫る
                         明にかけて、反政府派と大統領支持派の衝
      構え。
                         突に発展し、火炎瓶が建物や車に引火し、至
                         るところで火の手が上がり、黒煙が立ち込め
                                 が が     が
                         た。



   1. ムバラク大統領に対する     4. エジプトで続く反政府デモは、2日から3日未
      抗議デモが続くエジプトで、
      抗議デモが続くエジプトで       明にかけて、反政府派と大統領支持派の衝
                         明にかけて 反政府派と大統領支持派の衝
      反体制派が4日に大規模        突に発展し、火炎瓶が建物や車に引火し、至
      デモを実施する。           るところで火の手が上がり、黒煙が立ち込め
                         た。

2011/09/10            TokyoNLP #7           13
⽂書要約の要素技術:⽂の順序付け 5/6

    1.
    1 ムバラク大統領に対する      4. エジプトで続く反政府デモは、2日から3日未
                       4 エジプトで続く反政府デモは 2日から3日未
       抗議デモが続くエジプトで、      明にかけて、反政府派と大統領支持派の衝
       反体制派が4日に大規模        突に発展し、火炎瓶が建物や車に引火し、至
       デモを実施する。           るところで火の手が上がり、黒煙が立ち込め
                          た。



         4. エジプトで続く反政府デモは、2日から3日未
            明にかけて、反政府派と大統領支持派の衝
            突に発展し、火炎瓶が建物や車に引火し、至
                     が               ※単一文書
            るところで火の手が上がり、黒煙が立ち込め
            た。                       要約の場合
         1.
         1 ムバラク大統領に対する抗議デモが続くエジ      は不要
            プトで、反体制派が4日に大規模デモを実施
            する。


2011/09/10             TokyoNLP #7           14
⽂書要約の要素技術 6/6
• まとめ
     1. ⽂分割:⽂書を⽂に分割する
     2. ⽂短縮:修飾節を削除するなどして、原⽂よ
        り短い原⽂の「亜種」を作る
     3. 重要⽂抽出:要約に相応しい⽂を選び出す
     4. ⽂の順序付け:選んだ⽂を適切に並べる
     4 ⽂の順序付け 選んだ⽂を適切に並べる
• 今回は特に、重要⽂抽出を中⼼に解説


2011/09/10        TokyoNLP #7   15
具体的な⼿法


2011/09/10   TokyoNLP #7   16
⽂分割
• 句点などを⼿掛かりに⽂章を⽂に分割する
• 「ムバラク⼤統領に対する抗議デモが続くエジプトで、
  反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時
  反体制派が4⽇に⼤規模デモを実施する ⼤統領に即時
  退陣を迫る構え。」
• 切る⽂章の種類によって難しさが変わる
      – 新聞記事は綺麗に書かれているので楽
      – ⽂体が雑になるにつれて⽂境界がよくわからなくなる
• 真⾯⽬にやると⼤変、抽出的要約の場合、⽂分割の性能
  が要約の読みやすさに⼤きく影響
      – 変なところで切ると訳のわからない要約が出来る



2011/09/10        TokyoNLP #7      17
⽂短縮
• ⽂を短くする(そのまま)
      – ⽂の中には⼤切なところと⼤切でないところ
        があるという発想
• 以下の2つの基準で⽂を短くする
      – 重要なところのみを残す
      – ⽂法性を保
        ⽂法性を保つ
• 要約システムに必ず必要というわけでは
  要約     必 必要
  ない

2011/09/10     TokyoNLP #7     18
⽂短縮
• 基本的なアプロ チ 構⽂⽊を枝刈り
  基本的なアプローチ:構⽂⽊を枝刈り
ムバラク大統領に     対する   抗議デモが             続く   エジプトで



               反体制派が         4日に          大規模デモを   実施する。


→○エジプトで反体制派が大規模デモを実施する。
   ジプ      が   デ
→×ムバラク大統領に続く大規模デモを実施する。
中間ノードを落とすと文法性が損なわれたり本来の文意が損なわれたりする
枝刈りされた木に対して言語尤度(文としての良さ)と内容に関するスコア(文が
持っている情報量)を与え良い木を選び出す
持 ている情報量)を与え良い木を選び出す
2011/09/10             TokyoNLP #7                         19
重要⽂抽出
• 要約なので 原⽂書より短くしたい
  要約なので、原⽂書より短くしたい
• どれくらい短くしたいかは外から与えら
  れるものとする
• 基本的には単位はバイト ⽂字数 ⽂数
  基本的には単位はバイト、⽂字数、⽂数




2011/09/10    TokyoNLP #7   20
重要⽂抽出
     文1:10文字   文2:30文字           文3:25字




                100文字


     • 問題としては単純で、制限サイズにうまく収まる
       問題    単純 、制限    う 収 る
       ように文を選ぶ
     • 文の選び方によって要約の良し悪しが決まる
2011/09/10         TokyoNLP #7            21
重要⽂抽出 1/2
• 式を書くと以下のようになる
        S = arg max{ f ( S ) : length( S ) ≤ K }
        ˆ
               S⊆D
• D:原⽂の集合 S:Dの部分集合
  f(S):fに何らかのスコアを与える関数
  length(S):Sの⻑さ K:要約の最⼤サイズ
• すなわち、何らかの⽬的関数fを最⼤化する、要
  約⻑K以内の、⽂の集合Sを探索(argmax)する
  約⻑K以内の ⽂の集合Sを探索(argmax)する
  問題として重要⽂抽出は定式化できる

2011/09/10               TokyoNLP #7               22
重要⽂抽出 2/2

        S = arg max{ f ( S ) : length ( S ) ≤ K }
        ˆ
               S⊆D

• そのため、問題は2つ
   1. ⽬的関数fの設計:いかなる⽂の集合に⾼い得
   1 ⽬的関数f 設計   かなる⽂ 集合に⾼ 得
      点を与えるか?
        1. モデル
        2. パラメタ推定
   2. argmax操作:⽬的関数fを最⼤化する、要約⻑
      以内の⽂集合Sをどう⾼速に探索するか?
2011/09/10                TokyoNLP #7               23
⽬的関数の設計
• まず⾮常に単純に考える
      – 要約のスコア:要約に含まれている⽂のスコ
        アの和
      – ⽂のスコア:⽂が含む内容語のスコア
                             内容語
    ムバラク大統領に対する              ムバラク
    抗議デモが続くエジプトで、            大統領
    反体制派が4日に大規模              対する
    デモを実施する。                 抗議




                              …
                              …
2011/09/10     TokyoNLP #7          24
⽬的関数の設計
                                       内容語    tf‐idf
        1.
        1 ムバラク大統領に対する                  ムバラク    20
           抗議デモが続くエジプトで、
           反体制派が4日に大規模                 大統領      5
           デモを実施する。                    抗議       7




                                        …




                                               …
• ⽂を内容語の集合(bag of words)として表現し、それら
          ( g          )
  の語それぞれに対してtf-idfなどで重みを定義し、⽂が
  含む単語の重みを⽂の重要度とする
    ˆ = arg max ⎧
    S
                                                  ⎫
                ⎨∑∑ tfidf ( w) : length ( S ) ≤ K ⎬
          S⊆D   ⎩ s∈S w∈s                         ⎭
  • s: ⽂、w: 内容語、 tfidf(w): 内容語wのtfidf値
  • 単⼀⽂書要約の場合はこれでよい
    単 ⽂書要約の場合はこれでよい
2011/09/10               TokyoNLP #7                   25
冗⻑性問題
• 複数⽂書要約の場合 「冗⻑性」を考慮
  複数⽂書要約の場合、「冗⻑性」を考慮
  する必要がある
• 複数⽂書要約の場合、⼊⼒中に類似した
  ⽂が含まれる場合がある
• 類似した⽂は類似した得点を与えられる
  ため、⼀⽅が要約に含まれた場合もう⼀
       が 約
  ⽅も要約に含まれる可能性が⾼い


2011/09/10    TokyoNLP #7   26
冗⻑性問題
      ムバラク大統領に対             エジプトではムバラク
      する抗議デモが続くエ            政権に対するデモが
      ジプトで、反体制派が
      ジプトで 反体制派が            続いている。
      4日に大規模デモを
      実施する。

   • 両⽅が要約に含まれた場合、無駄(冗⻑という⾔
     い⽅をする)
   • この冗⻑性を除去したい




2011/09/10         TokyoNLP #7           27
単純な解法
• 選択した⽂間に類似度を定義、これまで
  選択した⽂と類似した⽂が選ばれたらス
  コアが下がるようにする

 ˆ = arg max ⎧ score ( s ) −
                 ⎨∑
                                                               ⎫
S                                    ∑t )∈S
                                          similarity ( s , t ) ⎬
         S⊆D     ⎩ s∈ S      ( s , t :s ≠                      ⎭
s.t .length ( S ) ≤ K

• M i
  Maximum Marginal Relevance (MMR)
          M   i lR l
  という (Carbonell et al., 1998)
2011/09/10                    TokyoNLP #7                          28
argmax操作

        S = arg max{ f ( S ) : length ( S ) ≤ K }
        ˆ
               S⊆D




• 無事⽬的関数を作ることができたら次は
  argmax操作について考える
        操作に   考え



2011/09/10                TokyoNLP #7               29
argmax操作 1/3
                               文番号   重要度   長さ
                                1    20    30

• 要約⻑40とする
                                2    15    20
                                3    10    15
• 貪欲法                           4     4    6

      1. ⽂1を選ぶ(合計スコア20、⻑さ30)
      1 ⽂1を選ぶ(合計スコア20 ⻑さ30)
      2. ⽂4を選ぶ(合計スコア24、⻑さ36)
• しかし最適解に辿り着ける保証はない
      1. ⽂2を選ぶ(合計スコア15、⻑さ20)
      2. ⽂3を選ぶ(合計スコア25、⻑さ35)
• 最適解はどうすれば⾒つかるか?
2011/09/10       TokyoNLP #7                    30
argmax操作 2/3

• ⼀番網羅的な⽅法は「全ての組み合わせ
  を試す」こと
• 4つの⽂から2つ選ぶ問題ならば:4C2で6
  通り
• 100⽂から10⽂選ぶ問題なら?:100C10で
     ⽂から ⽂選ぶ問題なら
  1.73103095 × 1013通り
• 実⽤的な時間で求解不能

2011/09/10       TokyoNLP #7   31
argmax操作 3/3
• 「100⽂から10⽂選ぶ問題なら?」
• ある⽬的関数を最⼤化する⽂の組み合わ
  せを探索する問題となる
• 組み合わせ最適化の 種と⾒なすことが
  組み合わせ最適化の⼀種と⾒なすことが
  でき、組み合わせ最適化問題として解く
  ことができる
     が



2011/09/10       TokyoNLP #7   32
いろいろなアルゴリズム
• 貪欲法
      – スコアで⽂をソート、スコアが⾼いものから
        選んでいく
• 性能保証付き貪欲法
      – ⽂のスコアを⽂のコスト(⻑さ)で割ったも
        ので⽂をソート
        ので⽂をソ ト
      – スコアが⾼いものから選んでいく



2011/09/10       TokyoNLP #7   33
いろいろなアルゴリズム
• 動的計画法
      – 冗⻑性を考慮しない場合(スコア関数が単純
        な場合)⾼速に最適解を求めることができる
• 整数計画法
• 劣モジュラ最適化
      – 最適化しやすいように⽬的関数を⼯夫する
      – ⽬的関数が劣モジュラ性を持つ(劣モジュラ
        ⽬的関数が劣モジュラ性を持 (劣モジュラ
        関数)である場合、性能保証付き貪欲法など
        で最適解が得られる可能性が⾼
        で最適解が得られる可能性が⾼い
2011/09/10       TokyoNLP #7   34
⽂を並べる
• 無事 要約に⼊れる⽂を選んだら それ
  無事、要約に⼊れる⽂を選んだら、それ
  らを並べる
• 単⼀⽂書要約の場合は、元の⽂書と同じ
  順序で並べれば良い
      – 10⽂から3番めと7番⽬の⽂を選んだら、3番
        ⽬→7番⽬と並べれば良い
        ⽬ 7番⽬と並べれば良い
• 問題は複数⽂書要約の場合


2011/09/10      TokyoNLP #7   35
⽂を並べる
• S t
  Sentence ordering というタスク
             d i
• いくつかのアプローチがある
  いく かのアプロ チがある
• タイムスタンプ順
      – ⽂を選ん きた元⽂書 タイムスタンプ順に
        ⽂を選んできた元⽂書のタイムスタンプ順に
        並べる
      – 同じ⽂書から選ばれた⽂は⽂番号が⼩さい⽅
      – 新聞が対象の場合は問題ない



2011/09/10     TokyoNLP #7     36
• 統計モデルの導⼊
      – ⽂の間に連接コストを導⼊
                               • 文1は文2とより繋がりや
             2   文2              すい、といった統計量を計
                                 算
       文1
                               • それに従ってコストを最小
                 文3              化するように文を並 る
                                 化するように文を並べる
             3

      – グラフの探索に帰着(巡回セールスマン問題)
      – またもや計算量が多いので⼯夫が必要

2011/09/10       TokyoNLP #7                37
重要⽂抽出
• まとめ
      1. 重要⽂抽出は要約⻑以内の、⽬的関数を最⼤化する
         ⽂の集合を選ぶ問題とみなせる
      2. ⽬的関数は、単純にはtf-idfなどで単語に重みづけ
         し、その和を⽂の重要度とするなどできる
         し その和を⽂の重要度とするなどできる
      3. ⽬的関数を最⼤化する⽂の集合を効率的に選び出す
         ことは難しい(貪欲法などで素早く選べるが、⽬的
         ことは難しい(貪欲法などで素早く選べるが ⽬的
         関数を最⼤化するとは限らない)
      4. 重要⽂抽出は組み合わせ最適化問題とみなすことが
         できる


2011/09/10        TokyoNLP #7     38
要約の評価


2011/09/10   TokyoNLP #7   39
要約の評価
• 要約の評価は2種類に分かれる
      1. 内容的品質:原⽂書の内容を適切に反映し
         た要約になっているか?
      2. ⾔語的品質:読みやすい要約になっている
         か?




2011/09/10     TokyoNLP #7     40
内容的品質
• 内容的品質には⾃動評価尺度が存在
• ROUGE (Lin, 2004)
                                     人間による要約
      機械による要約
4. エジプトで続く反政府デモは、2                 ムバラク大統領に対する抗議デモ
   日から3日未明にかけて、反政
   日から3日未明にかけて 反政                  が続くエジプトで 2日から3日未明
                                   が続くエジプトで、2日から3日未明
   府派と大統領支持派の衝突に                   にかけて、反政府派と大統領支持
   発展し、火炎瓶が建物や車に引                  派の衝突が発生した。衝突の際に
   火し、至るところで火の手が上
   火し 至るところで火の手が上                  は、火炎瓶が建物や車に引火し、
   がり、黒煙が立ち込めた。                    至るところで火の手が上がり、黒煙
1. ムバラク大統領に対する抗議デ                  が立ち込めた。更に4日には、反体
   モが続くエジプトで、反体制派が
   モが続くエジプトで 反体制派が                 制派 大規模デ
                                   制派が大規模デモの実施を計画し
                                              実施を計画
   4日に大規模デモを実施する。                  ている。

• ⼈間による要約とのn-gram類似度を計算
  ⼈間による要約とのn gram類似度を計算
2011/09/10           TokyoNLP #7                   41
⾔語的品質
• ⾃動評価法はまだ確⽴されておらず ホ トな研究トピ
  ⾃動評価法はまだ確⽴されておらず、ホットな研究トピ
  ック
• ⼈⼿によって以下の5尺度を評価することが⼀般的
      1.     ⽂法性:⽂法的でない⽂が含まれていないか?
      2.     冗⻑性:全く同じ情報が繰り返されていないか?
      3.     照応・省略:先⾏詞のない指⽰詞が含まれていないか?
      4.     焦点:要約全体と無関係な情報が含まれていないか?
      5.     構造と結束性:接続詞を補ったり削除したりする必要のある箇
             所はないか?




2011/09/10             TokyoNLP #7      42
要約の評価
• まとめ
      1. 要約の評価は内容的品質と⾔語的品質に分
         かれる
      2. 内容的品質は⾃動評価尺度が存在する
      3. ⾔語的品質には⾃動評価尺度がなく、ホッ
         トな研究トピックである




2011/09/10     TokyoNLP #7     43
まとめ
• ⽂書要約とは、受け取った情報の最も重要な部
  分を簡約した形でユーザの要求に応じ提供する
  分を簡約した形   ザ 要求に応じ提供する
  ことである
• ⽂書要約の中⼼的なアプローチは重要⽂抽出で
  ある
• 重要⽂抽出は組み合わせ最適化問題とみなすこ
  とができる
• 要約の内容的品質については⾃動評価法が存在
  するが、⾔語的品質については⾃動評価はまだ
  確⽴されていない

2011/09/10   TokyoNLP #7   44
要約の⾯⽩さ
• ⽂より⼤きい単位(⽂章)を扱うこと
      – NLP タスクは⽂内に閉じたタスクが多い
      – ⽂より⼤きい単位を扱う⾯⽩さ
• ⽂章が出てくる
      – ⾃然⾔語の出⼒が出てくる⾯⽩さ
      – ただしその分評価は難しくなる
• 計算量との戦い


2011/09/10      TokyoNLP #7    45
御清聴ありがとうございました




2011/09/10         TokyoNLP #7   46
参考⽂献
• C b
  Carbonell, J i
           ll Jaime and G ld t i J d 1998 Th
                      d Goldstein, Jade. 1998. The
  use of MMR, diversity-based reranking for
  reordering documents and producing summaries
                                        summaries.
  In Proc. Of SIGIR.
• Lin, Chin-Yew. 2004. ROUGE: A Package for
       Chin Yew.
  Automatic Evaluation of Summaries. In Proc. of
  ACL Workshop on Text Summarization.
• Mani, Inderjeet. 2001. Automatic Summarization.
  John Benjamins Publishing Company.




2011/09/10             TokyoNLP #7                   47

More Related Content

Viewers also liked

アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会
YutakaTanabe
 
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6Yuya Unno
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
Prabhakar Bikkaneti
 
Automatic Summarizaton Tutorial
Automatic Summarizaton TutorialAutomatic Summarizaton Tutorial
Automatic Summarizaton Tutorial
Shilpa Subrahmanyam
 
Automatic Text Summarization
Automatic Text SummarizationAutomatic Text Summarization
Automatic Text SummarizationHimanshuPu
 
ヤフオク!と機械学習#yjdsw1
ヤフオク!と機械学習#yjdsw1ヤフオク!と機械学習#yjdsw1
ヤフオク!と機械学習#yjdsw1
Yahoo!デベロッパーネットワーク
 
SapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライドSapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライド
Hiroshi Shimizu
 
Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。
健一 辰濱
 
TEXT SUMMARIZATION
TEXT SUMMARIZATIONTEXT SUMMARIZATION
TEXT SUMMARIZATION
Aman Sadhwani
 
Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定
Nagi Teramo
 
Automatic Document Summarization
Automatic Document SummarizationAutomatic Document Summarization
Automatic Document SummarizationFindwise
 
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Preferred Networks
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
Carlos Castillo (ChaTo)
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
Yutaka Shimada
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
 
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Ken Takao
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
 

Viewers also liked (20)

構文片の改善と評判分析・自動要約への適用
構文片の改善と評判分析・自動要約への適用構文片の改善と評判分析・自動要約への適用
構文片の改善と評判分析・自動要約への適用
 
アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会
 
20140306 ibisml
20140306 ibisml20140306 ibisml
20140306 ibisml
 
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャー MIURAをつくりました @DSIRNLP#6
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
 
Automatic Summarizaton Tutorial
Automatic Summarizaton TutorialAutomatic Summarizaton Tutorial
Automatic Summarizaton Tutorial
 
Automatic Text Summarization
Automatic Text SummarizationAutomatic Text Summarization
Automatic Text Summarization
 
ヤフオク!と機械学習#yjdsw1
ヤフオク!と機械学習#yjdsw1ヤフオク!と機械学習#yjdsw1
ヤフオク!と機械学習#yjdsw1
 
SapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライドSapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライド
 
Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。
 
TEXT SUMMARIZATION
TEXT SUMMARIZATIONTEXT SUMMARIZATION
TEXT SUMMARIZATION
 
Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定
 
Automatic Document Summarization
Automatic Document SummarizationAutomatic Document Summarization
Automatic Document Summarization
 
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
 
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 

Recently uploaded

CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 

Recently uploaded (16)

CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 

Introduction to Automatic Summarization

  • 1. ⽂書要約⼊⾨ NISHIKAWA Hitoshi 2011/09/10 TokyoNLP #7 1
  • 2. ばくっとした⽂書要約のお話 • 字義の通り 機械(計算機)に⽂書を要 字義の通り、機械(計算機)に⽂書を要 約させること • なんで計算機にそんなことさせるのか? – みんな忙しいので⻑い⽂書なんざ読んでいら れない(俗なところでは、「今北産業」) – 厳 いところでは安全保障上の要請 厳ついところでは安全保障上の要請 • アラブ⼈が悪さしてないかアメリカ⼈は知りたい • アラビア語で書かれた新聞記事を機械翻訳、英語 にして⾃動要約 (TIDES program by DARPA) 2011/09/10 TokyoNLP #7 2
  • 3. ばくっとした⽂書要約のお話 • ⾃然⾔語処理技術(計算機で⾃然⾔語( ⽇本語や英語)を扱う技術)の⼀種で、 機械翻訳などと同様に応⽤側の技術 • 形態素解析など⾃然⾔語処理の様々な基 礎技術の上に成⽴ 2011/09/10 TokyoNLP #7 3
  • 4. ⽂書要約 • 情報のソ スを受け取り そこから内容を抽出し も 情報のソースを受け取り、そこから内容を抽出し、もっ とも重要な内容をユーザに、簡約した形で、かつ、ユー ザやアプリケ ションの要求に応じた形で提⽰すること ザやアプリケーションの要求に応じた形で提⽰すること (Mani, 2001) • 単⼀の、あるいは複 数のニュース記事の 要約 • 情報検索システムや 質問応答システムの 出⼒部 2011/09/10 TokyoNLP #7 4
  • 5. ⽬次 • 導⼊ – ⽂書要約の種類 • 単 /複数 報知的/指⽰的 抽出的/⽣成的 クエリ⾮依存/クエリ 単⼀/複数、報知的/指⽰的、抽出的/⽣成的、クエリ⾮依存/クエリ 依存 – ⽂書要約の要素技術 • ⽂分割、⽂短縮、重要⽂抽出、⽂の順序付け • 具体的な⼿法(重要⽂抽出を中⼼に) – ⽬的関数の設計、argmax操作の実⾏ • 要約の評価 – ROUGE、DUC Linguistic Quality Test • まとめ 2011/09/10 TokyoNLP #7 5
  • 6. 導⼊ 2011/09/10 TokyoNLP #7 6
  • 7. ⽂書要約の種類 1/3 1. ⽬的:指⽰的要約/報知的要約 1 ⽬的 指⽰的要約/報知的要約 – 指⽰的:原⽂書を読むべきか判断するための 要約(e.g.新聞の⾒出し) – 報知的:原⽂書の代わりとする要約(e.g. ニュースの字幕) 2. 2 ⼊⼒:単⼀⽂書要約/複数⽂書要約 – 単⼀:⼀つの⽂書を要約 – 複数:⼀つ以上の⽂書を要約 2011/09/10 TokyoNLP #7 7
  • 8. ⽂書要約の種類 2/3 3. 内容:クエリ依存/クエリ⾮依存 3 内容 クエリ依存/クエリ⾮依存 – クエリ依存:何らかのクエリ(特定の情報へ の要求)に対する要約(e.g.スニペット) – クエリ⾮依存:特定の情報に依らない要約 4. ⼿法:抽出的要約/⽣成的要約 – 抽出的要約 原⽂書を⽂に分解し 要約とし 抽出的要約:原⽂書を⽂に分解し、要約とし て相応しい⽂を選び(重要⽂抽出)、それら を繋げることで作る要約 を繋げ と 作 要約 – ⽣成的要約:原⽂書にない表現を含む(新し い表現を⽣成する)要約 2011/09/10 TokyoNLP #7 8
  • 9. ⽂書要約の種類 3/3 • まとめると こんな感じ まとめると、こんな感じ 1.目的 指示的 報知的 2.入力 単一 複数 3 内容 3.内容 クエリ依存 クエリ非依存 4.手法 抽出的 生成的 • 今回は「指⽰的」で「クエリ⾮依存」の 「抽出的要約」の、⼊⼒が単⼀の場合と 「抽出的要約」の ⼊⼒が単 の場合と 複数の場合をざっくりとご紹介 2011/09/10 TokyoNLP #7 9
  • 10. ⽂書要約の要素技術 1/6 反政府派と大統領派が2日、激しく衝突し 多数の死傷者が出たエジプト・カイロは、 ムバラク大統領に対する 一夜明け、双方で散発的に投石が行われ 夜明け 双方で散発的に投石が行われ るなど、緊迫した状態が続いている。 抗議デモが続くエジプトで、 エジプトで続く反政府デモは、2日から3日 反体制派が4日に大規模 デモを実施する。大統領 デ を実施する 大統領 未明にかけて、反政府派と大統領支持派 未明にかけて 反政府派と大統領支持派 に即時退陣を迫る構え。 の衝突に発展し、火炎瓶が建物や車に引 火し、至るところで火の手が上がり、黒煙 が立ち込めた。 2011/09/10 TokyoNLP #7 10
  • 11. ⽂書要約の要素技術:⽂分割 2/6 反政府派と大統領派が2日、激しく衝突し多 数の死傷者が出たエジプト・カイロは、一夜 明け、双方で散発的に投石が行われるな ムバラク大統領に対する ど、緊迫した状態が続いている。 抗議デモが続くエジプトで、 エジプトで続く反政府デモは、2日から3日 反体制派が4日に大規模 未明にかけて、反政府派と大統領支持派 デモを実施する。大統領 の衝突に発展し、火炎瓶が建物や車に引 に即時退陣を迫る構え。 火し、至るところで火の手が上がり、黒煙が 立ち込めた。 立ち込めた 3. 反政府派と大統領派が2日、激しく衝突し多数の 1. ムバラク大統領に対する 死傷者が出たエジプト・カイロは、一夜明け、双方 抗議デモが続くエジプトで、 で散発的に投石が行われるなど、緊迫した状態が 反体制派が4日に大規模 続いている。 続 る デモを実施する。 4. エジプトで続く反政府デモは、2日から3日未明に 2. 大統領に即時退陣を迫る かけて、反政府派と大統領支持派の衝突に発展し、 構え。 構え 火炎瓶が建物や車に引火し、至るところで火の手 火炎瓶が建物や車に引火し 至るところで火の手 が上がり、黒煙が立ち込めた。 2011/09/10 TokyoNLP #7 11
  • 12. ⽂書要約の要素技術:⽂短縮 3/6 3a.反政府派と大統領派が2日、激しく衝突し 多数の死傷者が出たエジプト・カイロは、 3. 反政府派と大統領 夜明け、双方で散発的に投石が行われ 一夜明け、双方で散発的に投石が行われ 派が2日、激しく衝 るなど、緊迫した状態が続いている。 突し多数の死傷者 が出たエジプト・カイ 3b.多数の死傷者が出たエジプト・カイロは、 多数 死傷者 出 ジ 、 ロは、一夜明け、双 は 夜明け 双 一夜明け、双方で散発的に投石が行われ 方で散発的に投石 るなど、緊迫した状態が続いている。 が行われるなど、緊 迫した状態が続い 3c.エジプト・カイロは、一夜明け、双方で散発 ている。 的に投石が行われるなど、緊迫した状態 が続いている。 2011/09/10 TokyoNLP #7 12
  • 13. ⽂書要約の要素技術:重要⽂抽出 4/6 3. 反政府派と大統領派が2日、激しく衝突し多 1. 1 ムバラク大統領に対する 数の死傷者が出たエジプト・カイロは、一夜 抗議デモが続くエジプトで、 明け、双方で散発的に投石が行われるなど、 反体制派が4日に大規模 緊迫した状態が続いている。 デモを実施する。 デモを実施する 4. エジプトで続く反政府デモは、2日から3日未 2. 大統領に即時退陣を迫る 明にかけて、反政府派と大統領支持派の衝 構え。 突に発展し、火炎瓶が建物や車に引火し、至 るところで火の手が上がり、黒煙が立ち込め が が が た。 1. ムバラク大統領に対する 4. エジプトで続く反政府デモは、2日から3日未 抗議デモが続くエジプトで、 抗議デモが続くエジプトで 明にかけて、反政府派と大統領支持派の衝 明にかけて 反政府派と大統領支持派の衝 反体制派が4日に大規模 突に発展し、火炎瓶が建物や車に引火し、至 デモを実施する。 るところで火の手が上がり、黒煙が立ち込め た。 2011/09/10 TokyoNLP #7 13
  • 14. ⽂書要約の要素技術:⽂の順序付け 5/6 1. 1 ムバラク大統領に対する 4. エジプトで続く反政府デモは、2日から3日未 4 エジプトで続く反政府デモは 2日から3日未 抗議デモが続くエジプトで、 明にかけて、反政府派と大統領支持派の衝 反体制派が4日に大規模 突に発展し、火炎瓶が建物や車に引火し、至 デモを実施する。 るところで火の手が上がり、黒煙が立ち込め た。 4. エジプトで続く反政府デモは、2日から3日未 明にかけて、反政府派と大統領支持派の衝 突に発展し、火炎瓶が建物や車に引火し、至 が ※単一文書 るところで火の手が上がり、黒煙が立ち込め た。 要約の場合 1. 1 ムバラク大統領に対する抗議デモが続くエジ は不要 プトで、反体制派が4日に大規模デモを実施 する。 2011/09/10 TokyoNLP #7 14
  • 15. ⽂書要約の要素技術 6/6 • まとめ 1. ⽂分割:⽂書を⽂に分割する 2. ⽂短縮:修飾節を削除するなどして、原⽂よ り短い原⽂の「亜種」を作る 3. 重要⽂抽出:要約に相応しい⽂を選び出す 4. ⽂の順序付け:選んだ⽂を適切に並べる 4 ⽂の順序付け 選んだ⽂を適切に並べる • 今回は特に、重要⽂抽出を中⼼に解説 2011/09/10 TokyoNLP #7 15
  • 16. 具体的な⼿法 2011/09/10 TokyoNLP #7 16
  • 17. ⽂分割 • 句点などを⼿掛かりに⽂章を⽂に分割する • 「ムバラク⼤統領に対する抗議デモが続くエジプトで、 反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時 反体制派が4⽇に⼤規模デモを実施する ⼤統領に即時 退陣を迫る構え。」 • 切る⽂章の種類によって難しさが変わる – 新聞記事は綺麗に書かれているので楽 – ⽂体が雑になるにつれて⽂境界がよくわからなくなる • 真⾯⽬にやると⼤変、抽出的要約の場合、⽂分割の性能 が要約の読みやすさに⼤きく影響 – 変なところで切ると訳のわからない要約が出来る 2011/09/10 TokyoNLP #7 17
  • 18. ⽂短縮 • ⽂を短くする(そのまま) – ⽂の中には⼤切なところと⼤切でないところ があるという発想 • 以下の2つの基準で⽂を短くする – 重要なところのみを残す – ⽂法性を保 ⽂法性を保つ • 要約システムに必ず必要というわけでは 要約 必 必要 ない 2011/09/10 TokyoNLP #7 18
  • 19. ⽂短縮 • 基本的なアプロ チ 構⽂⽊を枝刈り 基本的なアプローチ:構⽂⽊を枝刈り ムバラク大統領に 対する 抗議デモが 続く エジプトで 反体制派が 4日に 大規模デモを 実施する。 →○エジプトで反体制派が大規模デモを実施する。 ジプ が デ →×ムバラク大統領に続く大規模デモを実施する。 中間ノードを落とすと文法性が損なわれたり本来の文意が損なわれたりする 枝刈りされた木に対して言語尤度(文としての良さ)と内容に関するスコア(文が 持っている情報量)を与え良い木を選び出す 持 ている情報量)を与え良い木を選び出す 2011/09/10 TokyoNLP #7 19
  • 20. 重要⽂抽出 • 要約なので 原⽂書より短くしたい 要約なので、原⽂書より短くしたい • どれくらい短くしたいかは外から与えら れるものとする • 基本的には単位はバイト ⽂字数 ⽂数 基本的には単位はバイト、⽂字数、⽂数 2011/09/10 TokyoNLP #7 20
  • 21. 重要⽂抽出 文1:10文字 文2:30文字 文3:25字 100文字 • 問題としては単純で、制限サイズにうまく収まる 問題 単純 、制限 う 収 る ように文を選ぶ • 文の選び方によって要約の良し悪しが決まる 2011/09/10 TokyoNLP #7 21
  • 22. 重要⽂抽出 1/2 • 式を書くと以下のようになる S = arg max{ f ( S ) : length( S ) ≤ K } ˆ S⊆D • D:原⽂の集合 S:Dの部分集合 f(S):fに何らかのスコアを与える関数 length(S):Sの⻑さ K:要約の最⼤サイズ • すなわち、何らかの⽬的関数fを最⼤化する、要 約⻑K以内の、⽂の集合Sを探索(argmax)する 約⻑K以内の ⽂の集合Sを探索(argmax)する 問題として重要⽂抽出は定式化できる 2011/09/10 TokyoNLP #7 22
  • 23. 重要⽂抽出 2/2 S = arg max{ f ( S ) : length ( S ) ≤ K } ˆ S⊆D • そのため、問題は2つ 1. ⽬的関数fの設計:いかなる⽂の集合に⾼い得 1 ⽬的関数f 設計 かなる⽂ 集合に⾼ 得 点を与えるか? 1. モデル 2. パラメタ推定 2. argmax操作:⽬的関数fを最⼤化する、要約⻑ 以内の⽂集合Sをどう⾼速に探索するか? 2011/09/10 TokyoNLP #7 23
  • 24. ⽬的関数の設計 • まず⾮常に単純に考える – 要約のスコア:要約に含まれている⽂のスコ アの和 – ⽂のスコア:⽂が含む内容語のスコア 内容語 ムバラク大統領に対する ムバラク 抗議デモが続くエジプトで、 大統領 反体制派が4日に大規模 対する デモを実施する。 抗議 … … 2011/09/10 TokyoNLP #7 24
  • 25. ⽬的関数の設計 内容語 tf‐idf 1. 1 ムバラク大統領に対する ムバラク 20 抗議デモが続くエジプトで、 反体制派が4日に大規模 大統領 5 デモを実施する。 抗議 7 … … • ⽂を内容語の集合(bag of words)として表現し、それら ( g ) の語それぞれに対してtf-idfなどで重みを定義し、⽂が 含む単語の重みを⽂の重要度とする ˆ = arg max ⎧ S ⎫ ⎨∑∑ tfidf ( w) : length ( S ) ≤ K ⎬ S⊆D ⎩ s∈S w∈s ⎭ • s: ⽂、w: 内容語、 tfidf(w): 内容語wのtfidf値 • 単⼀⽂書要約の場合はこれでよい 単 ⽂書要約の場合はこれでよい 2011/09/10 TokyoNLP #7 25
  • 26. 冗⻑性問題 • 複数⽂書要約の場合 「冗⻑性」を考慮 複数⽂書要約の場合、「冗⻑性」を考慮 する必要がある • 複数⽂書要約の場合、⼊⼒中に類似した ⽂が含まれる場合がある • 類似した⽂は類似した得点を与えられる ため、⼀⽅が要約に含まれた場合もう⼀ が 約 ⽅も要約に含まれる可能性が⾼い 2011/09/10 TokyoNLP #7 26
  • 27. 冗⻑性問題 ムバラク大統領に対 エジプトではムバラク する抗議デモが続くエ 政権に対するデモが ジプトで、反体制派が ジプトで 反体制派が 続いている。 4日に大規模デモを 実施する。 • 両⽅が要約に含まれた場合、無駄(冗⻑という⾔ い⽅をする) • この冗⻑性を除去したい 2011/09/10 TokyoNLP #7 27
  • 28. 単純な解法 • 選択した⽂間に類似度を定義、これまで 選択した⽂と類似した⽂が選ばれたらス コアが下がるようにする ˆ = arg max ⎧ score ( s ) − ⎨∑ ⎫ S ∑t )∈S similarity ( s , t ) ⎬ S⊆D ⎩ s∈ S ( s , t :s ≠ ⎭ s.t .length ( S ) ≤ K • M i Maximum Marginal Relevance (MMR) M i lR l という (Carbonell et al., 1998) 2011/09/10 TokyoNLP #7 28
  • 29. argmax操作 S = arg max{ f ( S ) : length ( S ) ≤ K } ˆ S⊆D • 無事⽬的関数を作ることができたら次は argmax操作について考える 操作に 考え 2011/09/10 TokyoNLP #7 29
  • 30. argmax操作 1/3 文番号 重要度 長さ 1 20 30 • 要約⻑40とする 2 15 20 3 10 15 • 貪欲法 4 4 6 1. ⽂1を選ぶ(合計スコア20、⻑さ30) 1 ⽂1を選ぶ(合計スコア20 ⻑さ30) 2. ⽂4を選ぶ(合計スコア24、⻑さ36) • しかし最適解に辿り着ける保証はない 1. ⽂2を選ぶ(合計スコア15、⻑さ20) 2. ⽂3を選ぶ(合計スコア25、⻑さ35) • 最適解はどうすれば⾒つかるか? 2011/09/10 TokyoNLP #7 30
  • 31. argmax操作 2/3 • ⼀番網羅的な⽅法は「全ての組み合わせ を試す」こと • 4つの⽂から2つ選ぶ問題ならば:4C2で6 通り • 100⽂から10⽂選ぶ問題なら?:100C10で ⽂から ⽂選ぶ問題なら 1.73103095 × 1013通り • 実⽤的な時間で求解不能 2011/09/10 TokyoNLP #7 31
  • 32. argmax操作 3/3 • 「100⽂から10⽂選ぶ問題なら?」 • ある⽬的関数を最⼤化する⽂の組み合わ せを探索する問題となる • 組み合わせ最適化の 種と⾒なすことが 組み合わせ最適化の⼀種と⾒なすことが でき、組み合わせ最適化問題として解く ことができる が 2011/09/10 TokyoNLP #7 32
  • 33. いろいろなアルゴリズム • 貪欲法 – スコアで⽂をソート、スコアが⾼いものから 選んでいく • 性能保証付き貪欲法 – ⽂のスコアを⽂のコスト(⻑さ)で割ったも ので⽂をソート ので⽂をソ ト – スコアが⾼いものから選んでいく 2011/09/10 TokyoNLP #7 33
  • 34. いろいろなアルゴリズム • 動的計画法 – 冗⻑性を考慮しない場合(スコア関数が単純 な場合)⾼速に最適解を求めることができる • 整数計画法 • 劣モジュラ最適化 – 最適化しやすいように⽬的関数を⼯夫する – ⽬的関数が劣モジュラ性を持つ(劣モジュラ ⽬的関数が劣モジュラ性を持 (劣モジュラ 関数)である場合、性能保証付き貪欲法など で最適解が得られる可能性が⾼ で最適解が得られる可能性が⾼い 2011/09/10 TokyoNLP #7 34
  • 35. ⽂を並べる • 無事 要約に⼊れる⽂を選んだら それ 無事、要約に⼊れる⽂を選んだら、それ らを並べる • 単⼀⽂書要約の場合は、元の⽂書と同じ 順序で並べれば良い – 10⽂から3番めと7番⽬の⽂を選んだら、3番 ⽬→7番⽬と並べれば良い ⽬ 7番⽬と並べれば良い • 問題は複数⽂書要約の場合 2011/09/10 TokyoNLP #7 35
  • 36. ⽂を並べる • S t Sentence ordering というタスク d i • いくつかのアプローチがある いく かのアプロ チがある • タイムスタンプ順 – ⽂を選ん きた元⽂書 タイムスタンプ順に ⽂を選んできた元⽂書のタイムスタンプ順に 並べる – 同じ⽂書から選ばれた⽂は⽂番号が⼩さい⽅ – 新聞が対象の場合は問題ない 2011/09/10 TokyoNLP #7 36
  • 37. • 統計モデルの導⼊ – ⽂の間に連接コストを導⼊ • 文1は文2とより繋がりや 2 文2 すい、といった統計量を計 算 文1 • それに従ってコストを最小 文3 化するように文を並 る 化するように文を並べる 3 – グラフの探索に帰着(巡回セールスマン問題) – またもや計算量が多いので⼯夫が必要 2011/09/10 TokyoNLP #7 37
  • 38. 重要⽂抽出 • まとめ 1. 重要⽂抽出は要約⻑以内の、⽬的関数を最⼤化する ⽂の集合を選ぶ問題とみなせる 2. ⽬的関数は、単純にはtf-idfなどで単語に重みづけ し、その和を⽂の重要度とするなどできる し その和を⽂の重要度とするなどできる 3. ⽬的関数を最⼤化する⽂の集合を効率的に選び出す ことは難しい(貪欲法などで素早く選べるが、⽬的 ことは難しい(貪欲法などで素早く選べるが ⽬的 関数を最⼤化するとは限らない) 4. 重要⽂抽出は組み合わせ最適化問題とみなすことが できる 2011/09/10 TokyoNLP #7 38
  • 39. 要約の評価 2011/09/10 TokyoNLP #7 39
  • 40. 要約の評価 • 要約の評価は2種類に分かれる 1. 内容的品質:原⽂書の内容を適切に反映し た要約になっているか? 2. ⾔語的品質:読みやすい要約になっている か? 2011/09/10 TokyoNLP #7 40
  • 41. 内容的品質 • 内容的品質には⾃動評価尺度が存在 • ROUGE (Lin, 2004) 人間による要約 機械による要約 4. エジプトで続く反政府デモは、2 ムバラク大統領に対する抗議デモ 日から3日未明にかけて、反政 日から3日未明にかけて 反政 が続くエジプトで 2日から3日未明 が続くエジプトで、2日から3日未明 府派と大統領支持派の衝突に にかけて、反政府派と大統領支持 発展し、火炎瓶が建物や車に引 派の衝突が発生した。衝突の際に 火し、至るところで火の手が上 火し 至るところで火の手が上 は、火炎瓶が建物や車に引火し、 がり、黒煙が立ち込めた。 至るところで火の手が上がり、黒煙 1. ムバラク大統領に対する抗議デ が立ち込めた。更に4日には、反体 モが続くエジプトで、反体制派が モが続くエジプトで 反体制派が 制派 大規模デ 制派が大規模デモの実施を計画し 実施を計画 4日に大規模デモを実施する。 ている。 • ⼈間による要約とのn-gram類似度を計算 ⼈間による要約とのn gram類似度を計算 2011/09/10 TokyoNLP #7 41
  • 42. ⾔語的品質 • ⾃動評価法はまだ確⽴されておらず ホ トな研究トピ ⾃動評価法はまだ確⽴されておらず、ホットな研究トピ ック • ⼈⼿によって以下の5尺度を評価することが⼀般的 1. ⽂法性:⽂法的でない⽂が含まれていないか? 2. 冗⻑性:全く同じ情報が繰り返されていないか? 3. 照応・省略:先⾏詞のない指⽰詞が含まれていないか? 4. 焦点:要約全体と無関係な情報が含まれていないか? 5. 構造と結束性:接続詞を補ったり削除したりする必要のある箇 所はないか? 2011/09/10 TokyoNLP #7 42
  • 43. 要約の評価 • まとめ 1. 要約の評価は内容的品質と⾔語的品質に分 かれる 2. 内容的品質は⾃動評価尺度が存在する 3. ⾔語的品質には⾃動評価尺度がなく、ホッ トな研究トピックである 2011/09/10 TokyoNLP #7 43
  • 44. まとめ • ⽂書要約とは、受け取った情報の最も重要な部 分を簡約した形でユーザの要求に応じ提供する 分を簡約した形 ザ 要求に応じ提供する ことである • ⽂書要約の中⼼的なアプローチは重要⽂抽出で ある • 重要⽂抽出は組み合わせ最適化問題とみなすこ とができる • 要約の内容的品質については⾃動評価法が存在 するが、⾔語的品質については⾃動評価はまだ 確⽴されていない 2011/09/10 TokyoNLP #7 44
  • 45. 要約の⾯⽩さ • ⽂より⼤きい単位(⽂章)を扱うこと – NLP タスクは⽂内に閉じたタスクが多い – ⽂より⼤きい単位を扱う⾯⽩さ • ⽂章が出てくる – ⾃然⾔語の出⼒が出てくる⾯⽩さ – ただしその分評価は難しくなる • 計算量との戦い 2011/09/10 TokyoNLP #7 45
  • 47. 参考⽂献 • C b Carbonell, J i ll Jaime and G ld t i J d 1998 Th d Goldstein, Jade. 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries summaries. In Proc. Of SIGIR. • Lin, Chin-Yew. 2004. ROUGE: A Package for Chin Yew. Automatic Evaluation of Summaries. In Proc. of ACL Workshop on Text Summarization. • Mani, Inderjeet. 2001. Automatic Summarization. John Benjamins Publishing Company. 2011/09/10 TokyoNLP #7 47