Your SlideShare is downloading. ×
Automatic summarization
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Automatic summarization

5,559

Published on

0 Comments
19 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
5,559
On Slideshare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
78
Comments
0
Likes
19
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. ⾃動要約技術の研究動向 ⻄川 仁 @hitoshi_ni 2014/01/27 1
  • 2. 本資料について • 以下の2つの講演における資料からなる – ⻄川仁. ⾃動要約技術の研究動向:これまでとこれから. 情報処 理学会第213回⾃然⾔語処理研究会. 2013/09/13 – ⻄川仁. ⾃動要約における組み合わせ最適化. ⼈⼯知能学会第91 回⼈⼯知能基本問題研究会. 2013/11/29 2014/01/27 2
  • 3. 本資料の想定する読み⼿と狙い • 想定する読み⼿ – ⾃然⾔語処理に関する基本的な知識がある – ⾃動要約については明るくないが,多少の関⼼がある • 狙い – ⾃動要約のアプローチをご理解いただく – 知⾒の共有 2014/01/27 3
  • 4. 何が含まれないか • 過去の研究の網羅的な紹介 – ⽐較的新しい話題を中⼼にお話する • ⼿法の詳細(アルゴリズムなど) 2014/01/27 4
  • 5. あらまし 1. 導⼊ – – – 定義 分類 要素技術 2. 今⽇の⾃動要約技術 – – 対象 ⽂選択・⽂短縮・⽂の順序付け 3. まとめ 2014/01/27 5
  • 6. ばくっとした⾃動要約のお話 ⾃動要約の例 国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介 ⼊を認める決議を全会⼀致で採択した。周辺国で構成する⻄アフリカ諸国経済共同体(ECOWA S)による3300⼈規模の部隊派遣を承認。混迷のマリ情勢は新たな局⾯に⼊る。 決議では、アフリカ国際マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認 めた。派遣部隊はまずマリ軍兵⼠の教育や作戦を⽀援する。派遣期間は1年。軍事⾏動の開始は来年 秋以降になる⾒通し。 マリでは3⽉、⾸都バマコで反乱軍によるクーデターが発⽣。イスラム過激派が北部を制圧し、国 ⼟は事実上⼆分された。今⽉10⽇には政府軍兵⼠らがディアラ暫定政府⾸相の⾝柄を拘束。⾸相は 翌11⽇に退陣を表明し、混乱が加速した。ロイター通信によると、ディアラ⾸相拘束はクーデター を主導したサノゴ⼤尉の指⽰。背景には⾸相とトラオレ暫定⼤統領らとの間の政治的対⽴があったと され、トラオレ⼤統領は職務を継続している 国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介⼊ を認める決議を全会⼀致で採択した。混迷のマリ情勢は新たな局⾯に⼊る。決議では、アフリカ国際 マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認めた。派遣部隊はまずマリ 軍兵⼠の教育や作戦を⽀援する。 2014/01/27 6
  • 7. ばくっとした⾃動要約のお話 機械に⽂書を⾃動的に要約させたい • なんで計算機にそんなことをさせるのか? – みんな忙しいので⻑い⽂書なんざ読んでいられない(俗なとこ ろでは、「今北産業」) – 厳ついところでは安全保障上の要請 • アラブ⼈が悪さしてないかアメリカ⼈は知りたい • アラビア語で書かれた新聞記事を機械翻訳、英語にして⾃動要約 (DARPA TIDES program) 2014/01/27 7
  • 8. ばくっとした⾃動要約のお話 ⽣成側の⾃然⾔語処理技術 • ⾃然⾔語処理技術(計算機で⾃然⾔語(⽇本語や英語) を扱う技術)の⼀種 • 機械翻訳などと同様にテキストを出⼒する技術 – テキストを解析する技術と⼀線を画す(特に評価が⼤変) 2014/01/27 8
  • 9. ⾃動要約の定義と応⽤ 要求に合わせて,情報ソースを要約 • 情報のソースを受け取り、そこから内容を抽出し、もっ とも重要な内容をユーザに、簡約した形で、かつ、ユー ザやアプリケーションの要求に応じた形で提⽰すること (Mani01) • 単⼀の、あるいは複数のニュース記事の要約 • 情報検索システムや質問応答システムの出⼒部 2014/01/27 9
  • 10. ⾃動要約の構成要素 3つの要素によって作成すべき/できる要約が決まる 技術 ⼊⼒⽂書集合 要約 読者 2014/01/27 10
  • 11. ⾃動要約の構成要素 3つの要素によって作成すべき/できる要約が決まる • 計算資源(クロック数, • • 数(単⼀か複数か) ジャンル(新聞,技術⽂献, ブログ,ツイッター) • ディスク) 利⽤できる技術とその精度 – 形態素解析,係り受け解析, 述語項構造解析,共参照解析 – 機械学習 • 書き⼿(⽞⼈,素⼈) • 主題 技術 ⼊⼒⽂書集合 要約 • 利⽤⽤途 – 要約の⻑さ – ユーザーが選好する情報 (クエリ)の有無 読者 2014/01/27 11
  • 12. ⾃動要約の構成要素 難 し さ ⼊ ⼒ ⽂ 書 性の 質 に よ る 読者(使途)による要求⽔準 2014/01/27 技術 12
  • 13. ⾃動要約の構成要素 妙な⽂書だと要約が⼤変 難 し さ ⼊ ⼒ ⽂ 書 性の 質 に よ る 読み⼿の要求⽔準によって 要約の難しさは変化 現在の技術⽔準で できること 読者(使途)による要求⽔準 2014/01/27 技術 13
  • 14. ⾃動要約の構成要素 妙な⽂書だと要約が⼤変 難 し さ ⼊ ⼒ ⽂ 書 性の 質 に よ る うまくつながるように するのが⼤変 読み⼿の要求⽔準によって 要約の難しさは変化 現在の技術⽔準で できること 読者(使途)による要求⽔準 2014/01/27 技術 14
  • 15. ⾃動要約の分類 4つの主要な分類が存在 • 読み⼿に由来するもの 1. 要約の使い⽅:指⽰的要約/報知的要約 2. 必要な情報の指定:クエリ⾮依存要約/クエリ依存要約 • ⼊⼒に由来するもの 3. ⼊⼒⽂書の数:単⼀⽂書要約/複数⽂書要約 • 技術に由来するもの 4. 要約を作る⽅法:抽出的要約/⽣成的要約 2014/01/27 15
  • 16. ⾃動要約の分類 読み⼿に由来する分類 1. 要約の使い⽅:指⽰的要約 or 報知的要約 – 指⽰的:原⽂書を読むべきか判断するための要約(e.g.新聞の ⾒出し) – 報知的:原⽂書の代わりとする要約(e.g.ニュースの字幕) 2. 必要な情報の指定:クエリ依存 or クエリ⾮依存 – クエリ依存:何らかのクエリ(特定の情報への要求)に対する 要約(e.g.スニペット) – クエリ⾮依存:特定の情報に依らない要約 2014/01/27 16
  • 17. ⾃動要約の分類 ⼊⼒と技術に由来するもの 3. ⼊⼒:単⼀⾃動要約 or 複数⾃動要約 – 単⼀:1つの⽂書を要約 – 複数:1つ以上の⽂書を要約 4. ⼿法:抽出的要約 or ⽣成的要約 – 抽出的要約:原⽂書を⽂に分解し、要約として相応しい⽂を選 び(重要⽂抽出)、それらを繋げることで作る要約 – ⽣成的要約:原⽂書にない表現を含む(新しい表現を⽣成す る)要約 2014/01/27 17
  • 18. ⾃動要約の分類 研究の焦点は以下の組み合わせ 指⽰的 報知的 2.情報 クエリ依存 クエリ⾮依存 3.⼊⼒ 単⼀ 複数 4.⼿法 抽出的 ⽣成的 1.使い⽅ 2014/01/27 18
  • 19. ⾃動要約の要素技術 以下の要素技術の組み合わせで要約が⾏われる 1. ⽂分割:⽂書を⽂に分割する 2. ⽂短縮:修飾節を削除するなどして、原⽂より短い原 ⽂の「亜種」を作る 3. 重要⽂抽出:要約に相応しい⽂を選び出す 4. ⽂の順序付け:選んだ⽂を適切に並べる 5. 評価: ROUGE で評価,読みやすさについては⼈⼿ 2014/01/27 19
  • 20. ⾃動要約の要素技術 ムバラク⼤統領に対す る抗議デモが続くエジ プトで、反体制派が4 ⽇に⼤規模デモを実施 する。⼤統領に即時退 陣を迫る構え。 2014/01/27 反政府派と⼤統領派が2⽇、激しく衝突 し多数の死傷者が出たエジプト・カイ ロは、⼀夜明け、双⽅で散発的に投⽯ が⾏われるなど、緊迫した状態が続い ている。エジプトで続く反政府デモは、 2⽇から3⽇未明にかけて、反政府派と ⼤統領⽀持派の衝突に発展し、⽕炎瓶 が建物や⾞に引⽕し、⾄るところで⽕ の⼿が上がり、⿊煙が⽴ち込めた。 20
  • 21. ⾃動要約の要素技術:⽂分割 ムバラク⼤統領に対する 抗議デモが続くエジプト で、反体制派が4⽇に⼤ 規模デモを実施する。⼤ 統領に即時退陣を迫る構 え。 1. ム バ ラ ク ⼤ 統 領 に 対 す る抗議デモが続くエジ プトで、反体制派が4 ⽇に⼤規模デモを実施 する。 2. ⼤ 統 領 に 即 時 退 陣 を 迫 る構え。 2014/01/27 反政府派と⼤統領派が2⽇、激しく衝突 し多数の死傷者が出たエジプト・カイロ は、⼀夜明け、双⽅で散発的に投⽯が⾏ われるなど、緊迫した状態が続いている。 エジプトで続く反政府デモは、2⽇から 3⽇未明にかけて、反政府派と⼤統領⽀ 持派の衝突に発展し、⽕炎瓶が建物や⾞ に引⽕し、⾄るところで⽕の⼿が上がり、 ⿊煙が⽴ち込めた。 3. 反政府派と⼤統領派が2⽇、激しく衝突し多数 の死傷者が出たエジプト・カイロは、⼀夜明け、 双⽅で散発的に投⽯が⾏われるなど、緊迫した 状態が続いている。 4. エジプトで続く反政府デモは、2⽇から3⽇未 明にかけて、反政府派と⼤統領⽀持派の衝突に 発展し、⽕炎瓶が建物や⾞に引⽕し、⾄るとこ ろで⽕の⼿が上がり、⿊煙が⽴ち込めた。 21
  • 22. ⾃動要約の要素技術:⽂短縮 3. 反政府派と⼤統領 派が2⽇、激しく 衝突し多数の死傷 者が出たエジプ ト・カイロは、⼀ 夜明け、双⽅で散 発的に投⽯が⾏わ れるなど、緊迫し た状態が続いてい る。 2014/01/27 3a.反政府派と⼤統領派が2⽇、激しく衝 突し多数の死傷者が出たエジプト・カ イロは、⼀夜明け、双⽅で散発的に投 ⽯が⾏われるなど、緊迫した状態が続 いている。 3b.多数の死傷者が出たエジプト・カイロ は、⼀夜明け、双⽅で散発的に投⽯が ⾏われるなど、緊迫した状態が続いて いる。 3c.エジプト・カイロは、⼀夜明け、双⽅ で散発的に投⽯が⾏われるなど、緊迫 した状態が続いている。 22
  • 23. ⾃動要約の要素技術:⽂選択 1. ム バ ラ ク ⼤ 統 領 に 対 す る抗議デモが続くエジ プトで、反体制派が4 ⽇に⼤規模デモを実施 する。 2. ⼤ 統 領 に 即 時 退 陣 を 迫 る構え。 1. ム バ ラ ク ⼤ 統 領 に 対 す る抗議デモが続くエジ プトで、反体制派が4 ⽇に⼤規模デモを実施 する。 2014/01/27 3. 反政府派と⼤統領派が2⽇、激しく衝突し 多数の死傷者が出たエジプト・カイロは、 ⼀夜明け、双⽅で散発的に投⽯が⾏われ るなど、緊迫した状態が続いている。 4. エジプトで続く反政府デモは、2⽇から3 ⽇未明にかけて、反政府派と⼤統領⽀持 派の衝突に発展し、⽕炎瓶が建物や⾞に 引⽕し、⾄るところで⽕の⼿が上がり、 ⿊煙が⽴ち込めた。 4. エジプトで続く反政府デモは、2⽇から3 ⽇未明にかけて、反政府派と⼤統領⽀持 派の衝突に発展し、⽕炎瓶が建物や⾞に 引⽕し、⾄るところで⽕の⼿が上がり、 ⿊煙が⽴ち込めた。 23
  • 24. ⾃動要約の要素技術:順序付け 1. ム バ ラ ク ⼤ 統 領 に 対 す る抗議デモが続くエジ プトで、反体制派が4 ⽇に⼤規模デモを実施 する。 4. エジプトで続く反政府デモは、2⽇から3 ⽇未明にかけて、反政府派と⼤統領⽀持 派の衝突に発展し、⽕炎瓶が建物や⾞に 引⽕し、⾄るところで⽕の⼿が上がり、 ⿊煙が⽴ち込めた。 4. エジプトで続く反政府デモは、2⽇から3 ⽇未明にかけて、反政府派と⼤統領⽀持 派の衝突に発展し、⽕炎瓶が建物や⾞に 引⽕し、⾄るところで⽕の⼿が上がり、 ⿊煙が⽴ち込めた。 1. ムバラク⼤統領に対する抗議デモが続く エジプトで、反体制派が4⽇に⼤規模デ モを実施する。 2014/01/27 ※単⼀⾃動 要約の場合 は不要 24
  • 25. ⾃動要約の要素技術:評価 要約の評価は2種類×2種類に分かれる • 評価の側⾯ – 内容的品質:原⽂書の内容を適切に反映した要約になっている か? – ⾔語的品質:読みやすい要約になっているか? • 評価の⽅法 – 内的な評価:要約「そのもの」の品質を評価 – 外的な評価:要約以外のタスクで要約の品質を評価(例えば, 要約だけを使って情報検索の精度が下がらないか,など) 2014/01/27 25
  • 26. ⾃動要約の要素技術:内容 ⾃動評価尺度 ROUGE (Lin04) が存在 • 機械が⽣成した要約と,⼈間による要約(参照要約)と のn-gram類似度を計算 機械による要約 エジプトで続く反政府デモは、2⽇から 3⽇未明にかけて、反政府派と⼤統領⽀ 持派の衝突に発展し、⽕炎瓶が建物や ⾞に引⽕し、⾄るところで⽕の⼿が上 がり、⿊煙が⽴ち込めた。ムバラク⼤ 統領に対する抗議デモが続くエジプト で、反体制派が4⽇に⼤規模デモを実 施する。 2014/01/27 ⼈間による要約 ムバラク⼤統領に対する抗議デモが 続くエジプトで、2⽇から3⽇未明に かけて、反政府派と⼤統領⽀持派の 衝突が発⽣した。衝突の際には、⽕ 炎瓶が建物や⾞に引⽕し、⾄るとこ ろで⽕の⼿が上がり、⿊煙が⽴ち込 めた。更に4⽇には、反体制派が⼤規 模デモの実施を計画している。 26
  • 27. ⾃動要約の要素技術:⾔語 ⾃動評価法はまだ確⽴されていない • ⼈⼿によって以下の5尺度を評価することが⼀般的 1. 2. 3. 4. 5. ⽂法性:⽂法的でない⽂が含まれていないか? 冗⻑性:全く同じ情報が繰り返されていないか? 照応・省略:先⾏詞のない指⽰詞が含まれていないか? 焦点:要約全体と無関係な情報が含まれていないか? 構造と結束性:接続詞を補ったり削除したりする必要のある箇 所はないか? • ⾼コストで,⾃動化が望まれている • 最近は Amazon Mechanical Turk が使われる 2014/01/27 27
  • 28. ⾃動要約の要素技術:まとめ 5つの主要な要素技術が存在 1. ⽂分割:⽂書を⽂に分割する 2. ⽂短縮:修飾節を削除するなどして、原⽂より短い原 ⽂の「亜種」を作る 3. 重要⽂抽出:要約に相応しい⽂を選び出す 4. ⽂の順序付け:選んだ⽂を適切に並べる 5. 評価: ROUGE で評価,読みやすさについては⼈⼿ 2014/01/27 28
  • 29. 要素技術の分解 要素技術をモデル,学習法,デコード法に整理 • ⼊⼒⽂書集合 D とユーザーの要求 U が与えられたとき,それを最 ⼤化する S を探す問題として定式化 ˆ S = arg max f (S; D,U) S ≈ arg max f (S;w) S デコード (最良の S の探索) 2014/01/27 モデル (⽬的関数の形態) パラメータ (重み,特徴量) 29
  • 30. 要素技術の分解 ⼤まかに以下のように分類できる ⽂分割 ⽂分割 • 逐次予測 (Paice+90, Gillick+09) 学 特 学習・ 学 特徴量・ 徴 ・習 • Sequential Labeling (Hirao+10) • 構⽂⽊の枝刈り (Jing00;Clarke+07;No moto+07;Zajic+07), • STSG ( Cohn+07;Cohn+08), • QSG (Woodsend+10) • 規則 (Paice+90), • SVM (Gillick+09) • • • • N/A モ デ モデル ル ⽂短縮 ⽂短縮 • Dynamic Programing (Cohn+07;Nomoto+07; Cohn+09;Hirao+09), • ILP (Clarke+06;Woodsend +10) 量 デ デコード コ ー ド 2014/01/27 規則 (Jing00) 統計 (Clarke+06) CRF (Nomoto+07) Structured SVM (Cohn+07) ⽂選択 ⽂選択 ⽂の並べ替え け ⽂の順序付け 評価 評価 • 最⼤被覆問題 • 巡回セールマン問題 (Fillatova+04;Yih+07; (Althaus+04) • 景品収集巡回セールスマ Gillick+09;⾼村+08) ン問題 (Nishikawa+10) • ナップサック問題 (McDonald+07;平尾 +09) • 施設配置問題 (⾼村 +10) • ROUGE (Lin04) • 拡張⽂字列カーネル (平 尾+06) • Pyramid (Nenkova+07) • 投票型回帰モデル (平尾 +07) • Naïve Bayes (Kupeic+95), • Maximum Entropy (Osborne02) • Logistic Regression (Yih+07) • SVM (Hirao+02) • n-gram (Lin04), • Summary Content Unit (Nenkova+07) • 規則 (Barzilay+02;Okazaki +04) • 統計 (Lapata+03) • SVM (Bollegala+06) • 貪欲法 (Filatova+04), • Greedy (Lapata+03) N/A • Stack Decoder • A* (Soricut+06) (Yih+07) • ILP • ILP (McDonald07) (Althaus+04;NIshikaw • Lagrange Relaxation a+10) (Nishikawa+12;Almeid a+13;Nishino+13) 30
  • 31. 要約研究の成り⽴ち ⼊⼒等の制約と現在の到達点等々加味して要約研究が成⽴ どうすれば会議 に通るか…… ⼊⼒⽂書集合 ⽂分割 技術 ⽂短縮 ⽂選択 • 逐次予測 (Paice+90, Gillick+09) • Sequential Labeling • 最⼤被覆問題 (Fillatova+04;Yih+0 (Hirao+10) • 構⽂⽊の枝刈り 7;Gillick+09;⾼村 (Jing00;Clarke+07;No +08) moto+07;Zajic+07), • ナップサック問題 • STSG (McDonald+07;平尾 +09) ( Cohn+07;Cohn+08), • QSG (Woodsend+10) • 施設配置問題 (⾼村 +10) • 規則 (Paice+90), • SVM (Gillick+09) • • • • N/A • Dynamic Programing (Cohn+07;Nomoto+0 7; Cohn+09;Hirao+09), • ILP (Clarke+06;Woodsen d+10) モデル 学習・ 特徴量・ デコード 2014/01/27 規則 (Jing00) 統計 (Clarke+06) CRF (Nomoto+07) Structured SVM (Cohn+07) • Naïve Bayes (Kupeic+95), • Maximum Entropy (Osborne02) • Logistic Regression (Yih+07) • SVM (Hirao+02) 読者 ⽂の並べ替え 評価 • 巡回セールマン問題 (Althaus+04) • 景品収集巡回セールス マン問題 (Nishikawa+10) • ROUGE (Lin04) • 拡張⽂字列カーネル (平尾+06) • Pyramid (Nenkova+07) • 投票型回帰モデル (平 尾+07) • 規則 (Barzilay+02;Okazak i+04) • 統計 (Lapata+03) • SVM (Bollegala+06) • n-gram (Lin04), • Summary Content Unit (Nenkova+07) • 貪欲法 (Filatova+04), • Greedy (Lapata+03) • Stack Decoder • A* (Soricut+06) (Yih+07) • ILP • ILP (McDonald07) (Althaus+04;NIshika • Lagrange wa+10) Relaxation (Nishikawa+12;Alme ida+13;Nishino+13) 要約研究 N/A 31
  • 32. あらまし 1. 導⼊ – – – 定義 分類 要素技術 2. 今⽇の⾃動要約技術 – – 対象 ⽂選択・⽂短縮・⽂の順序付け 3. まとめ 2014/01/27 32
  • 33. 要約の対象 規模が拡⼤,テキストの品質は低下,どんどん難しく ⼊⼒ 規模 ツイッター レビュー ブログ 電⼦メール 書籍 技術⽂献 ⾳声 新聞記事 2014/01/27 テキストの品質の低さ 33
  • 34. 要約の対象 急速に要約の対象が拡⼤ • 科学技術⽂献・新聞記事からスタート – 技術⽂献 (Luhn58;Edmundson69;Pollock75) – 新聞記事 (Luhn58;Aone+98) • 安価な計算機/インターネットの普及以降,多様なテ キストが要約の対象となる – – – – ⾳声 (Furui+04;Lin+09;Xie+09;Higashinaka+10) 電⼦メール (Muresan+01;Sandu+10) レビュー (Carenini+06;Lerman+09) ツイッター (Sharifi+10;Takamura+11;久保+13) 2014/01/27 34
  • 35. ⽂選択 ⽂の逐次的な選択 • 個別の⽂の逐次的選択 (Barzilay+97;Radev+04) • 以下のような素朴な⽅法 1. それぞれの⽂に個別にスコアを与える • 重要と思われる内容語を含む⽂には⾼いスコアを与えるなど 2. スコアが⾼い⽂から順番に選ぶ 3. 選んだ⽂を連結して要約として出⼒ 2014/01/27 35
  • 36. ⽂選択 ⾃動要約を最適化問題として再定義 • Filatova による定式化 (Filatova+04) – 陽な⽬的関数の導⼊ – モデル,パラメータ,デコードの分離 – 個別の⽂の逐次的選択から,最良の部分⽂集合の探索へ • 現代的な統計的⾃然⾔語処理の⼀分野として体裁が整う 2014/01/27 36
  • 37. ⽂選択 単⼀⽂書要約:ナップサック問題 • 単⼀⽂書を構成する⽂の集合から,⻑さの制約を満たす 部分集合を選択 (McDonald07; 平尾+09) ⼊⼒:⽂数 n ,各⽂のスコア s1, s2, … sn と各⽂の⻑さ l1, l2, … ln, および最⼤要約⻑ L 出⼒:部分集合のうち⻑さの和が L 以内で s の和が最⼤のもの • 典型的なナップサック問題! • 動的計画ナップサックアルゴリズムで擬多項式時間での 求解が可能 2014/01/27 37
  • 38. ⽂選択 これもナップサック問題を解いている 国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介 ⼊を認める決議を全会⼀致で採択した。周辺国で構成する⻄アフリカ諸国経済共同体(ECOWA S)による3300⼈規模の部隊派遣を承認。混迷のマリ情勢は新たな局⾯に⼊る。 決議では、アフリカ国際マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認 めた。派遣部隊はまずマリ軍兵⼠の教育や作戦を⽀援する。派遣期間は1年。軍事⾏動の開始は来年 秋以降になる⾒通し。 マリでは3⽉、⾸都バマコで反乱軍によるクーデターが発⽣。イスラム過激派が北部を制圧し、国 ⼟は事実上⼆分された。今⽉10⽇には政府軍兵⼠らがディアラ暫定政府⾸相の⾝柄を拘束。⾸相は 翌11⽇に退陣を表明し、混乱が加速した。ロイター通信によると、ディアラ⾸相拘束はクーデター を主導したサノゴ⼤尉の指⽰。背景には⾸相とトラオレ暫定⼤統領らとの間の政治的対⽴があったと され、トラオレ⼤統領は職務を継続している 国連安全保障理事会は20⽇、⻄アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介⼊ を認める決議を全会⼀致で採択した。混迷のマリ情勢は新たな局⾯に⼊る。決議では、アフリカ国際 マリ⽀援部隊(AFISMA)に対し「必要なあらゆる⼿段の⾏使」を認めた。派遣部隊はまずマリ 軍兵⼠の教育や作戦を⽀援する。 2014/01/27 38
  • 39. ⽂選択 複数⽂書要約:最⼤被覆問題 (Filatova+04) ムバラク⼤統領に対す る抗議デモが続くエジ プトで、反政府派が4 ⽇に⼤規模デモを実施 する。⼤統領に即時退 陣を迫る構え。 反政府派と⼤統領派が2⽇、激しく衝突 し多数の死傷者が出たエジプト・カイ ロは、⼀夜明け、双⽅で散発的に投⽯ が⾏われるなど、緊迫した状態が続い ている。エジプトで続く抗議デモは、2 ⽇から3⽇未明にかけて、反政府派と⼤ 統領⽀持派の衝突に発展し、⽕炎瓶が 建物や⾞に引⽕し、⾄るところで⽕の ⼿が上がり、⿊煙が⽴ち込めた。 エジプト・カイロで2⽇から3⽇未明にかけて,反 政府派と⼤統領⽀持派が衝突.反政府派は4⽇に⼤ 規模デモを実施,⼤統領に即時退陣を迫る. 2014/01/27 39
  • 40. ⽂選択 複数⽂書要約:最⼤被覆問題 • 異なり語をできる限り被覆する要約⻑内の⽂集合を選択 ⽂1 4点 3点 単語A 単語B ⽂3 ⽂1 ⽂2 2014/01/27 単語A 単語A 1点 単語C ⽂2 2点 単語D 単語C 単語B 単語C 単語D 10点 40
  • 41. ⽂選択 複数⽂書要約:最⼤被覆問題 • 異なり語をできる限り被覆する要約⻑内の⽂集合を選択 ⽂1 4点 3点 単語A 単語B ⽂3 ⽂1 ⽂3 2014/01/27 単語A 単語A 1点 単語C ⽂2 2点 単語D 単語C 単語B 単語C 9点 41
  • 42. ⽂選択 最⼤被覆問題の求解 • ⼊⼒された各⽂がどの単語を含むかを⽰す⾏列と,その 単語の重要度を予め⽤意しておく ⼊⼒:⽂数 n ,単語数 m ,⽂ 1 から⽂ n がそれぞれ含む単語を⽰す ⾏列 M = ( c1,1, c1,2, …, cn,m-1, cn,m ) ,各単語のスコア w1, …, wm , ⽂の⻑さ l1, l2, … ln および最⼤要約⻑ L 出⼒:部分集合のうち⻑さの和が L 以内で,選ばれている⽂が含む単 語のスコアの和が最⼤のもの • 典型的な複数⽂書要約モデルであるため,様々な⽅法が 提案されている – 貪欲法 (Filatova+04) ,スタックデコーダ (Yih+07) ,分枝限 定法 (⾼村+08;Gillick+09) など 2014/01/27 42
  • 43. ⽂選択 複数⽂書要約:施設配置問題 • 少数の部分集合で⽂集合をできる限り「含意」(⾼村+10) ⼤統領に即時退陣を迫る構え。 ムバラク⼤統領に対する抗 議デモが続くエジプトで、 反体制派が4⽇に⼤規模デ モを実施する。 エジプト・カイロでは依然ムバラク⼤ 統領に対する抗議デモが続いており, 反体制派は4⽇⼤統領に即時退陣を迫 る⼤規模デモを計画。 2014/01/27 反政府派と⼤統領派が2⽇、激しく衝突 し多数の死傷者が出たエジプト・カイロ は、⼀夜明け、双⽅で散発的に投⽯が⾏ われるなど、緊迫した状態が続いている。 エジプトで続く反政府デモは、2⽇から3⽇ 未明にかけて、反政府派と⼤統領⽀持派の 衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、 ⾄るところで⽕の⼿が上がり、⿊煙が⽴ち 込めた。 43
  • 44. ⽂選択 複数⽂書要約:施設配置問題 • 少数の部分集合で⽂集合をできる限り「含意」(⾼村+10) ⼤統領に即時退陣を迫る構え。 ムバラク⼤統領に対する抗 議デモが続くエジプトで、 反体制派が4⽇に⼤規模デ モを実施する。 エジプト・カイロでは依然ムバラク⼤ 統領に対する抗議デモが続いており, 反体制派は4⽇⼤統領に即時退陣を迫 る⼤規模デモを計画。 2014/01/27 反政府派と⼤統領派が2⽇、激しく衝突 し多数の死傷者が出たエジプト・カイロ は、⼀夜明け、双⽅で散発的に投⽯が⾏ われるなど、緊迫した状態が続いている。 エジプトで続く反政府デモは、2⽇から3⽇ 未明にかけて、反政府派と⼤統領⽀持派の 衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、 ⾄るところで⽕の⼿が上がり、⿊煙が⽴ち 込めた。 44
  • 45. ⽂選択 複数⽂書要約:施設配置問題 • 少数の部分集合で⽂集合をできる限り「含意」(⾼村+10) ⼤統領に即時退陣を迫る構え。 ムバラク⼤統領に対する抗 議デモが続くエジプトで、 反体制派が4⽇に⼤規模デ モを実施する。 エジプト・カイロでは依然ムバラク⼤ 統領に対する抗議デモが続いており, 反体制派は4⽇⼤統領に即時退陣を迫 る⼤規模デモを計画。 2014/01/27 反政府派と⼤統領派が2⽇、激しく衝突 し多数の死傷者が出たエジプト・カイロ は、⼀夜明け、双⽅で散発的に投⽯が⾏ われるなど、緊迫した状態が続いている。 エジプトで続く反政府デモは、2⽇から3⽇ 未明にかけて、反政府派と⼤統領⽀持派の 衝突に発展し、⽕炎瓶が建物や⾞に引⽕し、 ⾄るところで⽕の⼿が上がり、⿊煙が⽴ち 込めた。 45
  • 46. ⽂選択 ⽂ a が⽂ b を「含意する」とは? • テキスト含意認識 (Dagan+06):2つの⽂が与えられた ときに,それらが含意関係にあるか判定 12⽇午前3時25分,千葉県銚⼦市沖で震度5の地震が観測された。 含意 12⽇,千葉県沖で 地震が発⽣。 微妙? 12⽇未明,千葉県 で⼤地震が発⽣。 午前3時25分は未明か? 千葉県銚⼦市沖を千葉県といっ てよいか? 震度5の地震は⼤地震か? • 難しい問題だが,統計的分類器などを⽤いて判定 2014/01/27 46
  • 47. ⽂選択 施設配置問題の求解 • NP 困難 ⼊⼒:⽂数 n ,⽂ i が⽂ j を含意する程度 e ∈ [0, 1] を⽰す⾏列 M = ( e1,2, …, en-1,n ) ,各⽂の⻑さ l1, l2, … ln, および最⼤要約⻑ L 出⼒:部分集合のうち⻑さの和が L 以内で選ばれている⽂が⽂集合全 体を含意する値が最⼤のもの • 貪欲法や分枝カット法などが⽤いられる 2014/01/27 47
  • 48. ⽂選択 マニアックな⽅向に…… • 劣モジュラ最適化 (Lin+10;Lin+11;Morita+13) – ⽬的関数が劣モジュラ性を持つ=最適化が容易 – 劣モジュラ性のある⽬的関数をわざと⽤意しておけば,解きや すくなる • ラグランジュ緩和 (Nishikawa+12;Almeida+13;Nishino+13) – 元問題を解きやすい部分問題に分割,部分問題をそれぞれ解い て,解が合意するよう近づける 2014/01/27 48
  • 49. ⽂選択における学習・特徴量 ⽂に対する重み付け(分類) • 頻度や⼿がかり語といった特徴量は⾃動要約黎明期より 存在 (Luhn58;Edmundson69) • 90年代より機械学習による⽂の重み付け(あるいは分 類)が始める – Naïve Bayes (Kupiec+95), Maximum Entropy Classifier (Osborne02), SVM (Hirao+02), Logistic Regression (Yih+07) • 特徴量は bag-of-words や⽂の位置など 2014/01/27 49
  • 50. ⽂選択における学習・特徴量 対象に合わせた特徴量を研究者が設定 • 新聞 – 単語,固有表現,述語項構造 • レビュー – Aspect-Polarity の2つ組をスコアリングの単位として設定 (Carenini+06;Lerman+09) • ⼈⼿で⽬的に合わせて設定 • Deep learning の出番? 2014/01/27 50
  • 51. ⽂選択における学習・特徴量 個別の重みづけから構造学習へ • 個別の重みづけから構造学習へ – Structured SVM (Takamura+10;Berg-Kirkpatrick+11; Lee+12, Almeida+13) – ROUGE の損失関数への導⼊(MERT的) • ⾃動要約はデータが少ない:転移学習の導⼊ – 様々なドメインのデータがあるが,量が少ない – (Sandu+10;Xie+10;Lee+13) 2014/01/27 51
  • 52. ⽂短縮 ⽂選択の前処理,構⽂⽊の枝刈り • 抽出的要約の限界から⽣じる (Jing00) – 抽出的アプローチにおいては⻑い⽂は扱いづらい • 構⽂⽊を刈り込む – 落としても良さそうなノードを 落とす – 規則 (Jing00;Zajic+07), 統計 (Clarke+06), 学習 (Turner+05) • 構⽂⽊を仮定しないものも – Sequential Labeling (Hirao+10) Turner and Charniak: Supervised and  unsupervised learning for sentence  compression. ACL 2005. 2014/01/27 52
  • 53. ⽂短縮 構⽂⽊を刈り込む 6年ぶりと 東海道新幹線で、 なる 新型⾞両 「N700A」が、 56⽂字 8⽇から 営業運転を 東京駅と 開始し、 新⼤阪駅で 出発式が ⾏われました 2014/01/27 53
  • 54. ⽂短縮 構⽂⽊を刈り込む 東海道新幹線で、 新型⾞両 「N700A」が、 41⽂字 営業運転を 開始し、 新⼤阪駅で 出発式が ⾏われました 2014/01/27 54
  • 55. ⽂短縮 部分⽊のよさを測る指標を定義 東海道新幹線で、 東京駅と 出発式が 新⼤阪駅で ⾏われました 10点 2014/01/27 新型⾞両 「N700A」が、 8⽇から 営業運転を 15点 開始 55
  • 56. ⽂短縮 部分⽊のよさを測る指標を定義 • 重要度 東海道新幹線で、 – 部分⽊が含む単語の重要度 – 「東海道新幹線」「新型⾞両」 新型⾞両 – tf-idf などの統計量や,機械 学習に基づいたスコアリング • ⾔語尤度 – 係り受け 「N700A」が、 8⽇から 営業運転を 開始 • pdep(開始|新幹線,で) – n-gram • pn-gram(開始|運転,を) 2014/01/27 15点 56
  • 57. ⽂短縮 様々な探索法が⽤いられる ⼊⼒:⽊ T (ノード v1, …, vn とエッジ e1, …, em ),ノードのスコ ア w1, …, wn とエッジのスコア c1, …, cn ,各ノードの⻑さ l1, l2, … ln と最⼤⽂⻑ L 出⼒:ノードのスコアとエッジのスコアの和が最⼤となる部分⽊ • 近似解法 – 幅優先探索(ビームサーチ,スタックデコーダ) • もちろん整数計画問題として表現することもできる – グラフカットとももちろん⾒なせる 2014/01/27 57
  • 58. ⽂短縮 構⽂⽊の枝刈りから同期⽂法に基づく書き換えへ • 同期⽂脈⾃由⽂法による書き換え (Galley+07) から同 期⽊置換⽂法による書き換え (Cohn+09) へ Cohn and Lapata:  Sentence Compression  as Tree Transduction.  JAIR 34, pp.637—674,  2009. • さらに準同期⽂法 による書き換え (Woodsend+10) – STSG よりも「ゆるい」対応付け • syntax-based MT の後を追う 2014/01/27 58
  • 59. ⽂短縮 対になっている構⽂⽊から同期⽂法を学習 Cohn and Lapata:  Sentence Compression  as Tree Transduction.  JAIR 34, pp.637—674,  2009. 2014/01/27 59
  • 60. ⽂の並べ替え 選択した⽂集合を並べないといけない • ⽂の順序によってつながりのよさが異なる 1. ムバラク⼤統領に対する抗議デモ が続くエジプトで、2⽇から3⽇ 未明にかけて、反政府派と⼤統領 ⽀持派の衝突が発⽣した。 2. 衝突の際には、⽕炎瓶が建物や⾞ に引⽕し、⾄るところで⽕の⼿が 上がり、⿊煙が⽴ち込めた。 3. 更に4⽇には、反体制派が⼤規模 デモの実施を計画している。 1. 更に4⽇には、反体制派が⼤規模 デモの実施を計画している。 2. 衝突の際には、⽕炎瓶が建物や⾞ に引⽕し、⾄るところで⽕の⼿が 上がり、⿊煙が⽴ち込めた。 3. ムバラク⼤統領に対する抗議デモ が続くエジプトで、2⽇から3⽇ 未明にかけて、反政府派と⼤統領 ⽀持派の衝突が発⽣した。 • 国語の問題を機械に解かせる 2014/01/27 60
  • 61. ⽂の並べ替え 巡回セールスマン問題の出現 ⽂2 ⽂2 ⽂3 ⽂3 ⽂1 ⽂1 ⽂2 ⽂2 ⽂書頭 ⽂3 ⽂1 ⽂1 ⽂3 ⽂1 ⽂2 ⽂書末 ⽂3 2014/01/27 61
  • 62. ⽂の並べ替え ⽂のつながりのよさとは? • 様々な⼿がかり 1. ムバラク⼤統領に対する抗議デモ が続くエジプトで、2⽇から3⽇ 未明にかけて、反政府派と⼤統領 ⽀持派の衝突が発⽣した。 最初の⽂には固有表現が含まれやすい (ムバラク⼤統領,エジプト,2⽇,3 ⽇) 2. 衝突の際には、⽕炎瓶が建物や⾞ に引⽕し、⾄るところで⽕の⼿が 上がり、⿊煙が⽴ち込めた。 連続する⽂には同じ語彙が⽤いられや すい 3. 更に4⽇には、反体制派が⼤規模 デモの実施を計画している。 副詞「更に」が⽂書頭に来ることはな い • テキストから特徴の連鎖を学習し,⽂のつながりのよさ を与えるパラメータを学習 (Lapata03, Barzilay+05) 2014/01/27 62
  • 63. ⽂の並べ替え 整数計画問題として表現,求解 • 選択した⽂集合に最適な順列を与える (Althaus+04) ⼊⼒:⽂数 n ,⽂ s1, …, sn および⽂書頭 s0 ,⽂書末 sn+1 のつなが りのよさを与える⾏列 M = (c0,1, c0,2, …, cn-1,n+1, cn,n+1) 出⼒:つながりのよさの和が最⼤の順列 • 分枝カット法などで求解 2014/01/27 63
  • 64. 同時推論 主戦場は同時推論に • ⽂短縮+⽂選択 – (Martins+09;富⽥+09;Woodsend+10;BergKirkpatrick+11;Woodsend+12;Morita+13) – 構造学習+転移学習+拡張ラグランジュ緩和の全部⼊りなども …… (Almeida+13) • ⽂選択+⽂の順序付け – (Nishikawa+10;Christensen+13) • デコードの⼯夫が重要 2014/01/27 64
  • 65. まとめ ⾃動要約の研究動向についてお話差し上げました • 現代的な統計的⾃然⾔語処理の⼀分野として成熟しつつ ある – 要約という⾔語現象に関する知識に基づき,機械学習や組み合 わせ最適化を⽤いて計算機上で要約プログラムを実装 • 最適化問題の⼀種として興味深い • ⾔語を出⼒するタスクとして,やはり評価が⼤変 2014/01/27 65
  • 66. 参考⽂献 書籍・サーベイ論⽂ • • • • • • • • Jurafsky and Martins. Speech and Language Processing (2 nd eds.). Prentice Hall, 2008. Mani. Automatic Summarization. John Benjamins Pub co, 2001. Mani and Maybury (eds.). Advances in Automatic Text Summarization. MIT Press, 1999. Nenkova and McKeown. Automatic Summarization. now Publishers Inc., 2011. 奥村 and 難波. テキスト⾃動要約に関する最近の話題. ⾃然⾔語処理, 9(4):97̶ 116, 2002. 奥村 and 難波. テキスト⾃動要約. オーム社, 2005. 佐久間 (eds.). ⽂書構造と要約⽂の諸相. くろしお出版. 1989. Sparck-Jones and Endres-Niggemeyer. Automatic Summarizing. Information Processing and Management, 31(5):625̶630, 1995. 2014/01/27 66
  • 67. 参考⽂献 他 • • • • • • • • • • • • • • • • • Althaus et al. Computing Locally Coherent Discourse. ACL 2004. Almeida et al. Fast and Robust Compressive Summarization with Dual Decomposition and Multi-Task Learning. ACL 2013. Aone et al. Trainable, Scalable Summarization Using Robust NLP and Machine Learning. Coling 1998. Barzilay et al. Using Lexical Chains for Text Summarization. ISTS 1997. Barzilay et al. Inferring Strategies for Sentence Ordering in Multidocument News Summarization. JAIR, 17, 2002. Barzilay et al. Modeling Local Coherence: An Entity-based Approach. ACL 2005 Berg-Kirkpatrick et al. Jointly Learning to Extract and Compress. ACL 2011 Bollegala et al. A Bottom-up Approach to Sentence Ordering for Multi-document Summarization. COLING/ACL 2006. Carenini et al. Multi-document summarization of evaluative text. EACL 2006. Christensen et al. Towards Coherent Multi-Document Summarization. NAACL 2013. Clarke et al. Constraint-based Sentence Compression An Integer Programming Approach. COLING/ACL 2006. Cohn et al. Large Margin Synchronous Generation and its Application to Sentence Compression. EMNLP/CoNLL 2007. Cohn et al. Sentence Compression as Tree Transduction. JAIR, 34, 2009. Dagan et al. The PASCAL Recognising Textual Entailment Challenge. Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Textual Entailment. 2006. Edmundson. New Methods in Automatic Extracting. Journal of ACM, 16(2), 1969. Filatova et al. A formal model for information selection in multi-sentence text extraction. COLING 2004. Furui et al. Speech-to-Text and Speech-to-Speech Summarization. IEEE Trans. on Speech and Audio Processing, 12(4), 2004. 2014/01/27 67
  • 68. 参考⽂献 他 • • • • • • • • • • • • • • • • • • • • • Galley et al. Lexicalized Markov Grammars for Sentence Compression. NAACL-HLT 2007. Gillick. Sentence Boundary Detection and the Problem with the U. S. NAACL-HLT 2009. Gillick et al. A Scalable Global Model for Summarization. NAACL-HLT Workshop on ILP for NLP 2009. Higashinaka et al. Improving HMM-based Extractive Summarization for Multi-Domain Contact Center Dialogues. SLT 2010. Hirao et al. Extracting Important Sentences with Support Vector Machines. COLING 2002. 平尾 et al. 拡張ストリングカーネルを⽤いた要約の⾃動評価法. 情報処理学会論⽂誌, 47(6), 2006. 平尾 et al. 投票型回帰モデルによる要約の⾃動評価法. ⼈⼯知能学会論⽂誌, 22(2), 2007. Hirao et al. A Syntax-Free Approach to Japanese Sentence Compression. ACL-IJCNLP 2009. Jing. Sentence reduction for automatic text summarization. ANLP 2000. 久保 et al. “良い実況者”に着⽬したTwitter からのスポーツ速報⽣成. ⾔語処理学会年次⼤会 2013. Kupiec et al. A Trainable Document Summarizer. SIGIR 1995. Lapata. Probabilistic Text Structuring: Experiments with Sentence Ordering. ACL 2003. Lee et al. Unsupervised Domain Adaptation for Spoken Document Summarization with Structured Support Vector Machine. ICASSP 2013. Lerman et al. Sentiment Summarization: Evaluating and Learning User Preferences. EACL 2009. Lin. ROUGE: A Package for Automatic Evaluation of Summaries. ACL Workshop on Text Summarization Branches Out 2004. Lin. Graph-based Submodular Selection for Extractive Summarization. ASRU 2009. Lin. Multi-document Summarization via Budgeted Maximization of Submodular Functions. NAACL 2010. Lin. A Class of Submodular Functions for Document Summarization. ACL 2011. Luhn. The automatic creation of literature abstracts. IBM Journal of Research Development, 2(2). 1958 Martins et al. Summarization with a Joint Model for Sentence Extraction and Compression. NAACL Workshop on ILP for NLP, 2009. McDonald. A Study of Global Inference Algorithms in Multi-document Summarization. ECIR 2007. 2014/01/27 68
  • 69. 参考⽂献 他 • • • • • • • • • • • • • • • Morita et al. Subtree Extractive Summarization via Submodular Maximization. ACL 2013. Muresan et al. Combining linguistic and machine learning techniques for email summarization. CoNLL 2001. Nenkova et al. The Pyramid Method. ACM TSLP, 4(2). 2007. Nishikawa et al. Opinion Summarization with Integer Linear Programming Formulation for Sentence Extraction and Ordering. COLING 2010. Nishikawa et al. Text Summarization Model based on Redundancy-Constrained Knapsack Problem. COLING, 2013. Nishino et al. Text Summarization while Maximizing Multiple Objectives with Lagrangian Relaxation. ECIR 2013. Nomoto. Discriminative sentence compression with conditional random fields. IP&M, 43(6). 2007. Okazaki et al. Improving Chronological Sentence Ordering by Precedence Relation. COLING 2004. Osborne. Using Maximum Entropy for Sentence Extraction. Workshop on Automatic Summarization 2002. Paice. Constructing Literature Abstracts by Computer: Techniques and Prospects. IP&M, 26(1). 1990 Pollick et al. Automatic abstracting research at the chemical abstracts service. Journal of Chemical Information and Computer Sciences, 15. 1975. Radev et al. Centroid-based summarization of multiple documents. IP&M, 40(6). 2004. Sandu et al. Domain Adaptation to Summarize Human Conversations. ACL Workshop on Domain Adaptation for NLP 2010. Sharifi et al. Summarizing Microblogs Automatically. NAACL 2010. 2014/01/27 69
  • 70. 参考⽂献 他 • • • • • • • • • • • • Soricut et al. Stochastic Language Generation Using WIDL-expressions and its Application in Machine Translation and Summarization. ACL 2006. ⾼村 et al. 最⼤被覆問題とその変種による⽂書要約モデル. ⼈⼯知能学会論⽂誌, 23(6). 2008. ⾼村 et al. 施設配置問題による⽂書要約のモデル化. ⼈⼯知能学会論⽂誌, 25(1), 2010. Takamura et al. Summarizing a Document Stream. ECIR 2011. 富⽥ et al.重要⽂抽出と⽂圧縮を組み合わせた新たな抽出的要約⼿法. 情報処理学会第189回⾃然⾔語処理研究会 2009. Turner et al. Supervised and Unsupervised Learning for Sentence Compression. ACL 2005. Woodsend et. al. Automatic Generation of Story Highlights. ACL 2010. Woodsend et. al. Multiple Aspect Summarization Using Integer Linear Programming. EMNLP/CoNLL 2012. Xie et al. Leveraging sentence weights in a concept-based optimization framework for extractive meeting summarization. Interspeech 2009. Xie et al. Semi-supervised extractive speech summarization via co-training algorithm. Interspeech 2010. Yih et al. Multi-Document Summarization by Maximizing Informative Content-Words. IJCAI 2007. Zajic et al. Multi-candidate reduction: Sentence compression as a tool for document summarization tasks. IP&M, 43(6). 2007. 2014/01/27 70

×