Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Can Large Language Models perform
Relation-based Argument Mining?
北海道大学 大学院情報科学院
情報理工学部門 複合情報工学分野 調和系工学研究室
02226069 松本大誠
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文タイトル
Can Large Language Models perform Relation-
based Argument Mining?
著者
Deniz Gorur, Antonio Rago, Francesca Toni
発表
COLING 2025
論文情報 2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
議論マイニング(AM)
議論の構成要素の関係を抽出するタスク
オンライン討論支援など需要増加
主に3つのタスクからなる
議論の特定
議論的構成要素の特定
議論的関係の特定
関係ベース議論マイニング(RbAM)
テキストA,Bのペア(A,B)が与えられたとき、
その関係(AがBに反論・支持・無関係)を分類
導入 3
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
RbAM
一部データセットに有効な手法はある
複数データセットでの汎化性能は不十分
LLMを用いた手法は未検証
他のAMタスク
LLMを用いた手法が多くのタスクで既存手法を
上回る
RbAMにLLMを用いた手法の提案
先行研究 4
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法 5
①プライマー
(関係(反論,支持,無関係)が既知
のテキストペアのfew-Shot)
②タスク定義
(テキストペアの
関係判別)
③関係を判別したいテキストの
ペア
LLMへの入力:
①~③を含むプロンプト
出力:
③で与えたテキストペアの関係
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
目的
既存手法と提案したLLMを用いる手法における、
テキストペアの関係の分類性能を比較
実験方法
既存手法によるベースラインモデルの選定
ベースラインモデルとLLMそれぞれについて
複数データセットで関係分類
F1スコアを比較
2クラス分類(反論・支持)
3クラス分類(反論・支持・無関係)
実験概要 6
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
データセット
既存の11個のデータセットを使用
反論・支持の2つの関係が含まれているものと
無関係含む3つの関係が含まれているもの
ベースラインモデル
RoBERTa(既存手法で最良)を使用
各データセットでファインチューニングし、
最も汎化性能の高いものをベースラインモデルに
実験設定(1/2) 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
LLMモデル
Llama2-70B(4bit量子化)
Mistral-7B (4bit量子化)
Mixtral-8x7B (4bit量子化)
GPT-3.5-turbo
few-shot の数
2クラス分類: 反論2つ、支持2つ
2A2Sと表記(2Attack, 2Support)
3クラス分類: 反論1つ、支持1つ、無関係1つ
1A1S1Nと表記(1Attack, 1Support, 1Neither)
実験設定(2/2) 8
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ベースラインモデルの選定
選定方法
各データセットでファインチューニングしたRoBERTaで、
データセットごとに推論
データセット全体で
支持のF1スコア/反論のF1スコア/マイクロF1スコアを計算
マイクロF1スコアの値の高いものがベースラインモデル
結果
DPデータセットモデルがベースラインモデル
マイクロF1スコア76で最も高い
2クラス分類実験(1/3) 9
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
予備実験
目的
LLMへ入力するfew-shot例の選定
タスク定義をプロンプトに含めるべきか検証
プロンプトにテンプレート([INST]...[/INST]) を含めるべき
か検証
方法
2A2Sのプライマーを4つ用意
タスク定義、テンプレートがある場合とない場合のマイ
クロF1スコアを計算
結果
タスク定義なし、テンプレートなしが最良
もっとも良いfew-shot例を実験に使用
2クラス分類実験(2/3) 10
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果
LLMモデルの(マイクロF1スコア, 推論時間)
Llama2-70B: (81, 1.18)
Mistral-7B: (75, 0.19)
Mixtral-8x7B: (82, 0.75)
GPT-3.5-turbo: (71, 0.43)
まとめ
Llama2-70BとMixtral-8x7Bでベースラインを上回る
2クラス分類実験(3/3) 11
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ベースラインモデルの選定
選定方法
2クラス分類と同様の方法
結果
UKPデータセットモデルがベースラインモデル
マイクロF1スコア59で最も高い
3クラス分類実験(1/3) 12
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
予備実験
目的・方法
2クラス分類と同様
結果
タスク定義あり、テンプレートなしが最良
もっとも良いfew-shot例を実験に使用
3クラス分類実験(2/3) 13
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
結果
LLMモデルのスコア(マイクロF1スコア, 推論時間)
Llama2-70B: (54, 1.3)
Mistral-7B: (64, 0.19)
Mixtral-8x7B: (68, 0.83)
GPT-3.5-turbo: (60, 0.43)
まとめ
Mistral-7BとMixtral-8x7Bでベースラインを大きく上回る
3クラス分類実験(3/3) 14
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2クラス分類のアブレーションスタディ
目的
few-shotの数を変えてLLMモデルの性能を検証
方法
few-shot数を2A2S, 2A1S, 1A2S, 1A1S, 0にして関係分類
結果
GPT-3.5-turboはゼロショットが最高スコア
それ以外は2A2Sが最高スコア
アブレーションスタディ(1/2) 15
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3クラス分類のアブレーションスタディ
目的
few-shotの数を変えてLLMモデルの性能を検証
方法
few-shot数を1A1S1N, 0にして関係分類
結果
GPT-3.5-turboはゼロショットがわずかに高いスコア
それ以外は1A1S1Nが最高スコア
まとめ
few-shot例が多いほうが良い性能
少なくてもベースラインに近い性能
アブレーションスタディ(2/2) 16
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
本研究の主題
RbAMタスクに汎用LLMを用いた手法の提案
いくつかのモデルで既存手法を上回る
few-shotの例が多いほど良い結果
異なるプライマーに対してロバスト
限界
他のドメイン、言語への一般化可能性が不明
GPUの制約によりLLMのファインチューニング不可
今後の展望
文中の固有名詞等をマスクして論理構造のみに着目
他のドメインへの汎用性
文脈の考慮
他のAMタスクとの連携
まとめ 17

Can Large Language Models perform Relation-based Argument Mining?

  • 1.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Can Large Language Models perform Relation-based Argument Mining? 北海道大学 大学院情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 02226069 松本大誠
  • 2.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文タイトル Can Large Language Models perform Relation- based Argument Mining? 著者 Deniz Gorur, Antonio Rago, Francesca Toni 発表 COLING 2025 論文情報 2
  • 3.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 議論マイニング(AM) 議論の構成要素の関係を抽出するタスク オンライン討論支援など需要増加 主に3つのタスクからなる 議論の特定 議論的構成要素の特定 議論的関係の特定 関係ベース議論マイニング(RbAM) テキストA,Bのペア(A,B)が与えられたとき、 その関係(AがBに反論・支持・無関係)を分類 導入 3
  • 4.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. RbAM 一部データセットに有効な手法はある 複数データセットでの汎化性能は不十分 LLMを用いた手法は未検証 他のAMタスク LLMを用いた手法が多くのタスクで既存手法を 上回る RbAMにLLMを用いた手法の提案 先行研究 4
  • 5.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法 5 ①プライマー (関係(反論,支持,無関係)が既知 のテキストペアのfew-Shot) ②タスク定義 (テキストペアの 関係判別) ③関係を判別したいテキストの ペア LLMへの入力: ①~③を含むプロンプト 出力: ③で与えたテキストペアの関係
  • 6.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 目的 既存手法と提案したLLMを用いる手法における、 テキストペアの関係の分類性能を比較 実験方法 既存手法によるベースラインモデルの選定 ベースラインモデルとLLMそれぞれについて 複数データセットで関係分類 F1スコアを比較 2クラス分類(反論・支持) 3クラス分類(反論・支持・無関係) 実験概要 6
  • 7.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. データセット 既存の11個のデータセットを使用 反論・支持の2つの関係が含まれているものと 無関係含む3つの関係が含まれているもの ベースラインモデル RoBERTa(既存手法で最良)を使用 各データセットでファインチューニングし、 最も汎化性能の高いものをベースラインモデルに 実験設定(1/2) 7
  • 8.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. LLMモデル Llama2-70B(4bit量子化) Mistral-7B (4bit量子化) Mixtral-8x7B (4bit量子化) GPT-3.5-turbo few-shot の数 2クラス分類: 反論2つ、支持2つ 2A2Sと表記(2Attack, 2Support) 3クラス分類: 反論1つ、支持1つ、無関係1つ 1A1S1Nと表記(1Attack, 1Support, 1Neither) 実験設定(2/2) 8
  • 9.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ベースラインモデルの選定 選定方法 各データセットでファインチューニングしたRoBERTaで、 データセットごとに推論 データセット全体で 支持のF1スコア/反論のF1スコア/マイクロF1スコアを計算 マイクロF1スコアの値の高いものがベースラインモデル 結果 DPデータセットモデルがベースラインモデル マイクロF1スコア76で最も高い 2クラス分類実験(1/3) 9
  • 10.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 予備実験 目的 LLMへ入力するfew-shot例の選定 タスク定義をプロンプトに含めるべきか検証 プロンプトにテンプレート([INST]...[/INST]) を含めるべき か検証 方法 2A2Sのプライマーを4つ用意 タスク定義、テンプレートがある場合とない場合のマイ クロF1スコアを計算 結果 タスク定義なし、テンプレートなしが最良 もっとも良いfew-shot例を実験に使用 2クラス分類実験(2/3) 10
  • 11.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 LLMモデルの(マイクロF1スコア, 推論時間) Llama2-70B: (81, 1.18) Mistral-7B: (75, 0.19) Mixtral-8x7B: (82, 0.75) GPT-3.5-turbo: (71, 0.43) まとめ Llama2-70BとMixtral-8x7Bでベースラインを上回る 2クラス分類実験(3/3) 11
  • 12.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ベースラインモデルの選定 選定方法 2クラス分類と同様の方法 結果 UKPデータセットモデルがベースラインモデル マイクロF1スコア59で最も高い 3クラス分類実験(1/3) 12
  • 13.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 予備実験 目的・方法 2クラス分類と同様 結果 タスク定義あり、テンプレートなしが最良 もっとも良いfew-shot例を実験に使用 3クラス分類実験(2/3) 13
  • 14.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 結果 LLMモデルのスコア(マイクロF1スコア, 推論時間) Llama2-70B: (54, 1.3) Mistral-7B: (64, 0.19) Mixtral-8x7B: (68, 0.83) GPT-3.5-turbo: (60, 0.43) まとめ Mistral-7BとMixtral-8x7Bでベースラインを大きく上回る 3クラス分類実験(3/3) 14
  • 15.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2クラス分類のアブレーションスタディ 目的 few-shotの数を変えてLLMモデルの性能を検証 方法 few-shot数を2A2S, 2A1S, 1A2S, 1A1S, 0にして関係分類 結果 GPT-3.5-turboはゼロショットが最高スコア それ以外は2A2Sが最高スコア アブレーションスタディ(1/2) 15
  • 16.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3クラス分類のアブレーションスタディ 目的 few-shotの数を変えてLLMモデルの性能を検証 方法 few-shot数を1A1S1N, 0にして関係分類 結果 GPT-3.5-turboはゼロショットがわずかに高いスコア それ以外は1A1S1Nが最高スコア まとめ few-shot例が多いほうが良い性能 少なくてもベースラインに近い性能 アブレーションスタディ(2/2) 16
  • 17.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 本研究の主題 RbAMタスクに汎用LLMを用いた手法の提案 いくつかのモデルで既存手法を上回る few-shotの例が多いほど良い結果 異なるプライマーに対してロバスト 限界 他のドメイン、言語への一般化可能性が不明 GPUの制約によりLLMのファインチューニング不可 今後の展望 文中の固有名詞等をマスクして論理構造のみに着目 他のドメインへの汎用性 文脈の考慮 他のAMタスクとの連携 まとめ 17