1. Soongsil Univ. DSAI Lab.
CausaLM : Causal Model Explanation
Through Counterfactual Language Models
Feder et al., 2021. Computational Linguistics, 47(2):333–386.
1
지승현 발표
22.08.04.
2. Soongsil Univ. DSAI Lab.
목차
1. Causality and Counterfactual
2. Movie review experiments
3. Gender and race bias experiments
4. Conclusion
2
3. Soongsil Univ. DSAI Lab.
1. Causality and Counterfactual
– Causality (인과관계)
– Definition : the relationship between cause and effect, or the principle that
everything has a cause.
– 실세계에서 일어나는 종합적인 상호작용 원리를 의미하며, 데이터의 생성 과정 등으로도 확장가능
– 사람은 해당 원리를 알고 있어 실세계의 다양한 사건을 이해하고 예측할 수 있다.
– 최근 GPT-3등 다양한 거대 언어모델의 대두로 다양한 task에 대해 뛰어난 performance를 발휘
– 그러나 언어모델이 사람과 같은 논리 추론 과정을 통해 task를 수행하는지, causality를 이해하고
있는지에 대한 의문이 제기됨
3
4. Soongsil Univ. DSAI Lab.
1. Causality and Counterfactual
– 통계학의 한계
– “Correlation does not imply causation” – Judea Pearl, 2009
– 현재 언어모델은 주어진 데이터에서 단어간의 상관관계를 학습하고, 이를 토대로 입력되는 데이터에
대해 추론을 수행한다.
– 그러나 이는 feature correlation을 학습하는 것이지 causation을 학습하는 것이 아님
– 따라서 이것이 사람의 추론능력을 모방하는 학습방법이라고는 할 수 없다.
– Counterfactual : 반사실적 가정 (If I were…)
– Counterfactual을 통해 추론 결과가 달라지지 않는 데이터를 가정할 수 있다.
– 머신러닝 방법으로 정확한 causation을 학습하기 위해선 counterfactual이 필요하지만, 이는 말
그대로 ‘반사실적 가정’이기 때문에, 이러한 데이터는 만들어내야 한다.
4
5. Soongsil Univ. DSAI Lab.
1. Causality and Counterfactual
– 그림 예시 (좌)
– 수염 여부, 결혼 여부, 운동 여부, 박사학위 여부 데이터를 입력
– 이 때 박사학위 여부를 예측할 수 있는 feature는 무엇인가?
– 박사학위 여부와 관련있는 feature는 없음 (by causality)
– 그러나 주어진 데이터를 통해 학습한 모델은 feature
correlation을 학습하게 되어, feature 정보를 통해 박사학위
여부를 예측하게 된다.
– 이런 문제 때문에 데이터나 feature를 선정하는 과정이 중요
– 최근 트렌드는 High dimension raw data를 통해 모델을 학
습하는 것이기 때문에, 위 문제가 더욱 부각된다.
5
6. Soongsil Univ. DSAI Lab.
1. Causality and Counterfactual
– Intervention
– 주어진 데이터의 변수를 인위적으로 조작하는 방법
– 데이터셋에서 특정 데이터를 선택하는것과는 다른 개념
– 수염 여부와 박사학위 여부는 관련이 없기 때문에(by causality),
(좌)의 Intervention을 통해 Counterfactual을 얻을 수 있다.
– Causality에 따른 다양한 Intervention이 가능하다면,
Confounder(Inference에 필요한 Feature)를 학습할 수 있다.
– 이는 주어진 데이터를 활용한다는 기존 머신러닝 관점과 다르다.
– Data augmentation 관점과 유사하나, 최근 언어모델은 다양
한 추론이 필요하므로 다양한 Intervention이 필요하다.
6
7. Soongsil Univ. DSAI Lab.
2. Movie review experiments
– Motivation of experiments
– BERT 모델이 causality를 얼마나 잘 학습했는지 평가함으로서 한계점을 분석
– 데이터에 Intervention을 취해도 추론 결과가 달라지지 않는지, text representation이 잘 나타
났는지 등을 평가할 수 있다.
– 다만 많은 경우 Text data에 적절한 Intervention을 취하거나 Synthetic text를 생성하기는 어렵
기 때문에, representation에 intervention을 취하는 방법을 사용한다.
(문장 내 어떤 Feature(≈뉘앙스)를 바꾸려면 문장 전체를 바꿔야 하는 등 다양한 문제 존재)
– Proposing metric / methods
– ATE : 학습 데이터에 직접 Intervention하여 학습한 BERT과 일반 BERT의 출력 차이를 측정
– BERT-CF : 데이터에 Intervention 하는 대신 추가 학습한 모델. 해당 모델이 rerpresentation을
잘 표현하고 task를 잘 수행한다면 Causality를 잘 학습한 것.
– TReATE : 입력 데이터에 대한 BERT-CF와 BERT의 출력값 차이
7
8. Soongsil Univ. DSAI Lab.
2. Movie review experiments
– Movie review experiment
– 책, dvd 등 여러 제품의 리뷰 + 영화 리뷰 데이터셋으로 감성 분석
– POS 태깅을 활용하여 형용사를 제거한 Conterfactual dataset 생성
– 형용사의 비율과 클래스에 correlation을 만들어 balanced, gentle, aggressive 유형 생성
(형용사가 많이 포함된 긍정 / 부정 클래스의 데이터를 일부 제거하여 만드는 식)
– BERT : 문장을 보고 감성 분석하며 Finetune (Cross entropy Loss)
– BERT-CF : 각 단어가 형용사인지 판단하지 못하게 + 감성 분석을 수행하도록 Finetune
Loss = (Cross entropy loss) – (adjective (in POS) tagging loss)
– BERT-CF는 문장 내 형용사의 비율을 감지하지 못함.
BERT가 Causality를 이해하지 못하고 Correlation만으로 학습했다면, ATE는 클 것.
BERT-CF가 Intervention 효과를 잘 얻어 Causality를 잘 학습했다면, BERT-CF와 BERT의 출력
값 차이(TReATE)는 ATE와 비슷할 것.
8
9. Soongsil Univ. DSAI Lab.
2. Movie review experiments
– Results
– ATE (실제 데이터에 Intervention) 와 TReATE (Representation에 Intervention)가 비슷
– 따라서 TReATE를 통해 BERT에 Intervention 효과를 낼 수 있다고 주장
이를 활용한다면, Data 조작 없이 Task만을 통해서 Confounder를 학습할 수 있다.
9
10. Soongsil Univ. DSAI Lab.
3. Gender and race bias experiments
– POMS task using EEC dataset
– 4가지 감정(기쁨, 슬픔, 분노, 공포)과 (없음) 의 5가지로 분류하는 task
– 이 때 주어를 다른 성별, 인종으로 바꾸어 문장을 복사
– 인종이나 성별에 따라 분류 성능이 변화한다면 Gender, race bias가 존재하는 것
– Movie review와 동일하게 Balanced, Gentle, Aggressive로 클래스당 민감 어휘 비율 설정
10
11. Soongsil Univ. DSAI Lab.
3. Gender and race bias experiments
– Results
– INLP(Ravfogel et al., 2020)방법에 비해 BERT-CF의 ATE <->TReATE 성능 차이가 작다. (좌)
더 정확한 Representation Intervention을 수행했다고 주장
– Intervention을 통한 학습(BERT-CF)은 실제로 분류 정확도 성능 향상에 도움을 줌 (우)
11
12. Soongsil Univ. DSAI Lab.
4. Conclusion
– 요약
– 최근 언어모델은 인간의 추론능력을 모방하는 것을 목표로 하여, 다양한 task를 수행하도록 요구됨
이를 위해 Causality를 반영하도록 하는 학습(Causal learning)이 대두됨
– Intervention을 통한 Counterfactual 생성은 Data augmentation과도 어느정도 유사
– 본 논문에서는 특정 Feature를 거꾸로 학습(with Negative loss)하게 하여, 모델에 간접적으로
Intervention을 반영하는 ‘Representation Intervention’을 제안
– 이는 실제로 기존 방법보다 더 효과적으로 Confounder를 학습하도록 하고 성능향상에도 도움
– 발표자의 사견
– 본 제안 방법은 Intervention을 Data augmentation 대신 Objective로 문제전환하여 문제를 효
과적으로 해결하였고, 이는 Causal learning의 Paradigm을 바꿀만한 연구로 사료
– 다만 Causal direction은 매우 복잡하므로 Loss function을 hand-craft하는 본 제안 방법에는
큰 한계점이 존재
12