제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection

신은빈
19기 엔지니어링
경희대학교 컴퓨터공학과
19기 분석
한양대학교 ERICA 로봇공학과
19기 분석
고려대학교 컴퓨터학과
속보 : 5인조 혼성그룹 뉴진스 데뷔..
NEWJEANS BOAZ 18TH CONFERENCE
김동진
19기 분석
건국대학교 응용통계학과
박명규 성재혁
장우솔
19기 분석
단국대학교 일반대학원 응용통계학과

김동진
19기 분석
건국대학교 응용통계학과
박명규 성재혁
신은빈 장우솔
19기 엔지니어링
경희대학교 컴퓨터공학과
19기 분석
한양대학교 ERICA 로봇공학과
19기 분석
단국대학교 일반대학원 응용통계학과
19기 분석
고려대학교 컴퓨터학과

CONTENTS
01 서론
02 데이터
03 모델
실험
04
결론
05

보통이다
52.7%
높다
31.4%
매우 높다
10.6%
낮다
5.3%
질문 정답률
"트럼프 미국 대통령은 의회 연설에서 김정은에 대해 '완전히 미쳤다
'며 선제타격이 필요하다고 말했다"
66.2%
"국내 외국인이 200만 명을 넘으며 작년 외국인 범죄건수가
사상 최초로 4만 건에 육박했다"
48.2%
"사드 배치 때문에 중국이 모든 포털 내 뮤직 코너에서 한국 음악 차
트를 삭제하고 업데이트를 중단했다"
46.9%
"경찰청장이 친박 단체의 집회 과열 양상을 두고 박사모 회장등에 대
해 사법적 책임을 묻겠다고 밝혔다"
52.9%
About Fake News
Q. 정보를 접할 때, 해당 정보에 대해 얼만큼 사실 여부를 분별할 수 있다고 생각합니까?
정보를 접할 때, 사실 여부 분별 능력에 비해 실제로 이 정보가
진짜인지 가짜인지 맞추는 정답률은 평균 58.5%
01 서론 BOAZ 18TH CONFERENCE

Multimodality
Image
Text Audio
Video
Multi-modal
01 서론 BOAZ 18TH CONFERENCE
텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고
려하여 서로의 관계성을 학습 및 표현하는 기술
➔ 하나의 모달리티를 활용하는 것보다 다양한 작업 수행 가능
멀티모달 AI란?

BOAZ 18TH CONFERENCE
네이버 스마트렌즈
Multi-modal
Open AI DALL-E 2
01 서론

Image
Text
가설 : Text만으로 가짜뉴스를 판별한 모델보다
Text와 Image 두가지로 가짜뉴스를 판별한 모델이 더욱 성능이 좋을 것이다
01 서론
Multi-modal

데이터
02

진짜 뉴
스
가짜 뉴
스
Train
set
Test
set
10,000
7,500
5,000
2,500
0
데이터 소개
가짜뉴스 : 뉴스 본문 중 맥락에 관계없는 내용이 들어간 경우
02 데이터

1
2
3
4
이미지 추출 과정
제목을 크롤링을 통해 구글에 직접 검색
논문의 데이터셋에는 뉴스 제목과 본문
내용만 존재
이미지가 여러개일 경우, 가장 먼저
나오는 이미지 한장만 크롤링
첫번째로 나오는 기사를 클릭하여 이미지 저장
이미지 추출
02 데이터

03
모델

Image
Title
Image
Title Content
Image
Content
Case 2
Case 3
뉴스 제목 + 이미지
Sentence-BERT + ResNet152
뉴스 본문 + 이미지
Longformer + ResNet152
뉴스 제목 + 본문 + 이미지
Sentence-BERT + T5 + ResNet152
Case 1
멀티모달
03 모델

Case 1
03 모델 BOAZ 18TH CONFERENCE
Concat Dropout
True
or
False
Image
ResNet
Title
Sentence BERT
3
×
3
conv,
512
FC
3
×
3
conv,
64
3
×
3
conv,
128
3
×
3
conv,
256
avg
pool
Input
vector
Embedding
Layer
BERT
Encoder
BERT
Encoder
Contextualized
Embeddings
Pooled
output
FC
FC
152

ResNet-152
03 모델
Skip connection
Identity mapping
간단한 Two-Layer에서 입력과 같은 출력이 나
오게 학습하는 방법 중에, input에서 바로
output을 만드는 것보다 0이 됨을 학습하고 자
기 자신을 더해주는 것이 더 쉬울 것이라 예측,
실제 결과도 동일
맨 마지막에 단순한 output이 아닌 input을 한
번 더 더해줌으로써, 역전파 계산 시 반영되는
gradient가 곱에 대한 연산에서 합에 대한 연산
으로 변경
→ Vanishing Gradient problem을 해결
→ 더 깊은 모델을 만들 수 있음

BERT
Transformer 구조 BERT 구조

Sentence-BERT
03 모델
Average Pooling
Classification / Regression
Bert를 거치고 나온 모든 문장 요소의 vector의
값을 평균 후 하나의 vector로 만듦
→ 모든 문장 요소의 정보(vector)를 반영
위 Average Pooling을 거친 두 문장의 벡터를
이용하여 분류 (혹은 회귀) 문제를 해결
→ Embedding vector와 Cosine Similarity 를
concat하여 softmax 한 값으로 판별

Case 2
Concat Dropout
True
or
False
Image
ResNet
3
×
3
conv,
512
FC
3
×
3
conv,
64
3
×
3
conv,
128
3
×
3
conv,
256
avg
pool
Input
vector
FC
FC
152
Content
Longformer
Embedding
Layer
BERT
Encoder
BERT
Encoder
BERT
Encoder
CLS
Other
Tokens

Longformer
Sliding Window Attention Mechanism
문서를 더 작은 청크(chunk)로 분할
→ 청크 단위로 전역 어텐션을 수행하고, 이
를 통해 긴 시퀀스를 효율적으로 처리함
토큰 간의 거리 정보를 이용하여, 일정 범위
내의 토큰들 간의 어텐션을 활성화시키고 나
머지는 비활성화
→ 긴 시퀀스의 어텐션 연산을 효율적으로
줄일 수 있음

Case 3
Image
ResNet
3
×
3
conv,
512
FC
3
×
3
conv,
64
3
×
3
conv,
128
3
×
3
conv,
256
avg
pool
152
Image
ResNet
Title
Sentence
BERT
Content
summarization
T5
Concat Dropout
True
or
False
FC
FC
Content
Longformer
Embedding
Layer
BERT
Encoder
BERT
Encoder
BERT
Encoder
CLS
Other
Tokens
Content
Embedding
Layer
BERT
Encoder
BERT
Encoder
BERT
Decoder
BERT
Decoder
T5

T5
Text-to-Text transform
출력을 Text로 바꾸어서 같은 Loss function과
parameter를 활용
→ Task마다 출력이 달라서 모델 사용에 대한
범용성이 떨어지는 문제 해결

04
실험

실험 환경
04 실험 BOAZ 18TH CONFERENCE
모든 실험마다 동일하게 환경 셋팅 후
모델 성능 비교
• F1-score
• AUROC
• Accuracy
평가 지표
• batch size : 256
• learning rate : 1e-4(0.0001)
• epoch : 10
• dropout : 0.1
• optimizer : Adam
Experiment

AURO
C
Acc F1 - score
Fasttext ResNet + Longformer ResNet + Sentence Bert + T5 ResNet + Sentence Bert Sentence Bert
1
0.75
0.5
0.25
0
실험 결과
04 실험

Models AUROC Accuracy F1-score
Uni-modal
Fasttext(Baseline) 0.7205 - -
SBERT 0.7323 0.6912 0.6905
Multi-modal
ResNet + SBERT 0.8186 0.7423 0.7330
ResNet + SBERT + T5 0.8464 0.7558 0.7572
ResNet + Longformer 0.8542 0.7759 0.7740
이미지(ResNet152) + 기사 본문(Longformer)가 가장 높은 성능을 기록함
실험 결과
04 실험

결론
05

Client
HTTP
Prediction
Framework
05 결론 BOAZ 18TH CONFERENCE
Server
Request
Response
Text, Image
True/False
Our Model

시연영상
05 결론
1) True text + True image ➔ 진짜뉴스
2) False text + True image ➔ 진짜뉴스
3) False text + False image ➔ 가짜뉴스

05 결론
1) True text + True image ➔ 진짜뉴스

05 결론
2) False text + True image ➔ 진짜뉴스

05 결론
3) False text + False image ➔ 가짜뉴스

01
02
01
02
기존 모델 대비 성능 향상
멀티모달 기술 활용
다른 부류의 가짜뉴스 탐지 불가
리소스 부족으로 인한 실험 횟수 부족
의의
05 결론
한계

제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection

제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from BOAZ Bigdata

More from BOAZ Bigdata (18)

제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection