데이터 분석 프로젝트를 진행한 뉴진스 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Multi-modal Fake News Detection
19기 장우솔 단국대학교 일반대학원 응용통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박명규 한양대학교 ERICA 로봇공학과
19기 성재혁 고려대학교 컴퓨터학과
19기 신은빈 건국대학교 응용통계학과
2. 신은빈
19기 엔지니어링
경희대학교 컴퓨터공학과
19기 분석
한양대학교 ERICA 로봇공학과
19기 분석
고려대학교 컴퓨터학과
속보 : 5인조 혼성그룹 뉴진스 데뷔..
NEWJEANS BOAZ 18TH CONFERENCE
김동진
19기 분석
건국대학교 응용통계학과
박명규 성재혁
장우솔
19기 분석
단국대학교 일반대학원 응용통계학과
3. NEWJEANS BOAZ 18TH CONFERENCE
김동진
19기 분석
건국대학교 응용통계학과
박명규 성재혁
신은빈 장우솔
19기 엔지니어링
경희대학교 컴퓨터공학과
19기 분석
한양대학교 ERICA 로봇공학과
19기 분석
단국대학교 일반대학원 응용통계학과
19기 분석
고려대학교 컴퓨터학과
5. 보통이다
52.7%
높다
31.4%
매우 높다
10.6%
낮다
5.3%
질문 정답률
"트럼프 미국 대통령은 의회 연설에서 김정은에 대해 '완전히 미쳤다
'며 선제타격이 필요하다고 말했다"
66.2%
"국내 외국인이 200만 명을 넘으며 작년 외국인 범죄건수가
사상 최초로 4만 건에 육박했다"
48.2%
"사드 배치 때문에 중국이 모든 포털 내 뮤직 코너에서 한국 음악 차
트를 삭제하고 업데이트를 중단했다"
46.9%
"경찰청장이 친박 단체의 집회 과열 양상을 두고 박사모 회장등에 대
해 사법적 책임을 묻겠다고 밝혔다"
52.9%
About Fake News
Q. 정보를 접할 때, 해당 정보에 대해 얼만큼 사실 여부를 분별할 수 있다고 생각합니까?
정보를 접할 때, 사실 여부 분별 능력에 비해 실제로 이 정보가
진짜인지 가짜인지 맞추는 정답률은 평균 58.5%
01 서론 BOAZ 18TH CONFERENCE
11. 1
2
3
4
이미지 추출 과정
제목을 크롤링을 통해 구글에 직접 검색
논문의 데이터셋에는 뉴스 제목과 본문
내용만 존재
이미지가 여러개일 경우, 가장 먼저
나오는 이미지 한장만 크롤링
첫번째로 나오는 기사를 클릭하여 이미지 저장
BOAZ 18TH CONFERENCE
이미지 추출
02 데이터
14. Case 1
03 모델 BOAZ 18TH CONFERENCE
Concat Dropout
True
or
False
Image
ResNet
Title
Sentence BERT
3
×
3
conv,
512
FC
3
×
3
conv,
64
3
×
3
conv,
128
3
×
3
conv,
256
avg
pool
Input
vector
Embedding
Layer
BERT
Encoder
BERT
Encoder
Contextualized
Embeddings
Pooled
output
FC
FC
152
15. BOAZ 18TH CONFERENCE
ResNet-152
03 모델
Skip connection
Identity mapping
간단한 Two-Layer에서 입력과 같은 출력이 나
오게 학습하는 방법 중에, input에서 바로
output을 만드는 것보다 0이 됨을 학습하고 자
기 자신을 더해주는 것이 더 쉬울 것이라 예측,
실제 결과도 동일
맨 마지막에 단순한 output이 아닌 input을 한
번 더 더해줌으로써, 역전파 계산 시 반영되는
gradient가 곱에 대한 연산에서 합에 대한 연산
으로 변경
→ Vanishing Gradient problem을 해결
→ 더 깊은 모델을 만들 수 있음
17. BOAZ 18TH CONFERENCE
Sentence-BERT
03 모델
Average Pooling
Classification / Regression
Bert를 거치고 나온 모든 문장 요소의 vector의
값을 평균 후 하나의 vector로 만듦
→ 모든 문장 요소의 정보(vector)를 반영
위 Average Pooling을 거친 두 문장의 벡터를
이용하여 분류 (혹은 회귀) 문제를 해결
→ Embedding vector와 Cosine Similarity 를
concat하여 softmax 한 값으로 판별
18. Case 2
03 모델 BOAZ 18TH CONFERENCE
Concat Dropout
True
or
False
Image
ResNet
3
×
3
conv,
512
FC
3
×
3
conv,
64
3
×
3
conv,
128
3
×
3
conv,
256
avg
pool
Input
vector
FC
FC
152
Content
Longformer
Embedding
Layer
BERT
Encoder
BERT
Encoder
BERT
Encoder
CLS
Other
Tokens
19. Longformer
03 모델 BOAZ 18TH CONFERENCE
Sliding Window Attention Mechanism
문서를 더 작은 청크(chunk)로 분할
→ 청크 단위로 전역 어텐션을 수행하고, 이
를 통해 긴 시퀀스를 효율적으로 처리함
토큰 간의 거리 정보를 이용하여, 일정 범위
내의 토큰들 간의 어텐션을 활성화시키고 나
머지는 비활성화
→ 긴 시퀀스의 어텐션 연산을 효율적으로
줄일 수 있음
20. Case 3
03 모델 BOAZ 18TH CONFERENCE
Image
ResNet
3
×
3
conv,
512
FC
3
×
3
conv,
64
3
×
3
conv,
128
3
×
3
conv,
256
avg
pool
152
Image
ResNet
Title
Sentence
BERT
Content
summarization
T5
Concat Dropout
True
or
False
FC
FC
Content
Longformer
Embedding
Layer
BERT
Encoder
BERT
Encoder
BERT
Encoder
CLS
Other
Tokens
Content
Embedding
Layer
BERT
Encoder
BERT
Encoder
BERT
Decoder
BERT
Decoder
T5
21. T5
03 모델 BOAZ 18TH CONFERENCE
Text-to-Text transform
출력을 Text로 바꾸어서 같은 Loss function과
parameter를 활용
→ Task마다 출력이 달라서 모델 사용에 대한
범용성이 떨어지는 문제 해결
23. 실험 환경
04 실험 BOAZ 18TH CONFERENCE
모든 실험마다 동일하게 환경 셋팅 후
모델 성능 비교
• F1-score
• AUROC
• Accuracy
평가 지표
• batch size : 256
• learning rate : 1e-4(0.0001)
• epoch : 10
• dropout : 0.1
• optimizer : Adam
Experiment
24. AURO
C
Acc F1 - score
Fasttext ResNet + Longformer ResNet + Sentence Bert + T5 ResNet + Sentence Bert Sentence Bert
1
0.75
0.5
0.25
0
실험 결과
BOAZ 18TH CONFERENCE
04 실험
25. Models AUROC Accuracy F1-score
Uni-modal
Fasttext(Baseline) 0.7205 - -
SBERT 0.7323 0.6912 0.6905
Multi-modal
ResNet + SBERT 0.8186 0.7423 0.7330
ResNet + SBERT + T5 0.8464 0.7558 0.7572
ResNet + Longformer 0.8542 0.7759 0.7740
BOAZ 18TH CONFERENCE
이미지(ResNet152) + 기사 본문(Longformer)가 가장 높은 성능을 기록함
실험 결과
04 실험