X corps 발표

CNS
심국보 이승호 정준호
오지민 이정민 최종규
AI 기반의 가짜뉴스 판별 서비스

배경 및 제안
85%의 국민 가짜뉴스에 속은 경험
심각한 사회적, 경제적, 인명 피해 발생
비정형적인 가짜뉴스, 가짜정보들을 검증하는 서비스가 한글로 구현 x

구성도
핵심 키워드 신뢰도 분석
연관 검색어
SNU
팩트체크 뉴스
LSTM
신뢰도 분석
SNU
팩트체크 뉴스
LSTM 감성분석
리뷰 데이터
신뢰도 분석 객관성 판별
연관 검색어

데이터 수집
3000여개의 팩트 체크
뉴스 데이터 수집

데이터 전처리
Under Sampling
20 : 80
진짜 가짜
Over Sampling

데이터 전처리
• Class MyTokenizer
기사 또는 카카오톡 텍스트 처리 -> 조사, 문장기호, 접두사 및 외국어를 제외
pos 라는 메소드를 이용하여 각 형태소의 품사를 추출한 후,
텍스트 처리에 불필요한 품사를 제외시키는 과정.

데이터 전처리
• Word_Indexing
수집한 Labled Data를 Tokenizing 및 형태소 분석, 벡터 차원을 맞추기 위한 패딩 작업을 실행
형태소 분석
텍스트 -> 숫자로 변환
패딩 작업 실행하여 전처리 완료

데이터 학습
• Model Traning (LSTM)
keras의 Sequential 함수로 Embedding층, Dense층, Bi-LSTM층을 쌓아 LSTM 모델을 구성
EMBEDDING_INDEX에 담아놓은 사전
훈련된 워드 임베딩(FastText)을 사용
딥러닝 모델(LSTM)의 입력층,
은닉층, 출력층을 구성

데이터 학습
• Model Traning (LSTM)
손실 함수는 ‘binary crossentropy’, optimizer는 ‘adam’을 사용하여 모델 학습
전처리한 학습데이터로
model fit (모델 학습) 진행

카테고리 분류
All
정치
경제
사회
기타
Bi-LSTM
Bi-LSTM
Bi-LSTM
Bi-LSTM
Bi-LSTM
Bi-LSTM
Sigmoid
Output
Bi-LSTM
Layer1
BI-LSTM
Layer2 Dense Layer
Dense Layer
Bi-LSTM Bi-LSTM
Input

네이버 댓글 학습
네이버 댓글 추가 분석
Article Data
Article
Model
Comments
Model
[0.37, 0.86] [0.59, 0.62]
Comments Data

모델 성능 비교
정치 경제 사회 기타
카테고리 세분화
(under sampling)
with Comments
53.2% 41.9% 64.5% 63.0%
카테고리 세분화
(under sampling)
53.2% 48.3% 60.7% 67.3%
전체
(under sampling)
50.6% 54.8% 55.6% 54.3%

카카오톡 가짜뉴스 객관성 판별
15만 건의 리뷰데이터 학습
감성분석으로 객관성 정도 판단

프로세스 효율성 개선
Schedule
Every 1 hour
Web scraping
Article
LSTM Model
Comments
LSTM Model Database
Web Server
일정 시간마다 딥러닝 모델 실행하여 데이터베이스에 결과 저장
사용자 요청 처리시간 1.7초에서 0.01초로 단축

시연 영상
1. 카카오톡 가짜뉴스
2. 키워드 가짜뉴스
3. 인기키워드

X corps 발표

Recommended

Recommended

More Related Content

Similar to X corps 발표

Similar to X corps 발표 (20)

X corps 발표