SlideShare a Scribd company logo
2018/03/30
소셜미디어 공간상에서의 루머 탐색
서울대학교
전기·정보공학부
머신인텔리전스연구실
강태관, 김세광, 황용근1
루머란?
• A rumor is defined as a statement whose truth-value is
• unverifiable or
• deliberately false.
루머 탐지란?
3
•어떤 주장(claim)에 대한 소셜 미디어 공간 상의 포스트를 취합해 주어
진 주장이 루머인지 아닌지를 밝혀내는 것
•주로 Twitter, Weibo에서 연구가 이루어지고 있고, 네이버와 협력해 블
로그 공간상에서 루머탐지 연구를 진행중
Is celebrity A dead?
Blog, Twitter
포스트 분석
과제 개요
4
구분 내용
과제명 네이버 블로그 루머 탐지 연구
교수명 정교민 교수
참여학생 황용근(박사과정), 강태관(박사과정), 김세광(박사과정)
네이버실무 네이버랩스
과제 요약
⚫ 최종 목표 : 고성능 정확도의 블로그 공간 상 루머 탐지 모
델 개발
⚫ 세부 목표: 블로그 공간 상 루머 데이터 수집. 데이터에
대한 루머 판별 모델 개발
데이터 수집
5
Dataset 특징 (R: rumor, NR: non-rumor)
Twitter (Kwon et al., 2013) 영어, R=51 NR=60
Weibo (Ma et al., 2015) 중국어, R=2313 NR=2351
네이버 블로그 (자체 수집) 한국어, R=69 NR=69
Topic &
Keyword 선정
API 검색 데이터 추출
이전 연구
언어적인 감정(Sentimental Analysis) 분석
시계열 분석(특정 기간동안 언급된 횟수)
포스트 전파 패턴 분석
사용자 정보(팔로워/팔로잉 수) 분석
DEEP LEARNING APPROACH
7
Deep Learning Model for Rumor Detection
8
•동기 : Prominent Features of Rumor Propagation in Online social
Media (Kwon, ICDM 2013)
•루머 탐지기를 위한 머신 러닝 기법 활용 논문
Temporal feature
Network Feature
Deep Learning Model for Rumor Detection
9
•문제 인식 : Deep Learning Model로 바꿀 수 있지 않을까?
•루머의 시간적 분포 특성을 위한 Recurrent Neural Network
•포스트내 텍스트 분석을 위한 Convolutional Neural Network
RNN CNN
Deep Learning Model for Rumor Detection
10
•Linguistics Feature
•기존 LIWC를 활용하여 전체 글을 Scoring 하는 대신 CNN을 활용하여 전체
글의 대한 Feature Extraction하여 활용
LIWC CNN sentence classification
Deep Learning Model for Rumor Detection
11
•Temporal Feature
•기존 PES Model 과 SPIKE Model의 parameter feature 대신 RNN을 활용하
여 Feature Extraction
•네이버 블로그 데이터의 경우 시간에 따른 트위터량 대신 시간에 따른 검색량
활용예정
Feature
Interval
1
Interval
2
.
.
.
Interval
6
Interval
7
blog
1
2014-01-03
blog
2
2014-01-03
… 2014-01-04
N 개
0 0.5 0.2 0.1
RNN
Normalization
Deep Learning Model for Rumor Detection
12
•Total Model
•Network Feature의 경우 Writer보다 Follower가 많은 Follower 수와 적은
Follower 수를 각각 Feature로 활용
CNN for
Linguistics
RNN for
Temporal
sentence
Temporal
Embedding
for User
User
Embedding
for Network
Follower
Fully Connected
Layer
Rumor ?
Non Rumor?
Deep Learning Model for Rumor detection
Only Sentence Total Feature Topic
81.83% 83.52% 84.06%
• 실험 결과 (영어 트위터 데이터*)
* Kwon et al., Prominent Features of Rumor Propagation in Online Social Media, ICDM 2013
GRADIENT TREE BOOSTING APPROACH
13
Gradient Tree Boosting Approach
•Linguistics feature에 집중하는 것이 효율적
•Microblog (Twitter 등)과 달리 블로그의 경우 사용 가능한 feature가 비교적 제한
적
•포스트의 내용(단어들)은 소셜미디어의 종류와 상관없이 항상 얻을 수 있음
•Early detection에는 linguistics feature가 가장 효율적*
•Deep Learning 기반 모델이 한글 데이터에서 저조한 성능을 보임
•강력한 Non-DNN baseline이 필요 : Tree boosting 선택 이유
* Kwon et al., Rumor Detection over Varying Time Windows, PLOS ONE, 2017
9
Gradient Tree Boosting Approach
• 의사결정나무를 하나씩 더해주어 loss를 감소시키는 방향으로 훈련
•XGBOOST: Scalable한 Tree boosting 라이브러리
• Kaggle’s ML challenge : 29 winning models 중 17개
Inference
Loss
weight of leaves, ∈ ℝ 𝑇
number of total leaves
tree
10
루머 탐지 모형
16
𝒗 𝟐
vocabs
on
1
0
.0006
up
1
0
.001
...
:
:
...
...
kill
0
1
.0004
fly
0
1
.008
TOPICTOPIC
...
TOPICTOPIC
tweet
𝑎1
2
tweet
𝑎𝑙(2)
2
ObamagivingupontyrantsHeisnowgoing
aftertheeasystuff
.
.
.
KTAR923updatePETAwishesObamahadn’t
swattedampkilledflywillsendhimhumanefly
trap
2. Extract Rumor Vector1. Tokenize Rumor Tweets
Sum&Normalize
루머 탐지 모형
17
Y
N
Y N
.
.
.
Y N
tree 1
.
.
.
tree 𝑃
…
…
+2.1
-1.8 -.02
on > 0.001
up > 0.002 kill > 0.01
3. Initial Tree Boosting
루머 탐지 모형
18
vocabs
on
1
0
.0006
up
1
0
.001
...
:
:
...
...
kill
0
1
.0004
fly
0
1
.008
Y
N
Y N
.
.
.
Y N
tree 1
.
.
.
tree 𝑃
…
…
+.7
-.8 -.9
Just+About > 0.001
If > 0.002 kill > 0.01
5. Posterior Tree Boosting4. Concatenate Synthesized Vocabs
.012....004
JUST+
ABOUT
If+BUT
45synthesizedvocabs
결과 (성능)
19
Method Class
Twitter Weibo
Accurac
y
Precisio
n
Recall Fscore
Accurac
y
Precisio
n
Recall Fscore
DTC
R
0.648
0.701 0.65 0.668
0.848
0.843 0.846 0.84
N 0.608 0.643 0.617 0.861 0.85 0.852
RFC
R
0.711
0.749 0.783 0.747
0.884
0.886 0.872 0.871
N 0.763 0.623 0.629 0.896 0.897 0.886
SVM
R
0.704
0.691 0.933 0.778
0.756
0.781 0.774 0.75
N 0.721 0.437 0.504 0.716 0.736 0.714
SVM-TS
R
0.775
0.843 0.767 0.781
0.826
0.819 0.823 0.816
N 0.771 0.78 0.751 0.841 0.829 0.831
GRU-2
R
0.78
0.743 0.413 0.5
0.873
0.852 0.929 0.885
N 0.664 0.917 0.763 0.915 0.818 0.853
CAMI
R
0.81
0.812 0.85 0.826
0.915
0.901 0.938 0.919
N 0.83 0.763 0.787 0.933 0.892 0.911
WARD1 R
0.802
0.841 0.8 0.812
0.94
0.943 0.935 0.937
N 0.785 0.807 0.786 0.942 0.945 0.942
WARD1
K 2
R
0.91
0.92 0.917 0.915
0.94
0.944 0.934 0.937
N 0.913 0.903 0.903 0.942 0.945 0.942
Method Weight K:0 K:10 K:20 K:30
WARD1
K 2
None
0.802
0.846 0.865 0.864
Rand 0.834 0.91 0.869
WARD2
K 2
None
0.723
0.784 0.784 0.847
Rand 0.83 0.83 0.847
WARD1 2
K 2
None
0.802
0.847 0.883 0.837
Rand 0.865 0.874 0.902
기존 데이터로 실험 결과 새로운 데이터 실험 결과
새로운 데이터에서 Similarity
기준으로 필터링 후 결과
67.02% 72.01% 76.05%
Comparison with baselines
Improvement by Word Combination
결과 (의미있는 단어)
20
Top-5 (의미있는) 매체, 소식, 소문, 원문, 따르면
Bottom-5 (의미없는) 였, 았, 겠, 중, 해서
Method Influential words
WARD1
just about best get dont
TRUE if saying first but
bbc its myth now really
WARD1
20 2
just its about true+saying bbc
first best+bbc there+all dont+true dont+all
get myth+there best now cow
WARD1+
20 2
just get 0.6true+0.8saying 0.05get+0.1myth its
about 0.9best+0.3first think bbc 0.7dont+0.7saying
best myth 1true+0.3but 0.9but+0.4really im
WARD2
just saw wonder if last night so much wondering if
just posted two days bring down hot mess seen anything
so glad just watched so sad just read lcd screen
WARD2
20 2
just saw
just posted
+so sad
think its
wondering if
+we need
seen anything
+so glad
mp3 player
wonder if
+hot mess
wonder if
+wondering if
we r right now
very disturbing well as just got wonder if bring down+hat die
Rumor Detection Over Varying Time Windows
•주제가 최초로 언급된 시점부터 일정 일자만큼의 데이터만으로 학습
하여 성능 실험
시간 4일 7일 15일 28일 56일 전체
Accuracy 70.1% 72.9% 75.7% 78.3% 81.8% 89.24%
D-day … D+7 … D+28 … D+56 …
17
Rumor Detection Over Varying Time Windows
•시간대 별로 중요한 Feature를 Feature importance를 측정하여 중요도
의 변화를 측정함
17
Word 특징 해석
News, Alert, Discover, Wow 초반부에 중요한 단어
루머 발생 초기에 자주 나오는
단어들
Hear, But, Still 중반부에 중요한 단어
루머 전파 과정에서 의견 전달
과정에서 자주 나오는 단어들
True
초반부 및 후반부에 중요한 단
어
루머가 Verification 되는 과정
에서 중요한 단어
앞으로의 연구 방향
23
•사용자들간의 관계를 Poincare disk상에 Embedding시켜 feature로 활용

More Related Content

What's hot

[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
NAVER D2
 

What's hot (6)

News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
황승원 포항공대 교수
황승원 포항공대 교수황승원 포항공대 교수
황승원 포항공대 교수
 
[노드엑셀] 트위터에서의 '아이폰' 네트워크 변화분석
[노드엑셀] 트위터에서의 '아이폰' 네트워크 변화분석[노드엑셀] 트위터에서의 '아이폰' 네트워크 변화분석
[노드엑셀] 트위터에서의 '아이폰' 네트워크 변화분석
 
News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101
 

Similar to Rumor detection on social media

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

Sun-young Kim
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
Chang-yong Jung
 

Similar to Rumor detection on social media (20)

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 
빅데이터
빅데이터빅데이터
빅데이터
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
 
Facilitating trust in virtual teams: the role of awareness
Facilitating trust in virtual teams: the role of awareness Facilitating trust in virtual teams: the role of awareness
Facilitating trust in virtual teams: the role of awareness
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
29th Meetup 실습 설명 및 실습 자료 링크
29th Meetup 실습 설명 및 실습 자료 링크29th Meetup 실습 설명 및 실습 자료 링크
29th Meetup 실습 설명 및 실습 자료 링크
 
소프트웨어 2.0을 활용한 게임 어뷰징 검출
소프트웨어 2.0을 활용한 게임 어뷰징 검출소프트웨어 2.0을 활용한 게임 어뷰징 검출
소프트웨어 2.0을 활용한 게임 어뷰징 검출
 
제 11회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 코끼리(BOAZ) 사서의 도서 추천 솔루션
제 11회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 코끼리(BOAZ) 사서의 도서 추천 솔루션제 11회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 코끼리(BOAZ) 사서의 도서 추천 솔루션
제 11회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 코끼리(BOAZ) 사서의 도서 추천 솔루션
 
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendations
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
(독서광) 책 vs 책: 정형 vs 비정형 딥러닝
 
De text a deep text ranking framework with bert
De text  a deep text ranking framework with bertDe text  a deep text ranking framework with bert
De text a deep text ranking framework with bert
 

Rumor detection on social media

  • 1. 2018/03/30 소셜미디어 공간상에서의 루머 탐색 서울대학교 전기·정보공학부 머신인텔리전스연구실 강태관, 김세광, 황용근1
  • 2. 루머란? • A rumor is defined as a statement whose truth-value is • unverifiable or • deliberately false.
  • 3. 루머 탐지란? 3 •어떤 주장(claim)에 대한 소셜 미디어 공간 상의 포스트를 취합해 주어 진 주장이 루머인지 아닌지를 밝혀내는 것 •주로 Twitter, Weibo에서 연구가 이루어지고 있고, 네이버와 협력해 블 로그 공간상에서 루머탐지 연구를 진행중 Is celebrity A dead? Blog, Twitter 포스트 분석
  • 4. 과제 개요 4 구분 내용 과제명 네이버 블로그 루머 탐지 연구 교수명 정교민 교수 참여학생 황용근(박사과정), 강태관(박사과정), 김세광(박사과정) 네이버실무 네이버랩스 과제 요약 ⚫ 최종 목표 : 고성능 정확도의 블로그 공간 상 루머 탐지 모 델 개발 ⚫ 세부 목표: 블로그 공간 상 루머 데이터 수집. 데이터에 대한 루머 판별 모델 개발
  • 5. 데이터 수집 5 Dataset 특징 (R: rumor, NR: non-rumor) Twitter (Kwon et al., 2013) 영어, R=51 NR=60 Weibo (Ma et al., 2015) 중국어, R=2313 NR=2351 네이버 블로그 (자체 수집) 한국어, R=69 NR=69 Topic & Keyword 선정 API 검색 데이터 추출
  • 6. 이전 연구 언어적인 감정(Sentimental Analysis) 분석 시계열 분석(특정 기간동안 언급된 횟수) 포스트 전파 패턴 분석 사용자 정보(팔로워/팔로잉 수) 분석
  • 8. Deep Learning Model for Rumor Detection 8 •동기 : Prominent Features of Rumor Propagation in Online social Media (Kwon, ICDM 2013) •루머 탐지기를 위한 머신 러닝 기법 활용 논문 Temporal feature Network Feature
  • 9. Deep Learning Model for Rumor Detection 9 •문제 인식 : Deep Learning Model로 바꿀 수 있지 않을까? •루머의 시간적 분포 특성을 위한 Recurrent Neural Network •포스트내 텍스트 분석을 위한 Convolutional Neural Network RNN CNN
  • 10. Deep Learning Model for Rumor Detection 10 •Linguistics Feature •기존 LIWC를 활용하여 전체 글을 Scoring 하는 대신 CNN을 활용하여 전체 글의 대한 Feature Extraction하여 활용 LIWC CNN sentence classification
  • 11. Deep Learning Model for Rumor Detection 11 •Temporal Feature •기존 PES Model 과 SPIKE Model의 parameter feature 대신 RNN을 활용하 여 Feature Extraction •네이버 블로그 데이터의 경우 시간에 따른 트위터량 대신 시간에 따른 검색량 활용예정 Feature Interval 1 Interval 2 . . . Interval 6 Interval 7 blog 1 2014-01-03 blog 2 2014-01-03 … 2014-01-04 N 개 0 0.5 0.2 0.1 RNN Normalization
  • 12. Deep Learning Model for Rumor Detection 12 •Total Model •Network Feature의 경우 Writer보다 Follower가 많은 Follower 수와 적은 Follower 수를 각각 Feature로 활용 CNN for Linguistics RNN for Temporal sentence Temporal Embedding for User User Embedding for Network Follower Fully Connected Layer Rumor ? Non Rumor? Deep Learning Model for Rumor detection Only Sentence Total Feature Topic 81.83% 83.52% 84.06% • 실험 결과 (영어 트위터 데이터*) * Kwon et al., Prominent Features of Rumor Propagation in Online Social Media, ICDM 2013
  • 13. GRADIENT TREE BOOSTING APPROACH 13
  • 14. Gradient Tree Boosting Approach •Linguistics feature에 집중하는 것이 효율적 •Microblog (Twitter 등)과 달리 블로그의 경우 사용 가능한 feature가 비교적 제한 적 •포스트의 내용(단어들)은 소셜미디어의 종류와 상관없이 항상 얻을 수 있음 •Early detection에는 linguistics feature가 가장 효율적* •Deep Learning 기반 모델이 한글 데이터에서 저조한 성능을 보임 •강력한 Non-DNN baseline이 필요 : Tree boosting 선택 이유 * Kwon et al., Rumor Detection over Varying Time Windows, PLOS ONE, 2017 9
  • 15. Gradient Tree Boosting Approach • 의사결정나무를 하나씩 더해주어 loss를 감소시키는 방향으로 훈련 •XGBOOST: Scalable한 Tree boosting 라이브러리 • Kaggle’s ML challenge : 29 winning models 중 17개 Inference Loss weight of leaves, ∈ ℝ 𝑇 number of total leaves tree 10
  • 16. 루머 탐지 모형 16 𝒗 𝟐 vocabs on 1 0 .0006 up 1 0 .001 ... : : ... ... kill 0 1 .0004 fly 0 1 .008 TOPICTOPIC ... TOPICTOPIC tweet 𝑎1 2 tweet 𝑎𝑙(2) 2 ObamagivingupontyrantsHeisnowgoing aftertheeasystuff . . . KTAR923updatePETAwishesObamahadn’t swattedampkilledflywillsendhimhumanefly trap 2. Extract Rumor Vector1. Tokenize Rumor Tweets Sum&Normalize
  • 17. 루머 탐지 모형 17 Y N Y N . . . Y N tree 1 . . . tree 𝑃 … … +2.1 -1.8 -.02 on > 0.001 up > 0.002 kill > 0.01 3. Initial Tree Boosting
  • 18. 루머 탐지 모형 18 vocabs on 1 0 .0006 up 1 0 .001 ... : : ... ... kill 0 1 .0004 fly 0 1 .008 Y N Y N . . . Y N tree 1 . . . tree 𝑃 … … +.7 -.8 -.9 Just+About > 0.001 If > 0.002 kill > 0.01 5. Posterior Tree Boosting4. Concatenate Synthesized Vocabs .012....004 JUST+ ABOUT If+BUT 45synthesizedvocabs
  • 19. 결과 (성능) 19 Method Class Twitter Weibo Accurac y Precisio n Recall Fscore Accurac y Precisio n Recall Fscore DTC R 0.648 0.701 0.65 0.668 0.848 0.843 0.846 0.84 N 0.608 0.643 0.617 0.861 0.85 0.852 RFC R 0.711 0.749 0.783 0.747 0.884 0.886 0.872 0.871 N 0.763 0.623 0.629 0.896 0.897 0.886 SVM R 0.704 0.691 0.933 0.778 0.756 0.781 0.774 0.75 N 0.721 0.437 0.504 0.716 0.736 0.714 SVM-TS R 0.775 0.843 0.767 0.781 0.826 0.819 0.823 0.816 N 0.771 0.78 0.751 0.841 0.829 0.831 GRU-2 R 0.78 0.743 0.413 0.5 0.873 0.852 0.929 0.885 N 0.664 0.917 0.763 0.915 0.818 0.853 CAMI R 0.81 0.812 0.85 0.826 0.915 0.901 0.938 0.919 N 0.83 0.763 0.787 0.933 0.892 0.911 WARD1 R 0.802 0.841 0.8 0.812 0.94 0.943 0.935 0.937 N 0.785 0.807 0.786 0.942 0.945 0.942 WARD1 K 2 R 0.91 0.92 0.917 0.915 0.94 0.944 0.934 0.937 N 0.913 0.903 0.903 0.942 0.945 0.942 Method Weight K:0 K:10 K:20 K:30 WARD1 K 2 None 0.802 0.846 0.865 0.864 Rand 0.834 0.91 0.869 WARD2 K 2 None 0.723 0.784 0.784 0.847 Rand 0.83 0.83 0.847 WARD1 2 K 2 None 0.802 0.847 0.883 0.837 Rand 0.865 0.874 0.902 기존 데이터로 실험 결과 새로운 데이터 실험 결과 새로운 데이터에서 Similarity 기준으로 필터링 후 결과 67.02% 72.01% 76.05% Comparison with baselines Improvement by Word Combination
  • 20. 결과 (의미있는 단어) 20 Top-5 (의미있는) 매체, 소식, 소문, 원문, 따르면 Bottom-5 (의미없는) 였, 았, 겠, 중, 해서 Method Influential words WARD1 just about best get dont TRUE if saying first but bbc its myth now really WARD1 20 2 just its about true+saying bbc first best+bbc there+all dont+true dont+all get myth+there best now cow WARD1+ 20 2 just get 0.6true+0.8saying 0.05get+0.1myth its about 0.9best+0.3first think bbc 0.7dont+0.7saying best myth 1true+0.3but 0.9but+0.4really im WARD2 just saw wonder if last night so much wondering if just posted two days bring down hot mess seen anything so glad just watched so sad just read lcd screen WARD2 20 2 just saw just posted +so sad think its wondering if +we need seen anything +so glad mp3 player wonder if +hot mess wonder if +wondering if we r right now very disturbing well as just got wonder if bring down+hat die
  • 21. Rumor Detection Over Varying Time Windows •주제가 최초로 언급된 시점부터 일정 일자만큼의 데이터만으로 학습 하여 성능 실험 시간 4일 7일 15일 28일 56일 전체 Accuracy 70.1% 72.9% 75.7% 78.3% 81.8% 89.24% D-day … D+7 … D+28 … D+56 … 17
  • 22. Rumor Detection Over Varying Time Windows •시간대 별로 중요한 Feature를 Feature importance를 측정하여 중요도 의 변화를 측정함 17 Word 특징 해석 News, Alert, Discover, Wow 초반부에 중요한 단어 루머 발생 초기에 자주 나오는 단어들 Hear, But, Still 중반부에 중요한 단어 루머 전파 과정에서 의견 전달 과정에서 자주 나오는 단어들 True 초반부 및 후반부에 중요한 단 어 루머가 Verification 되는 과정 에서 중요한 단어
  • 23. 앞으로의 연구 방향 23 •사용자들간의 관계를 Poincare disk상에 Embedding시켜 feature로 활용