데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

한국탐사저널리즘센터(KCIJ)
데이터저널리즘연구소

2
“Data journalism is not graphics and
visualisations. It's about telling the story in the
best way possible.”
“Sometimes that will be a visualisation or a
map But sometimes it's a news story.
Sometimes, just publishing the number is
enough.”
Data Driven Journalism

Gun violence in America: How many years of life have been lost?

“Data Journalism?
It's just journalism”
Simon Rogers
(Twitter Data editor, 전 Guardian Data editor)

DJA Prize : 4 categories
• Data-driven investigative journalism:
using data to uncover facts
• Data storytelling (text, visualisation, video…)
• Data-driven applications (mobile or web):
serving data to your public
• Data journalism website or section

예산 감시 : Where does my money go?
Open Knowledge Foundation 의
Open Spending project
영국 Guardian 지의 예산 감시 보도

ICIJ : 조세피난처 탐사보도

• 260 기가바이트 데이터 : 위키릭스 160배, 비정형 데이터)
• (2.5 million files, including more than 2 million e-mails)
• 시각화 도구 : IBM® i2 Analyst's Notebook
• 데이터 구조화, 네트워크 분석 : NUIX
• dtSearch : free text retrieval(FTR) systems
• unreadable files : OCR
• 프로그래머 : 독일, 영국, 코스타리카 (Long-Distance Investigation)
ICIJ : 조세피난처 데이터

• 한국탐사저널리즘센터(KCIJ)
– 비영리 비정파 독립 탐사보도 단체
– 대표 김용진(전 KBS 탐사보도팀장), 앵커 최승호(전 MBC PD수첩 PD),
데이터저널리즘연구소 권혜진(전 동아일보 CAR 전문기자)
• 뉴스타파
– 한국탐사저널리즘센터의 탐사프로그램
– 데이터저널리즘에 기반한 탐사보도 추구
• 데이터저널리즘 프로젝트
– 박근혜 정부 초기 내각 검증
– 2013 고위공직자 재산 변동 및 공개 현황
– 조세피난처의 한국 기업들
– 국정원 연루 의혹 트위터 네트워크 분석
– 1990년 이후 고위공직자 재산 공개 자료
– 18대 대통령 선거비용
– 환경 GIS 지도 : 불산 등 유해물질 지도
뉴스타파 데이터저널리즘 프로젝트

• 뉴스타파 웹 2013.03.01
• 초기 내각 후보자들의 재산, 연령, 성별, 예금, 부동산, 학위 등을 인터렉티브 그래픽으로 제작.
• 인사청문회에 제출한 재산 신고액 정보를 인터렉티브 시각화 도구인 태블로(Tableau) 로 표현.
박근혜 정부 초기 내각 정보

2013 고위공직자 재산 변동 및 공개 현황
• 정부공직자윤리위원회가 정부 고위공무원과
지방자치단체장 등 1,933명을 대상으로 집계
한 재산총액 상위 10명은 대부분 지방자치
단체나 지방의회 공직자들.
• 뉴스타파가 법원과 헌법재판소, 선거관리위
원회 공직자 171명을 추가해 모두 2106명을
대상으로 분석한 결과 법조계가 과반수.
뉴스타파 N 2013.04.05
( http://newstapa.com/495 )

• 뉴스타파 N 2013.04.12
뉴스타파 조세 피난처 집중 해부

• 뉴스타파N 2013.4.19
국정원 연루 의혹 트위터 네트워크 분석

목 차
1. 데이터 수집
2. 리트윗 네트워크 분석
3. 키워드 분석
4. 분석의 한계와 제언

데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
가설 확인
국정원이 인터넷 여론에 조직적으로 개
입했다면,
‘오늘의 유머’사이트에 게재된 것과
같은 내용의 글이 다른 사이트에서도 확
인될 것이다.

데이터 수집
의심계정 확보 방법
1. 오유 사이트 국정원 글의 내용으로 인터넷
검색
2. 유사한 글을 작성하는 계정 확인
3. 2의 계정의 Following, Follower, RT한 계
정 등을 확인
4. 3의 계정이 ‘일정한 특성’을 충족할 경
우, 국정원 연루 의혹 계정으로 추정함
의심계정의 특성
• 12월 10일 또는 11일 일제히 활동 정지 또
는 계정 삭제 (이른바 ‘국정원녀 사건’이
터진 다음날)
• 내용 면에서 천편일률적으로 북한·종북
비판, 정부 정책 찬양, 야당 비판
• 계정들의 시기별 트윗 활용 패턴 일치
• 보도에서 노출된 계정은 이틀 이내에 삭제
총 661개의 국정원 의심계정 확보!

트위터에서 사라진 ID 흔적 찾기
데이터 수집

데이터 수집
수집 대상: 웹로그 제공 사이트
수집 방법: 웹 크롤링(Crawling)

데이터 수집
데이터 크롤러의 로직과 수집 항목
①트위터 아이디: 확보한 의
심계정 사용
②페이지 넘버: 수집을 완료
하면 다음페이지로
③개별 트윗 상세 내용 확인
④트윗 원본 작성자
⑤트윗 날짜
⑥리트윗 횟수
⑦리트윗한 계정들
① ②
③
④
⑤
⑥
⑦

데이터 수집
데이터 개요 데이터에 관한 평가
수집 대상 의심계정의 프로필에 올라온 트윗 정보
수집 기간 2013년 4월 초
계정 수 454개 계정 (661개 중)
트윗 수 288,643개*
컨텐츠 수 36,122개**
관계 수 110,591개***
• 데이터가 실시간으로 삭제되고 있는 등 수집상의 한
계가 존재. (661 계정 중 454개 수집)
• 그러나 ‘리트윗’등의 방법으로 커뮤니케이션이
오가는 SNS 공간의 특성으로 인하여, 주요 컨텐츠
제 공 자 들 은 빠 짐 없 이 확 인 할 수 있 었 음 .
(그 계정의 프로필 페이지를 긁지 못하더라도, 다른
계정들의 프로필 페이지에서 다수 등장하게 됨)
*직접 작성한 트윗과 리트윗을 구분하지 않고, 계산한 총 트
윗의 수
**리트윗을 제외하고 계산한 컨텐츠의 양
***리트윗 관계에 등장한 노드 쌍(node pairs)의 수

리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Raw Data 관계 데이터 개념도
항목 설명
Status ID 해당 트윗의 고유번호
Screen name 트윗을 올린 계정 (프로필 페이지의 계정 이름)
Author 해당 트윗의 원글 작성자 (즉, 리트윗의 경우 Screen name과
Author가 달라짐)
Created at 트윗을 올린 날짜
# of Retweets 트윗이 리트윗된 횟수
Text 트윗 내용
Retweeted by 트윗을 리트윗한 계정 목록
sourcetarget
yoonju***
maru***
Target이 Source의 글을 리트윗
한 관계
= Source로부터 Target으로 컨
텐츠(정보, 지식)가 전파된 관계

Link Weight Distribution
Weight Frequency
1 78,003
2 18,035
3 5,923
4 2,646
5 1,296
6 835
7 551
8 406
9 335
10 247
11 205
12 165
…… ……
233 1
Total 110,591 0
10000
20000
30000
40000
50000
60000
70000
80000
90000
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
82
87
93
100
114
127
140
152
171
188
209
219
233
Cut-off value = 10
총 24만 개 상당의 RT 관계

Identifying Node-type
ACCOUNT 전체 작성글 수 RT한 횟수 RT글의 비율
shore0987 473 0 0%
taesan4 399 0 0%
nudlenudle 395 0 0%
harpesang 339 0 0%
jogisic 325 0 0%
type0789 303 0 0%
humordelivery89 252 0 0%
snailcharm 211 0 0%
sungmin489 1365 100%
kupapa584 1355 100%
kimpoongsu 1383 100%
kim_donga 1356 100%
trustme070 1306 100%
bonjujung 1354 100%
생산자
전달자

Degree Distribution
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
In-Degree (RT함)
0
50
100
150
200
250
0 2 4 6 8 11 17 23 27 30 40 56 70
Out-Degree (RT받음)
대부분의 계정은 하나의 계정으로
부터 컨텐츠를 공급받았다
대부분의 계정은 컨텐츠를 생산하지 않으며,
극소수 계정이 다수의 전달자계정에
컨텐츠를 공급한다

Modularity 그룹별 통계 분석
Modularity = 0.63
Modularity를 극대화하는 그룹 8개 발견
Out-Degree 계정 수
0 30
1 3
2 1
3 1
5 1
27 1
28 1
54 1
합계 39
각 그룹은 소수의 생산자와 다수의 전달자로 구성
생산자 3
전달자 36
• -1 과 1 사이의 스칼라 값을 가짐
• 그룹 내부의 링크 밀도(density)와 서로 다른
그룹 간의 링크 수를 비교하여 측정.
• 그룹 내부의 링크 밀도가 더 높아지면,
Modularity값도 높아짐
*분석 소프트웨어: Gephi 0.8.2
*사용된 알고리즘: Blondel V.D. et al.(2008), Fast unfolding of
communities in large networks, J. Stat. Mech. (2008) P10008

① 매우 뚜렷하게 모듈화
된 네트워크 구조를 보
임.
② 각 그룹마다 핵심적인
컨텐츠 생산자가 1-2
계정 존재하며, 전달자
계정들이 생산된 컨텐
츠를 퍼 나르는 양상을
보임.
③ 핵심계정들 사이에 긴
밀한 관계가 없는 것으
로 보아, 조직적인 업무
분담 가능성을 의심할
수 있음.
결과 해석
• 색상: 소속그룹
• 크기: Out-Degree
범례

키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
분석 개요 형태소 분석 결과
• 리트윗을 제외하고, 고유한 컨텐츠 36,000
여 개를 활용하여 컨텐츠 내용 분석
• 자연어 처리(NLP) 기법 중 형태소 분석 적용
순위 단어 언급횟수 순위 단어 언급횟수
1 북한 13,189 14 미사일 1,466
2 대한민국 3,288 15 종북세력 1,425
3 국민 2,495 16 천안 1,346
4 김정은 2,442 17 주민 1,338
5 일본 2,052 18 미국 1,311
6 대통령 1,916 19 연평도 1,274
7 한국 1,840 20 도발 1,161
8 안 1,762 21 남한 1,144
9 대한 1,705 22 대선 1,126
10 정부 1,624 23 발사 1,106
11 중국 1,615 24 문재인 1,091
12 김정일 1,597 25 우리나라 1,080
13 종북 1,520 26 안철수 1,023

키워드 분석
트윗 분류 및 ‘오늘의유머’게시글과의 비교
• 키워드의 등장패턴을 중심으로 트윗 분류
• 예시) ‘세계자연보전총회’+ ‘이명박’ = ‘MB정부 홍보’
분류 컨텐츠 수 컨텐츠 비율
MB정부 홍보 1,990 8.70%
국내정치 비판(종북) 6,831 29.80%
대선 3,475 15.20%
북한 비판 9,472 41.40%
기타 1,128 4.90%
총합계 22,896 100.00%

키워드 분석
0
50
100
150
200
250
300
350
400
450
500
대선 관련 트윗 추이
• 시간은 5일 단위로 합산
• 8월부터 12월 11일까지의 컨텐츠만을 정리
• 리트윗 양은 고려되지 않음
이슈 발생에 따른 컨텐츠의 증감이 뚜렷이 나타남
• 9월 민주당 경선, 안후보 출마선언, 박후보 인혁당 사과
• 12월 대선후보 토론

키워드 분석
한계
• 트위터 ID의 삭제로 팔로잉과 팔로워 관계 데이터 부재.
• Topsy 데이터 구조의 한계
제안
• 국내 다수 업체가 수집하고 있는 트위터 DB를 분석하면 팔로잉 팔로워
관계 분석을 통해 보다 정밀한 네트워크 분석 가능.
• Topsy 데이터의 한계로 메시지가 전파된 경로를 볼 수 없으나 트위터
DB를 분석하면 전파 경로를 자세히 분석할 수 있음.
분석의 한계와 제안

Data Journalism 참고 사이트
• Data Journalism Blog
• Data Journalism Awards - Global Editors Network
• The Data Journalism Handbook
• School of Data
• Source
• Open Refine
• Gephi
• Hashtagify
• Investigative Dashboard
• Tabula
• Topsy
• International Consortium of Investigative Journalists
• ProPublica
• NPR Elections Big Board
• Investigative Reporters and Editors

데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

Similar to 데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석 (20)

데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석