Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
내부적 이해
1. 데이터 저널리즘 개념잡기
(1) 빅데이터 시대, 빅데이터란?
(2) 빅데이터의 종류와 활용분야
(3) 빅데이터와 저널리즘의 상관관계
(4) 데이터 - 중심 저널리즘
(5) 사례로 보는 데이터 저널리즘
2. 데이터 저널리즘 과정알기
(1) 데이터 저널리즘 과정
외부적 기회
3. 데이터 저널리즘의 미래 찾기
(1) 데이터 저널리즘 관련 기관/행사
(2) 데이터 저널리즘의 전망
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
1. 만남 : 저널리즘에 빅데이터를 입히다
(1) 저널리즘에 빅데이터를 입히다
(2) 해외 데이터 저널리즘의 대표적 사례
2. 기회 : 공공데이터의 개방 추세
(1) 공공데이터의 개방 추세
(2) 왜 공공데이터가 중요할까?
3. 효과 : 정부, 저널리스트, 구독자 간의 선순환
(1) 정부, 저널리스트, 국민 모두 WIN-WIN
(2) 데이터 저널리즘은 지속가능한 선순환 모델
4. 방법 : 프로세스와 데이터 시각화
(1) 데이터 저널리즘의 특징과 프로세스
(2) 데이터 시각화 방법
5. 사례 : 국내 사례 분석 & 뉴스젤리
(1) 데이터 저널리즘 포지셔닝 맵
(2) 데이터 저널리즘 언론
(3) 데이터 저널리즘 유관기관
(4) 데이터 저널리즘 행사
(5) 데이터 저널리즘의 새 바람 뉴스젤리
URI와 RDF에 기반한 분산 데이터의 연계는 기본적으로 그래프 구조를 가지게 된다. 최근에는 RDF 그래프의 생성과 질의 뿐 아니라, 그래프 마이닝에 대해 많은 관심과연구가 진행되고 있다. 본 발표에서는 소셜 네트워크를 RDF 그래프로 표현하고, 이를 마이닝, 추론 함으로, 어떻게 대용량 소셜 네트워크를 효과적 분석할 수있는지 설명한다. 특히, 휴대전화 통화에 기반한 모바일 소셜 네트워크와 e-mail 지식 네트워크 분석이 시맨틱 웹 표준하에 어떻게 구현 가능한지 그 사례 소개와시연을 보인다.
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
This research suggests news sentence network analysis algorithm based on similarity and cooccurence. News contains abundant arguments with facts and quotes those are critical to represent agendas. News sentence network is a semantic network which consists of quotes as nodes. Connectivity is defined by relevance between quotes. Relevance matrix is the sum of similarity matrix calculated by cosine similarity algorithm and cooccurence matrix. This study analyzed 949 quotes from 405 news articles and visualized networks. The results verified that semantic paths were well defined to show the sequence of sub-agendas. News semantic network analysis algorithm can provide a methodology to automatically generate a massive corpus in a sentence level as a training set to develop a debating machine.
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
News Semantic Network Analysis of Named EntitiesDaemin Park
News Semantic Network Analysis of Named Entities
- named entity recognition: person, organization from news
- tagging topics manually per sentences or articles
- semantic network analysis between persons and organizations
개체명 중심 뉴스 의미 연결망 분석
- 뉴스에서 인명, 기관명을 개체명 인식을 통해 추출
- 주제 태그를 부착
- 사람, 기관, 주제 간의 연결망 분석
- 단어 의미 연결망 한계 극복
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
내부적 이해
1. 데이터 저널리즘 개념잡기
(1) 빅데이터 시대, 빅데이터란?
(2) 빅데이터의 종류와 활용분야
(3) 빅데이터와 저널리즘의 상관관계
(4) 데이터 - 중심 저널리즘
(5) 사례로 보는 데이터 저널리즘
2. 데이터 저널리즘 과정알기
(1) 데이터 저널리즘 과정
외부적 기회
3. 데이터 저널리즘의 미래 찾기
(1) 데이터 저널리즘 관련 기관/행사
(2) 데이터 저널리즘의 전망
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
1. 만남 : 저널리즘에 빅데이터를 입히다
(1) 저널리즘에 빅데이터를 입히다
(2) 해외 데이터 저널리즘의 대표적 사례
2. 기회 : 공공데이터의 개방 추세
(1) 공공데이터의 개방 추세
(2) 왜 공공데이터가 중요할까?
3. 효과 : 정부, 저널리스트, 구독자 간의 선순환
(1) 정부, 저널리스트, 국민 모두 WIN-WIN
(2) 데이터 저널리즘은 지속가능한 선순환 모델
4. 방법 : 프로세스와 데이터 시각화
(1) 데이터 저널리즘의 특징과 프로세스
(2) 데이터 시각화 방법
5. 사례 : 국내 사례 분석 & 뉴스젤리
(1) 데이터 저널리즘 포지셔닝 맵
(2) 데이터 저널리즘 언론
(3) 데이터 저널리즘 유관기관
(4) 데이터 저널리즘 행사
(5) 데이터 저널리즘의 새 바람 뉴스젤리
URI와 RDF에 기반한 분산 데이터의 연계는 기본적으로 그래프 구조를 가지게 된다. 최근에는 RDF 그래프의 생성과 질의 뿐 아니라, 그래프 마이닝에 대해 많은 관심과연구가 진행되고 있다. 본 발표에서는 소셜 네트워크를 RDF 그래프로 표현하고, 이를 마이닝, 추론 함으로, 어떻게 대용량 소셜 네트워크를 효과적 분석할 수있는지 설명한다. 특히, 휴대전화 통화에 기반한 모바일 소셜 네트워크와 e-mail 지식 네트워크 분석이 시맨틱 웹 표준하에 어떻게 구현 가능한지 그 사례 소개와시연을 보인다.
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
This research suggests news sentence network analysis algorithm based on similarity and cooccurence. News contains abundant arguments with facts and quotes those are critical to represent agendas. News sentence network is a semantic network which consists of quotes as nodes. Connectivity is defined by relevance between quotes. Relevance matrix is the sum of similarity matrix calculated by cosine similarity algorithm and cooccurence matrix. This study analyzed 949 quotes from 405 news articles and visualized networks. The results verified that semantic paths were well defined to show the sequence of sub-agendas. News semantic network analysis algorithm can provide a methodology to automatically generate a massive corpus in a sentence level as a training set to develop a debating machine.
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
News Semantic Network Analysis of Named EntitiesDaemin Park
News Semantic Network Analysis of Named Entities
- named entity recognition: person, organization from news
- tagging topics manually per sentences or articles
- semantic network analysis between persons and organizations
개체명 중심 뉴스 의미 연결망 분석
- 뉴스에서 인명, 기관명을 개체명 인식을 통해 추출
- 주제 태그를 부착
- 사람, 기관, 주제 간의 연결망 분석
- 단어 의미 연결망 한계 극복
The Emergent Mind of City (EMC) project aims to visualize the "qualia landscapes" or collective emotions that emerge from people's subjective perspectives on a city. It does this by creating virtual "mind neurons" that map connections between news, emotions, and images related to topics of public interest. The project was inspired by Leonardo da Vinci's conception of an organic, hygienic city and seeks to bridge divisions between individual and group perspectives, as well as across disciplines.
International Collaboration Networks in the Emerging (Big) Data Sciencedatasciencekorea
This document summarizes research on international collaboration networks in emerging big data science. It finds that while global scientific collaboration is widespread, collaboration specifically in big data research is still relatively limited. The United States, Germany, United Kingdom, France, and other developed countries form the most central hubs in the big data collaboration network. The study aims to build on previous descriptive analyses by applying social network analysis and examining collaboration patterns and trends over time.
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...datasciencekorea
There are six distinct types of crowds that form on Twitter based on the shape of connections between users discussing a topic:
1) Polarized crowds have sharply divided subgroups.
2) Community crowds consist of tightly interconnected groups.
3) Brand crowds form around corporate/organization topics.
4) Bazaar crowds bring together various interested parties.
5) Broadcast crowds have a central influencer and surrounding audiences/communities.
6) Support crowds assist and provide feedback to companies.
This document discusses data-centric education and learning. It begins by outlining past and present technologies used in education. It then discusses how data-centric learning is enabled by devices that connect to the cloud and collect real-time student data. This data can provide adaptive instruction, feedback, and insights into learning processes. Examples are given of social network analysis and predictive analytics projects using large educational datasets. Finally, frameworks for designing data-driven learning environments and strategies to improve performance are presented. The conclusion emphasizes using data and analytics responsibly and strategically to improve education.
The document discusses the benefits of a data-centric approach to science and research. Some key points include:
- Data can now be easily and quickly shared and moved, allowing for open collaboration across disciplines.
- With many computational tools available, data has a high potential for adding value when analyzed and explored from different perspectives.
- However, challenges remain around dealing with diverse and siloed data from different sources and domains.
- Linking and relating data across layers and disciplines is important for data-centric science to reach its full potential.
Studying Social Selection vs Social Influence in Virtual Financial Communitiesdatasciencekorea
This document summarizes research studying social selection versus social influence in virtual financial communities. Stochastic actor-oriented models were used to analyze panel data from an advice network in an Australian virtual financial community. The results show that individuals' contribution behavior influences the advice network structure over time, but the network structure also influences individuals' contribution behavior, indicating both selection and influence effects. Specifically, highly contributing individuals are more likely to be sought for advice, and individuals adjust their contribution levels based on the number of advice ties they receive.
Analyzing Big Data to Discover Honest Signals of Innovationdatasciencekorea
The document discusses communication styles that are effective for creativity and innovation. It identifies three types of collaborative networks - a collaborative interest network, learning network, and innovation network - which differ in their degree of sharing, interactivity, and connectivity. The most effective communicators achieve a balance of personal and community aspects. The document also includes several charts and graphs analyzing aspects of communication and collaboration such as leadership styles, customer satisfaction, and emotional tone.
A Unified Music Recommender System Using Listening Habits and Semantics of Tagsdatasciencekorea
The document describes a unified music recommendation system that combines users' listening habits and semantics of tags. It proposes generating three types of user profiles: listening habits-based, tag-based, and a hybrid approach. A tag and emotion ontology are used to preprocess tags and assign weights. A music recommendation algorithm finds similar users and calculates item scores. An evaluation of the approaches found the hybrid method achieved the best precision and recall based on F-measure, outperforming listening habits only or tag-based recommendations. Statistical analysis confirmed the hybrid approach performed significantly better.
The document discusses data visualization trends in Korea. It covers factors accelerating data visualization like open source technologies and big data investments. It also outlines major players in the data visualization market like Tableau and Splunk, and their focus on industries like healthcare, retail and location analytics. Key technologies enabling data visualization are also mentioned.
This document discusses using Bayesian networks for predictive analysis and machine learning perspectives on data utilization. It provides an example of using Bayesian networks to accurately predict incident clearance time based on variables like type of incident, number of police/ambulance vehicles, number of injuries, and number of vehicles involved. The document also discusses applying Bayesian networks by collecting current situation data as evidence to perform inference on a constructed inference model.
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)DOMOBRODEUR
PR전문기업 도모브로더와 사회관계망분석 전문기업 사이람은
사회관계망분석기법을 기반으로 국회의원 관계망과 의원별 관계망 중심도를 측정하였습니다.
본 보고서는 이러한 연구를 바탕으로
지난 한 달 간의 우리나라 국회의원 관계망, 중심도 랭킹(의원/정당/상임위)를 한 눈에 보여드립니다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)DOMOBRODEUR
PR전문기업 도모브로더와 사회관계망분석 전문기업 사이람은
사회관계망분석기법을 기반으로 국회의원 관계망과 의원별 관계망 중심도를 측정하였습니다.
본 보고서는 이러한 연구를 바탕으로
지난 한 달 간의 우리나라 국회의원 관계망, 중심도 랭킹(의원/정당/상임위)를 한 눈에 보여드립니다.
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)DOMOBRODEUR
PR전문기업 도모브로더와 사회관계망분석 전문기업 사이람은
사회관계망분석기법을 기반으로 국회의원 관계망과 의원별 관계망 중심도를 측정하였습니다.
본 보고서는 이러한 연구를 바탕으로
지난 한 달 간의 우리나라 국회의원 관계망, 중심도 랭킹(의원/정당/상임위)를 한 눈에 보여드립니다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
Similar to 데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석 (20)
2. 2
“Data journalism is not graphics and
visualisations. It's about telling the story in the
best way possible.”
“Sometimes that will be a visualisation or a
map But sometimes it's a news story.
Sometimes, just publishing the number is
enough.”
Data Driven Journalism
3. Gun violence in America: How many years of life have been lost?
5. DJA Prize : 4 categories
• Data-driven investigative journalism:
using data to uncover facts
• Data storytelling (text, visualisation, video…)
• Data-driven applications (mobile or web):
serving data to your public
• Data journalism website or section
10. • 260 기가바이트 데이터 : 위키릭스 160배, 비정형 데이터)
• (2.5 million files, including more than 2 million e-mails)
• 시각화 도구 : IBM® i2 Analyst's Notebook
• 데이터 구조화, 네트워크 분석 : NUIX
• dtSearch : free text retrieval(FTR) systems
• unreadable files : OCR
• 프로그래머 : 독일, 영국, 코스타리카 (Long-Distance Investigation)
ICIJ : 조세피난처 데이터
11. • 한국탐사저널리즘센터(KCIJ)
– 비영리 비정파 독립 탐사보도 단체
– 대표 김용진(전 KBS 탐사보도팀장), 앵커 최승호(전 MBC PD수첩 PD),
데이터저널리즘연구소 권혜진(전 동아일보 CAR 전문기자)
• 뉴스타파
– 한국탐사저널리즘센터의 탐사프로그램
– 데이터저널리즘에 기반한 탐사보도 추구
• 데이터저널리즘 프로젝트
– 박근혜 정부 초기 내각 검증
– 2013 고위공직자 재산 변동 및 공개 현황
– 조세피난처의 한국 기업들
– 국정원 연루 의혹 트위터 네트워크 분석
– 1990년 이후 고위공직자 재산 공개 자료
– 18대 대통령 선거비용
– 환경 GIS 지도 : 불산 등 유해물질 지도
뉴스타파 데이터저널리즘 프로젝트
12. • 뉴스타파 웹 2013.03.01
• 초기 내각 후보자들의 재산, 연령, 성별, 예금, 부동산, 학위 등을 인터렉티브 그래픽으로 제작.
• 인사청문회에 제출한 재산 신고액 정보를 인터렉티브 시각화 도구인 태블로(Tableau) 로 표현.
박근혜 정부 초기 내각 정보
13. 2013 고위공직자 재산 변동 및 공개 현황
• 정부공직자윤리위원회가 정부 고위공무원과
지방자치단체장 등 1,933명을 대상으로 집계
한 재산총액 상위 10명은 대부분 지방자치
단체나 지방의회 공직자들.
• 뉴스타파가 법원과 헌법재판소, 선거관리위
원회 공직자 171명을 추가해 모두 2106명을
대상으로 분석한 결과 법조계가 과반수.
뉴스타파 N 2013.04.05
( http://newstapa.com/495 )
18. 데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
가설 확인
국정원이 인터넷 여론에 조직적으로 개
입했다면,
‘오늘의 유머’사이트에 게재된 것과
같은 내용의 글이 다른 사이트에서도 확
인될 것이다.
19. 데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
의심계정 확보 방법
1. 오유 사이트 국정원 글의 내용으로 인터넷
검색
2. 유사한 글을 작성하는 계정 확인
3. 2의 계정의 Following, Follower, RT한 계
정 등을 확인
4. 3의 계정이 ‘일정한 특성’을 충족할 경
우, 국정원 연루 의혹 계정으로 추정함
의심계정의 특성
• 12월 10일 또는 11일 일제히 활동 정지 또
는 계정 삭제 (이른바 ‘국정원녀 사건’이
터진 다음날)
• 내용 면에서 천편일률적으로 북한·종북
비판, 정부 정책 찬양, 야당 비판
• 계정들의 시기별 트윗 활용 패턴 일치
• 보도에서 노출된 계정은 이틀 이내에 삭제
총 661개의 국정원 의심계정 확보!
21. 데이터 수집
수집 대상: 웹로그 제공 사이트
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
수집 방법: 웹 크롤링(Crawling)
22. 데이터 수집
데이터 크롤러의 로직과 수집 항목
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
①트위터 아이디: 확보한 의
심계정 사용
②페이지 넘버: 수집을 완료
하면 다음페이지로
③개별 트윗 상세 내용 확인
④트윗 원본 작성자
⑤트윗 날짜
⑥리트윗 횟수
⑦리트윗한 계정들
① ②
③
④
⑤
⑥
⑦
23. 데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
데이터 개요 데이터에 관한 평가
수집 대상 의심계정의 프로필에 올라온 트윗 정보
수집 기간 2013년 4월 초
계정 수 454개 계정 (661개 중)
트윗 수 288,643개*
컨텐츠 수 36,122개**
관계 수 110,591개***
• 데이터가 실시간으로 삭제되고 있는 등 수집상의 한
계가 존재. (661 계정 중 454개 수집)
• 그러나 ‘리트윗’등의 방법으로 커뮤니케이션이
오가는 SNS 공간의 특성으로 인하여, 주요 컨텐츠
제 공 자 들 은 빠 짐 없 이 확 인 할 수 있 었 음 .
(그 계정의 프로필 페이지를 긁지 못하더라도, 다른
계정들의 프로필 페이지에서 다수 등장하게 됨)
*직접 작성한 트윗과 리트윗을 구분하지 않고, 계산한 총 트
윗의 수
**리트윗을 제외하고 계산한 컨텐츠의 양
***리트윗 관계에 등장한 노드 쌍(node pairs)의 수
25. 리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Raw Data 관계 데이터 개념도
항목 설명
Status ID 해당 트윗의 고유번호
Screen name 트윗을 올린 계정 (프로필 페이지의 계정 이름)
Author 해당 트윗의 원글 작성자 (즉, 리트윗의 경우 Screen name과
Author가 달라짐)
Created at 트윗을 올린 날짜
# of Retweets 트윗이 리트윗된 횟수
Text 트윗 내용
Retweeted by 트윗을 리트윗한 계정 목록
sourcetarget
yoonju***
maru***
Target이 Source의 글을 리트윗
한 관계
= Source로부터 Target으로 컨
텐츠(정보, 지식)가 전파된 관계
26. 리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Link Weight Distribution
Weight Frequency
1 78,003
2 18,035
3 5,923
4 2,646
5 1,296
6 835
7 551
8 406
9 335
10 247
11 205
12 165
…… ……
233 1
Total 110,591 0
10000
20000
30000
40000
50000
60000
70000
80000
90000
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
82
87
93
100
114
127
140
152
171
188
209
219
233
Cut-off value = 10
총 24만 개 상당의 RT 관계
27. 리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Identifying Node-type
ACCOUNT 전체 작성글 수 RT한 횟수 RT글의 비율
shore0987 473 0 0%
taesan4 399 0 0%
nudlenudle 395 0 0%
harpesang 339 0 0%
jogisic 325 0 0%
type0789 303 0 0%
humordelivery89 252 0 0%
snailcharm 211 0 0%
sungmin489 1365 100%
kupapa584 1355 100%
kimpoongsu 1383 100%
kim_donga 1356 100%
trustme070 1306 100%
bonjujung 1354 100%
생산자
전달자
28. 리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Degree Distribution
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
In-Degree (RT함)
0
50
100
150
200
250
0 2 4 6 8 11 17 23 27 30 40 56 70
Out-Degree (RT받음)
대부분의 계정은 하나의 계정으로
부터 컨텐츠를 공급받았다
대부분의 계정은 컨텐츠를 생산하지 않으며,
극소수 계정이 다수의 전달자계정에
컨텐츠를 공급한다
29. 리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Modularity 그룹별 통계 분석
Modularity = 0.63
Modularity를 극대화하는 그룹 8개 발견
Out-Degree 계정 수
0 30
1 3
2 1
3 1
5 1
27 1
28 1
54 1
합계 39
각 그룹은 소수의 생산자와 다수의 전달자로 구성
생산자 3
전달자 36
• -1 과 1 사이의 스칼라 값을 가짐
• 그룹 내부의 링크 밀도(density)와 서로 다른
그룹 간의 링크 수를 비교하여 측정.
• 그룹 내부의 링크 밀도가 더 높아지면,
Modularity값도 높아짐
*분석 소프트웨어: Gephi 0.8.2
*사용된 알고리즘: Blondel V.D. et al.(2008), Fast unfolding of
communities in large networks, J. Stat. Mech. (2008) P10008
30. 리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
① 매우 뚜렷하게 모듈화
된 네트워크 구조를 보
임.
② 각 그룹마다 핵심적인
컨텐츠 생산자가 1-2
계정 존재하며, 전달자
계정들이 생산된 컨텐
츠를 퍼 나르는 양상을
보임.
③ 핵심계정들 사이에 긴
밀한 관계가 없는 것으
로 보아, 조직적인 업무
분담 가능성을 의심할
수 있음.
결과 해석
• 색상: 소속그룹
• 크기: Out-Degree
범례
32. 키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
분석 개요 형태소 분석 결과
• 리트윗을 제외하고, 고유한 컨텐츠 36,000
여 개를 활용하여 컨텐츠 내용 분석
• 자연어 처리(NLP) 기법 중 형태소 분석 적용
순위 단어 언급횟수 순위 단어 언급횟수
1 북한 13,189 14 미사일 1,466
2 대한민국 3,288 15 종북세력 1,425
3 국민 2,495 16 천안 1,346
4 김정은 2,442 17 주민 1,338
5 일본 2,052 18 미국 1,311
6 대통령 1,916 19 연평도 1,274
7 한국 1,840 20 도발 1,161
8 안 1,762 21 남한 1,144
9 대한 1,705 22 대선 1,126
10 정부 1,624 23 발사 1,106
11 중국 1,615 24 문재인 1,091
12 김정일 1,597 25 우리나라 1,080
13 종북 1,520 26 안철수 1,023
33. 키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
트윗 분류 및 ‘오늘의유머’게시글과의 비교
• 키워드의 등장패턴을 중심으로 트윗 분류
• 예시) ‘세계자연보전총회’+ ‘이명박’ = ‘MB정부 홍보’
분류 컨텐츠 수 컨텐츠 비율
MB정부 홍보 1,990 8.70%
국내정치 비판(종북) 6,831 29.80%
대선 3,475 15.20%
북한 비판 9,472 41.40%
기타 1,128 4.90%
총합계 22,896 100.00%
34. 키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
0
50
100
150
200
250
300
350
400
450
500
대선 관련 트윗 추이
• 시간은 5일 단위로 합산
• 8월부터 12월 11일까지의 컨텐츠만을 정리
• 리트윗 양은 고려되지 않음
이슈 발생에 따른 컨텐츠의 증감이 뚜렷이 나타남
• 9월 민주당 경선, 안후보 출마선언, 박후보 인혁당 사과
• 12월 대선후보 토론
36. 키워드 분석
한계
• 트위터 ID의 삭제로 팔로잉과 팔로워 관계 데이터 부재.
• Topsy 데이터 구조의 한계
제안
• 국내 다수 업체가 수집하고 있는 트위터 DB를 분석하면 팔로잉 팔로워
관계 분석을 통해 보다 정밀한 네트워크 분석 가능.
• Topsy 데이터의 한계로 메시지가 전파된 경로를 볼 수 없으나 트위터
DB를 분석하면 전파 경로를 자세히 분석할 수 있음.
분석의 한계와 제안
37. Data Journalism 참고 사이트
• Data Journalism Blog
• Data Journalism Awards - Global Editors Network
• The Data Journalism Handbook
• School of Data
• Source
• Open Refine
• Gephi
• Hashtagify
• Investigative Dashboard
• Tabula
• Topsy
• International Consortium of Investigative Journalists
• ProPublica
• NPR Elections Big Board
• Investigative Reporters and Editors