10. Centrality
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz
centrality of the same graph.
10
https://en.wikipedia.org/wiki/Centrality
11. Small, Scale Free, Fat-tailed
11
γ<0: Poisson distribution
0<γ<2: fat tailed
2<γ<3: scale free, ultra small world
3<γ: scale free & small world
news source network: γ≃1.6
12. Burst
12
Barabasi, A. L. (2005). The origin of bursts and heavy tails in human dynamics. Nature, 435(7039), 207-211.
13. Three Degrees of Influence Rule
13
http://www.slideshare.net/jbradfo4/topic-4-social-networks
14. Opinion Dynamics
14
Castellano, C., Fortunato, S., & Loreto, V. (2009). Statistical physics of social dynamics. Reviews of modern physics, 81(2), 591.
17. - 형태소분석, NER
- 구문분석, 의미분석
- data cleansing
- 프로그램 기획 개발
- Visualization
- 정보원 분석
- 인용문 분석
- 담론분석
- 구조 파악
- Transpose, Diagonal,
Dichotomize
- centrality
01
02
03
04
Crawling NLP, Data cleansing
Semantic Network
Analysis
Discourse Analysis
17
- 데이터 모델링
- 수작업, Crawler, 계약
- 자료는 충분히 많아야
함
Procedure of News Big Data Analytics
빅카인즈
24. Visualization
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
39 Barack Obama
22 Jay Carney
15 Ban Kimoon
13 John Kerry
12 Victoria Nuland
10 Kim Hyunwook
10 Susan Rice
24
39. NLP 성능: Tag 추출
39
Berlocher, I., Lee, K. I., & Kim, K. (2008, July). TopicRank: bringing insight to users. In Proceedings of the 31st annual international ACM SIGIR conference on
Research and development in information retrieval (pp. 703-704). ACM. ISO 690
TopicRank Algorithm: a Word Clustering
based approach that automatically and
dynamically generates an interactive Tag
Cloud related to the user query where the
layout of presented keywords relies on a
semantic closeness metric.
The result of a survey of 100 users asking
for the usability, usefulness of the interface
and the quality of extracted words, reports
that more than 80% of them were very
satisfied.
43. News Source Network
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
21
1
2 3
1
4 5
2 3
1
4 5
43
- 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는
준연결망(quasi network)
- 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
45. 프로그램 활용 절차
45
빅카인즈: 데이터 수집
뉴스젤리: 파일럿
-형태소분석
- 워드클라우드
넷마이너: 정보원연결망 matrix 변환
- file > import
- transform > 2 mode
- comembership-correlation-inner product
- transform > value > diagnal
- analyze > neighbor > degree
UCINET: 파일 포맷 변환
- data > data editor > DL editor
- data format > matirix > save
46. 프로그램 활용 절차
46
NETDRAW: 정보원연결망 시각화
- file > open > ucinet dl text file > network
(1-mode)
- analysis > centrality measures > set node
sizes by: degree
- properties > nodes > label > size
- properties > lines > size > tie strength
- properties > lines > arrow heads > arrow
heads off, apply to all
- layout > graphic theoretic layout
NETDRAW: 중심어 연결망
- layout > ego network
- geodesic distance from ego: 1 or 2
47. Bursts in Topics & Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
연결정도(x축)에 따른 연결정도지수(y축)의 추이
47
49. mature
49
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
50. 의미연결망 분석 모듈
50
Degree analyzer
Edge_list converter
Statistics & Rank
Media system fragmentation index
Degree exponent
Media uniqueness index
66. Word Sense Disambiguation
같은 날짜에 이명동인, 즉 이름 소속
직함이 같은 서로 다른 두 사람은 존
재할 수 없다.
다른 날짜에 인명이 다른 경우 이름을
바꾸는 드문 경우가 아닌 한 동일인이
아니기 때문에 이름이 다르면 근사적
으로 다른 인물이다.
인명은 같지만 기관과 직함이 다르면
서도 실제로 동일인일 경우에도 조작
적으로 다른 정보원으로 정의한다.
. 예) ‘홍길동 XX그룹 회장’과 ‘OO당
국회의원 홍길동’은 설사 동일 인물일
지라도 다른 소속이기 때문에 다른 출
입기자가 담당을 맡아 서로 다른 주제
로 인용하는 기능적으로 다른 정보원
이다.
인명, 기관, 직함이 같은 정보
원은 근사적으로 동일 인물로
볼 수 있다.
- 단기적으로 다른 매체 다른
기사에 등장했어도 동일인
- 장기적으로도 동명이인 드묾
동명동인, 동명이인 이명이인 이명동인
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
66
67. Similarity
기사/문장에 대해 전체 기
사에 출현하는 n개의 단어
(명사, 수치, 동사)로 이루
어진 n차원 벡터 공간을 가
정한 뒤 각 기사/문장를 해
당 단어가 출현하는지 여부
에 따라 값을 부여한 단어
벡터로 나타낸다.
비교 대상인 두 기사의 단
어벡터 간 각도를 θ라고 할
때, 이 각도에 대한 코사인
값을 계산하여 유사도를 계
산한다. 임계값을 정하여
이 값을 넘으면 유사한 것
으로, 그렇지 않으면 유사
하지 않은 것으로 판정한다.
비교 대상 기사 전체에 등
장하는 횟수(IDF)에 비해
특정 기사에 등장하는 빈도
(TF)가 높다면 그 단어는
다른 단어에 비해 그 문서
를 더 많이 대표하므로 더
높은 가중치를 부여 받는다.
전체 기사 각각에 어떤 주요
단어, 즉 색인어가 있는지를
나타내는 색인 작업과, 각 색
인어가 어느 기사에 있는지,
즉 역색인 작업을 함께 수행
한다.
01
02
03
04
Inverted Indexing VSM TD-IDF Cosine Similarity
박대민(2016). 뉴스 기사의 자연어처리:
<뉴스소스 베타>를 중심으로. <커뮤니케이션
이론>, 12권 1호, 4-52.
67
68. Classification & Clustering
15개 카인즈 지면 분류를
정치/경제/사회(종합)/문
화/국제로 사상
기계학습(단순 베이지안),
75% 정확도
단어 유사도에 따라 기사
군집화
개인 실명 정보원을 노드로
하고,
공기 여부에 따라 엣지를
부여한 뉴스 정보원 연결망
개체명 분류에 따른 문장 분
류
- 대분류: 인용문, 수치문,
기타문
- 인용문 다중 분류: 개인실
명/집단/익명
01
02
03
04
문장분류 기사분류 정보원연결망분석 기사 군집화
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
68
69. Ranking Algorithm
규칙
- 정보원 순위에 따른 문장 순위
- 같은 소속 분류 정보원은 순위
하락
뉴스 기사 연결망 분석
-공동 정보원을 중심으로 연결
망 그린 뒤 연결정도 중앙성 계산
(유사 문장 기준으로 수정 필요)
규칙과 NSNA
- 개인실명>집단>익명
- NSNA: 개인실명정보원
내에서는 연결정도 중앙성
에 따른 순위
정보원 순위화 문장 순위화 기사 순위화
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
69
72. The End of Paper Platforms
허브
언론사
독자 광고주
플랫폼
기능 흡수
콘텐츠 공급자 분화 콘텐츠
사업자
UGC
네이티브
광고
박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단.
금준경(2016.4.26.). 네이버-매경 합작법인, 중앙·한겨레와는 공동사업. <미디어오늘>.
72
73. 사용자의 생산, 유통 참여
취재
편집
유통
판매
광고
부가
사업
편집국
광고
사업국
CP
취재
플랫폼
판매
유통
광고
부가
사업
편집
독자 사용자
박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단.
73
74. 공적 소통 영역의 확장
공적 커뮤니케이션 영역
공적 커뮤니케이션 영역
언론사
독자
뉴스
블로그
SNS, 챗
언론사
독자
뉴스
사적
대화
사적
대화
과거 현재
74
75. 언론사가 중시하는 뉴스
내가 선호하는 뉴스
친구가 선호하는 뉴스
대중이 선호하는 뉴스
뉴스 개념의 확장
75