News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
Automated discourse analysis with BigKinds and Semantic Network Analyzer
1. News Big Data Analysis
As Automated Discourse Analysis
with
Semantic Network Analyzer
Daemin PARK
Korea Press Foundation
Senior Researcher
2. News Big Data
Contents
Word Cloud
News Big Data Analysis
As
Automated Discourse Analysis
BigKinds
Semantic Network Analyzer
Appendix: Cases
3. 사전 준비 사항
-노트북 지참
-강의 자료 다운로드를 위한 구글 링크: (https://goo.gl/1MvMf9)
- 강의 PPT 다운로드
-빅카인즈 가입 (https://www.kinds.or.kr/)
-자바 최신버전 설치 (https://www.java.com/ko/)
-샘플 파일 다운로드
1. article: 뉴스 변형 파일
2. reference: 인용문 변형 파일
3. source degree: 정보원 degree 파일
4. tag_edge list: 주제 edge list 파일
5. tag degree: 주제 degree 파일
6. rank: 정보원 rank 파일, 주제 rank 파일
7. statics: 정보원 description 파일, 주제 description 파일
-Semantic Network Analyzer (5개 기능) 다운로드
1) standardizer 2) degree 3) edgelist 4) rank 5)description
-Semantic Network Analyzer 매뉴얼 다운로드
(사용자 중심 뉴스 빅데이터 서비스 연구 67-76쪽)
6. Crawling Advanced NLP Customized SNA Discourse Analysis
NLP & SNA
- Tokenization
- Stemming
- Stopword elimination
- Tagging part of speech
- Indexing
- Sentence boundary
recognition
- URL tagging
- Co-occurrence analysis
- Partial parsing
- Named entity
recognition
- Coreference resolution
- Word sense
disambiguation
- Classification
- Clustering
- Visualization
- Data cleansing
- Time series content analysis
- Governmentalitiy studies
- Projector
- File name standardizer
- Edge list converter
- Degree centrality
- Periodic analysis
- Degree exponent
- Cleanser
- Description
- Ranking
- Quote Rank
- Ego
- Trend
- Streak
- Classifier
- Dictionary manager
- Fragmentation
- QuoteNet
- Crawler
- Data aggregation
BigKinds SemanticNetAnalyzer
7. Automated Discourse Analysis of News
주체
사회, 시장, 정부
담론구성체
시간
공간
사물
자본
Person
Organization
PLOT, quotes
Number
Location
Terminology
개념
Who
Where
5W1H
Why
What
When
HowQuotes
9. 박대민(2016.4.18.). 신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사. <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥재단.
Trend
10. 박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥
재단.
Database Bias
11. -데이터 수집 DB: <빅카인즈>
-데이터 수집 완료일: 2016년 10월 21일
-원본 보관, 분석은 복제 파일로
Database Bias
14. Distribution: Maturity
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
16. Fat-tailed Network
연결정도(x축)에 따른 연결정도지수(y축)의 추이
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
연결정도(x축)에 따른 연결정도지수(y축)의 추이
16
17. 박대민(2016). 장기 시계열 내용 분석을 위한 뉴스 빅데이터 분석의 활용 가능성: 100만 건 기사의 정보원과 주제로 본 신문 26년. <한국언론학보>, 60권 5호, 353-407.
17
Time Series: Irregularity, Cycle, Seasonality, Intervention, Outliers
18. Paradigm Shift
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
18
22. Scope
박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
검색어 × (분석 기간 ÷ 시간 범위) × 분석 매체 × 분석 지면
×개체 유형× (개체 순위 ^ 의미 범위)
중국 × (10년 ÷ 연 단위) × 42개 매체 전체 × 8개 지면
×정보원과 주제 × (20위 ^ 1 단계)
= 3,200개
23. 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한
글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명
동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석,
감성분석, 복합논증분석,
Morphological
Analysis
Syntax
Analysis
Semantic
Analysis
Pragmatic
Analysis
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
Natural Language Processing
35. 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한
글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명
동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석,
감성분석, 복합논증분석,
Morphological
Analysis
Syntax
Analysis
Semantic
Analysis
Pragmatic
Analysis
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
Natural Language Processing
36. Fundamentals of News Source Network
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
21
1
2 3
1
4 5
2 3
1
4 5
- 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는
준연결망(quasi network)
- 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
37. Semantic Network Analyzer
Reference
File
Big kinds
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Manually
Converted
Article
File
Reference
File
Article
File
39. 수집된 메타데이터
- 뉴스 식별자, 일자, 언론사, 기고자, 제목, 본문
자연어처리 데이터
- 지면: 통합분류1, 통합분류2, 통합분류3
- 사건/사고: 사건/사고1, 사건/사고2, 사건/사고3
- 개체명: 인물, 위치, 기관
- 주제: 키워드, 특성추출 (기사 수준)
뉴스 검색 다운로드 파일
40. 활용
-뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 기고자(ART_BYLINE), 제목(ART_HEAD), 본문
(ART_CONTENT)
-지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3)
-개체명: 인물(ART_PERSON), 위치(ART_LOCATION), 기관(ART_ORGANIZATION)
- 삭제: 사건/사고1, 사건/사고2, 사건/사고3, 특성추출
보완
- 주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3)
- 빅카인즈 내 원문 링크: NEWS_LINK
뉴스 검색 데이터 변환 및 보완
41. 인용문 검색 파일
수집된 메타데이터
- 뉴스 식별자, 일자, 언론사, 제목, 소스, 인용문
자연어처리 데이터
지면: 통합분류1, 통합분류2, 통합분류3
사건/사고: 사건/사고1, 사건/사고2, 사건/사고3
주제: 키워드, 특성추출 (인용문 수준)
42. 인용문 검색 데이터 변환 및 보완
활용
-수집된 메타데이터: 뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 제목(ART_HEAD), 정보원
(INFOSRC), 인용문(STN_CONTENT)
-지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3)
- 삭제: 사건/사고1, 사건/사고2, 사건/사고3, 키워드, 특성추출
보완
-인용문: SEN_ID(인용문 식별자)
-주제(인용문 수준): SNT_TAG1, SNT_TAG2, SNT_TAG3
-정보원: INFOSRC_PER(정보원 인명), INFOSRC_ORG(정보원 기관), INFOSRC_OCCUPATION(직위/직함)
-주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3)
-빅카인즈 내 원문 링크: NEWS_LINK
43. File Name Standardizer
Big kinds
Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
44. File Name Standardizer
-자바 설치: https://java.com/ko/download/
-바탕화면에 샘플 파일(한류) 압축해제 후 폴더명을 1로 변경
-바탕화면에 폴더 생성(폴더명 2)
-배치파일 실행
-그림과 같이 설정하고 입출력 폴더 선택
-파일명 형식: reference_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xls(또는 xlsx)
reference_news_한류_매체전체_분류전체_20110101_20111231 .xls
reference_한류_전체_전체_전체_전체_20110101_20111231 .xls
45. Degree Analyzer
Big kinds Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
47. Edge List Converter + Degree Analyzer : Tag
Big kinds
Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
54. …And More
- Projector: 추출
- Cleanser: 정제
- Degree Exponent: 연결정도지수 계산, 분포 파악
- Quote Rank: 중요 주제 또는 정보원의 인용문
- Periodic Analyzer: 시계열 분석
- Ego: 의미거리 내 연관어
- Trend: 키워드의 중요도 변화
- Streak: 기간 연속 중요 정보원 또는 주제
- Classifier: 기관의 다중분류
- Dictionary Manager: 개체명 사전 관리
- Fragmentation: 매체간 유사도에 따른 분포 파악
- QuoteNet: 문장 연결망 분석
(핵심문장, 요약문장or, 상술문장, 연관문장, 의미거리, 의
미군집, 의미파당)