SlideShare a Scribd company logo
1 of 62
Download to read offline
News Big Data Analysis
As Automated Discourse Analysis
with
Semantic Network Analyzer
Daemin PARK
Korea Press Foundation
Senior Researcher
News Big Data
Contents
Word Cloud
News Big Data Analysis
As
Automated Discourse Analysis
BigKinds
Semantic Network Analyzer
Appendix: Cases
사전 준비 사항
-노트북 지참
-강의 자료 다운로드를 위한 구글 링크: (https://goo.gl/1MvMf9)
- 강의 PPT 다운로드
-빅카인즈 가입 (https://www.kinds.or.kr/)
-자바 최신버전 설치 (https://www.java.com/ko/)
-샘플 파일 다운로드
 1. article: 뉴스 변형 파일
 2. reference: 인용문 변형 파일
 3. source degree: 정보원 degree 파일
 4. tag_edge list: 주제 edge list 파일
 5. tag degree: 주제 degree 파일
 6. rank: 정보원 rank 파일, 주제 rank 파일
 7. statics: 정보원 description 파일, 주제 description 파일
-Semantic Network Analyzer (5개 기능) 다운로드
1) standardizer 2) degree 3) edgelist 4) rank 5)description
-Semantic Network Analyzer 매뉴얼 다운로드
(사용자 중심 뉴스 빅데이터 서비스 연구 67-76쪽)
News Big Data
News Big Data
Crawling Advanced NLP Customized SNA Discourse Analysis
NLP & SNA
- Tokenization
- Stemming
- Stopword elimination
- Tagging part of speech
- Indexing
- Sentence boundary
recognition
- URL tagging
- Co-occurrence analysis
- Partial parsing
- Named entity
recognition
- Coreference resolution
- Word sense
disambiguation
- Classification
- Clustering
- Visualization
- Data cleansing
- Time series content analysis
- Governmentalitiy studies
- Projector
- File name standardizer
- Edge list converter
- Degree centrality
- Periodic analysis
- Degree exponent
- Cleanser
- Description
- Ranking
- Quote Rank
- Ego
- Trend
- Streak
- Classifier
- Dictionary manager
- Fragmentation
- QuoteNet
- Crawler
- Data aggregation
BigKinds SemanticNetAnalyzer
Automated Discourse Analysis of News
주체
사회, 시장, 정부
담론구성체
시간
공간
사물
자본
Person
Organization
PLOT, quotes
Number
Location
Terminology
개념
Who
Where
5W1H
Why
What
When
HowQuotes
형태소 분석, 빈도분석 개념어 분석, 의미연결망분석
Level of Analysis
박대민(2016.4.18.). 신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사. <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥재단.
Trend
박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥
재단.
Database Bias
-데이터 수집 DB: <빅카인즈>
-데이터 수집 완료일: 2016년 10월 21일
-원본 보관, 분석은 복제 파일로
Database Bias
12
Power Law
Distribution: Tightness
Nouns: complete network News Sources: scale free network
Distribution: Maturity
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
Distribution: Growth
Fat-tailed Network
연결정도(x축)에 따른 연결정도지수(y축)의 추이
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
연결정도(x축)에 따른 연결정도지수(y축)의 추이
16
박대민(2016). 장기 시계열 내용 분석을 위한 뉴스 빅데이터 분석의 활용 가능성: 100만 건 기사의 정보원과 주제로 본 신문 26년. <한국언론학보>, 60권 5호, 353-407.
17
Time Series: Irregularity, Cycle, Seasonality, Intervention, Outliers
Paradigm Shift
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
18
Root-curve: Synchronized Fragmentation
19
Word Cloud
Level of Analysis
박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
Scope
박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
검색어 × (분석 기간 ÷ 시간 범위) × 분석 매체 × 분석 지면
×개체 유형× (개체 순위 ^ 의미 범위)
중국 × (10년 ÷ 연 단위) × 42개 매체 전체 × 8개 지면
×정보원과 주제 × (20위 ^ 1 단계)
= 3,200개
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한
글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명
동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석,
감성분석, 복합논증분석,
Morphological
Analysis
Syntax
Analysis
Semantic
Analysis
Pragmatic
Analysis
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
Natural Language Processing
Morphological Analysis
http://lab.newsjel.ly/analy/morpheme/
Word Cloud
http://lab.newsjel.ly/visual/tagcloud/
Word Cloud
BigKinds
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한
글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명
동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석,
감성분석, 복합논증분석,
Morphological
Analysis
Syntax
Analysis
Semantic
Analysis
Pragmatic
Analysis
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
Natural Language Processing
29
Prehistory
BigKinds
https://www.bigkinds.or.kr/
Keyword Trend
Search & Download
Search & Download
Semantic Network Analyzer
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한
글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명
동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석,
감성분석, 복합논증분석,
Morphological
Analysis
Syntax
Analysis
Semantic
Analysis
Pragmatic
Analysis
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
Natural Language Processing
Fundamentals of News Source Network
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
21
1
2 3
1
4 5
2 3
1
4 5
- 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는
준연결망(quasi network)
- 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
Semantic Network Analyzer
Reference
File
Big kinds
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Manually
Converted
Article
File
Reference
File
Article
File
Converting
Reference
File
Big kinds
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Manually
Converted
Article
File
Reference
File
Article
File
수집된 메타데이터
- 뉴스 식별자, 일자, 언론사, 기고자, 제목, 본문
자연어처리 데이터
- 지면: 통합분류1, 통합분류2, 통합분류3
- 사건/사고: 사건/사고1, 사건/사고2, 사건/사고3
- 개체명: 인물, 위치, 기관
- 주제: 키워드, 특성추출 (기사 수준)
뉴스 검색 다운로드 파일
활용
-뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 기고자(ART_BYLINE), 제목(ART_HEAD), 본문
(ART_CONTENT)
-지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3)
-개체명: 인물(ART_PERSON), 위치(ART_LOCATION), 기관(ART_ORGANIZATION)
- 삭제: 사건/사고1, 사건/사고2, 사건/사고3, 특성추출
보완
- 주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3)
- 빅카인즈 내 원문 링크: NEWS_LINK
뉴스 검색 데이터 변환 및 보완
인용문 검색 파일
수집된 메타데이터
- 뉴스 식별자, 일자, 언론사, 제목, 소스, 인용문
자연어처리 데이터
지면: 통합분류1, 통합분류2, 통합분류3
사건/사고: 사건/사고1, 사건/사고2, 사건/사고3
주제: 키워드, 특성추출 (인용문 수준)
인용문 검색 데이터 변환 및 보완
활용
-수집된 메타데이터: 뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 제목(ART_HEAD), 정보원
(INFOSRC), 인용문(STN_CONTENT)
-지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3)
- 삭제: 사건/사고1, 사건/사고2, 사건/사고3, 키워드, 특성추출
보완
-인용문: SEN_ID(인용문 식별자)
-주제(인용문 수준): SNT_TAG1, SNT_TAG2, SNT_TAG3
-정보원: INFOSRC_PER(정보원 인명), INFOSRC_ORG(정보원 기관), INFOSRC_OCCUPATION(직위/직함)
-주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3)
-빅카인즈 내 원문 링크: NEWS_LINK
File Name Standardizer
Big kinds
Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
File Name Standardizer
-자바 설치: https://java.com/ko/download/
-바탕화면에 샘플 파일(한류) 압축해제 후 폴더명을 1로 변경
-바탕화면에 폴더 생성(폴더명 2)
-배치파일 실행
-그림과 같이 설정하고 입출력 폴더 선택
-파일명 형식: reference_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xls(또는 xlsx)
reference_news_한류_매체전체_분류전체_20110101_20111231 .xls
reference_한류_전체_전체_전체_전체_20110101_20111231 .xls
Degree Analyzer
Big kinds Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
Degree Analyzer: Source
-바탕화면에폴더생성(폴더명3)
-그림과같이설정하고입출력폴더선택
Edge List Converter + Degree Analyzer : Tag
Big kinds
Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
Edge List Converter: Tag
-바탕화면에 폴더 생성(폴더명 4)
-배치파일 실행
-그림과 같이 설정하고 입출력 폴더 선택
+ Degree Analyzer: Tag
-File Name Standizer로 Edge list file 파일명 수정
-Degree analyzer 실행
-그림과 같이 설정하고 입출력 폴더 선택
Description
Big kinds
Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
Description
-File Name Standardizer로 Edge list file 파일명 수정
-Degree analyzer 실행
-그림과 같이 설정하고 입출력 폴더 선택
Rank
Big kinds
Manually
Converted
Reference
File
Article
File
Organization
Degree
Tag
Degree
News Source
Degree
Degree
Analyzer
Rank
Organization
Ranking
Tag Ranking
News Source
Ranking
Description
Number of
Organizations
Number of
Tags
Number of
News Sources
Number of
Articles
File Name
Standardizer
Edge List
Converter
Tag Edge List
Reference
File
Article
File
Reference
File
Article
File
Rank: Source, Tag
-StatisticsAnalyzer 실행
-그림과 같이 연결정도 최소값(D)과 순위화할 개체 수(K) 지정
-입출력 폴더 선택
-입력파일은 node, degree, date, provider, category 순이어야 함
…And More
- Projector: 추출
- Cleanser: 정제
- Degree Exponent: 연결정도지수 계산, 분포 파악
- Quote Rank: 중요 주제 또는 정보원의 인용문
- Periodic Analyzer: 시계열 분석
- Ego: 의미거리 내 연관어
- Trend: 키워드의 중요도 변화
- Streak: 기간 연속 중요 정보원 또는 주제
- Classifier: 기관의 다중분류
- Dictionary Manager: 개체명 사전 관리
- Fragmentation: 매체간 유사도에 따른 분포 파악
- QuoteNet: 문장 연결망 분석
(핵심문장, 요약문장or, 상술문장, 연관문장, 의미거리, 의
미군집, 의미파당)
Q & A
Appendix: Cases
News Source Network
Comparative Research
한겨레동아
Discourse Analysis
박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문.
Automated Time Series Discourse Analysis
Keyword Centric Network
박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.
Source-Topic Network
박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단.

More Related Content

What's hot

Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
 
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신Daemin Park
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelDaemin Park
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)병국 민
 
Rumor detection on social media
Rumor detection on social mediaRumor detection on social media
Rumor detection on social mediasegwangkim
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)Han Woo PARK
 
방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동Han Woo PARK
 
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)Han Woo PARK
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 

What's hot (9)

Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
 
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based model
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
Rumor detection on social media
Rumor detection on social mediaRumor detection on social media
Rumor detection on social media
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)
 
방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동
 
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 

Similar to Automated discourse analysis with BigKinds and Semantic Network Analyzer

1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and Management1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and ManagementNAP Events
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개Chang-yong Jung
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석Daemin Park
 
6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론Daemin Park
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"Tae Young Kang
 
텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남datasciencekorea
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
웹보메트릭스09 1
웹보메트릭스09 1웹보메트릭스09 1
웹보메트릭스09 1Inho Cho
 
웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1Han Woo PARK
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1Han Woo PARK
 
(130608) #fitalk trends in d forensics (may, 2013)
(130608) #fitalk   trends in d forensics (may, 2013)(130608) #fitalk   trends in d forensics (may, 2013)
(130608) #fitalk trends in d forensics (may, 2013)INSIGHT FORENSIC
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터JM code group
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개webscikorea
 
딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅if kakao
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Dataymchu88
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈HELENA LEE
 

Similar to Automated discourse analysis with BigKinds and Semantic Network Analyzer (20)

1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and Management1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and Management
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
 
6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 
텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
웹보메트릭스09 1
웹보메트릭스09 1웹보메트릭스09 1
웹보메트릭스09 1
 
웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1
 
(130608) #fitalk trends in d forensics (may, 2013)
(130608) #fitalk   trends in d forensics (may, 2013)(130608) #fitalk   trends in d forensics (may, 2013)
(130608) #fitalk trends in d forensics (may, 2013)
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개
 
딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Data
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
 

More from Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석Daemin Park
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media BlockchainDaemin Park
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형Daemin Park
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)Daemin Park
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인Daemin Park
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Daemin Park
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)Daemin Park
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)Daemin Park
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)Daemin Park
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)Daemin Park
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구Daemin Park
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석Daemin Park
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석Daemin Park
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석Daemin Park
 
5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화Daemin Park
 

More from Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
 
5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화
 

Automated discourse analysis with BigKinds and Semantic Network Analyzer

  • 1. News Big Data Analysis As Automated Discourse Analysis with Semantic Network Analyzer Daemin PARK Korea Press Foundation Senior Researcher
  • 2. News Big Data Contents Word Cloud News Big Data Analysis As Automated Discourse Analysis BigKinds Semantic Network Analyzer Appendix: Cases
  • 3. 사전 준비 사항 -노트북 지참 -강의 자료 다운로드를 위한 구글 링크: (https://goo.gl/1MvMf9) - 강의 PPT 다운로드 -빅카인즈 가입 (https://www.kinds.or.kr/) -자바 최신버전 설치 (https://www.java.com/ko/) -샘플 파일 다운로드  1. article: 뉴스 변형 파일  2. reference: 인용문 변형 파일  3. source degree: 정보원 degree 파일  4. tag_edge list: 주제 edge list 파일  5. tag degree: 주제 degree 파일  6. rank: 정보원 rank 파일, 주제 rank 파일  7. statics: 정보원 description 파일, 주제 description 파일 -Semantic Network Analyzer (5개 기능) 다운로드 1) standardizer 2) degree 3) edgelist 4) rank 5)description -Semantic Network Analyzer 매뉴얼 다운로드 (사용자 중심 뉴스 빅데이터 서비스 연구 67-76쪽)
  • 6. Crawling Advanced NLP Customized SNA Discourse Analysis NLP & SNA - Tokenization - Stemming - Stopword elimination - Tagging part of speech - Indexing - Sentence boundary recognition - URL tagging - Co-occurrence analysis - Partial parsing - Named entity recognition - Coreference resolution - Word sense disambiguation - Classification - Clustering - Visualization - Data cleansing - Time series content analysis - Governmentalitiy studies - Projector - File name standardizer - Edge list converter - Degree centrality - Periodic analysis - Degree exponent - Cleanser - Description - Ranking - Quote Rank - Ego - Trend - Streak - Classifier - Dictionary manager - Fragmentation - QuoteNet - Crawler - Data aggregation BigKinds SemanticNetAnalyzer
  • 7. Automated Discourse Analysis of News 주체 사회, 시장, 정부 담론구성체 시간 공간 사물 자본 Person Organization PLOT, quotes Number Location Terminology 개념 Who Where 5W1H Why What When HowQuotes
  • 8. 형태소 분석, 빈도분석 개념어 분석, 의미연결망분석 Level of Analysis
  • 9. 박대민(2016.4.18.). 신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사. <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥재단. Trend
  • 10. 박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥 재단. Database Bias
  • 11. -데이터 수집 DB: <빅카인즈> -데이터 수집 완료일: 2016년 10월 21일 -원본 보관, 분석은 복제 파일로 Database Bias
  • 13. Distribution: Tightness Nouns: complete network News Sources: scale free network
  • 14. Distribution: Maturity Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences..
  • 16. Fat-tailed Network 연결정도(x축)에 따른 연결정도지수(y축)의 추이 박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. 연결정도(x축)에 따른 연결정도지수(y축)의 추이 16
  • 17. 박대민(2016). 장기 시계열 내용 분석을 위한 뉴스 빅데이터 분석의 활용 가능성: 100만 건 기사의 정보원과 주제로 본 신문 26년. <한국언론학보>, 60권 5호, 353-407. 17 Time Series: Irregularity, Cycle, Seasonality, Intervention, Outliers
  • 18. Paradigm Shift 박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단. 18
  • 21. Level of Analysis 박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
  • 22. Scope 박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. 검색어 × (분석 기간 ÷ 시간 범위) × 분석 매체 × 분석 지면 ×개체 유형× (개체 순위 ^ 의미 범위) 중국 × (10년 ÷ 연 단위) × 42개 매체 전체 × 8개 지면 ×정보원과 주제 × (20위 ^ 1 단계) = 3,200개
  • 23. 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화 문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한 글 표기), 개체명 인식 대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명 동인) 분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석, 감성분석, 복합논증분석, Morphological Analysis Syntax Analysis Semantic Analysis Pragmatic Analysis 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. Natural Language Processing
  • 28. 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화 문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한 글 표기), 개체명 인식 대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명 동인) 분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석, 감성분석, 복합논증분석, Morphological Analysis Syntax Analysis Semantic Analysis Pragmatic Analysis 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. Natural Language Processing
  • 35. 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화 문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한 글 표기), 개체명 인식 대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명 동인) 분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석, 감성분석, 복합논증분석, Morphological Analysis Syntax Analysis Semantic Analysis Pragmatic Analysis 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. Natural Language Processing
  • 36. Fundamentals of News Source Network 박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. 21 1 2 3 1 4 5 2 3 1 4 5 - 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 준연결망(quasi network) - 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
  • 37. Semantic Network Analyzer Reference File Big kinds Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Manually Converted Article File Reference File Article File
  • 38. Converting Reference File Big kinds Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Manually Converted Article File Reference File Article File
  • 39. 수집된 메타데이터 - 뉴스 식별자, 일자, 언론사, 기고자, 제목, 본문 자연어처리 데이터 - 지면: 통합분류1, 통합분류2, 통합분류3 - 사건/사고: 사건/사고1, 사건/사고2, 사건/사고3 - 개체명: 인물, 위치, 기관 - 주제: 키워드, 특성추출 (기사 수준) 뉴스 검색 다운로드 파일
  • 40. 활용 -뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 기고자(ART_BYLINE), 제목(ART_HEAD), 본문 (ART_CONTENT) -지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3) -개체명: 인물(ART_PERSON), 위치(ART_LOCATION), 기관(ART_ORGANIZATION) - 삭제: 사건/사고1, 사건/사고2, 사건/사고3, 특성추출 보완 - 주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3) - 빅카인즈 내 원문 링크: NEWS_LINK 뉴스 검색 데이터 변환 및 보완
  • 41. 인용문 검색 파일 수집된 메타데이터 - 뉴스 식별자, 일자, 언론사, 제목, 소스, 인용문 자연어처리 데이터 지면: 통합분류1, 통합분류2, 통합분류3 사건/사고: 사건/사고1, 사건/사고2, 사건/사고3 주제: 키워드, 특성추출 (인용문 수준)
  • 42. 인용문 검색 데이터 변환 및 보완 활용 -수집된 메타데이터: 뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 제목(ART_HEAD), 정보원 (INFOSRC), 인용문(STN_CONTENT) -지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3) - 삭제: 사건/사고1, 사건/사고2, 사건/사고3, 키워드, 특성추출 보완 -인용문: SEN_ID(인용문 식별자) -주제(인용문 수준): SNT_TAG1, SNT_TAG2, SNT_TAG3 -정보원: INFOSRC_PER(정보원 인명), INFOSRC_ORG(정보원 기관), INFOSRC_OCCUPATION(직위/직함) -주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3) -빅카인즈 내 원문 링크: NEWS_LINK
  • 43. File Name Standardizer Big kinds Manually Converted Reference File Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Article File Reference File Article File
  • 44. File Name Standardizer -자바 설치: https://java.com/ko/download/ -바탕화면에 샘플 파일(한류) 압축해제 후 폴더명을 1로 변경 -바탕화면에 폴더 생성(폴더명 2) -배치파일 실행 -그림과 같이 설정하고 입출력 폴더 선택 -파일명 형식: reference_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xls(또는 xlsx) reference_news_한류_매체전체_분류전체_20110101_20111231 .xls reference_한류_전체_전체_전체_전체_20110101_20111231 .xls
  • 45. Degree Analyzer Big kinds Manually Converted Reference File Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Article File Reference File Article File
  • 47. Edge List Converter + Degree Analyzer : Tag Big kinds Manually Converted Reference File Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Article File Reference File Article File
  • 48. Edge List Converter: Tag -바탕화면에 폴더 생성(폴더명 4) -배치파일 실행 -그림과 같이 설정하고 입출력 폴더 선택
  • 49. + Degree Analyzer: Tag -File Name Standizer로 Edge list file 파일명 수정 -Degree analyzer 실행 -그림과 같이 설정하고 입출력 폴더 선택
  • 50. Description Big kinds Manually Converted Reference File Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Article File Reference File Article File
  • 51. Description -File Name Standardizer로 Edge list file 파일명 수정 -Degree analyzer 실행 -그림과 같이 설정하고 입출력 폴더 선택
  • 52. Rank Big kinds Manually Converted Reference File Article File Organization Degree Tag Degree News Source Degree Degree Analyzer Rank Organization Ranking Tag Ranking News Source Ranking Description Number of Organizations Number of Tags Number of News Sources Number of Articles File Name Standardizer Edge List Converter Tag Edge List Reference File Article File Reference File Article File
  • 53. Rank: Source, Tag -StatisticsAnalyzer 실행 -그림과 같이 연결정도 최소값(D)과 순위화할 개체 수(K) 지정 -입출력 폴더 선택 -입력파일은 node, degree, date, provider, category 순이어야 함
  • 54. …And More - Projector: 추출 - Cleanser: 정제 - Degree Exponent: 연결정도지수 계산, 분포 파악 - Quote Rank: 중요 주제 또는 정보원의 인용문 - Periodic Analyzer: 시계열 분석 - Ego: 의미거리 내 연관어 - Trend: 키워드의 중요도 변화 - Streak: 기간 연속 중요 정보원 또는 주제 - Classifier: 기관의 다중분류 - Dictionary Manager: 개체명 사전 관리 - Fragmentation: 매체간 유사도에 따른 분포 파악 - QuoteNet: 문장 연결망 분석 (핵심문장, 요약문장or, 상술문장, 연관문장, 의미거리, 의 미군집, 의미파당)
  • 55. Q & A
  • 59. Discourse Analysis 박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문.
  • 60. Automated Time Series Discourse Analysis
  • 61. Keyword Centric Network 박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.
  • 62. Source-Topic Network 박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단.