SlideShare a Scribd company logo
News Big Data Analytics
PARK,Daemin
Korea Press Foundation
Senior Researcher
News Media as Internet Corporation
2
The Fall of Paper Platform
3
허브
언론사
독자 광고주
플랫폼
기능 흡수
콘텐츠 공급자 분화 콘텐츠
사업자
UGC
네이티브
광고
News Inovative Ecology System
4
빅데이터 분석 솔루션
- 메타데이터
- 자연어처리 모듈
-연결망 분석 모듈
-음성/영상 분석 모듈
혁신 뉴스서비스
- 혁신 뉴스서비스 개발
- 연례 컨퍼런스
언론 미디어
- 텍스트
- 사진, 표, 도안
- 동영상
- PDF
뉴스허브
- 뉴스서비스 통합 제공
- SNS, CMS, 광고 솔루션, 앱
- 기사 아웃링크, 데이터 판매
- 저작권, 광고, 부가사업, 투자
- 브랜드 관리
오픈
API
오픈소스
콘텐츠
오픈소스
수익 배분
뉴스
아카이브 비정형
데이터
기존 서비스 혁신서비스
수익 배분
API
Tag Cloud
News Named Entity Network
Table of Contents
News Big Data Analytics
5
<NewsSource Beta>
News Source Network
Network Theory
Natural Language Processing of News
6
Graph Theory
The Königsberg Bridge problem
7
Six Degrees of Separation
8
Centrality
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz
centrality of the same graph.
9
Three Degrees of Influence Rule
10
Small World Phenomenon
11
Scale Free Network
12
Scale Free Network: Internet Map
13
Burst
14
Coauthorship Network
15
Citation Index
16
Opinion Dynamics
17
Network Dynamics
News Named Entity Network
Table of Contents
News Big Data Analytics
18
<NewsSource Beta>
News Source Network
Natural Language Processing of News
Tag Cloud
Network Theory
Nouns 對 Sources
19
Morpheme 對 Concepts
20
21
Tag Cloud
News Named Entity Network
Table of Contents
News Big Data Analytics
22
<NewsSource Beta>
Natural Language Processing of News
Network Theory
News Source Network
Tag Cloud
결점(node)
개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제
결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합
연결선(edge)
기사 공동출현에 의한 관련도(relevance)
연결 강도를 정의
완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의
절대적 연결정도 중앙성 (degree centrality)
CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성
결점 속성
결점
연결선
순위화
23
News Semantic Network
named entity recognition
coreference elimination
data cleansing
결점 속성 부여
강한 연결 표현
수작업 보정
Transpose
Diagonal
Dichotomize
Degree centrality
구조(scale free network)
해석
01
02
03
04
Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization
24
수작업, Crawler, 계약
자료는 충분히 많아야 함
News Semantic Network Analysis
25
News Source Network
21
1
2 3
1
4 5
2 3
1
4 5
26
News Source Network
27
Adjacent Matrix & Attribute Matrix
28
Biases by Bursts in Topics
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
29
Biases by Bursts in Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
News Source Network: Thoughtless Comments
30
Controversial Figures : Thoughtless Comments
31
32
News Source Network: Four Major Rivers Project
한겨레동아
33
Critical Discourse Analysis: New Town Project
Table of Contents
News Big Data Analytics
34
<NewsSource Beta>
Natural Language Processing of News
Network Theory
Tag Cloud
News Named Entity Network
News Source Network
35
News Organization Network: Youth
News Article Topic Network: Thoughtless Comments
36
37
News Comment Topic Ego Network: Youth Unemployment
News Source-Commnent Topic Network: Thoughtless Comments
38
39
News Organization-Comment Topic Network: Youth
Table of Contents
News Big Data Analytics
40
Network Theory
Tag Cloud
News Source Network
News Named Entity Network
Natural Language Processing of News
<NewsSource Beta>
형태소분석(morphological analysis)
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
구문분석(syntax analysis, parsing)
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식
의미분석(semantic analysis)
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)
담론분석(discourse analysis)
분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석
형태소분석
구문분석
의미분석
담론분석
41
Natural Language Processing
NLP 예시
형태소분석
예문) 초고속열차를 타보았다.
초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1)
초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)
예문) 그가 산 사과를 다시 샀다.
(((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1)
((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보
구문분석
예문) 그가 산 사과를 다시 샀다.
산: buy, live/alive, mountain
사과: apple, apology
의미분석
예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다.
<object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;
담론분석
출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)
42
43
Clustering
44
Topic Detection: TF-IDF
45
Topic Detection: LDA
46
Categorization
47
Summarization
48
Sentimental Analysis & Opinion Mining
49
A neural conversational model
Human: what is the purpose of life ? (삶의 목표는 무엇입니까?)
Machine: to serve the greater good. (위대한 사람을 돕는 것입니다)
Human: what is the purpose of living? (생존의 목표는 무엇입니까?)
Machine: to live forever. (영원토록 사는 것입니다)
Human: what is the purpose of existence ? (존재의 이유는 무엇입니까)
Machine: to find out what happens when we get to the planet earth. (지구에서 무엇이 일어나고 있는지 알아내는 것입니다.)
Human: where are you now ?(당신은 지금 어디 있습니까?)
Machine: I’m in the middle of nowhere. (아무도 없는 외진 곳에 있습니다)
Human: what is the purpose of dying ? (죽음의 목적은 무엇입니까?)
Machine: to have a life. (삶을 갖는 것입니다.)
Human: what is the purpose being intelligent? (똑똑해져야 하는 이유는 무엇입니까?)
Machine: to find out what it is. (무엇인가 알아내기 위해서입니다)
Human: what is the purpose of emotions? (감정의 목적은 무엇입니까?)
Machine: I don ’t know . (잘 모르겠습니다)
Table of Contents
News Big Data Analytics
50
Natural Language Processing of News
Network Theory
Tag Cloud
News Source Network
NewsSource Beta
News Named Entity Network
NewsSource Beta
51
Architecture
52
NER Performance
재현율, 87.4
50.9
75
정확도, 90.3 92.7
97.8
0
10
20
30
40
50
60
70
80
90
100
인명 기관 직함
53
Download
54
Improved Systems
55
Q & A

More Related Content

What's hot

Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
Myunggoon Choi
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
datasciencekorea
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
datasciencekorea
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
Kwang Woo NAM
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안
Daemin Park
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
동학 노
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview
chanyoonkim
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Myungjin Lee
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
수보 김
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
iron han
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
Chanjin Park
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
kosena
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
datasciencekorea
 
연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝
Keunhyun Oh
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
Jin wook
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
ko donghwi
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
Wonjin Lee
 

What's hot (20)

Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안
 
빅데이터
빅데이터빅데이터
빅데이터
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 

Similar to News Big Data Analytics

[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
Luke Sunghyun Kim
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기Kangwook Lee
 
제16차 포럼 발표자료 - 플랫폼 생태계와 창업
제16차 포럼 발표자료 - 플랫폼 생태계와 창업제16차 포럼 발표자료 - 플랫폼 생태계와 창업
제16차 포럼 발표자료 - 플랫폼 생태계와 창업
구회 연
 
Meetup history
Meetup historyMeetup history
Meetup history
Mk Kim
 
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
Taehoon Ko
 
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)
Byung-han Lee
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP Korea
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
Jaimie Kwon (권재명)
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
HELENA LEE
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
Sangkyu Kim
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
startupkorea
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
NAVER D2
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
병국 민
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
SuHyun Jeon
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
BruceDong WinnersLab
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례
kosena
 
Memento
MementoMemento
Memento
지운 배
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보
Jiun Bae
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
K data
 
Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)
Don Chang
 

Similar to News Big Data Analytics (20)

[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
[WeFocus] 인공지능_딥러닝_특허 확보 전략_김성현_201902_v1
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
제16차 포럼 발표자료 - 플랫폼 생태계와 창업
제16차 포럼 발표자료 - 플랫폼 생태계와 창업제16차 포럼 발표자료 - 플랫폼 생태계와 창업
제16차 포럼 발표자료 - 플랫폼 생태계와 창업
 
Meetup history
Meetup historyMeetup history
Meetup history
 
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
 
머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)머신러닝(딥러닝 요약)
머신러닝(딥러닝 요약)
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례
 
Memento
MementoMemento
Memento
 
Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보Memento, 그 사람에 대한 모든 정보
Memento, 그 사람에 대한 모든 정보
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)
 

More from Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
Daemin Park
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
Daemin Park
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
Daemin Park
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
Daemin Park
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
Daemin Park
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
Daemin Park
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
Daemin Park
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
Daemin Park
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
Daemin Park
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
Daemin Park
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
Daemin Park
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
Daemin Park
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
Daemin Park
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
Daemin Park
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
Daemin Park
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
Daemin Park
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
Daemin Park
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
Daemin Park
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
Daemin Park
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
Daemin Park
 

More from Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
 

News Big Data Analytics

  • 1. News Big Data Analytics PARK,Daemin Korea Press Foundation Senior Researcher
  • 2. News Media as Internet Corporation 2
  • 3. The Fall of Paper Platform 3 허브 언론사 독자 광고주 플랫폼 기능 흡수 콘텐츠 공급자 분화 콘텐츠 사업자 UGC 네이티브 광고
  • 4. News Inovative Ecology System 4 빅데이터 분석 솔루션 - 메타데이터 - 자연어처리 모듈 -연결망 분석 모듈 -음성/영상 분석 모듈 혁신 뉴스서비스 - 혁신 뉴스서비스 개발 - 연례 컨퍼런스 언론 미디어 - 텍스트 - 사진, 표, 도안 - 동영상 - PDF 뉴스허브 - 뉴스서비스 통합 제공 - SNS, CMS, 광고 솔루션, 앱 - 기사 아웃링크, 데이터 판매 - 저작권, 광고, 부가사업, 투자 - 브랜드 관리 오픈 API 오픈소스 콘텐츠 오픈소스 수익 배분 뉴스 아카이브 비정형 데이터 기존 서비스 혁신서비스 수익 배분 API
  • 5. Tag Cloud News Named Entity Network Table of Contents News Big Data Analytics 5 <NewsSource Beta> News Source Network Network Theory Natural Language Processing of News
  • 7. 7 Six Degrees of Separation
  • 8. 8 Centrality A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph.
  • 9. 9 Three Degrees of Influence Rule
  • 12. 12 Scale Free Network: Internet Map
  • 18. News Named Entity Network Table of Contents News Big Data Analytics 18 <NewsSource Beta> News Source Network Natural Language Processing of News Tag Cloud Network Theory
  • 22. News Named Entity Network Table of Contents News Big Data Analytics 22 <NewsSource Beta> Natural Language Processing of News Network Theory News Source Network Tag Cloud
  • 23. 결점(node) 개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합 연결선(edge) 기사 공동출현에 의한 관련도(relevance) 연결 강도를 정의 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의 절대적 연결정도 중앙성 (degree centrality) CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성 결점 속성 결점 연결선 순위화 23 News Semantic Network
  • 24. named entity recognition coreference elimination data cleansing 결점 속성 부여 강한 연결 표현 수작업 보정 Transpose Diagonal Dichotomize Degree centrality 구조(scale free network) 해석 01 02 03 04 Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization 24 수작업, Crawler, 계약 자료는 충분히 많아야 함 News Semantic Network Analysis
  • 25. 25 News Source Network 21 1 2 3 1 4 5 2 3 1 4 5
  • 27. 27 Adjacent Matrix & Attribute Matrix
  • 28. 28 Biases by Bursts in Topics 연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
  • 29. 29 Biases by Bursts in Media 연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
  • 30. News Source Network: Thoughtless Comments 30
  • 31. Controversial Figures : Thoughtless Comments 31
  • 32. 32 News Source Network: Four Major Rivers Project 한겨레동아
  • 34. Table of Contents News Big Data Analytics 34 <NewsSource Beta> Natural Language Processing of News Network Theory Tag Cloud News Named Entity Network News Source Network
  • 36. News Article Topic Network: Thoughtless Comments 36
  • 37. 37 News Comment Topic Ego Network: Youth Unemployment
  • 38. News Source-Commnent Topic Network: Thoughtless Comments 38
  • 40. Table of Contents News Big Data Analytics 40 Network Theory Tag Cloud News Source Network News Named Entity Network Natural Language Processing of News <NewsSource Beta>
  • 41. 형태소분석(morphological analysis) 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화 구문분석(syntax analysis, parsing) 문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식 의미분석(semantic analysis) 대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인) 담론분석(discourse analysis) 분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석 형태소분석 구문분석 의미분석 담론분석 41 Natural Language Processing
  • 42. NLP 예시 형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2) 예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보 구문분석 예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology 의미분석 예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>; 담론분석 출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749) 42
  • 48. 48 Sentimental Analysis & Opinion Mining
  • 49. 49 A neural conversational model Human: what is the purpose of life ? (삶의 목표는 무엇입니까?) Machine: to serve the greater good. (위대한 사람을 돕는 것입니다) Human: what is the purpose of living? (생존의 목표는 무엇입니까?) Machine: to live forever. (영원토록 사는 것입니다) Human: what is the purpose of existence ? (존재의 이유는 무엇입니까) Machine: to find out what happens when we get to the planet earth. (지구에서 무엇이 일어나고 있는지 알아내는 것입니다.) Human: where are you now ?(당신은 지금 어디 있습니까?) Machine: I’m in the middle of nowhere. (아무도 없는 외진 곳에 있습니다) Human: what is the purpose of dying ? (죽음의 목적은 무엇입니까?) Machine: to have a life. (삶을 갖는 것입니다.) Human: what is the purpose being intelligent? (똑똑해져야 하는 이유는 무엇입니까?) Machine: to find out what it is. (무엇인가 알아내기 위해서입니다) Human: what is the purpose of emotions? (감정의 목적은 무엇입니까?) Machine: I don ’t know . (잘 모르겠습니다)
  • 50. Table of Contents News Big Data Analytics 50 Natural Language Processing of News Network Theory Tag Cloud News Source Network NewsSource Beta News Named Entity Network
  • 53. NER Performance 재현율, 87.4 50.9 75 정확도, 90.3 92.7 97.8 0 10 20 30 40 50 60 70 80 90 100 인명 기관 직함 53
  • 56. Q & A