visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
This research suggests news sentence network analysis algorithm based on similarity and cooccurence. News contains abundant arguments with facts and quotes those are critical to represent agendas. News sentence network is a semantic network which consists of quotes as nodes. Connectivity is defined by relevance between quotes. Relevance matrix is the sum of similarity matrix calculated by cosine similarity algorithm and cooccurence matrix. This study analyzed 949 quotes from 405 news articles and visualized networks. The results verified that semantic paths were well defined to show the sequence of sub-agendas. News semantic network analysis algorithm can provide a methodology to automatically generate a massive corpus in a sentence level as a training set to develop a debating machine.
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
News Semantic Network Analysis of Named EntitiesDaemin Park
News Semantic Network Analysis of Named Entities
- named entity recognition: person, organization from news
- tagging topics manually per sentences or articles
- semantic network analysis between persons and organizations
개체명 중심 뉴스 의미 연결망 분석
- 뉴스에서 인명, 기관명을 개체명 인식을 통해 추출
- 주제 태그를 부착
- 사람, 기관, 주제 간의 연결망 분석
- 단어 의미 연결망 한계 극복
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
This research suggests news sentence network analysis algorithm based on similarity and cooccurence. News contains abundant arguments with facts and quotes those are critical to represent agendas. News sentence network is a semantic network which consists of quotes as nodes. Connectivity is defined by relevance between quotes. Relevance matrix is the sum of similarity matrix calculated by cosine similarity algorithm and cooccurence matrix. This study analyzed 949 quotes from 405 news articles and visualized networks. The results verified that semantic paths were well defined to show the sequence of sub-agendas. News semantic network analysis algorithm can provide a methodology to automatically generate a massive corpus in a sentence level as a training set to develop a debating machine.
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
News Semantic Network Analysis of Named EntitiesDaemin Park
News Semantic Network Analysis of Named Entities
- named entity recognition: person, organization from news
- tagging topics manually per sentences or articles
- semantic network analysis between persons and organizations
개체명 중심 뉴스 의미 연결망 분석
- 뉴스에서 인명, 기관명을 개체명 인식을 통해 추출
- 주제 태그를 부착
- 사람, 기관, 주제 간의 연결망 분석
- 단어 의미 연결망 한계 극복
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
내부적 이해
1. 데이터 저널리즘 개념잡기
(1) 빅데이터 시대, 빅데이터란?
(2) 빅데이터의 종류와 활용분야
(3) 빅데이터와 저널리즘의 상관관계
(4) 데이터 - 중심 저널리즘
(5) 사례로 보는 데이터 저널리즘
2. 데이터 저널리즘 과정알기
(1) 데이터 저널리즘 과정
외부적 기회
3. 데이터 저널리즘의 미래 찾기
(1) 데이터 저널리즘 관련 기관/행사
(2) 데이터 저널리즘의 전망
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
데이터 저널리즘.
많이는 들어봤는데, 누가 하는걸까?
그리고 그들의 비즈니스 모델은 무엇일까?!
뉴스젤리가 파헤친
데이터 저널리즘 비즈니스 모델!!
1. 영리기업
1) 기성언론
- 뉴욕타임스
- 가디언
- LA타임즈
- 블룸버그
- 로이터
- 이코노미스트
2) 스타트업
- Wanna Hacks
- Statista
- Timetric
- Data Market
- CSC
- DATA 뉴스
2.비영리 단체 및 기업
1) Propublica
2) Texas Tribune
3) Stiftung Warentest
데이터 저널리즘의 새 바람, 뉴스젤리(Newsjelly)
http://newsjel.ly
1. Research Histories of news big data analytics
- distribution of news semantic network
- multilevel semantic network analysis of news
- news big data analysis system <newssource> and <bigkinds>
- webzine <news>
http://story.visualdive.co.kr/2016/04/newspaper26y/ (in Korean)
- 14 articles and 3 books
2. Research Plans
- expert systems using multi-modal data
- opinion dynamics, Bayesian statistics, machine learning
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
내부적 이해
1. 데이터 저널리즘 개념잡기
(1) 빅데이터 시대, 빅데이터란?
(2) 빅데이터의 종류와 활용분야
(3) 빅데이터와 저널리즘의 상관관계
(4) 데이터 - 중심 저널리즘
(5) 사례로 보는 데이터 저널리즘
2. 데이터 저널리즘 과정알기
(1) 데이터 저널리즘 과정
외부적 기회
3. 데이터 저널리즘의 미래 찾기
(1) 데이터 저널리즘 관련 기관/행사
(2) 데이터 저널리즘의 전망
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
데이터 저널리즘.
많이는 들어봤는데, 누가 하는걸까?
그리고 그들의 비즈니스 모델은 무엇일까?!
뉴스젤리가 파헤친
데이터 저널리즘 비즈니스 모델!!
1. 영리기업
1) 기성언론
- 뉴욕타임스
- 가디언
- LA타임즈
- 블룸버그
- 로이터
- 이코노미스트
2) 스타트업
- Wanna Hacks
- Statista
- Timetric
- Data Market
- CSC
- DATA 뉴스
2.비영리 단체 및 기업
1) Propublica
2) Texas Tribune
3) Stiftung Warentest
데이터 저널리즘의 새 바람, 뉴스젤리(Newsjelly)
http://newsjel.ly
1. Research Histories of news big data analytics
- distribution of news semantic network
- multilevel semantic network analysis of news
- news big data analysis system <newssource> and <bigkinds>
- webzine <news>
http://story.visualdive.co.kr/2016/04/newspaper26y/ (in Korean)
- 14 articles and 3 books
2. Research Plans
- expert systems using multi-modal data
- opinion dynamics, Bayesian statistics, machine learning
Debating Machine: Rule Based News Sentence Network AnalysisDaemin Park
Debating Machine: Rule Based News Sentence Network Analysis
- sentence level of analysis
- relevance matrix constructed by cooccurence and quoted sources info
- sentence level ranking
- defining sentence network, sentence distance, and semantic path(semantic diameter, summarized path, and extended path)
- methodology to automatically build corpus with relevance information among news sentences, which contain a lot of political, economic, cultural, and social agendas based on simple rules
토론기계: 규칙 기반 뉴스 문장 의미연결망 분석
- 단어(명사 중심)이 아닌 문장 수준의 분석 시도
- 기사공동출현과 인접기간 동일정보원 발언을 바탕으로 관련도 행렬 구성
- 문장 단위의 순위화, 문장 중심 연결망, 의미거리, 의미경로(지름, 축약경로, 확장경로)를 정의
- 정치, 경제, 사회, 문화, 국제 등 다양한 주제를 담은 뉴스 기사를 이용해 토론기계가 학습할 문장 간 관계 정보를 담은 말뭉치를 대규모로 자동으로 구축
뉴스 빅데이터 분석 연구들은 첫째, 뉴스 정보원 연결망과 뉴스 인용문 주제 연결망이 두터운 꼬리 분포를 갖는다는 점을 고려할 때 시간 압박이 있고 인용을 중요한 사실성 관행으로 사용하는 객관주의 저널리즘 관행 아래 정보원 인용이나 주제 선정에서 편향성은 사회물리학적으로 필연적인 현상임을 시사한다. 둘째, 다양한 매체 이용의 빈도가 멱함수 분포임을 고려하면 특정 매체를 훨씬 더 많이 보고, 특정 기사에 댓글 작성 등 참여를 훨씬 더 많이 여론독과점 역시 필연적 현상임을 보여준다. 즉 충분히 많은 매체와 매체 이용이 있을 경우, 기존의 여론독과점 매체를 보게 하지 않더라도 다른 매체를 중심으로 여론독과점이 재형성될 가능성이 높다. 셋째, 최상위권 정보원과 인용문 주제를 시계열로 비교할 때 매체 간 차이는 크지 않으며 단지 시계열 상의 패러다임 변화만 발견된다. 넷째, 순위를 고려한 매체 간 유사도를 따져볼 때, 매체 간 차이는 상위권 안에서는 오히려 줄어들며, 중상위권에서도 크지 않다. 다섯째, 매체 간 차이는 기사량 자체, 즉 연결망의 크기(size)와 두터운 꼬리에 해당하는 하위권 정보원과 주제에서 나타난다. 뉴스 빅데이터 기반 매체 간 비교 연구 성과는 최소한 동종 매체 간에 동조화된 파편화가 나타난다.
오늘 선형이론을 가르치고 검색 알고리즘을 뿌리뽑는 시간아니다. 다만, 페이지링크에서 엣지랭크로 이동한 검색은 무엇이 달라진 것인지? 이런 변화에서 관계를 추천하는 민주적 가치 사회적가치가 검색 기술로 달성된것인지? 그렇다면 언론이 숭고하게 지켜야할 가치는 어떤 알고리즘으로 견고하게 가져갈지? 엣지 랭크에 변수처럼 우린 언론 가치 변수로 무엇을 넣는 것을 상상할지? 가치와 의미 부재의 시대에 상실도 것들을 그리워하며....
2016년 촛불집회는 과거와 달리 수도권뿐만 아니라 지방에서도 전개되었다. 그러나 서울 광화
문 광장 이외에서 진행된 촛불집회에 대한 사회적 관심은 그 중요성에 비해서 주목받지 못했다.
이 연구는 지방의 촛불집회 특히, 대통령의 정치적 고향인 대구·경북(TK) 촛불집회에 주목하였
다. 본 논문은 페이스북에 남겨진 데이터를 이용해 촛불집회에 나타난 TK지역 여론의 행위자와
댓글의 내용을 검토한다. 첫째, 페이지의 운영주체에 따라 페이스북 이용자 행위의 차이가 있는
지 살펴보았다. 둘째, 집회유형에 따른 댓글의 의견과 그 전개양상이 다른지 살펴보았다. 분석방
법으로 이용자 반응분석, 연결망분석(social network analysis), 의미망분석이 사용되었다. 연구결과,
페이스북 이용자들의 관심도, 참여율, 응집도는 전통 미디어에서 운영한 페이지보다 시민참여형
UCC(user created content) 페이지에서 높게 나타났다. 집회유형으로 보면, 촛불집회 댓글들과 비
교해 ‘박사모’ 반응에서 노인폄하 단어 등 부정적 단어들이 더 자주 출현했다. 이 연구는 페이스
북 댓글 데이터를 이용해서 기존에 자주 수행된 마케팅과 선거캠페인을 넘어서 새로운 연구방향
을 제시했다는 점에서 학술적 의미뿐만 아니라 사회적 가치가 있다.
- K-core 분석을 통한 한국 미디어 스타트업의 투자 연결망 분석
- 2006-2019년 미디어 스타트업 299개, 307개 투자사의 공동 투자 관계 분석
- 투자연결망은 투자자를 노드로, 동일 스타트업 공동 투자여부를 엣지 정보로 하는 연결망
- 기술통계로 보면 비공개 제외 투자 규모는 1.36조원에 달했으며 시리즈 B단계까지 투자 받은 곳이 많았고 시리즈 C 단계에서 M&A가 이뤄짐
- 네이버의 투자를 받은 캠프모바일이나 스노우와 광고 마케팅 쪽의 누적 투자액 규모가 컸으며 그 외 200억 이상 누적 투자액인 곳으로는 레진엔터, 얍컴퍼니, 메이크어스, 마이쿤, 왓챠, 문피아 등
- 분석결과 공동투자를 가장 많이 한 집단에서는 한국산업은행 투자시 공동투자하는 경우가 많았음
- 가장 많은 투자 집단이 모인 군집은 공동투자 건수가 10건인 집단(10 core 군집에만 속한 투자사)로 본엔젤스파트너스를 비롯한 팁스 운영사가 다수였으며, 얼리스테이지 투자 비중이 높았으며 최종 투자 단계는 시리즈 B 수준이 많아 많이 성장한 단계는 아님
- 3 core에 속한 투자 그룹의 평균 투자액이 많은데, 이는 IPO나 M&A가 많았기 때문이며, 이 그룹의 투자사는 미디어 스타트업 투자 건수가 대부분 1건으로 평소 관심 없다가 엑싯에만 참가한 것임
결론
- 한국산업은행, 팁스, 4차산업혁명위의 위원장이 창업자인 본엔젤스파트너스 등 정부 영향력이 미디어 스타트업 투자에 반영됨
- 정부 지원 아래 성장 사례가 많지 않은 미디어 스타트업 분야에서도 얼리스테이지 투자가 많이 이뤄지고 있는 것으로 보임
8 week: Technology of Platformless Media BlockchainDaemin Park
- The architecture of platformless media blockchain
- Wallet
- Micropayment
- Decentralized storage with big data system
- Decentralized identification
(국민대학교 소프트웨어융합대학원 블록체인 전공 <블록체인과 미디어> 2019년 여름학기 수업)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
- Governance issues in blockchain
- The cryptoeconomy of Steemit
- The governance issue of Steemit
(국민대학교 소프트웨어융합대학원 블록체인 전공 <블록체인과 미디어> 2019년 여름학기 수업)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
국민대 소프트웨어융합대학원 블록체인 전공 <블록체인과 미디어> 2019년 여름학기 수업
내용:
- 정보통치성 시대의 주체, 시간, 공간, 노동, 자본, 시장, 사회의 구성
- 사용자 떠나는 레거시 미디어
- 미디어 스타트업 생태계 맵과 투자 현황
- 미디어 스타트업의 수행
- 모드 내 독점과 모드 간 경쟁 상황과 여덟가지 변화
- 미디어 플랫폼의 대항품행과 미디어 블록체인의 등장
내용
- 어반플레이의 미디어 전략과 도시 OS 전략
- 아는동네 잡지, 네이버 협업, 연남장 및 연남방앗간 등 공간 구축, 재주상회와의 협업, VC 투자 유치 등
발표 개요
- 발표자: 홍주석 어반플레이 대표
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 로컬 크리에이터 일반 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: GS홈쇼핑, 명승은 벤처스퀘어 대표
내용
- 지역방송의 뉴미디어 전략 실행 사례 발표
- MBC 강원영동 X 더유니브의 유튜브 채널 '하우투' 운영
- '하우투'는 TV 특강 강연자 소스를 바탕으로 제작
발표 개요
- 발표자: 하현제 강원영동MBC PD
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 로컬 크리에이터 일반 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: GS홈쇼핑, 명승은 벤처스퀘어 대표
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
내용
- 영상 기반 미디어 블록체인의 메타데이터 표준안
발표 개요
- 발표자: 박춘원 미디어체인 대표
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 특별 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: 미디어체인
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
내용
- 트론과 비트토렌트의 블록체인 활용
- 블록체인 기반 P2P 콘텐츠 유통 시스템 제안
발표 개요
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 특별 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 발표자: 남현우 오딘네트워크 대표
- 후원: 미디어체인
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
내용
- 블록체인의 급진 자유주의적 성격
발표 개요
- 발표자: 유성훈 에피토미CL 창업자
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 특별 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: 미디어체인
내용
- 미디어 블록체인의 현황과 복잡계적 특성
- 카이스트 과학저널리즘 전공 석사 논문
발표 개요
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 일반 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 발표자: 김상호 강원영동MBC PD
- 후원: 소셜뉴스(위키트리)
- 누구의 발언에 어떤 사람들이 함께 찬반을 말하는가?
- 어떤 주제의 하위 주제는 무엇인가?
- 누가 무슨 주제에 관심이 있나?
- 뉴스 중심어 연결망의 정의
- 자동화된 방식으로 관련 의제, 관심 주제, 해당 주제의 전문가 찾기
- 뉴스 중심어 연결망 분석 실습
- Ucinet의 Netdraw를 활용한 시각화
2019년 1학기 한양대학교 <뉴스 빅데이터 기반 저널리즘 연구>
- 뉴스 정보원-주제 연결망의 정의
- 뉴스 정보원-주제 연결망의 2 mode 중앙성과 eigenvector 해석
- 자동화된 방식으로 전문가와 일반가 찾기
- 뉴스 정보원-주제 연결망 분석 실습
- NetMiner와 Ucinet의 Netdraw를 활용한 시각화
4. Computational Social Science
A “social supercollider”would combine multiple streams
of data about individual behavior and identity while
retaining the benefits of massive scale.
4
6. Centrality
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz
centrality of the same graph.
https://en.wikipedia.org/wiki/Centrality
6
19. 뉴스 NLP
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표
기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래
킹, 복합논증분석
형태소분석
구문분석
의미분석
담론분석
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
19
20. NLP 예시
형태소분석
예문) 초고속열차를 타보았다.
초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1)
초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)
예문) 그가 산 사과를 다시 샀다.
(((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1)
((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보
구문분석
예문) 그가 산 사과를 다시 샀다.
산: buy, live/alive, mountain
사과: apple, apology
의미분석
예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다.
<object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;
담론분석
SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)
20
21. 기존 뉴스 NLP 한계
형태소분석 성능 의미분석 여부
분석 단위
개체명 인식 성능
구문분석 범위
KrKwic 등 외국 형태소분석기에 바탕
을 둔 형태소분석기의 형태소분석 성능
문제
대용어 해소, 의미 중의성 해결 없이 빈
도와 중앙성을 계산할 때 과대/과소평
가 문제
언론학의 내용분석/비판적 담론분석의
연구 목적에 부합하는 중위 수준의 문
장 중심 분석 필요
인명, 장소, 기관, 외국어 한글표기 등
개체명 인식의 성능 문제와 재현율, 정
확도의 미표기
언어학적 관점의 완전 구문분석이 아닌
저널리즘 영역 지식을 활용한 최소한의
구문분석 필요
01 02 03
04 05
‘기업’, ‘지역’, ‘이노’, ‘육성’, ‘비즈’, ‘부산’, ‘중기청’, ‘울산’, ‘600’
부산•울산지방중소기업청은 2일 “최근 중국경제 부상 이후 중소기업이 원자재난과 인력난, 사회적 인식저하 등으로 침체위기를 겪고 있는 가운데 이를
극복하고 지역경제에 활력을 불어넣기 위해 부산•울산지역의 이노비즈 기업 600여 곳을 발굴해 집중 육성할 것”이라고 밝혔다.
출처: 2004년 8월 3일 조선일보 ‘기술혁신형 중소기업 육성’
21
22. News Semantic Network Service
차세대융합기술원(2013.12.). <빅데이터 기술을 활용하여 스마트 뉴스를 제공하는 모바일 앱 개발>. 서울: 한국정보화진흥원.
박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI
학회 논문지>, 9권 2호, 5-12.
- 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약
- 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시
- 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조
- 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
22
23. 뉴스 소스 베타 아키텍처
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
23
24. NER 성능
재현율, 87.4
50.9
75
정확도, 90.3 92.7 97.8
0
20
40
60
80
100
인명 기관 직함
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
24
25. 대용어 해소
‘성+직함’만 나온 경우 인용문으로부
터 앞으로 거슬러 올라가서 발견된
‘인명+기관+직함’ 중 ‘성+직함’이 일
치하는 경우 해당 인용문의 발화자인
개인실명정보원이다. 이 때 인용문의
‘성+직함’과 인용문 앞에서 발견된
‘성+이름+기관+직함’의 문자열에 대
해 SVM(support vector machine)
를 수행해 일치 여부를 확인한다.
형태소분석 결과 인용문의 주어가 인
칭대명사로 나타난 경우, 인용문으로
부터 앞으로 거슬러 올라가서 처음으
로 나타난 ‘인명+기관+직함’이 해당
인용문의 발화자인 개인실명정보원
이다.
인용문 내에서 ‘인명+기관+직
함’, 또는 ‘기관’의 개체명이 인
식된 경우, 해당 인용문의 발화
자는 인식된 개인실명정보원
또는 집단정보원이다.
NER 성+직함에 대한 SVM 인칭대명사 매칭
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
25
26. 의미 중의성 해결
같은 날짜에 이명동인, 즉 이름 소속
직함이 같은 서로 다른 두 사람은 존
재할 수 없다.
다른 날짜에 인명이 다른 경우 이름을
바꾸는 드문 경우가 아닌 한 동일인이
아니기 때문에 이름이 다르면 근사적
으로 다른 인물이다.
인명은 같지만 기관과 직함이 다르면
서도 실제로 동일인일 경우에도 조작
적으로 다른 정보원으로 정의한다.
. 예) ‘홍길동 XX그룹 회장’과 ‘OO당
국회의원 홍길동’은 설사 동일 인물일
지라도 다른 소속이기 때문에 다른 출
입기자가 담당을 맡아 서로 다른 주제
로 인용하는 기능적으로 다른 정보원
이다.
인명, 기관, 직함이 같은 정보
원은 근사적으로 동일 인물로
볼 수 있다.
- 단기적으로 다른 매체 다른
기사에 등장했어도 동일인
- 장기적으로도 동명이인 드묾
동명동인, 동명이인 이명이인 이명동인
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
26
27. 문장/기사 유사도
기사/문장에 대해 전체 기
사에 출현하는 n개의 단어
(명사, 수치, 동사)로 이루
어진 n차원 벡터 공간을 가
정한 뒤 각 기사/문장를 해
당 단어가 출현하는지 여부
에 따라 값을 부여한 단어
벡터로 나타낸다.
비교 대상인 두 기사의 단
어벡터 간 각도를 θ라고 할
때, 이 각도에 대한 코사인
값을 계산하여 유사도를 계
산한다. 임계값을 정하여
이 값을 넘으면 유사한 것
으로, 그렇지 않으면 유사
하지 않은 것으로 판정한다.
비교 대상 기사 전체에 등
장하는 횟수(IDF)에 비해
특정 기사에 등장하는 빈도
(TF)가 높다면 그 단어는
다른 단어에 비해 그 문서
를 더 많이 대표하므로 더
높은 가중치를 부여 받는다.
전체 기사 각각에 어떤 주요
단어, 즉 색인어가 있는지를
나타내는 색인 작업과, 각 색
인어가 어느 기사에 있는지,
즉 역색인 작업을 함께 수행
한다.
01
02
03
04
Inverted Indexing Vector Space Model TD-IDF Cosine Similarity
박대민(2016). 뉴스 기사의 자연어처리:
<뉴스소스 베타>를 중심으로. <커뮤니케이션
이론>, 12권 1호, 4-52.
27
28. 분류, 군집화
15개 카인즈 지면 분류를
정치/경제/사회(종합)/문
화/국제로 사상
기계학습(단순 베이지안),
75% 정확도
단어 유사도에 따라 기사
군집화
(유사 문장 여부로 수정 필
요)
개인 실명 정보원을 노드로
하고,
공기 여부에 따라 엣지를
부여한 뉴스 정보원 연결망
개체명 분류에 따른 문장 분
류
- 대분류: 인용문, 수치문,
기타문
- 인용문 다중 분류: 개인실
명/집단/익명
01
02
03
04
문장분류 기사분류 정보원연결망분석 기사 군집화
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
28
29. 순위화
규칙
- 정보원 순위에 따른 문장 순위
- 같은 소속 분류 정보원은 순위
하락
뉴스 기사 연결망 분석
-공동 정보원을 중심으로 연결
망 그린 뒤 연결정도 중앙성 계산
(유사 문장 기준으로 수정 필요)
규칙과 NSNA
- 개인실명>집단>익명
- NSNA: 개인실명정보원
내에서는 연결정도 중앙성
에 따른 순위
정보원 순위화 문장 순위화 기사 순위화
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
29
30. 뉴스 소스 베타 다운로드
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
30
31. 컴퓨터 보조 담론분석
박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문.
31
35. 결점(node)
개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제
결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합
연결선(edge)
기사 공동출현에 의한 관련도(relevance)
연결 강도를 정의
완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의
절대적 연결정도 중앙성 (degree centrality)
CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성
결점 속성
결점
연결선
순위화
News Semantic Network
박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
35
36. named entity
recognition
coreference
elimination
data cleansing
결점 속성 부여
강한 연결 표현
수작업 보정
Transpose
Diagonal
Dichotomize
Degree centrality
구조(scale free
network)
해석
01
02
03
04
Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization
수작업, Crawler, 계약
자료는 충분히 많아야 함
News Semantic Network Analysis
박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
36
39. Adjacent Matrix & Attribute Matrix
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
39
40. Biases by Bursts in Topics & Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성.
<커뮤니케이션 이론>, 10권 1호, 295-324.연결정도(x축)에 따른 연결정도지수(y축)의 추이연결정도(x축)와 정보원 수(y축) 간의 관계
40
42. News Source Network
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
39 Barack Obama
22 Jay Carney
15 Ban Kimoon
13 John Kerry
12 Victoria Nuland
10 Kim Hyunwook
10 Susan Rice
42
43. News Source Network: Four Major Rivers Project
한겨레동아
박대민(2015). 사실기사의 직접인용에 대한 이중의 타당성 문제의 검토: 동아일보와 한겨레신문의 4대강 추진 논란 기사에 대한 뉴스 정보원 연결망 및 인용문 분석. <한국언론학
보>, 59권 5호, 121-151.
43
51. Originality Algorithm Media & Originality Matrix
Originality = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)
박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서
울.
51
52. News Media Network
Media Uniqueness = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)
박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서
울.
검색어: 4대강
매체: 국민, 경향, 동아, 문화, 서울, 세계, 한겨레, 한국(<KINDS> 수록 8대 중앙지)
분석기간: 2008.11.28.-12.31., 2009.6.2.-7.30., 2009.11.13.-12.31.
자연어처리: <뉴스소스 베타>
52
58. 정치: 대변인 → 대통령
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
58
59. 1995년 세계일보 정치-박지원 대변인 2003년 서울신문 정치-노무현 대통령
정치: 1995 박지원 vs. 2003 노무현
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
59
60. 사회: 정치인 → 교육부
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
60
61. 2007년 경향신문 사회-교육부1994년 한겨레신문 사회-장석화 의원
사회: 1994 장석화 vs. 2007 교육부
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
61
62. 경제: 재정 금융 관료 vs. 재태크
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
62
65. 정치: 보수정당 → 미국
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
65
66. 1992년 한겨레신문 정치-민자당 2003년 국민일보 정치-미국
정치: 1992 민자당 vs. 2003 미국
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
66
67. 사회: 노동자 vs. 공무원
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
67
68. 2008년 한겨레신문 사회-노동자 2015년 세계일보 사회-메르스
사회: 2008 노동자, 2015 메르스
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
68
69. 경제: 미국, 중소기업 → 중국, 소비자
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
69
70. 2001년 동아일보 경제-미국 2015년 세계일보-중국
경제: 2001 미국 vs. 2015 중국
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
70
76. 방송 뉴스 빅데이터 분석
박대민, 오세욱(2016.4.). 방송 뉴스 빅데이터 분
석의 가능성. 봄철한국방송학회 정기학술대회.
76
77. Debating Machine
박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.
박대민(2015c). 토론 기계는 가능한가: 규칙 기반 뉴스 문장 연결망 분석 모형의 제안. 한국방송학회 가을철 정기학술대회. 단국대학교 죽전캠퍼스, 용인.
77