This research suggests news sentence network analysis algorithm based on similarity and cooccurence. News contains abundant arguments with facts and quotes those are critical to represent agendas. News sentence network is a semantic network which consists of quotes as nodes. Connectivity is defined by relevance between quotes. Relevance matrix is the sum of similarity matrix calculated by cosine similarity algorithm and cooccurence matrix. This study analyzed 949 quotes from 405 news articles and visualized networks. The results verified that semantic paths were well defined to show the sequence of sub-agendas. News semantic network analysis algorithm can provide a methodology to automatically generate a massive corpus in a sentence level as a training set to develop a debating machine.
News Semantic Network Analysis of Named EntitiesDaemin Park
News Semantic Network Analysis of Named Entities
- named entity recognition: person, organization from news
- tagging topics manually per sentences or articles
- semantic network analysis between persons and organizations
개체명 중심 뉴스 의미 연결망 분석
- 뉴스에서 인명, 기관명을 개체명 인식을 통해 추출
- 주제 태그를 부착
- 사람, 기관, 주제 간의 연결망 분석
- 단어 의미 연결망 한계 극복
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
News Semantic Network Analysis of Named EntitiesDaemin Park
News Semantic Network Analysis of Named Entities
- named entity recognition: person, organization from news
- tagging topics manually per sentences or articles
- semantic network analysis between persons and organizations
개체명 중심 뉴스 의미 연결망 분석
- 뉴스에서 인명, 기관명을 개체명 인식을 통해 추출
- 주제 태그를 부착
- 사람, 기관, 주제 간의 연결망 분석
- 단어 의미 연결망 한계 극복
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
뉴스 빅데이터 분석 연구들은 첫째, 뉴스 정보원 연결망과 뉴스 인용문 주제 연결망이 두터운 꼬리 분포를 갖는다는 점을 고려할 때 시간 압박이 있고 인용을 중요한 사실성 관행으로 사용하는 객관주의 저널리즘 관행 아래 정보원 인용이나 주제 선정에서 편향성은 사회물리학적으로 필연적인 현상임을 시사한다. 둘째, 다양한 매체 이용의 빈도가 멱함수 분포임을 고려하면 특정 매체를 훨씬 더 많이 보고, 특정 기사에 댓글 작성 등 참여를 훨씬 더 많이 여론독과점 역시 필연적 현상임을 보여준다. 즉 충분히 많은 매체와 매체 이용이 있을 경우, 기존의 여론독과점 매체를 보게 하지 않더라도 다른 매체를 중심으로 여론독과점이 재형성될 가능성이 높다. 셋째, 최상위권 정보원과 인용문 주제를 시계열로 비교할 때 매체 간 차이는 크지 않으며 단지 시계열 상의 패러다임 변화만 발견된다. 넷째, 순위를 고려한 매체 간 유사도를 따져볼 때, 매체 간 차이는 상위권 안에서는 오히려 줄어들며, 중상위권에서도 크지 않다. 다섯째, 매체 간 차이는 기사량 자체, 즉 연결망의 크기(size)와 두터운 꼬리에 해당하는 하위권 정보원과 주제에서 나타난다. 뉴스 빅데이터 기반 매체 간 비교 연구 성과는 최소한 동종 매체 간에 동조화된 파편화가 나타난다.
온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법 Sun-young Kim
오늘날 웹 상의 SNS나 블로그, 커뮤니티를 통해 사람들은 자신의 다양한 관심사와 취향을 드러낸다. 과거에는 데이터의 규모에 비해 부족한 데이터 처리 능력으로 인해 웹 상의 자료에 대한 분석이 충분히 이루어지지 못 했 으나 대용량 데이터 처리 기술과 인프라의 발전으로 기업이나 정부 등 많은 조직들이 데이터 분석을 수행하여 의사 결정에 필요한 핵심 정보를 얻고 있다. 본 논문은 기존에 연구가 활발하게 이루어진 SNS에서의 사용자 분 석이 아닌 온라인 커뮤니티에서의 내부 커뮤니티 탐지 기법을 제안한다. 사용자간의 관계가 명확하게 정해진 SNS와 달리 커뮤니티에서의 사용자 관계를 그래프 기반과 컨텐츠 기반의 두 가지 기법으로 분석함으로써 보다 정확한 커뮤니티 탐지 결과를 얻을 수 있다. 기법의 검증을 위해 국내 커뮤니티 사이트의 데이터를 대상으로 실 험을 수행하였으며 실험 결과 사용자들의 관계 및 게시글 성향에 따라 사용자들의 군집을 분류하는데 성공하였 음을 실험으로 보인다.
Debating Machine: Rule Based News Sentence Network AnalysisDaemin Park
Debating Machine: Rule Based News Sentence Network Analysis
- sentence level of analysis
- relevance matrix constructed by cooccurence and quoted sources info
- sentence level ranking
- defining sentence network, sentence distance, and semantic path(semantic diameter, summarized path, and extended path)
- methodology to automatically build corpus with relevance information among news sentences, which contain a lot of political, economic, cultural, and social agendas based on simple rules
토론기계: 규칙 기반 뉴스 문장 의미연결망 분석
- 단어(명사 중심)이 아닌 문장 수준의 분석 시도
- 기사공동출현과 인접기간 동일정보원 발언을 바탕으로 관련도 행렬 구성
- 문장 단위의 순위화, 문장 중심 연결망, 의미거리, 의미경로(지름, 축약경로, 확장경로)를 정의
- 정치, 경제, 사회, 문화, 국제 등 다양한 주제를 담은 뉴스 기사를 이용해 토론기계가 학습할 문장 간 관계 정보를 담은 말뭉치를 대규모로 자동으로 구축
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
뉴스 빅데이터 분석 연구들은 첫째, 뉴스 정보원 연결망과 뉴스 인용문 주제 연결망이 두터운 꼬리 분포를 갖는다는 점을 고려할 때 시간 압박이 있고 인용을 중요한 사실성 관행으로 사용하는 객관주의 저널리즘 관행 아래 정보원 인용이나 주제 선정에서 편향성은 사회물리학적으로 필연적인 현상임을 시사한다. 둘째, 다양한 매체 이용의 빈도가 멱함수 분포임을 고려하면 특정 매체를 훨씬 더 많이 보고, 특정 기사에 댓글 작성 등 참여를 훨씬 더 많이 여론독과점 역시 필연적 현상임을 보여준다. 즉 충분히 많은 매체와 매체 이용이 있을 경우, 기존의 여론독과점 매체를 보게 하지 않더라도 다른 매체를 중심으로 여론독과점이 재형성될 가능성이 높다. 셋째, 최상위권 정보원과 인용문 주제를 시계열로 비교할 때 매체 간 차이는 크지 않으며 단지 시계열 상의 패러다임 변화만 발견된다. 넷째, 순위를 고려한 매체 간 유사도를 따져볼 때, 매체 간 차이는 상위권 안에서는 오히려 줄어들며, 중상위권에서도 크지 않다. 다섯째, 매체 간 차이는 기사량 자체, 즉 연결망의 크기(size)와 두터운 꼬리에 해당하는 하위권 정보원과 주제에서 나타난다. 뉴스 빅데이터 기반 매체 간 비교 연구 성과는 최소한 동종 매체 간에 동조화된 파편화가 나타난다.
온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법 Sun-young Kim
오늘날 웹 상의 SNS나 블로그, 커뮤니티를 통해 사람들은 자신의 다양한 관심사와 취향을 드러낸다. 과거에는 데이터의 규모에 비해 부족한 데이터 처리 능력으로 인해 웹 상의 자료에 대한 분석이 충분히 이루어지지 못 했 으나 대용량 데이터 처리 기술과 인프라의 발전으로 기업이나 정부 등 많은 조직들이 데이터 분석을 수행하여 의사 결정에 필요한 핵심 정보를 얻고 있다. 본 논문은 기존에 연구가 활발하게 이루어진 SNS에서의 사용자 분 석이 아닌 온라인 커뮤니티에서의 내부 커뮤니티 탐지 기법을 제안한다. 사용자간의 관계가 명확하게 정해진 SNS와 달리 커뮤니티에서의 사용자 관계를 그래프 기반과 컨텐츠 기반의 두 가지 기법으로 분석함으로써 보다 정확한 커뮤니티 탐지 결과를 얻을 수 있다. 기법의 검증을 위해 국내 커뮤니티 사이트의 데이터를 대상으로 실 험을 수행하였으며 실험 결과 사용자들의 관계 및 게시글 성향에 따라 사용자들의 군집을 분류하는데 성공하였 음을 실험으로 보인다.
Debating Machine: Rule Based News Sentence Network AnalysisDaemin Park
Debating Machine: Rule Based News Sentence Network Analysis
- sentence level of analysis
- relevance matrix constructed by cooccurence and quoted sources info
- sentence level ranking
- defining sentence network, sentence distance, and semantic path(semantic diameter, summarized path, and extended path)
- methodology to automatically build corpus with relevance information among news sentences, which contain a lot of political, economic, cultural, and social agendas based on simple rules
토론기계: 규칙 기반 뉴스 문장 의미연결망 분석
- 단어(명사 중심)이 아닌 문장 수준의 분석 시도
- 기사공동출현과 인접기간 동일정보원 발언을 바탕으로 관련도 행렬 구성
- 문장 단위의 순위화, 문장 중심 연결망, 의미거리, 의미경로(지름, 축약경로, 확장경로)를 정의
- 정치, 경제, 사회, 문화, 국제 등 다양한 주제를 담은 뉴스 기사를 이용해 토론기계가 학습할 문장 간 관계 정보를 담은 말뭉치를 대규모로 자동으로 구축
URI와 RDF에 기반한 분산 데이터의 연계는 기본적으로 그래프 구조를 가지게 된다. 최근에는 RDF 그래프의 생성과 질의 뿐 아니라, 그래프 마이닝에 대해 많은 관심과연구가 진행되고 있다. 본 발표에서는 소셜 네트워크를 RDF 그래프로 표현하고, 이를 마이닝, 추론 함으로, 어떻게 대용량 소셜 네트워크를 효과적 분석할 수있는지 설명한다. 특히, 휴대전화 통화에 기반한 모바일 소셜 네트워크와 e-mail 지식 네트워크 분석이 시맨틱 웹 표준하에 어떻게 구현 가능한지 그 사례 소개와시연을 보인다.
- K-core 분석을 통한 한국 미디어 스타트업의 투자 연결망 분석
- 2006-2019년 미디어 스타트업 299개, 307개 투자사의 공동 투자 관계 분석
- 투자연결망은 투자자를 노드로, 동일 스타트업 공동 투자여부를 엣지 정보로 하는 연결망
- 기술통계로 보면 비공개 제외 투자 규모는 1.36조원에 달했으며 시리즈 B단계까지 투자 받은 곳이 많았고 시리즈 C 단계에서 M&A가 이뤄짐
- 네이버의 투자를 받은 캠프모바일이나 스노우와 광고 마케팅 쪽의 누적 투자액 규모가 컸으며 그 외 200억 이상 누적 투자액인 곳으로는 레진엔터, 얍컴퍼니, 메이크어스, 마이쿤, 왓챠, 문피아 등
- 분석결과 공동투자를 가장 많이 한 집단에서는 한국산업은행 투자시 공동투자하는 경우가 많았음
- 가장 많은 투자 집단이 모인 군집은 공동투자 건수가 10건인 집단(10 core 군집에만 속한 투자사)로 본엔젤스파트너스를 비롯한 팁스 운영사가 다수였으며, 얼리스테이지 투자 비중이 높았으며 최종 투자 단계는 시리즈 B 수준이 많아 많이 성장한 단계는 아님
- 3 core에 속한 투자 그룹의 평균 투자액이 많은데, 이는 IPO나 M&A가 많았기 때문이며, 이 그룹의 투자사는 미디어 스타트업 투자 건수가 대부분 1건으로 평소 관심 없다가 엑싯에만 참가한 것임
결론
- 한국산업은행, 팁스, 4차산업혁명위의 위원장이 창업자인 본엔젤스파트너스 등 정부 영향력이 미디어 스타트업 투자에 반영됨
- 정부 지원 아래 성장 사례가 많지 않은 미디어 스타트업 분야에서도 얼리스테이지 투자가 많이 이뤄지고 있는 것으로 보임
8 week: Technology of Platformless Media BlockchainDaemin Park
- The architecture of platformless media blockchain
- Wallet
- Micropayment
- Decentralized storage with big data system
- Decentralized identification
(국민대학교 소프트웨어융합대학원 블록체인 전공 <블록체인과 미디어> 2019년 여름학기 수업)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
- Governance issues in blockchain
- The cryptoeconomy of Steemit
- The governance issue of Steemit
(국민대학교 소프트웨어융합대학원 블록체인 전공 <블록체인과 미디어> 2019년 여름학기 수업)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
국민대 소프트웨어융합대학원 블록체인 전공 <블록체인과 미디어> 2019년 여름학기 수업
내용:
- 정보통치성 시대의 주체, 시간, 공간, 노동, 자본, 시장, 사회의 구성
- 사용자 떠나는 레거시 미디어
- 미디어 스타트업 생태계 맵과 투자 현황
- 미디어 스타트업의 수행
- 모드 내 독점과 모드 간 경쟁 상황과 여덟가지 변화
- 미디어 플랫폼의 대항품행과 미디어 블록체인의 등장
내용
- 어반플레이의 미디어 전략과 도시 OS 전략
- 아는동네 잡지, 네이버 협업, 연남장 및 연남방앗간 등 공간 구축, 재주상회와의 협업, VC 투자 유치 등
발표 개요
- 발표자: 홍주석 어반플레이 대표
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 로컬 크리에이터 일반 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: GS홈쇼핑, 명승은 벤처스퀘어 대표
내용
- 지역방송의 뉴미디어 전략 실행 사례 발표
- MBC 강원영동 X 더유니브의 유튜브 채널 '하우투' 운영
- '하우투'는 TV 특강 강연자 소스를 바탕으로 제작
발표 개요
- 발표자: 하현제 강원영동MBC PD
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 로컬 크리에이터 일반 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: GS홈쇼핑, 명승은 벤처스퀘어 대표
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
내용
- 영상 기반 미디어 블록체인의 메타데이터 표준안
발표 개요
- 발표자: 박춘원 미디어체인 대표
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 특별 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: 미디어체인
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
내용
- 트론과 비트토렌트의 블록체인 활용
- 블록체인 기반 P2P 콘텐츠 유통 시스템 제안
발표 개요
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 특별 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 발표자: 남현우 오딘네트워크 대표
- 후원: 미디어체인
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
내용
- 블록체인의 급진 자유주의적 성격
발표 개요
- 발표자: 유성훈 에피토미CL 창업자
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 특별 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 후원: 미디어체인
내용
- 미디어 블록체인의 현황과 복잡계적 특성
- 카이스트 과학저널리즘 전공 석사 논문
발표 개요
- 장소: 광주 아시아문화전당
- 일시: 5월 18일
- 학회명: 한국언론학회 봄철 정기학술대회
- 세션: 미디어 블록체인 일반 세션
- 주최: 미디어 블록체인 & 스타트업 연구회
- 발표자: 김상호 강원영동MBC PD
- 후원: 소셜뉴스(위키트리)
- 누구의 발언에 어떤 사람들이 함께 찬반을 말하는가?
- 어떤 주제의 하위 주제는 무엇인가?
- 누가 무슨 주제에 관심이 있나?
- 뉴스 중심어 연결망의 정의
- 자동화된 방식으로 관련 의제, 관심 주제, 해당 주제의 전문가 찾기
- 뉴스 중심어 연결망 분석 실습
- Ucinet의 Netdraw를 활용한 시각화
2019년 1학기 한양대학교 <뉴스 빅데이터 기반 저널리즘 연구>
- 뉴스 정보원-주제 연결망의 정의
- 뉴스 정보원-주제 연결망의 2 mode 중앙성과 eigenvector 해석
- 자동화된 방식으로 전문가와 일반가 찾기
- 뉴스 정보원-주제 연결망 분석 실습
- NetMiner와 Ucinet의 Netdraw를 활용한 시각화
9. 뉴스의미연결망 분석에 대한 기존 연구
뉴스 문장연결망 분석 모형
분석사례: 2011년 ‘분단’ 기사
목차
토론기계를 향하여
: 유사도와 공동출현에 기초한
뉴스 문장 연결망 분석 알고리즘 제안
9
10. 뉴스 문장 연결망의 미션
의미연결망에서 두 결점 간 맨하튼 거리
의미거리 0: 동일한 문장, 의미거리 1: 기사 공동출현 인용문 또는 유사 인용문
의미거리 2 이상: 간접 연결된 인용문
‘첫째, 둘째, 셋째,…’
주요경로 (파당 간의 겹침 최소화, 대주제 중심 ), 지름(가장 긴 주요경로)
확장경로(특정 파당의 문장을 추가, 세부 내용추가)
주요문장
의미거리
의미경로
-주요경로
의미경로
-확장경로
10
소위 ‘야마’
뉴스 문장 연결망에서 연결정도중앙성이 가장 높은 문장
11. 담론분석에 활용
쟁점 중심
전체연결망, 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토
관련성 중심
가장 중요한 문장에서 의미거리가 문장연결망의 일정 범위 이내인 모든 문장을 검토
특정 문장과 의미거리 2 이내는 배열에 크게 구애 받지 않고 관련될 것으로 추정
주요경로 분석: 다양성 중심, 최단경로 상의 문장 분석
확장경로 분석: 주요경로 상의 한 문장에서 시작하는 파당 상의 문장을 살펴봄
주요 문장 추이, 주요 문장의 자아연결망 추이, 주요 경로 추이, 확장 경로 검토
주요문장 분석
자아연결망
분석
주요경로 분석
및
확장경로 분석
시계열분석
11
15. 뉴스의미연결망 분석에 대한 기존 연구
뉴스 문장연결망 분석 모형
분석사례: 2011년 ‘분단’ 기사
목차
토론기계를 향하여
: 유사도와 공동출현에 기초한
뉴스 문장 연결망 분석 알고리즘 제안
15
16. 분석방법
검색어: ‘분단’
분석매체: 경향신문, 국민일보, 문화일보, 서울신문, 세계일보, 한겨레,
한국일보, 동아일보
분석기간: 20011년 1월 1일-2011년 12월 31일
수집데이터: 기사 수 405건, 인용문 949개(중복 포함)
분석데이터: 기사ID, 인용문ID, 날짜, 매체명
데이터 수집: 뉴스소스 베타
형태소분석(명사 추출): KKMA
유사도 계산: NETMINER
분포: EXCEL
연결망분석: NETMINER, UCINET
시각화: NETDRAW
16
17. NewsSource Beta
17
- 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약
- 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시
- 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조
- 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공
24. 한계 및 제언
기대효과
-뉴스는 정치, 경제, 사회, 문화, 국제 등 모든 중요
한 사회 주제를 정제된 방식으로 기술함
- 문장 수준의 연결 정보를 담은 말뭉치를 대규모로
구축하여 추후 학습집합으로 활용
- 토론 가능한 강한 인공지능 개발에 기여 기대 (담
론분석 기능)
01 02 추가연구
-정보원 정보에 기초한 규칙 정보 추가
-정확한 분포 파악 (연결정도계수 값 계산)
- 유사도 절삭값 최적화
- 최종 결과물에서 중복 제거
- 다른 유형의 문장에 적용(규칙이 없으므로 가능)
- 개발된 NLP엔진과 연계
- 추가로 새로운 검색엔진, CMS와 연계
24
기존의 의미연결망 분석은 단어 연결망 분석이 주를 이뤘습니다.
이는 텍스트를 미시 수준에서만 분석한다는 것을 의미합니다.
저는 연구 목적에 따라 최적화된, 다양한 수준의 분석이 필요하다고 생각했습니다.
그래서 저는 단어 수준에서 특화된 개체명 수준의 분석, 문장 수준의 분석, 그리고 매체 수준의 분석을 제안하고
이를 저널리즘 관행 측면에서 해석해보았습니다.
그럼 수준별로 대표적인 연결망을 하나씩만 설명하겠습니다.
검색어: 청년, 대학생, 청소년, 청춘
매체: 한국일보, 서울신문, 동아일보, 문화일보, 한겨레, 국민일보, 세계일보, 경향신문
기간: 200501-12
기사 수 797개, 인용문수: 872개
순위화: 주제 의미 연결망의 연결정도 중앙성
2005년 vs 2015년
2지역 고유벡터(2-local eigenvector) 활용 결점 시각화
망언 인사 유형: 아베 유형(3개 이상의 주제에 대해 언급), 하시모토 유형(1개 주제만 언급)
- 아베 유형: 아베 신조 총리, 아소 다로(총리, 부총리, 외무상, 관방상, 총무상, 자민당 간사장, 자민당 정조회장 등 포함 총 90건), 이시하라 신타로 도쿄 도지사(일본유신회 공동대표, 차세대당 고문 등 포함 총 27건), 스가 요시히데 관방상(26건), 노다 요시히코 총리(26건) 등
- 하시모토 유형(위안부): 모미이 가츠토 NHK 회장(18건), 니시무라 신고 중의원 의원(17건)
하시모토 유형(과거사): 구보타 간이치로 전 한일회담 일본측 수석대표(15건)
더 많은 사람이 참여한 주제가 더 중요하다고 할 때 주제 중요도
과거사(43명), 위안부(34명), 독도(30명), 야스쿠니(15명) 순
(1) 의미거리와 관련도
의미거리는 사회연결망의 사회거리(social distance)와 마찬가지로 유클리디안 거리(Euclidean distance)가 아니라 맨하튼 거리(Manhattan distance)이다.
즉 의미연결망에서 거리는 두 결점 간 최단경로로 연결선의 길이는 중요하지 않고, 한 결점을 거칠 때마다 늘어난다.
의미거리 0은 동일한 문장, 의미거리 1은 기사 공동출현 인용문 또는 동일 정보원 발언, 의미거리 2 이상은 간접 연결된 인용문을 뜻한다.
잘 정의된 의미거리라면 의미거리가 짧은 문장 간의 관련도는 분명하게, 긴 문장 간의 관련도는 모호하게 느껴져야 한다.
관련도=1/의미거리
의미거리는 인접한 문장의 관련도가 멀리 떨어진 문장의 관련도보다 크다는 것을 의미한다. 그러나 실제로는 의미거리의 차이가 1이나 2 정도인 문장 간의 의미론적 차이는 크게 느껴지지 않을 수 있다.
사회연결망분석의 3단계 규칙에 따르면 사회거리 3 이내는 영향력을 주고 받는다(Christakis & Fowler, 2009/2010). 의미연결망에서도 마찬가지로 한 문장과 특정 범위 이내의 의미거리에 있는 자아연결망(ego network) 내 문장은 어떻게 배열되는 상관없이 서로 자연스럽게 관련될 수도 있다.
그럼에도 불구하고 한 문장과 같은 구성집단에 속하기는 하지만 먼 거리에 있는 문장, 또는 아예 다른 구성집단에 있는 문장과의 관련도는 낮아질 것이다. 따라서 먼 거리의 문장을 포함해 문장을 나열할 경우 관련도에 따르는 것이 타당할 수 있다.
(2) 의미경로
의미거리는 문장을 제시할 때 순위 이상으로 의미경로(semantic path)를 우선적으로 고려해야 한다는 점을 시사한다.
(4) 문장의 층위
뉴스 문장연결망 분석을 통해 인용문에 대해 순위와 경로를 부여할 수 있다. 그리고 순위화와 의미경로를 통해 인용문에 의미론적 층위를 부여할 수 있다.
먼저 순위화 측면에서 전체연결망 또는 구성집단별로 가장 중요한 문장이 있을 수 있다. 다음으로 의미경로 측면에서 각 구성집단별로 주요 문장에서 시작하는 의미경로가 있을 수 있다. 이 때 의미경로는 두 문장을 잇는 최단경로(shortest path)와 최단경로 상의 어느 한 문장에서 시작해 파당(clique)를 순환하는 경로를 추가한 경로가 있을 수 있다. 최단경로는 같은 구성집단에 있는 모든 문장 간에 계산할 수 있다. 최단경로를 축약경로(reduced path), 순환경로에서 파당을 순환하는 경로가 추가된 경로를 확장경로(extended path)라고 명명하자. 축약경로 상의 한 문장에서 시작하여 하나의 파당을 일순하면, 그 문장과 함께 거론된 기사 또는 그 인용문의 발언자가 말한 인용문을 보다 심층적으로 검토할 수 있게 된다.
사회연결망분석에서와 마찬가지로 가장 긴 최단경로를 지름(diameter)이라 한다. 지름인 의견경로는 해당 구성집단에서 가장 많은 파당(clique)를 지나게 된다. 즉 가능한 많은 기사와 정보원을 최단거리로 잇게 된다. 즉 지름인 의미경로 상의 문장들을 선별함으로써 가장 다양한 내용의 인용문들을 중복 없이 추출할 수 있다.
가장 중요한 문장, 최단경로, 확장경로는 뉴스 문장연결망에서 문장 간 위계를 나타낸다. 가장 중요한 문장은 최상위 주제를 담는다. 다음으로 최단경로상의 문장들은 각 파당을 대표하는 차상위 주제를 표현한다. 끝으로 최단경로상의 문장과 연결된 파당에 속하는 문장은 차상위 주제로부터 파생된 구체적인 하위 주제를 나타낸다.
첫째, 논쟁성에 초점을 두고 전체연결망, 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토하는 방식이다.
둘째, 관련성에 초점을 두고 가장 중요한 문장에서 의미거리가 문장연결망의 일정 범위 이내인 모든 문장을 검토할 수 있다. 보통 사회연결망 분석에서 거리 2 이내인 자아연결망 분석을 수행할 수 있을 것이다. 다만 자아는 행위자가 아니라 문장이다.
셋째, 다양성에 초점을 두고 최단경로 상의 문장을 분석하는 방식을 생각할 수 있다. 이 때 최단경로는 모든 문장에 있고, 한 문장의 최단경로도 여럿 있을 수 있으므로, 가장 중요한 문장에서 시작되는 최단경로, 또는 지름인 최단경로를 우선 분석하는 것이 효과적이다. 이를 주요경로(primary path)라고 부르자.
넷째, 심층성에 초점을 두고 특정한 한 문장에서 시작하는 확장경로를 살펴볼 수 있다.
시계열 분석도 가능하다. 먼저 가장 중요한 문장의 추이를 살펴본다. 다음으로 주요 경로나 자아연결망에 속한 문장의 추이를 분석한다. 연구목적에 따라서는 확장경로 상의 문장을 심층적으로 살펴볼 수도 있다.
이를 주 단위나 월, 분기, 반기, 연 단위로 분석할 수도 있을 것이다.
방법- 기사를 문장분할(sentence separation)한 뒤, 인용문만 추출하고 대용어 해소(coreference resolution)해 발언자를 찾아줌- 인용문을 기사공동출현(cooccurrence)와 명사 기준 벡터화한 문장 간 유사도(cosine similarity)에 따라 연결을 부여이 때 기사공동출현행렬과 유사도행렬은 척도(scale)가 달라 곧바로 행렬연산이 안 되므로 유사도를 절삭값에 따라 binary로 변환한 뒤 합산
첫째, 논쟁성에 초점을 두고 전체연결망, 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토하는 방식이다.
둘째, 관련성에 초점을 두고 가장 중요한 문장에서 의미거리가 사회연결망과 달리 문장연결망의 일정 범위 이내인 모든 문장을 검토할 수 있다. 보통 사회연결망 분석에서 거리 2 이내인 자아연결망 분석을 수행할 수 있을 것이다. 다만 자아는 행위자가 아니라 문장이다.
셋째, 다양성에 초점을 두고 최단경로 상의 문장을 분석하는 방식을 생각할 수 있다. 이 때 최단경로는 모든 문장에 있고, 한 문장의 최단경로도 여럿 있을 수 있으므로, 가장 중요한 문장에서 시작되는 최단경로, 또는 지름인 최단경로를 우선 분석하는 것이 효과적이다. 이를 주요경로(primary path)라고 부르자.
넷째, 심층성에 초점을 두고 특정한 한 문장에서 시작하는 확장경로를 살펴볼 수 있다.
시계열 분석도 가능하다. 먼저 가장 중요한 문장의 추이를 살펴본다. 다음으로 주요 경로나 자아연결망에 속한 문장의 추이를 분석한다. 연구목적에 따라서는 확장경로 상의 문장을 심층적으로 살펴볼 수도 있다. 문장연결망에서 정보원 매개 관련도를 산출하는 인접기간 기준이 2일이므로 시계열 분석기간의 최소 단위는 2일이 된다. 이를 주 단위나 월, 분기, 반기, 연 단위로 분석할 수도 있을 것이다.
- 기사를 문장분할(sentence separation)한 뒤, 인용문만 추출하고 대용어 해소(coreference resolution)해 발언자를 찾아줌- 인용문을 기사공동출현(cooccurrence)와 명사 기준 벡터화한 문장 간 유사도(cosine similarity)에 따라 연결을 부여이 때 기사공동출현행렬과 유사도행렬은 척도(scale)가 달라 곧바로 행렬연산이 안 되므로 유사도를 절삭값에 따라 binary로 변환한 뒤 합산
저는 2013년에 뉴스 정보원 연결망 분석을 바탕으로 자연어처리와 빅데이터 기술을 접목한
컴퓨터 보조 질적 자료 분석 소프트웨어(CAQDAS, Computer Assisted Qualitative Data Analysis Software)인 <뉴스소스 베타>를 기획하여
약 20명에 달하는 학부생과 대학원생, 교수님과 함께 개발했습니다.
<뉴스소스 베타>는 카인즈 아카이브에 저장된 1990년 이후 2012년까지 약 3000만 건 기사에 대해 자연어처리를 해놨으며
검색에 따른 뉴스 정보원 연결망 분석 및 시각화, 기사의 자연어처리 결과와 메타데이터의 엑셀파일 다운로드 기능을 제공합니다.
************************
DB는 빅데이터 DBMS인 하둡과 RDB가 혼용된 형태입니다.
서로 관련된 문장인지를 결정하는 절삭 값은 엄밀히 말해 수학적 모형이나 타당한 영역지식에 기초해 도출돼야 한다.
하지만 이 연구에서는 일단 편의상 0.5로 잡는다. 즉 유사도 값이 0.5가 넘으면 관련된 문장으로 연결을 부여한다.
두 인용문은 명사가 하나라도 겹치면 부분적이라도 관계가 있다고 볼 수도 있다.
즉 ‘유사도>0’이면 관련된다고 볼 수도 있다.
때문에 유사도 절삭 값을 0.5로 하는 것은 비교적 높은 유사도 수준만을 관련도로 변환한다는 것을 의미한다.
유사도에 따른 군집화 경향은 낮은 편이지만, 없지는 않다. 분석자료의 경우 949개의 문장 중 141개의 문장이 유사도로 묶였다. 한 기사에 유사한 인용문이 함께 제시되는 경우는 오류를 제외하면 거의 없다. 따라서 유사도에 의한 군집화는 서로 다른 기사 간의 군집화를 유도함으로써 기사공동출현을 적절히 보완한다고 볼 수 있다.
최종적으로 유사도와 기사공동출현 정보를 합한 뉴스문장연결망은 <그림 8>와 같다.
<그림 9>는 35개 문장으로 구성된 최대의 구성집단을 시각화한 것이다.
지름(diameter)은 5이다.
지름 상에 위치한 주요의미경로의 예로 문장 533에서 시작하여 550-561-568-55를 거쳐 문장 419로 이어지는 경우를 살펴보자.
문장 55-419, 553-550은 기사공동출현에 의해, 568-55, 561-568, 550-561은 유사도에 의해 연결됐다.
<표 1>은 주요의미경로상의 문장과 이와 직접 연결된 문장 418, 925, 563, 552 등을 나타낸 것이다. 문장 563은 문장 561과 유사한 문장이며, 나머지는 기사공동출현에 의해 확장경로 상에서 연결된다. 내용을 살펴보면, 분단 관련 하위 의제로서 독일과의 비교, 통일, 대한민국 정체성, 국가 브랜드 순으로 인용문들이 연쇄적으로 연결되는 것을 확인할 수 있다.
- 뉴스는 정치, 경제, 사회, 문화, 국제 등 모든 중요한 사회 주제를 정제된 방식으로 기술함- 문장 수준의 연결 정보를 담은 말뭉치를 대규모로 구축하여 추후 학습집합으로 활용- 토론 가능한 강한 인공지능 개발에 기여 기대