Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

토론기계를 향하여
: 유사도와 공동출현에 기초한
뉴스 문장 연결망 분석 알고리즘 제안
박 대 민
한국언론진흥재단
선임연구위원
1

뉴스의미연결망 분석에 대한 기존 연구
뉴스문장연결망 분석모형
분석사례: 2011년 ‘분단’ 기사
목차
2

5
News Source Network: Four Major Rivers Project
한겨레동아

6
News Comment Topic Ego Network: Youth Unemployment

News Source-Commnent Topic Network: Thoughtless Comments
7

8
News Organization-Comment Topic Network: Youth

뉴스 문장연결망 분석 모형
목차
9

뉴스 문장 연결망의 미션
의미연결망에서 두 결점 간 맨하튼 거리
의미거리 0: 동일한 문장, 의미거리 1: 기사 공동출현 인용문 또는 유사 인용문
의미거리 2 이상: 간접 연결된 인용문
‘첫째, 둘째, 셋째,…’
주요경로 (파당 간의 겹침 최소화, 대주제 중심 ), 지름(가장 긴 주요경로)
확장경로(특정 파당의 문장을 추가, 세부 내용추가)
주요문장
의미거리
의미경로
-주요경로
의미경로
-확장경로
10
소위 ‘야마’
뉴스 문장 연결망에서 연결정도중앙성이 가장 높은 문장

담론분석에 활용
쟁점 중심
전체연결망, 또는 각 구성집단에서 연결정도중앙성이 높은 상위 문장을 검토
관련성 중심
가장 중요한 문장에서 의미거리가 문장연결망의 일정 범위 이내인 모든 문장을 검토
특정 문장과 의미거리 2 이내는 배열에 크게 구애 받지 않고 관련될 것으로 추정
주요경로 분석: 다양성 중심, 최단경로 상의 문장 분석
확장경로 분석: 주요경로 상의 한 문장에서 시작하는 파당 상의 문장을 살펴봄
주요 문장 추이, 주요 문장의 자아연결망 추이, 주요 경로 추이, 확장 경로 검토
주요문장 분석
자아연결망
분석
주요경로 분석
및
확장경로 분석
시계열분석
11

기사공동출현행렬
12
QA: 기사공동출현행렬
q1
q2 q3
a1
q4
q5
a2

유사도 행렬
13
q1
q2 q3
a1
q4
q5
a2
QS: 유사도 행렬
QS ′ : 절삭된 유사도 행렬

문장연결망의 행렬
14
QS ′ : 절삭된 유사도 행렬
QA+QS′=Q
Q: 문장연결망QA: 기사공동출현행렬
+ =

뉴스 문장연결망 분석 모형
목차
15

분석방법
검색어: ‘분단’
분석매체: 경향신문, 국민일보, 문화일보, 서울신문, 세계일보, 한겨레,
한국일보, 동아일보
분석기간: 20011년 1월 1일-2011년 12월 31일
수집데이터: 기사 수 405건, 인용문 949개(중복 포함)
분석데이터: 기사ID, 인용문ID, 날짜, 매체명
데이터 수집: 뉴스소스 베타
형태소분석(명사 추출): KKMA
유사도 계산: NETMINER
분포: EXCEL
연결망분석: NETMINER, UCINET
시각화: NETDRAW
16

NewsSource Beta
17
- 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약
- 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시
- 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조
- 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공

기사공동출현 기준 문장연결망
18

유사도 분포
19
임의 추출 100개 인용문의 유사도 분포
- 대부분 0.2 이하
- 949개 인용문 중에선 유사도 0인 문장쌍이 14.8%
- 유사도 1(완전 일치)하는 소수의 문장쌍도 존재

유사도 기준 문장연결망
20

분단 관련 뉴스문장연결망
21

한계 및 제언
기대효과
-뉴스는 정치, 경제, 사회, 문화, 국제 등 모든 중요
한 사회 주제를 정제된 방식으로 기술함
- 문장 수준의 연결 정보를 담은 말뭉치를 대규모로
구축하여 추후 학습집합으로 활용
- 토론 가능한 강한 인공지능 개발에 기여 기대 (담
론분석 기능)
01 02 추가연구
-정보원 정보에 기초한 규칙 정보 추가
-정확한 분포 파악 (연결정도계수 값 계산)
- 유사도 절삭값 최적화
- 최종 결과물에서 중복 제거
- 다른 유형의 문장에 적용(규칙이 없으므로 가능)
- 개발된 NLP엔진과 연계
- 추가로 새로운 검색엔진, CMS와 연계
24

Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

Similar to Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence (9)

More from Daemin Park

More from Daemin Park (20)

Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence

Editor's Notes