NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
2. 문장 경계 인식, 개체명 인식
2016-06-10 2박대민 KPF 선임연구위원
문장 경계 인식*
기사를 문장 단위로 쪼갠다
장소 인식**
수치 인식 *
수치문에서 단위를 식별하고 다중분류한다
: 시간, 통화, 비율, 넓이
: 압력, 길이, 속도, 연비, 데이터양, 무게, 부피, 기타
: 수치 대용어 추출 (전년 대비, 동기 대비, …)
장소문에서 장소를 식별하고 다중분류한다
: 우편번호부
상품명 인식 **
장소문에서 상품명을 식별하고 다중분류한다
: 상품분류코드
사전 구축 *
개체명별로 표준사전을 DB화한다
: 외국어 한글표기 개체명 사전 필요
3. 정보원 다중분류*
인용문의 정보원을 다중분류한다
: 이름+소속+직함
: 분류 1: 개인실명(인명 O)/집단(인명 X, 기관명 O)/익명(인명 X, 기
관명 X)
: 분류 2: 기관 분류 기준
개체명 인식
직함 인식*
직업명 인식**
직함/직업명을 인식하고 다중분류한다
인명 인식*
인명을 인식한다
: 연예인명 추가
기관명 인식*
기관명을 인식하고 다중분류한다
: 대분류의 경우 정/경/사/문/국
개체명 색인화
개체명을 색인화한다
2016-06-10 3박대민 KPF 선임연구위원
4. 인용문-정보원
대용어해소*
정보원과 인용문을 매칭한다
: 대용어로 된 정보원에 대해 대용어해소한 뒤 매칭
: 대용어의 예로는 ‘이 회장은 ~’, ‘그는 ~’, ‘한은’
대용어해소, 의미중의성 해결
수치문-수치
대용어해소
수치 대용어와 수치문을 매칭한다
: 전년 대비, 작년, 지난해
2016-06-10 4박대민 KPF 선임연구위원
정보원의
의미중의성해결*
동명이인, 이명동인 문제 해결
: 소속(기관명)이 다르면 동명이인
: 이명동인은 일단 존재하지 않는다고 가정
5. 문장 태깅 및 분류
평판분석**
소속에 따라 인용문의 의견을 분석한다
: 찬/반(정치), 매수/매도(경제), 호/불호(문화, 사회)
: 중립 존재
인용문 태깅**
인용문 태그를 추출한다
: 인용문당 3개 추출 후
: 명사(복합명사)만 필터링
URL 부착**
모든 문장에 기사 원문 URL을 부착한다
문장 분류*
개체명 기준으로 각 문장을 다중분류한다
: 인용문, 수치문, 장소문, 기타문
문장 색인화**
문장을 색인화한다
2016-06-10 5박대민 KPF 선임연구위원
6. 군집화
2016-06-10 6박대민 KPF 선임연구위원
중복 문장 군집화*
대표 문장 추출*
기타문을 제외하고 문장 유형별로 중복 문장을 클러스
터링한다
중복 문장 중에 대표 문장을 뽑는다
기사 분류*
기사 지면과 유형을 분류한다
: 지도학습+규칙(정보원 소속, 매체 기사 분량, 정보원 수, 인용문 수
등)
: 1단계 지면(정/경/사/문/국), 2단계 유형(톱/사이드/단신/인터뷰)
기사 군집화*
인용문 태그를 기준으로 기사를 군집화한다
7. 의미연결망분석
2016-06-10 7박대민 KPF 선임연구위원
정보원 연결망 분석*
기사 공동출현 기준 정보원 연결망을 그리고 정보원 가
중치를 부여한다
문장 연결망 분석 ***
기사공동출현, 정보원, 유사도 기준 문장 연결망을 그
리고 문장 가중치를 부여한다
: 의미거리, 의미경로, 의미군집 정의
: 핵심문장, 요약문장, 상술문장
매체 특이성 분석 ***
정보원 중복도의 역으로 매체 특이성을 계산하고 매체
가중치를 부여한다
주제 연결망 분석***
인용문 공동출현 기준 주제 연결망을 그리고 주제 가중
치를 부여한다
8. 템플릿 생성
2016-06-10 8박대민 KPF 선임연구위원
패턴인식/
템플릿 생성
문장 기준 패턴인식을 통해 기사 템플릿을 찾고 양식을
분류한다
기사 요약*
기사를 다양한 템플릿에 맞게 다중 요약한다
9. 클린징, 서비스
2016-06-10 9박대민 KPF 선임연구위원
데이터 클린징1
데이터 클린징2***
(F1 성능 90% 이상) 인력으로 개체명 인식, 대용어 해
소, 지면 분류 등의 오류를 보정한다
(F1 성능 90% 이하) 추가 알고리즘을 통해 정보원 식
별, 문장 분류, 정보원-인용문 매칭, 지면 분류 등의 정
답률을 높인다
시각화*** 오류를 제외하고 가중치에 따라 개체명, 문장, 기사, 매
체 연결망을 시각화한다
서비스 디자인* 검색결과를 다양한 가중치에 따라 노출한다
10. 2016-06-10 10박대민 KPF 선임연구위원
참고문헌
•박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>,
12권 1호, 4-52. [Park, D.M.(2016). Natural language processing of news articles:
A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52.]
•Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the Network Fundamentals of the News Sources
Associated with a Specific Topic. Information Sciences.
•PARK, D.M.(2016, January). Toward a debating machine: A news sentence network analysis algorithm based on
similarity and cooccurrence. In Proceedings of HCI Korea (pp. 491-498). Hanbit Media, Inc..
•박대민, 백영민, 김선호(2015.12.). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. (책임연구). [Park, D.M., Baek, Y.M.,
& Kim, S.H. (2015). News big data analysis system. Seoul, Korea: Korea Press Foundation.]
•박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI학회 논문
지>, 9권 2호, 5-12. [Park, D.M., Kim, G.N., Kang, N.Y., Suh, B.W., Ha, H.J., & On, B.W.(2014). A news visualization based
on an algorithm by journalistic values. Journal of the HCI Society of Korea. 9(2). 5-12.]
•박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. [Park, D.M.(2014).
Biases by bursts of quoting sources in journalism. Korean Communication Theory. 10(1). 295-324.
•박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. [Park,
D.M.(2013). News source network analysis as big data analytics of news articles. Korean Journal of Journalism and
Communication Studies. 57(6). 233-261.]
11. 1) PPT 작성일지
- 1차: 2015년 3월 17일
- 2차: 2016년 6월 9일
2) 기능 구현 여부
- ‘*’은 <뉴스소스 베타>, ‘**’은 <빅카인즈>, ‘***’은 논문 또는 보고서로 구현된 것임
- ‘*/**/***’와 굵은 글씨로 표기된 기능은 핵심 기능이 아직 완전히 구현되지 않은 경우임
- ‘*/**/***’가 없고 굵은 글씨로 표기된 기능은 한 번도 구현되지 않은 경우임
주