빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원

빅데이터 기술을 활용한
뉴스 큐레이션 서비스
군산대 통계컴퓨터과학과
온 병 원
2014년 11월 7일

발표자 소개
• 연구 분야
• 데이터 마이닝, 정보검색, 데이터베이스, 빅데이터
• 연구 경력
• 군산대 통계컴퓨터과학과 조교수 (2014 – 현재)
• 서울대 차세대융합기술연구원 연구교수 (2011 – 2014)
• 일리노이대 차세대디지털과학센터 선임연구원 (2010)
• 브리티시컬럼비아대 박사후연구원 (2008 – 2009)
• 펜실베이니아주립대 컴퓨터공학 박사 (2007)
• 연구 업적
• CACM, KAIS 등 SCI 11편
• ICDM, ICDE, SDM 등 주요 데이터 마이닝 학회 논문 발표
• 폴리티즈, 뉴스소스, 사회문제 키워드 추출 시스템 등 시스템 개발 및 시
연
• 연구재단, 정보화진흥원, 에너지기술평가원, 닐슨 등 빅데이터 연구 과
제 수행
• Data Science Lab : datalab@kunsan.ac.kr
2

News On New Media
Aggregation & Curation, Customization, Visualization
3

새로운 방식의 뉴스 전달
낚시, 선정, 광고, 아마추어, 편향성, 쓸모 없음, 떨어지는 가독성…
4

Journalism적인 가치
• 사실성, 다양성, 심층성
• 사실성을 드러내는 관례
• 인용, 수치, 사례 등 [van Dijk 1988]
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자
• 저널리즘 연구의 주요 주제
• [Sigal 1973], [Schudson 1978], & [Gans 1979]
5

New Source Network Analysis (뉴스 정보원 연결망 분석)
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 뉴스 정보원 연결망
• 같은 기사에 두 정보원이 직접 인용문으로 함께 인용되면 이 정
보원들 간에 서로 의미론적 관계가 있다.
• 연결망(Network)을 분석하여 인물의 중요도를 계산
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도
로 추정
• 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로
정리
6

뉴스정보원연결망 – 소셜 그래프 분석 (예시)
서울시 뉴타운
7

Journalism가치에 기초한 기사 제공
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹어플리케이션
• 뉴스 기사를 쟁점 중심, 사실 중심으로 제시
• 관련된 기사, 정보원, 사실을 클러스터링
• 중복 기사와 문장을 축약해 대표 기사와 문장을 제공
• 기사, 정보원, 사실을 가중치에 따라 배치
• 인물 중심 시각화(visualization) 통한 뉴스의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 이용 대상 - 언론계, 전문가, 일반인
• 1차 타겟: 언론학자, 기자
• 2차 타겟: 법률가, 컨설턴트, 시장조사, 정치인, 대학생 등 뉴스 중
이용자(heavy user)
• 3차 타겟: 정치, 경제, 사회 등 사회 쟁점에 관심 많은 일반 독자
8

News Source – 2013년 9월 10일 주요 뉴스
10

News Source – 기사와 정보원
11

News Source – 동일 사안에 대한 다양한 인용
12

News Source – 동일 사안에 대한 다양한 시각
13

뉴스정보원연결망 – 소셜 그래프 구현
전문가용 UI : 정보원연결망 출력 및 파일 다운로드
사회연결망 기본정보 사회연결망 구현
• 결점(node)
• 파당(clique)
• 구성집단(component)
• 주요구성집단(main component) node
• main component clique
• degree centrality
군집계수(clustering coefficient)
• 랜덤 네트워크의 군집계수
• 최단경로길이(average path length)
랜덤 네트워크의 평균경로길이
연결 정도 집중도(standardized degree centralization)
closeness centrality
• center
• diameter
• betweenness centrality
• density
뉴타운
검색어: 뉴타운
14

뉴스정보원연결망 – 시연
15

기술적 접근
• 자연어 처리 (Natural Language Processing)
• 정보원의 자동 추출
• 이름, 조직, 직함
• 박근혜 대통령, 박 대통령, 박 전대표
• 통일부 김형석 대변인, 김형석 대변인, 김 대변인
• 익명이 많다 (김모씨, 이모씨, 청와대 모 관계자, 청와
대 핵심 관계자)
• 인용문의 추출
• Fact들도 추출 (숫자)
• 대용량 데이터
• 한국언론진흥재단 KINDS
• 28,507,321건의 기사
• 1990년 이후 66개 매체 기사
• 정보 시각화
자연어 처리
대용량 데이
터
정보 시각화
16

자연어 처리
정보원 추출 및 매칭
• Web Resource & 수작업
검증을 통한 사전의 구성
• 저널리즘 영역 지식 활용한
정보원 추출 룰 작성
• SVM을 활용한 정보원
매칭
최소한의 수작업이 요구되는 정확한 자연어
처리
다매체 기사의 종합 및
문장의 중요도 결정 카테고리 분류
• 정보원의 소속 분류
• Bayesian classifier 를
활용하여 미 분류 기사의
지면 분류
• 문장 및 기사 클러스터링을
통해 유사 문장의 추출
• Inverted index Join
algorithm을 활용한 All-pair
similarity 의 빠른 계산
• TF-IDF 및 정보원의 중요도에
따른 대표 문장의 추출
오픈 소스를 활용한
범용성 확보
• JAVA 기반
• Lucene 검색엔진
• 서울대 꼬꼬마 형태소
분석기
• Weka의 기계학습
라이브러리
• Hadoop framework
17

자연어처리 – 정보원 추출 및 매칭
- 뉴스의 인용문으로 부터 인명/직함/소속을 추출하고 동일 개체를 판단하여 하나의 개체로 매칭
18

자연어처리 – 정보원 추출 및 매칭
19

자연어처리 – 다매체 기사의 요약 및 문장의 중요도 결정
- 다매체의 기사들을 대표 문장만으로 표현함으로써 중복된 기사 제거
- 대표 문장의 중요도 결정
20

대용량 데이터
한국언론진흥재단 카인즈 데이터
☞ 1990년~2013년 9월 30일 까지 총 66개, 현60개 매체 28,507,321건 신문 기사
매체 유형 매체명 기사건수
전국종합일간신문
(10개)
경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 아시아투데
이
7,408,042
영자신문
( 1개)
Korea Herald 357,355
지역종합일간신문
(25개)
강원도민일보, 강원일보, 경기일보, 경남도민일보, 경남신문, 경상일보, 경인일보, 광주일보, 국제신문,
대전일보, 매일신문, 무등일보, 부산일보, 새전북신문,
영남일보, 인천일보, 전남일보, 전북도민일보, 전북일보, 제민일보, 중도일보,
중부매일, 충북일보, 충청투데이, 한라일보
6,493,604
인터넷전문신문
(8개)
대덕넷, 오마이뉴스, 이데일리, 조세일보, 투데이코리아, 한국재경신문,
아이콘TV., 국방일보
2,002,632
지역주간신문
(4개)
김포뉴스, 옥천신문, 주간당진시대, 홍성신문 95,701
경제일간신문
(7개)
매일경제, 머니투데이, 이투데이, 한국경제, 서울경제, 파이낸셜뉴스, 프라임경제 9,237,812
시사잡지
(1개)
시사인 9,711
TV뉴스
(4개)
KBS, MBC, SBS, KNN 2,194,543
21

빅데이터 처리속도
68
90
63
1048
처리 시간(초)
기사와 무관한 텍스트 제거
정보원 추출 및 매칭
Lucene indexing
다매체 기사 요약 및 중요 문장 추출
- 1일치 평균 뉴스 기사 수 3,300개 기준일 때 21분 소요
- 실행 환경 CPU: Intel i3-2100 CPU @ 3.10GHz, RAM: 4GB, OS : Ubuntu 12.04
- 서비스 시작 후 1일 치 씩 처리시는 문제 없음
- Single machine에서 모든 데이터(365(일) * 23(년))를 처리 하기 위해서는 49일 소요 예상됨
22

빅데이터 기술을 이용한 자연어 처리
- 분산처리를 통한 속도 개선 : Map-reduce 모델에서 Mapper 만 활용하여 Hadoop 분산
Framework를 통해 분산 처리
… Map
Map
Map
MySQL DB
…
1990/01/01
1990/01/02
1990/01/03
2013/12/05
1개의 Mapper의 task 끝날 때마다
다음 날짜를 처리
정보원
추출 모듈
HDFSSequential file
Lucene
index file
다매체 요약
모듈
HDFSLocal file sys.
자연어 처리결과
23

성능 측정 결과
실험 환경
- Cluster 환경 : 1개의 Name Node, 8개 Data node ,
- Node spec. : CPU- Intel i3-2100 CPU @ 3.10GHz, RAM- 4GB, OS - Ubuntu 12.04
(Single machine 환경과 동일)
49일  6일 1시간 20 분
Name Node
(DFS Master)
Job Tracker
2nd Name Node
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
24

빅데이터 서비스
검색
조인
테이블
5년 치 뉴스기사
- 쿼리 응답시간 최소화
- 조인 연산의 병렬 처리
Hive
- 실시간 데이터 서비스
- 부하 분산
- Failover
HBase
Name Node
(DFS Master)
Job Tracker
2nd Name Node
Client API
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
25

26
26
☞ 66매체, 29백만 뉴스기사
(1990 – 현재)
☞ 매일 7000 뉴스기사 생성
크롤링
서버
크롤링
클라이언트
Hbase
데이터베
이스
자연어
처리
JSP
아파치 톰캣 서버
Lucene 검색
엔진
PHP
Ajax
한국언론진흥재단
하둡 분산 파일 시스템
리눅스 운영체제
DB 최적화
Hive
뉴스 큐레이션 시스템
RDBMS
동아
일보
중앙
일보
. . .
-인명사전 구축
-인명/소속/직함 식별
-인명 매칭 (김웅남 vs 김웅남)
-중복 뉴스기사 클러스터링
-지면 자동 분류
-소셜 그래프 생성
-인물 중요도 측정
☞단일 컴퓨터: 7000*23*70분 = 49일
☞분산병렬처리: 6일 1시간 20분
7배 성능 향상
클러스터 시스템
☞ 1 Name Node & 8 Data Nodes
빅데이터 시스템 구성
MapReduce

News Source: Journalism 가치에 기반한 뉴스 제공
• Journalism적인 가치: 사실성, 다양성, 심층성
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자 & 저널리즘 연구의 주요 주제
• 뉴스 정보원 연결망
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도로 추정
• 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹 어플리케이션
• 뉴스 기사들을 뉴스기사 내의 사실을 중심으로 요약해서 제공 함
• 중요한 순서대로 기사를 배열
• 의미 관계를 파악하게 도와주는 스마트 뉴스 서비스
• 인물 중심의 시각화(visualization)을 통한 사건의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 타겟 유저: 뉴스 중 이용자(heavy user)
• 기자, 언론학자, 정치인, 법률가, 컨설턴트, 대학생 등을 위한 서비스
• 뉴스를 쟁점 중심으로 심층적으로 분석하기 위한 사람을 위한 서비스
자연어 처리
대용량 데이
터
정보 시각화
27

빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원

More Related Content

What's hot

Viewers also liked

Similar to 빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원

빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원