SlideShare a Scribd company logo
1 of 12
Download to read offline
뉴스기사의 자연어처리(심화):
규칙 기반 접근 중심
박 대 민
한국언론진흥재단
선임연구위원
문장 경계 인식, 개체명 인식
2016-06-10 2박대민 KPF 선임연구위원
문장 경계 인식*
기사를 문장 단위로 쪼갠다
장소 인식**
수치 인식 *
수치문에서 단위를 식별하고 다중분류한다
: 시간, 통화, 비율, 넓이
: 압력, 길이, 속도, 연비, 데이터양, 무게, 부피, 기타
: 수치 대용어 추출 (전년 대비, 동기 대비, …)
장소문에서 장소를 식별하고 다중분류한다
: 우편번호부
상품명 인식 **
장소문에서 상품명을 식별하고 다중분류한다
: 상품분류코드
사전 구축 *
개체명별로 표준사전을 DB화한다
: 외국어 한글표기 개체명 사전 필요
정보원 다중분류*
인용문의 정보원을 다중분류한다
: 이름+소속+직함
: 분류 1: 개인실명(인명 O)/집단(인명 X, 기관명 O)/익명(인명 X, 기
관명 X)
: 분류 2: 기관 분류 기준
개체명 인식
직함 인식*
직업명 인식**
직함/직업명을 인식하고 다중분류한다
인명 인식*
인명을 인식한다
: 연예인명 추가
기관명 인식*
기관명을 인식하고 다중분류한다
: 대분류의 경우 정/경/사/문/국
개체명 색인화
개체명을 색인화한다
2016-06-10 3박대민 KPF 선임연구위원
인용문-정보원
대용어해소*
정보원과 인용문을 매칭한다
: 대용어로 된 정보원에 대해 대용어해소한 뒤 매칭
: 대용어의 예로는 ‘이 회장은 ~’, ‘그는 ~’, ‘한은’
대용어해소, 의미중의성 해결
수치문-수치
대용어해소
수치 대용어와 수치문을 매칭한다
: 전년 대비, 작년, 지난해
2016-06-10 4박대민 KPF 선임연구위원
정보원의
의미중의성해결*
동명이인, 이명동인 문제 해결
: 소속(기관명)이 다르면 동명이인
: 이명동인은 일단 존재하지 않는다고 가정
문장 태깅 및 분류
평판분석**
소속에 따라 인용문의 의견을 분석한다
: 찬/반(정치), 매수/매도(경제), 호/불호(문화, 사회)
: 중립 존재
인용문 태깅**
인용문 태그를 추출한다
: 인용문당 3개 추출 후
: 명사(복합명사)만 필터링
URL 부착**
모든 문장에 기사 원문 URL을 부착한다
문장 분류*
개체명 기준으로 각 문장을 다중분류한다
: 인용문, 수치문, 장소문, 기타문
문장 색인화**
문장을 색인화한다
2016-06-10 5박대민 KPF 선임연구위원
군집화
2016-06-10 6박대민 KPF 선임연구위원
중복 문장 군집화*
대표 문장 추출*
기타문을 제외하고 문장 유형별로 중복 문장을 클러스
터링한다
중복 문장 중에 대표 문장을 뽑는다
기사 분류*
기사 지면과 유형을 분류한다
: 지도학습+규칙(정보원 소속, 매체 기사 분량, 정보원 수, 인용문 수
등)
: 1단계 지면(정/경/사/문/국), 2단계 유형(톱/사이드/단신/인터뷰)
기사 군집화*
인용문 태그를 기준으로 기사를 군집화한다
의미연결망분석
2016-06-10 7박대민 KPF 선임연구위원
정보원 연결망 분석*
기사 공동출현 기준 정보원 연결망을 그리고 정보원 가
중치를 부여한다
문장 연결망 분석 ***
기사공동출현, 정보원, 유사도 기준 문장 연결망을 그
리고 문장 가중치를 부여한다
: 의미거리, 의미경로, 의미군집 정의
: 핵심문장, 요약문장, 상술문장
매체 특이성 분석 ***
정보원 중복도의 역으로 매체 특이성을 계산하고 매체
가중치를 부여한다
주제 연결망 분석***
인용문 공동출현 기준 주제 연결망을 그리고 주제 가중
치를 부여한다
템플릿 생성
2016-06-10 8박대민 KPF 선임연구위원
패턴인식/
템플릿 생성
문장 기준 패턴인식을 통해 기사 템플릿을 찾고 양식을
분류한다
기사 요약*
기사를 다양한 템플릿에 맞게 다중 요약한다
클린징, 서비스
2016-06-10 9박대민 KPF 선임연구위원
데이터 클린징1
데이터 클린징2***
(F1 성능 90% 이상) 인력으로 개체명 인식, 대용어 해
소, 지면 분류 등의 오류를 보정한다
(F1 성능 90% 이하) 추가 알고리즘을 통해 정보원 식
별, 문장 분류, 정보원-인용문 매칭, 지면 분류 등의 정
답률을 높인다
시각화*** 오류를 제외하고 가중치에 따라 개체명, 문장, 기사, 매
체 연결망을 시각화한다
서비스 디자인* 검색결과를 다양한 가중치에 따라 노출한다
2016-06-10 10박대민 KPF 선임연구위원
참고문헌
•박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>,
12권 1호, 4-52. [Park, D.M.(2016). Natural language processing of news articles:
A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52.]
•Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the Network Fundamentals of the News Sources
Associated with a Specific Topic. Information Sciences.
•PARK, D.M.(2016, January). Toward a debating machine: A news sentence network analysis algorithm based on
similarity and cooccurrence. In Proceedings of HCI Korea (pp. 491-498). Hanbit Media, Inc..
•박대민, 백영민, 김선호(2015.12.). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. (책임연구). [Park, D.M., Baek, Y.M.,
& Kim, S.H. (2015). News big data analysis system. Seoul, Korea: Korea Press Foundation.]
•박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI학회 논문
지>, 9권 2호, 5-12. [Park, D.M., Kim, G.N., Kang, N.Y., Suh, B.W., Ha, H.J., & On, B.W.(2014). A news visualization based
on an algorithm by journalistic values. Journal of the HCI Society of Korea. 9(2). 5-12.]
•박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. [Park, D.M.(2014).
Biases by bursts of quoting sources in journalism. Korean Communication Theory. 10(1). 295-324.
•박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. [Park,
D.M.(2013). News source network analysis as big data analytics of news articles. Korean Journal of Journalism and
Communication Studies. 57(6). 233-261.]
1) PPT 작성일지
- 1차: 2015년 3월 17일
- 2차: 2016년 6월 9일
2) 기능 구현 여부
- ‘*’은 <뉴스소스 베타>, ‘**’은 <빅카인즈>, ‘***’은 논문 또는 보고서로 구현된 것임
- ‘*/**/***’와 굵은 글씨로 표기된 기능은 핵심 기능이 아직 완전히 구현되지 않은 경우임
- ‘*/**/***’가 없고 굵은 글씨로 표기된 기능은 한 번도 구현되지 않은 경우임
주
12

More Related Content

What's hot

News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101Daemin Park
 
방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동Han Woo PARK
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data AnalyticsDaemin Park
 
Ndsl scholar manual
Ndsl scholar manualNdsl scholar manual
Ndsl scholar manualPNULIB
 
2016 경주지진 트위터 네트워크 분석
2016 경주지진 트위터 네트워크 분석2016 경주지진 트위터 네트워크 분석
2016 경주지진 트위터 네트워크 분석Han Woo PARK
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개Chang-yong Jung
 
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)Han Woo PARK
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
Sun-young Kim
 
[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조SSePhi
 
웹보메트릭스(단어분석)
웹보메트릭스(단어분석)웹보메트릭스(단어분석)
웹보메트릭스(단어분석)윤정 박
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구Daemin Park
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형datasciencekorea
 
SKKU 온라인 튜토리얼 RISS
SKKU 온라인 튜토리얼 RISSSKKU 온라인 튜토리얼 RISS
SKKU 온라인 튜토리얼 RISSMoonBanghee
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁datasciencekorea
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDaemin Park
 
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘영제 임
 

What's hot (20)

News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101
 
방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
Ndsl scholar manual
Ndsl scholar manualNdsl scholar manual
Ndsl scholar manual
 
2016 경주지진 트위터 네트워크 분석
2016 경주지진 트위터 네트워크 분석2016 경주지진 트위터 네트워크 분석
2016 경주지진 트위터 네트워크 분석
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
네이버 검색엔진 조사도구_사이버컴학회(4_march2014)
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

 
[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조
 
웹보메트릭스(단어분석)
웹보메트릭스(단어분석)웹보메트릭스(단어분석)
웹보메트릭스(단어분석)
 
쿨헌팅21013222박휘원
쿨헌팅21013222박휘원쿨헌팅21013222박휘원
쿨헌팅21013222박휘원
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
SKKU 온라인 튜토리얼 RISS
SKKU 온라인 튜토리얼 RISSSKKU 온라인 튜토리얼 RISS
SKKU 온라인 튜토리얼 RISS
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
 
POSTECH Library 2.0
POSTECH Library 2.0POSTECH Library 2.0
POSTECH Library 2.0
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network Analysis
 
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
 

Viewers also liked

Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of newsDaemin Park
 
Machine Learning Methods for Analysing and Linking RDF Data
Machine Learning Methods for Analysing and Linking RDF DataMachine Learning Methods for Analysing and Linking RDF Data
Machine Learning Methods for Analysing and Linking RDF DataJens Lehmann
 
Machine Learning Techniques for the Semantic Web
Machine Learning Techniques for the Semantic WebMachine Learning Techniques for the Semantic Web
Machine Learning Techniques for the Semantic Webpauldix
 
Toward a news data science
Toward a news data scienceToward a news data science
Toward a news data scienceDaemin Park
 
Deep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingDeep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingDevashish Shanker
 
디지털 언론정보학 2차完(27 aug2013)
디지털 언론정보학 2차完(27 aug2013)디지털 언론정보학 2차完(27 aug2013)
디지털 언론정보학 2차完(27 aug2013)Han Woo PARK
 
기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리Seonbae Kim
 
악평생성기 (Bad Comment Generator using RNN) _ 송치성
악평생성기 (Bad Comment Generator using RNN) _ 송치성악평생성기 (Bad Comment Generator using RNN) _ 송치성
악평생성기 (Bad Comment Generator using RNN) _ 송치성Chisung Song
 
시나브로 배우는 자연어처리 바벨피쉬 송치성
시나브로 배우는 자연어처리 바벨피쉬 송치성시나브로 배우는 자연어처리 바벨피쉬 송치성
시나브로 배우는 자연어처리 바벨피쉬 송치성Chisung Song
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 
Crash-course in Natural Language Processing
Crash-course in Natural Language ProcessingCrash-course in Natural Language Processing
Crash-course in Natural Language ProcessingVsevolod Dyomkin
 
Question Answering - Application and Challenges
Question Answering - Application and ChallengesQuestion Answering - Application and Challenges
Question Answering - Application and ChallengesJens Lehmann
 
차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)beom kyun choi
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석Taejoon Yoo
 
Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기i4uworks
 
Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리Saltlux zinyus
 
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우 내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우 Yoon Sup Choi
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLPEunjeong (Lucy) Park
 
Railroad Playhouse Takes a Risk in Newburgh - NYTimes.com
Railroad Playhouse Takes a Risk in Newburgh - NYTimes.comRailroad Playhouse Takes a Risk in Newburgh - NYTimes.com
Railroad Playhouse Takes a Risk in Newburgh - NYTimes.comSeth Soloway
 

Viewers also liked (19)

Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of news
 
Machine Learning Methods for Analysing and Linking RDF Data
Machine Learning Methods for Analysing and Linking RDF DataMachine Learning Methods for Analysing and Linking RDF Data
Machine Learning Methods for Analysing and Linking RDF Data
 
Machine Learning Techniques for the Semantic Web
Machine Learning Techniques for the Semantic WebMachine Learning Techniques for the Semantic Web
Machine Learning Techniques for the Semantic Web
 
Toward a news data science
Toward a news data scienceToward a news data science
Toward a news data science
 
Deep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingDeep Learning for Natural Language Processing
Deep Learning for Natural Language Processing
 
디지털 언론정보학 2차完(27 aug2013)
디지털 언론정보학 2차完(27 aug2013)디지털 언론정보학 2차完(27 aug2013)
디지털 언론정보학 2차完(27 aug2013)
 
기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리기계번역과 통계기반 자연어 처리
기계번역과 통계기반 자연어 처리
 
악평생성기 (Bad Comment Generator using RNN) _ 송치성
악평생성기 (Bad Comment Generator using RNN) _ 송치성악평생성기 (Bad Comment Generator using RNN) _ 송치성
악평생성기 (Bad Comment Generator using RNN) _ 송치성
 
시나브로 배우는 자연어처리 바벨피쉬 송치성
시나브로 배우는 자연어처리 바벨피쉬 송치성시나브로 배우는 자연어처리 바벨피쉬 송치성
시나브로 배우는 자연어처리 바벨피쉬 송치성
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
Crash-course in Natural Language Processing
Crash-course in Natural Language ProcessingCrash-course in Natural Language Processing
Crash-course in Natural Language Processing
 
Question Answering - Application and Challenges
Question Answering - Application and ChallengesQuestion Answering - Application and Challenges
Question Answering - Application and Challenges
 
차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)차원축소 훑어보기 (PCA, SVD, NMF)
차원축소 훑어보기 (PCA, SVD, NMF)
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기
 
Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리Ibm왓슨과 apple 시리
Ibm왓슨과 apple 시리
 
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우 내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우
내가 대학원에 들어왔을 때 알았더라면 좋았을 연구 노하우
 
자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP
 
Railroad Playhouse Takes a Risk in Newburgh - NYTimes.com
Railroad Playhouse Takes a Risk in Newburgh - NYTimes.comRailroad Playhouse Takes a Risk in Newburgh - NYTimes.com
Railroad Playhouse Takes a Risk in Newburgh - NYTimes.com
 

Similar to Natural language processing of News (intermediate): rule based model

스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)
스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)
스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)VentureSquare
 
6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론Daemin Park
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)Han Woo PARK
 
웹보메트릭스09 1
웹보메트릭스09 1웹보메트릭스09 1
웹보메트릭스09 1Inho Cho
 
웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1Han Woo PARK
 
Me2day&twtter brownbag seminar
Me2day&twtter brownbag seminarMe2day&twtter brownbag seminar
Me2day&twtter brownbag seminarHan Woo PARK
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1Han Woo PARK
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"Tae Young Kang
 
SKKU 온라인 튜토리얼 - Web of Science
SKKU 온라인 튜토리얼 - Web of ScienceSKKU 온라인 튜토리얼 - Web of Science
SKKU 온라인 튜토리얼 - Web of ScienceMoonBanghee
 
SNS 빅데이터 분석을 위한 연구문제와 통계
SNS 빅데이터 분석을 위한 연구문제와 통계SNS 빅데이터 분석을 위한 연구문제와 통계
SNS 빅데이터 분석을 위한 연구문제와 통계Han Woo PARK
 
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)Han Woo PARK
 
Apa style tip(121212)
Apa style tip(121212)Apa style tip(121212)
Apa style tip(121212)Jihye Kim
 
PQDT Global manual (2020)
PQDT Global manual (2020)PQDT Global manual (2020)
PQDT Global manual (2020)yonseilibrary
 
클래리베이트 inCites 교육 자료
클래리베이트 inCites 교육 자료클래리베이트 inCites 교육 자료
클래리베이트 inCites 교육 자료POSTECH Library
 
딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅if kakao
 
Mapping Authors in Intellectual Space
Mapping Authors in Intellectual SpaceMapping Authors in Intellectual Space
Mapping Authors in Intellectual SpaceYeseul Song
 
효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안Han Woo PARK
 
고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 JM code group
 

Similar to Natural language processing of News (intermediate): rule based model (20)

스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)
스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)
스타트업 기자단 공개교육 - 온라인 미디어 기사 쓰기(최진순 한국경제 기자)
 
6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)
 
웹보메트릭스09 1
웹보메트릭스09 1웹보메트릭스09 1
웹보메트릭스09 1
 
웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1
 
Me2day&twtter brownbag seminar
Me2day&twtter brownbag seminarMe2day&twtter brownbag seminar
Me2day&twtter brownbag seminar
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 
SKKU 온라인 튜토리얼 - Web of Science
SKKU 온라인 튜토리얼 - Web of ScienceSKKU 온라인 튜토리얼 - Web of Science
SKKU 온라인 튜토리얼 - Web of Science
 
SNS 빅데이터 분석을 위한 연구문제와 통계
SNS 빅데이터 분석을 위한 연구문제와 통계SNS 빅데이터 분석을 위한 연구문제와 통계
SNS 빅데이터 분석을 위한 연구문제와 통계
 
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
 
읨Krkwic
읨Krkwic읨Krkwic
읨Krkwic
 
Apa style tip(121212)
Apa style tip(121212)Apa style tip(121212)
Apa style tip(121212)
 
PQDT Global manual (2020)
PQDT Global manual (2020)PQDT Global manual (2020)
PQDT Global manual (2020)
 
클래리베이트 inCites 교육 자료
클래리베이트 inCites 교육 자료클래리베이트 inCites 교육 자료
클래리베이트 inCites 교육 자료
 
딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅딥러닝을 활용한 뉴스 메타 태깅
딥러닝을 활용한 뉴스 메타 태깅
 
Mapping Authors in Intellectual Space
Mapping Authors in Intellectual SpaceMapping Authors in Intellectual Space
Mapping Authors in Intellectual Space
 
Pqdt
PqdtPqdt
Pqdt
 
효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안
 
고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주
 

More from Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석Daemin Park
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media BlockchainDaemin Park
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형Daemin Park
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)Daemin Park
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인Daemin Park
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Daemin Park
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)Daemin Park
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)Daemin Park
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)Daemin Park
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)Daemin Park
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석Daemin Park
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석Daemin Park
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석Daemin Park
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석Daemin Park
 
5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화Daemin Park
 

More from Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
 
5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화
 

Natural language processing of News (intermediate): rule based model

  • 1. 뉴스기사의 자연어처리(심화): 규칙 기반 접근 중심 박 대 민 한국언론진흥재단 선임연구위원
  • 2. 문장 경계 인식, 개체명 인식 2016-06-10 2박대민 KPF 선임연구위원 문장 경계 인식* 기사를 문장 단위로 쪼갠다 장소 인식** 수치 인식 * 수치문에서 단위를 식별하고 다중분류한다 : 시간, 통화, 비율, 넓이 : 압력, 길이, 속도, 연비, 데이터양, 무게, 부피, 기타 : 수치 대용어 추출 (전년 대비, 동기 대비, …) 장소문에서 장소를 식별하고 다중분류한다 : 우편번호부 상품명 인식 ** 장소문에서 상품명을 식별하고 다중분류한다 : 상품분류코드 사전 구축 * 개체명별로 표준사전을 DB화한다 : 외국어 한글표기 개체명 사전 필요
  • 3. 정보원 다중분류* 인용문의 정보원을 다중분류한다 : 이름+소속+직함 : 분류 1: 개인실명(인명 O)/집단(인명 X, 기관명 O)/익명(인명 X, 기 관명 X) : 분류 2: 기관 분류 기준 개체명 인식 직함 인식* 직업명 인식** 직함/직업명을 인식하고 다중분류한다 인명 인식* 인명을 인식한다 : 연예인명 추가 기관명 인식* 기관명을 인식하고 다중분류한다 : 대분류의 경우 정/경/사/문/국 개체명 색인화 개체명을 색인화한다 2016-06-10 3박대민 KPF 선임연구위원
  • 4. 인용문-정보원 대용어해소* 정보원과 인용문을 매칭한다 : 대용어로 된 정보원에 대해 대용어해소한 뒤 매칭 : 대용어의 예로는 ‘이 회장은 ~’, ‘그는 ~’, ‘한은’ 대용어해소, 의미중의성 해결 수치문-수치 대용어해소 수치 대용어와 수치문을 매칭한다 : 전년 대비, 작년, 지난해 2016-06-10 4박대민 KPF 선임연구위원 정보원의 의미중의성해결* 동명이인, 이명동인 문제 해결 : 소속(기관명)이 다르면 동명이인 : 이명동인은 일단 존재하지 않는다고 가정
  • 5. 문장 태깅 및 분류 평판분석** 소속에 따라 인용문의 의견을 분석한다 : 찬/반(정치), 매수/매도(경제), 호/불호(문화, 사회) : 중립 존재 인용문 태깅** 인용문 태그를 추출한다 : 인용문당 3개 추출 후 : 명사(복합명사)만 필터링 URL 부착** 모든 문장에 기사 원문 URL을 부착한다 문장 분류* 개체명 기준으로 각 문장을 다중분류한다 : 인용문, 수치문, 장소문, 기타문 문장 색인화** 문장을 색인화한다 2016-06-10 5박대민 KPF 선임연구위원
  • 6. 군집화 2016-06-10 6박대민 KPF 선임연구위원 중복 문장 군집화* 대표 문장 추출* 기타문을 제외하고 문장 유형별로 중복 문장을 클러스 터링한다 중복 문장 중에 대표 문장을 뽑는다 기사 분류* 기사 지면과 유형을 분류한다 : 지도학습+규칙(정보원 소속, 매체 기사 분량, 정보원 수, 인용문 수 등) : 1단계 지면(정/경/사/문/국), 2단계 유형(톱/사이드/단신/인터뷰) 기사 군집화* 인용문 태그를 기준으로 기사를 군집화한다
  • 7. 의미연결망분석 2016-06-10 7박대민 KPF 선임연구위원 정보원 연결망 분석* 기사 공동출현 기준 정보원 연결망을 그리고 정보원 가 중치를 부여한다 문장 연결망 분석 *** 기사공동출현, 정보원, 유사도 기준 문장 연결망을 그 리고 문장 가중치를 부여한다 : 의미거리, 의미경로, 의미군집 정의 : 핵심문장, 요약문장, 상술문장 매체 특이성 분석 *** 정보원 중복도의 역으로 매체 특이성을 계산하고 매체 가중치를 부여한다 주제 연결망 분석*** 인용문 공동출현 기준 주제 연결망을 그리고 주제 가중 치를 부여한다
  • 8. 템플릿 생성 2016-06-10 8박대민 KPF 선임연구위원 패턴인식/ 템플릿 생성 문장 기준 패턴인식을 통해 기사 템플릿을 찾고 양식을 분류한다 기사 요약* 기사를 다양한 템플릿에 맞게 다중 요약한다
  • 9. 클린징, 서비스 2016-06-10 9박대민 KPF 선임연구위원 데이터 클린징1 데이터 클린징2*** (F1 성능 90% 이상) 인력으로 개체명 인식, 대용어 해 소, 지면 분류 등의 오류를 보정한다 (F1 성능 90% 이하) 추가 알고리즘을 통해 정보원 식 별, 문장 분류, 정보원-인용문 매칭, 지면 분류 등의 정 답률을 높인다 시각화*** 오류를 제외하고 가중치에 따라 개체명, 문장, 기사, 매 체 연결망을 시각화한다 서비스 디자인* 검색결과를 다양한 가중치에 따라 노출한다
  • 10. 2016-06-10 10박대민 KPF 선임연구위원 참고문헌 •박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. [Park, D.M.(2016). Natural language processing of news articles: A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52.] •Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the Network Fundamentals of the News Sources Associated with a Specific Topic. Information Sciences. •PARK, D.M.(2016, January). Toward a debating machine: A news sentence network analysis algorithm based on similarity and cooccurrence. In Proceedings of HCI Korea (pp. 491-498). Hanbit Media, Inc.. •박대민, 백영민, 김선호(2015.12.). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. (책임연구). [Park, D.M., Baek, Y.M., & Kim, S.H. (2015). News big data analysis system. Seoul, Korea: Korea Press Foundation.] •박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI학회 논문 지>, 9권 2호, 5-12. [Park, D.M., Kim, G.N., Kang, N.Y., Suh, B.W., Ha, H.J., & On, B.W.(2014). A news visualization based on an algorithm by journalistic values. Journal of the HCI Society of Korea. 9(2). 5-12.] •박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. [Park, D.M.(2014). Biases by bursts of quoting sources in journalism. Korean Communication Theory. 10(1). 295-324. •박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. [Park, D.M.(2013). News source network analysis as big data analytics of news articles. Korean Journal of Journalism and Communication Studies. 57(6). 233-261.]
  • 11. 1) PPT 작성일지 - 1차: 2015년 3월 17일 - 2차: 2016년 6월 9일 2) 기능 구현 여부 - ‘*’은 <뉴스소스 베타>, ‘**’은 <빅카인즈>, ‘***’은 논문 또는 보고서로 구현된 것임 - ‘*/**/***’와 굵은 글씨로 표기된 기능은 핵심 기능이 아직 완전히 구현되지 않은 경우임 - ‘*/**/***’가 없고 굵은 글씨로 표기된 기능은 한 번도 구현되지 않은 경우임 주
  • 12. 12