1. #news_NLP
Daemin PARK
Senior Researcher
Korea Press Foundation
heathe0@gmail.com
https://www.facebook.com/daeminpark77
https://brunch.co.kr/@daeminpark
https://www.slideshare.net/DaeminPark1
https://goo.gl/MvwMyK
2. 페이스북 친구 맺기, 메신저 그룹 만들기
구글 드라이브 공유
자바 설치, MS EXCEL 정품 설치
이전 시간 내용
12. News Big Data Analysis
Crawling Advanced NLP Customized SNA Discourse Analysis
- tokenization
- stemming
- stopword elimination
- tagging part of speech
- Indexing
- sentence boundary
recognition
- URL tagging
- co-occurrence analysis
- partial parsing
- named entity
recognition
- coreference resolution
- word sense
disambiguation
- classification
- clustering
- visualization
- data cleansing
- time series content analysis
- governmentalitiy studies
- projector
- file name standardizer
- edge list converter
- degree centrality
- periodic analysis
- degree exponent
- rank
- quote rank
- description
- Fragmentation
Park, D.M.(2016). Natural language processing of news articles: A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52.
- crawler
- data aggregation
BigKinds
Semantic Net
Analyzer
13. NLP
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어
한글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인,
이명동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링,
이슈 트래킹, 복합논증분석
형태소분석
구문분석
의미분석
담론분석
14. 형태소분석
예문) 초고속열차를 타보았다.
초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1)
초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)
예문) 그가 산 사과를 다시 샀다.
(((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1)
((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보
구문분석
예문) 그가 산 사과를 다시 샀다.
산: buy, live/alive, mountain
사과: apple, apology
의미분석
예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다.
<object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;
담론분석
출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)
NLP 예시
18. ‘성+직함’만 나온 경우 인용문으로부
터 앞으로 거슬러 올라가서 발견된
‘인명+기관+직함’ 중 ‘성+직함’이 일
치하는 경우 해당 인용문의 발화자인
개인실명정보원이다. 이 때 인용문의
‘성+직함’과 인용문 앞에서 발견된
‘성+이름+기관+직함’의 문자열에 대
해 SVM(support vector machine)
를 수행해 일치 여부를 확인한다.
형태소분석 결과 인용문의 주어가 인
칭대명사로 나타난 경우, 인용문으로
부터 앞으로 거슬러 올라가서 처음으
로 나타난 ‘인명+기관+직함’이 해당
인용문의 발화자인 개인실명정보원
이다.
인용문 내에서 ‘인명+기관+직
함’, 또는 ‘기관’의 개체명이 인
식된 경우, 해당 인용문의 발화
자는 인식된 개인실명정보원
또는 집단정보원이다.
NER 성+직함에 대한 SVM 인칭대명사 매칭
01
02
03
대용어 해소
19. 같은 날짜에 이명동인, 즉 이름 소속
직함이 같은 서로 다른 두 사람은 존
재할 수 없다.
다른 날짜에 인명이 다른 경우 이름을
바꾸는 드문 경우가 아닌 한 동일인이
아니기 때문에 이름이 다르면 근사적
으로 다른 인물이다.
인명은 같지만 기관과 직함이 다르면
서도 실제로 동일인일 경우에도 조작
적으로 다른 정보원으로 정의한다.
. 예) ‘홍길동 XX그룹 회장’과 ‘OO당
국회의원 홍길동’은 설사 동일 인물일
지라도 다른 소속이기 때문에 다른 출
입기자가 담당을 맡아 서로 다른 주제
로 인용하는 기능적으로 다른 정보원
이다.
인명, 기관, 직함이 같은 정보
원은 근사적으로 동일 인물로
볼 수 있다.
- 단기적으로 다른 매체 다른
기사에 등장했어도 동일인
- 장기적으로도 동명이인 드묾
동명동인, 동명이인 이명이인 이명동인
01
02
03
의미 중의성 해결
20. 기사/문장에 대해 전체 기
사에 출현하는 n개의 단어
(명사, 수치, 동사)로 이루
어진 n차원 벡터 공간을 가
정한 뒤 각 기사/문장를 해
당 단어가 출현하는지 여부
에 따라 값을 부여한 단어
벡터로 나타낸다.
비교 대상인 두 기사의 단
어벡터 간 각도를 θ라고 할
때, 이 각도에 대한 코사인
값을 계산하여 유사도를 계
산한다. 임계값을 정하여
이 값을 넘으면 유사한 것
으로, 그렇지 않으면 유사
하지 않은 것으로 판정한다.
비교 대상 기사 전체에 등
장하는 횟수(IDF)에 비해
특정 기사에 등장하는 빈도
(TF)가 높다면 그 단어는
다른 단어에 비해 그 문서
를 더 많이 대표하므로 더
높은 가중치를 부여 받는다.
전체 기사 각각에 어떤 주요
단어, 즉 색인어가 있는지를
나타내는 색인 작업과, 각 색
인어가 어느 기사에 있는지,
즉 역색인 작업을 함께 수행
한다.
01
02
03
04
Inverted Indexing Vector Space Model TD-IDF Cosine Similarity
20
문장/기사 유사도
21. 15개 카인즈 지면 분류
를 정치/경제/사회(종
합)/문화/국제로 사상
기계학습(단순 베이지
안), 75% 정확도
단어 유사도에 따라 기
사 군집화
(유사 문장 여부로 수정
필요)
개인 실명 정보원을 노
드로 하고,
공기 여부에 따라 엣지
를 부여한 뉴스 정보원
연결망
개체명 분류에 따른 문장 분
류
- 대분류: 인용문, 수치문,
기타문
- 인용문 다중 분류: 개인실
명/집단/익명
01
02
03
04
문장분류 기사분류 정보원연결망분석 기사 군집화
분류, 군집화
22. 규칙
- 정보원 순위에 따른 문장 순위
- 같은 소속 분류 정보원은 순위
하락
뉴스 기사 연결망 분석
-공동 정보원을 중심으로 연결망
그린 뒤 연결정도 중앙성 계산
(유사 문장 기준으로 수정 필요)
규칙과 NSNA
- 개인실명>집단>익명
- NSNA: 개인실명정보원
내에서는 연결정도 중앙성
에 따른 순위
정보원 순위화 문장 순위화 기사 순위화
01
02
03
순위화
25. #news_big_data
다음 주 주제:
- 뉴스 의미연결망 분석
다음 주 읽을거리:
- 박대민, 이중식, 서봉원(2016). <사용자 참여 뉴스 빅데이터 서비스 연구>. 서울: 한국언론진흥재단.
과제
- 페이스북 메신저 가입
- 빅카인즈 가입 및 프로그램 설치 완료