SlideShare a Scribd company logo
1 of 25
Download to read offline
#news_NLP
Daemin PARK
Senior Researcher
Korea Press Foundation
heathe0@gmail.com
https://www.facebook.com/daeminpark77
https://brunch.co.kr/@daeminpark
https://www.slideshare.net/DaeminPark1
https://goo.gl/MvwMyK
페이스북 친구 맺기, 메신저 그룹 만들기
구글 드라이브 공유
자바 설치, MS EXCEL 정품 설치
이전 시간 내용
News Big Data
빅데이터
=
빅데이터의 특성
빅데이터의 종류
세계
무기체계
→ 센서데이터
유기체계
→ 센서데이터
사회체계
→ 행동데이터
기호체계
→ 의미데이터
- Multimedia: texts, audios, videos,
interactive units
- Multilevel: words, sentences, articles, media,
systems
- Multilingual: Korean, English, Japanese,
Chinese, …
- Multisource: news, reports, journals,
literatures, behaviors, sensors …
7
Heterogeneous Semantic Data
News Big Data ≠ Data Journalism
VS
Data Driven
10
Meta data
NLP data
Network data
Data Modeling
News Natural Language Processing
News Big Data Analysis
Crawling Advanced NLP Customized SNA Discourse Analysis
- tokenization
- stemming
- stopword elimination
- tagging part of speech
- Indexing
- sentence boundary
recognition
- URL tagging
- co-occurrence analysis
- partial parsing
- named entity
recognition
- coreference resolution
- word sense
disambiguation
- classification
- clustering
- visualization
- data cleansing
- time series content analysis
- governmentalitiy studies
- projector
- file name standardizer
- edge list converter
- degree centrality
- periodic analysis
- degree exponent
- rank
- quote rank
- description
- Fragmentation
Park, D.M.(2016). Natural language processing of news articles: A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52.
- crawler
- data aggregation
BigKinds
Semantic Net
Analyzer
NLP
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어
한글 표기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인,
이명동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링,
이슈 트래킹, 복합논증분석
형태소분석
구문분석
의미분석
담론분석
형태소분석
예문) 초고속열차를 타보았다.
초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1)
초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)
예문) 그가 산 사과를 다시 샀다.
(((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1)
((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보
구문분석
예문) 그가 산 사과를 다시 샀다.
산: buy, live/alive, mountain
사과: apple, apology
의미분석
예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다.
<object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;
담론분석
출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)
NLP 예시
15
NLP 도구 아키텍처
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
개체명 인식 성능
17
솔트룩스(2015.10.). 자동분류 정확도 평가결과_1008
지면 분류 성능
‘성+직함’만 나온 경우 인용문으로부
터 앞으로 거슬러 올라가서 발견된
‘인명+기관+직함’ 중 ‘성+직함’이 일
치하는 경우 해당 인용문의 발화자인
개인실명정보원이다. 이 때 인용문의
‘성+직함’과 인용문 앞에서 발견된
‘성+이름+기관+직함’의 문자열에 대
해 SVM(support vector machine)
를 수행해 일치 여부를 확인한다.
형태소분석 결과 인용문의 주어가 인
칭대명사로 나타난 경우, 인용문으로
부터 앞으로 거슬러 올라가서 처음으
로 나타난 ‘인명+기관+직함’이 해당
인용문의 발화자인 개인실명정보원
이다.
인용문 내에서 ‘인명+기관+직
함’, 또는 ‘기관’의 개체명이 인
식된 경우, 해당 인용문의 발화
자는 인식된 개인실명정보원
또는 집단정보원이다.
NER 성+직함에 대한 SVM 인칭대명사 매칭
01
02
03
대용어 해소
같은 날짜에 이명동인, 즉 이름 소속
직함이 같은 서로 다른 두 사람은 존
재할 수 없다.
다른 날짜에 인명이 다른 경우 이름을
바꾸는 드문 경우가 아닌 한 동일인이
아니기 때문에 이름이 다르면 근사적
으로 다른 인물이다.
인명은 같지만 기관과 직함이 다르면
서도 실제로 동일인일 경우에도 조작
적으로 다른 정보원으로 정의한다.
. 예) ‘홍길동 XX그룹 회장’과 ‘OO당
국회의원 홍길동’은 설사 동일 인물일
지라도 다른 소속이기 때문에 다른 출
입기자가 담당을 맡아 서로 다른 주제
로 인용하는 기능적으로 다른 정보원
이다.
인명, 기관, 직함이 같은 정보
원은 근사적으로 동일 인물로
볼 수 있다.
- 단기적으로 다른 매체 다른
기사에 등장했어도 동일인
- 장기적으로도 동명이인 드묾
동명동인, 동명이인 이명이인 이명동인
01
02
03
의미 중의성 해결
기사/문장에 대해 전체 기
사에 출현하는 n개의 단어
(명사, 수치, 동사)로 이루
어진 n차원 벡터 공간을 가
정한 뒤 각 기사/문장를 해
당 단어가 출현하는지 여부
에 따라 값을 부여한 단어
벡터로 나타낸다.
비교 대상인 두 기사의 단
어벡터 간 각도를 θ라고 할
때, 이 각도에 대한 코사인
값을 계산하여 유사도를 계
산한다. 임계값을 정하여
이 값을 넘으면 유사한 것
으로, 그렇지 않으면 유사
하지 않은 것으로 판정한다.
비교 대상 기사 전체에 등
장하는 횟수(IDF)에 비해
특정 기사에 등장하는 빈도
(TF)가 높다면 그 단어는
다른 단어에 비해 그 문서
를 더 많이 대표하므로 더
높은 가중치를 부여 받는다.
전체 기사 각각에 어떤 주요
단어, 즉 색인어가 있는지를
나타내는 색인 작업과, 각 색
인어가 어느 기사에 있는지,
즉 역색인 작업을 함께 수행
한다.
01
02
03
04
Inverted Indexing Vector Space Model TD-IDF Cosine Similarity
20
문장/기사 유사도
15개 카인즈 지면 분류
를 정치/경제/사회(종
합)/문화/국제로 사상
기계학습(단순 베이지
안), 75% 정확도
단어 유사도에 따라 기
사 군집화
(유사 문장 여부로 수정
필요)
개인 실명 정보원을 노
드로 하고,
공기 여부에 따라 엣지
를 부여한 뉴스 정보원
연결망
개체명 분류에 따른 문장 분
류
- 대분류: 인용문, 수치문,
기타문
- 인용문 다중 분류: 개인실
명/집단/익명
01
02
03
04
문장분류 기사분류 정보원연결망분석 기사 군집화
분류, 군집화
규칙
- 정보원 순위에 따른 문장 순위
- 같은 소속 분류 정보원은 순위
하락
뉴스 기사 연결망 분석
-공동 정보원을 중심으로 연결망
그린 뒤 연결정도 중앙성 계산
(유사 문장 기준으로 수정 필요)
규칙과 NSNA
- 개인실명>집단>익명
- NSNA: 개인실명정보원
내에서는 연결정도 중앙성
에 따른 순위
정보원 순위화 문장 순위화 기사 순위화
01
02
03
순위화
23
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
감성분석 성능
참고자료
#news_big_data
다음 주 주제:
- 뉴스 의미연결망 분석
다음 주 읽을거리:
- 박대민, 이중식, 서봉원(2016). <사용자 참여 뉴스 빅데이터 서비스 연구>. 서울: 한국언론진흥재단.
과제
- 페이스북 메신저 가입
- 빅카인즈 가입 및 프로그램 설치 완료

More Related Content

Similar to 2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론

댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)Jeffrey Kim
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"Tae Young Kang
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinDataya Nolja
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Taejun Kim
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기Han-seok Jo
 
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019상열 이
 
Topic Modeling & Word Embedding on Cosmetics
Topic Modeling & Word Embedding on CosmeticsTopic Modeling & Word Embedding on Cosmetics
Topic Modeling & Word Embedding on CosmeticsHONGJOO LEE
 
소프트웨어 중심 시대를 준비하자
소프트웨어 중심 시대를 준비하자소프트웨어 중심 시대를 준비하자
소프트웨어 중심 시대를 준비하자Deogtae Kim
 
1910 tfkr3 warnikchow
1910 tfkr3 warnikchow1910 tfkr3 warnikchow
1910 tfkr3 warnikchowWarNik Chow
 
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수Amazon Web Services Korea
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
 
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기Joeun Park
 
Hadoop 기반 문서 검색
Hadoop 기반 문서 검색Hadoop 기반 문서 검색
Hadoop 기반 문서 검색치완 박
 
​『함수형 반응형 프로그래밍』 맛보기
​『함수형 반응형 프로그래밍』 맛보기​『함수형 반응형 프로그래밍』 맛보기
​『함수형 반응형 프로그래밍』 맛보기복연 이
 
웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data
웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data
웹의 또 다른 모습, 글로벌 데이터베이스 Linked open dataHansung University
 
Linked open data
Linked open dataLinked open data
Linked open dataToby Yun
 
2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료ChangeON@
 
Domain-Driven-Design 정복기 1탄
Domain-Driven-Design 정복기 1탄Domain-Driven-Design 정복기 1탄
Domain-Driven-Design 정복기 1탄현 수
 

Similar to 2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론 (20)

댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)댓글 감성 분석 상용화 개발기(Ver. 2)
댓글 감성 분석 상용화 개발기(Ver. 2)
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
 
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
이상열, Interpretable Recommender System 개발 사례연구, NDC 2019
 
Topic Modeling & Word Embedding on Cosmetics
Topic Modeling & Word Embedding on CosmeticsTopic Modeling & Word Embedding on Cosmetics
Topic Modeling & Word Embedding on Cosmetics
 
소프트웨어 중심 시대를 준비하자
소프트웨어 중심 시대를 준비하자소프트웨어 중심 시대를 준비하자
소프트웨어 중심 시대를 준비하자
 
1910 tfkr3 warnikchow
1910 tfkr3 warnikchow1910 tfkr3 warnikchow
1910 tfkr3 warnikchow
 
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
판교 개발자 데이 – AWS 인공지능 서비스를 활용하여 스마트 애플리케이션 개발하기 – 박철수
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
Hadoop 기반 문서 검색
Hadoop 기반 문서 검색Hadoop 기반 문서 검색
Hadoop 기반 문서 검색
 
1.sos2010 tony
1.sos2010 tony1.sos2010 tony
1.sos2010 tony
 
​『함수형 반응형 프로그래밍』 맛보기
​『함수형 반응형 프로그래밍』 맛보기​『함수형 반응형 프로그래밍』 맛보기
​『함수형 반응형 프로그래밍』 맛보기
 
웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data
웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data
웹의 또 다른 모습, 글로벌 데이터베이스 Linked open data
 
Linked open data
Linked open dataLinked open data
Linked open data
 
2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료
 
Domain-Driven-Design 정복기 1탄
Domain-Driven-Design 정복기 1탄Domain-Driven-Design 정복기 1탄
Domain-Driven-Design 정복기 1탄
 

More from Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석Daemin Park
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media BlockchainDaemin Park
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형Daemin Park
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)Daemin Park
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인Daemin Park
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Daemin Park
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)Daemin Park
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)Daemin Park
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)Daemin Park
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)Daemin Park
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구Daemin Park
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석Daemin Park
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석Daemin Park
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석Daemin Park
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석Daemin Park
 

More from Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
 

2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론

  • 1. #news_NLP Daemin PARK Senior Researcher Korea Press Foundation heathe0@gmail.com https://www.facebook.com/daeminpark77 https://brunch.co.kr/@daeminpark https://www.slideshare.net/DaeminPark1 https://goo.gl/MvwMyK
  • 2. 페이스북 친구 맺기, 메신저 그룹 만들기 구글 드라이브 공유 자바 설치, MS EXCEL 정품 설치 이전 시간 내용
  • 6. 빅데이터의 종류 세계 무기체계 → 센서데이터 유기체계 → 센서데이터 사회체계 → 행동데이터 기호체계 → 의미데이터
  • 7. - Multimedia: texts, audios, videos, interactive units - Multilevel: words, sentences, articles, media, systems - Multilingual: Korean, English, Japanese, Chinese, … - Multisource: news, reports, journals, literatures, behaviors, sensors … 7 Heterogeneous Semantic Data
  • 8. News Big Data ≠ Data Journalism VS
  • 10. 10 Meta data NLP data Network data Data Modeling
  • 11. News Natural Language Processing
  • 12. News Big Data Analysis Crawling Advanced NLP Customized SNA Discourse Analysis - tokenization - stemming - stopword elimination - tagging part of speech - Indexing - sentence boundary recognition - URL tagging - co-occurrence analysis - partial parsing - named entity recognition - coreference resolution - word sense disambiguation - classification - clustering - visualization - data cleansing - time series content analysis - governmentalitiy studies - projector - file name standardizer - edge list converter - degree centrality - periodic analysis - degree exponent - rank - quote rank - description - Fragmentation Park, D.M.(2016). Natural language processing of news articles: A case of ‘NewsSource beta’. Korean Communication Theory. 12(1). 4-52. - crawler - data aggregation BigKinds Semantic Net Analyzer
  • 13. NLP 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화 문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식 대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인) 분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석 형태소분석 구문분석 의미분석 담론분석
  • 14. 형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2) 예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보 구문분석 예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology 의미분석 예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>; 담론분석 출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749) NLP 예시
  • 16. 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5 개체명 인식 성능
  • 17. 17 솔트룩스(2015.10.). 자동분류 정확도 평가결과_1008 지면 분류 성능
  • 18. ‘성+직함’만 나온 경우 인용문으로부 터 앞으로 거슬러 올라가서 발견된 ‘인명+기관+직함’ 중 ‘성+직함’이 일 치하는 경우 해당 인용문의 발화자인 개인실명정보원이다. 이 때 인용문의 ‘성+직함’과 인용문 앞에서 발견된 ‘성+이름+기관+직함’의 문자열에 대 해 SVM(support vector machine) 를 수행해 일치 여부를 확인한다. 형태소분석 결과 인용문의 주어가 인 칭대명사로 나타난 경우, 인용문으로 부터 앞으로 거슬러 올라가서 처음으 로 나타난 ‘인명+기관+직함’이 해당 인용문의 발화자인 개인실명정보원 이다. 인용문 내에서 ‘인명+기관+직 함’, 또는 ‘기관’의 개체명이 인 식된 경우, 해당 인용문의 발화 자는 인식된 개인실명정보원 또는 집단정보원이다. NER 성+직함에 대한 SVM 인칭대명사 매칭 01 02 03 대용어 해소
  • 19. 같은 날짜에 이명동인, 즉 이름 소속 직함이 같은 서로 다른 두 사람은 존 재할 수 없다. 다른 날짜에 인명이 다른 경우 이름을 바꾸는 드문 경우가 아닌 한 동일인이 아니기 때문에 이름이 다르면 근사적 으로 다른 인물이다. 인명은 같지만 기관과 직함이 다르면 서도 실제로 동일인일 경우에도 조작 적으로 다른 정보원으로 정의한다. . 예) ‘홍길동 XX그룹 회장’과 ‘OO당 국회의원 홍길동’은 설사 동일 인물일 지라도 다른 소속이기 때문에 다른 출 입기자가 담당을 맡아 서로 다른 주제 로 인용하는 기능적으로 다른 정보원 이다. 인명, 기관, 직함이 같은 정보 원은 근사적으로 동일 인물로 볼 수 있다. - 단기적으로 다른 매체 다른 기사에 등장했어도 동일인 - 장기적으로도 동명이인 드묾 동명동인, 동명이인 이명이인 이명동인 01 02 03 의미 중의성 해결
  • 20. 기사/문장에 대해 전체 기 사에 출현하는 n개의 단어 (명사, 수치, 동사)로 이루 어진 n차원 벡터 공간을 가 정한 뒤 각 기사/문장를 해 당 단어가 출현하는지 여부 에 따라 값을 부여한 단어 벡터로 나타낸다. 비교 대상인 두 기사의 단 어벡터 간 각도를 θ라고 할 때, 이 각도에 대한 코사인 값을 계산하여 유사도를 계 산한다. 임계값을 정하여 이 값을 넘으면 유사한 것 으로, 그렇지 않으면 유사 하지 않은 것으로 판정한다. 비교 대상 기사 전체에 등 장하는 횟수(IDF)에 비해 특정 기사에 등장하는 빈도 (TF)가 높다면 그 단어는 다른 단어에 비해 그 문서 를 더 많이 대표하므로 더 높은 가중치를 부여 받는다. 전체 기사 각각에 어떤 주요 단어, 즉 색인어가 있는지를 나타내는 색인 작업과, 각 색 인어가 어느 기사에 있는지, 즉 역색인 작업을 함께 수행 한다. 01 02 03 04 Inverted Indexing Vector Space Model TD-IDF Cosine Similarity 20 문장/기사 유사도
  • 21. 15개 카인즈 지면 분류 를 정치/경제/사회(종 합)/문화/국제로 사상 기계학습(단순 베이지 안), 75% 정확도 단어 유사도에 따라 기 사 군집화 (유사 문장 여부로 수정 필요) 개인 실명 정보원을 노 드로 하고, 공기 여부에 따라 엣지 를 부여한 뉴스 정보원 연결망 개체명 분류에 따른 문장 분 류 - 대분류: 인용문, 수치문, 기타문 - 인용문 다중 분류: 개인실 명/집단/익명 01 02 03 04 문장분류 기사분류 정보원연결망분석 기사 군집화 분류, 군집화
  • 22. 규칙 - 정보원 순위에 따른 문장 순위 - 같은 소속 분류 정보원은 순위 하락 뉴스 기사 연결망 분석 -공동 정보원을 중심으로 연결망 그린 뒤 연결정도 중앙성 계산 (유사 문장 기준으로 수정 필요) 규칙과 NSNA - 개인실명>집단>익명 - NSNA: 개인실명정보원 내에서는 연결정도 중앙성 에 따른 순위 정보원 순위화 문장 순위화 기사 순위화 01 02 03 순위화
  • 23. 23 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5 감성분석 성능
  • 25. #news_big_data 다음 주 주제: - 뉴스 의미연결망 분석 다음 주 읽을거리: - 박대민, 이중식, 서봉원(2016). <사용자 참여 뉴스 빅데이터 서비스 연구>. 서울: 한국언론진흥재단. 과제 - 페이스북 메신저 가입 - 빅카인즈 가입 및 프로그램 설치 완료