빅카인즈에서 다운로드 받은 기사의 메타데이터를 활용
- 기사 제목 및 기사 리드의 형태소분석
- 무료 온라인 솔루션(뉴스젤리)을 이용한 형태소분석
- 형태소의 빈도분석
- 무료 온라인 솔루션(뉴스젤리, WordItOut)을 이용한 워드클라우드 시각화
- 형태소분석의 한계
#news_NLP_article
Daemin PARK
Senior Researcher
KoreaPress Foundation
heathe0@gmail.com
https://www.facebook.com/daeminpark77
https://brunch.co.kr/@daeminpark
https://www.slideshare.net/DaeminPark1
https://goo.gl/MvwMyK
2.
기사 1일치 rawdata 다운로드:
NewsResult_20190304-20190305_3주차_박대민.xlsx
기사 1일치 데이터 가공:
reference_미세먼지기사_중앙지_중앙지_전체_전체_
20190304_20190304_3주차_박대민.xlsx
기사 주제어 빈도분석
미세먼지_ 기사주제어빈도분석_3주차_박대민.xlsx
이전 시간 과제
인용문 1일치 raw data 다운로드:
quotation_20190304-20190305_3주차_박대민.xlsx
인용문 1일치 데이터 가공:
reference_미세먼지인용문_중앙지_중앙지_전체_전체_
20190304_20190305_3주차_박대민.xlsx
인용문 주제어 빈도분석
미세먼지_ 인용문주제어빈도분석_3주차_박대민.xlsx
검색어: ‘미세먼지’
분석매체: 경향신문,국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨
레, 한국일보
분석기간: 2019년 3월 4일-2019년 3월 5일
기사 수: 201건
분석유목: 제목, 본문, 기사 주제어
수집 및 분석 프로그램: <빅카인즈>
수집일: 2019년 3월 5일
분석 프로그램: EXCEL, 젤리랩, WordItOut
분석 개요
제목 전체 복사
젤리랩형태소 분석(http://lab.newsjel.ly/analy/morpheme/)
입력창에 복사
화살표 클릭
출력 복사해 엑셀 파일로 저장
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_기사제목형태소분석_4주차_박대민.xlsx
형태소분석: 기사 제목 형태소 분석
7.
리드 전체 복사
젤리랩형태소분석(http://lab.newsjel.ly/analy/morpheme/)
입력창에 복사
화살표 클릭
출력 복사해 엑셀 파일로 저장
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_기사리드형태소분석_4주차_박대민.xlsx
형태소분석: 기사 리드 형태소 분석
빈도 기준50위권 내에 불용어 제거(숫자, 보조명사, 조사, 부사, 오
류, 동사, 언론사명 등)
엑셀 데이터 복사
빈도 기준 50위권 컷오프
워드클라우드 시각화
시각화 결과 저장
파일명:
[검색어]_[분석 유형] _[주차]_[이름].[확장자]
예시:
미세먼지_젤리랩기사제목형태소_4주차_박대민.png
젤리랩 이용 워드클라우드 시각화: 기사 제목 형태소 50위권
10.
빈도 기준50위권 내에 불용어 제거(숫자, 보조명사, 조사, 부사, 오
류, 동사, 언론사명 등)
엑셀 데이터 복사
빈도 기준 50위권 컷오프
워드클라우드 시각화
시각화 결과 저장
파일명:
[검색어]_[분석 유형] _[주차]_[이름].[확장자]
예시:
미세먼지_젤리랩기사리드형태소_4주차_박대민.png
젤리랩 이용 워드클라우드 시각화: 기사 리드 형태소 50위권
워드잇아웃을 이용한 워드클라우드시각화: 기사 주제어 50위권
기사주제어 빈도 기준 50위권 복사
‘Table 선택’→’엑셀 데이터 붙여넣기’→’generate’
폰트, 칼라, 레이아웃, 사이즈 설정 변경
글자 크기를 랭크 순으로 조정
’regenerate’
시각화 결과 캡쳐 후 그림판을 이용해 파일 저장
파일명:
[검색어]_[분석 유형] _[주차]_[이름].[확장자]
예시:
미세먼지_워드잇아웃기사주제어_4주차_박대민.png