#news_NLP_article
Daemin PARK
Senior Researcher
Korea Press Foundation
heathe0@gmail.com
https://www.facebook.com/daeminpark77
https://brunch.co.kr/@daeminpark
https://www.slideshare.net/DaeminPark1
https://goo.gl/MvwMyK
기사 1일치 raw data 다운로드:
NewsResult_20190304-20190305_3주차_박대민.xlsx
기사 1일치 데이터 가공:
reference_미세먼지기사_중앙지_중앙지_전체_전체_
20190304_20190304_3주차_박대민.xlsx
기사 주제어 빈도분석
미세먼지_ 기사주제어빈도분석_3주차_박대민.xlsx
이전 시간 과제
인용문 1일치 raw data 다운로드:
quotation_20190304-20190305_3주차_박대민.xlsx
인용문 1일치 데이터 가공:
reference_미세먼지인용문_중앙지_중앙지_전체_전체_
20190304_20190305_3주차_박대민.xlsx
인용문 주제어 빈도분석
미세먼지_ 인용문주제어빈도분석_3주차_박대민.xlsx
형태소분석
검색어: ‘미세먼지’
분석매체: 경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨
레, 한국일보
분석기간: 2019년 3월 4일-2019년 3월 5일
기사 수: 201건
분석유목: 제목, 본문, 기사 주제어
수집 및 분석 프로그램: <빅카인즈>
수집일: 2019년 3월 5일
분석 프로그램: EXCEL, 젤리랩, WordItOut
분석 개요
뉴스젤리 젤리 랩
http://lab.newsjel.ly/
제목 전체 복사
젤리랩 형태소 분석(http://lab.newsjel.ly/analy/morpheme/)
입력창에 복사
화살표 클릭
출력 복사해 엑셀 파일로 저장
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_기사제목형태소분석_4주차_박대민.xlsx
형태소분석: 기사 제목 형태소 분석
리드 전체 복사
젤리랩 형태소분석(http://lab.newsjel.ly/analy/morpheme/)
입력창에 복사
화살표 클릭
출력 복사해 엑셀 파일로 저장
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_기사리드형태소분석_4주차_박대민.xlsx
형태소분석: 기사 리드 형태소 분석
워드클라우드 시각화
 빈도 기준 50위권 내에 불용어 제거(숫자, 보조명사, 조사, 부사, 오
류, 동사, 언론사명 등)
엑셀 데이터 복사
빈도 기준 50위권 컷오프
워드클라우드 시각화
시각화 결과 저장
파일명:
[검색어]_[분석 유형] _[주차]_[이름].[확장자]
예시:
미세먼지_젤리랩기사제목형태소_4주차_박대민.png
젤리랩 이용 워드클라우드 시각화: 기사 제목 형태소 50위권
 빈도 기준 50위권 내에 불용어 제거(숫자, 보조명사, 조사, 부사, 오
류, 동사, 언론사명 등)
엑셀 데이터 복사
빈도 기준 50위권 컷오프
워드클라우드 시각화
시각화 결과 저장
파일명:
[검색어]_[분석 유형] _[주차]_[이름].[확장자]
예시:
미세먼지_젤리랩기사리드형태소_4주차_박대민.png
젤리랩 이용 워드클라우드 시각화: 기사 리드 형태소 50위권
워드잇아웃
https://worditout.com/word-cloud/create
워드잇아웃을 이용한 워드클라우드 시각화: 기사 주제어 50위권
기사주제어 빈도 기준 50위권 복사
‘Table 선택’→’엑셀 데이터 붙여넣기’→’generate’
폰트, 칼라, 레이아웃, 사이즈 설정 변경
글자 크기를 랭크 순으로 조정
’regenerate’
시각화 결과 캡쳐 후 그림판을 이용해 파일 저장
파일명:
[검색어]_[분석 유형] _[주차]_[이름].[확장자]
예시:
미세먼지_워드잇아웃기사주제어_4주차_박대민.png
참고자료
#news_big_data
다음 주 주제:
- 인용문 단위 뉴스 자연어처리
다음 주 읽을거리:
- 없음

4주차 뉴스 기사 수준의 자연어처리와 시각화

  • 1.
    #news_NLP_article Daemin PARK Senior Researcher KoreaPress Foundation heathe0@gmail.com https://www.facebook.com/daeminpark77 https://brunch.co.kr/@daeminpark https://www.slideshare.net/DaeminPark1 https://goo.gl/MvwMyK
  • 2.
    기사 1일치 rawdata 다운로드: NewsResult_20190304-20190305_3주차_박대민.xlsx 기사 1일치 데이터 가공: reference_미세먼지기사_중앙지_중앙지_전체_전체_ 20190304_20190304_3주차_박대민.xlsx 기사 주제어 빈도분석 미세먼지_ 기사주제어빈도분석_3주차_박대민.xlsx 이전 시간 과제 인용문 1일치 raw data 다운로드: quotation_20190304-20190305_3주차_박대민.xlsx 인용문 1일치 데이터 가공: reference_미세먼지인용문_중앙지_중앙지_전체_전체_ 20190304_20190305_3주차_박대민.xlsx 인용문 주제어 빈도분석 미세먼지_ 인용문주제어빈도분석_3주차_박대민.xlsx
  • 3.
  • 4.
    검색어: ‘미세먼지’ 분석매체: 경향신문,국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨 레, 한국일보 분석기간: 2019년 3월 4일-2019년 3월 5일 기사 수: 201건 분석유목: 제목, 본문, 기사 주제어 수집 및 분석 프로그램: <빅카인즈> 수집일: 2019년 3월 5일 분석 프로그램: EXCEL, 젤리랩, WordItOut 분석 개요
  • 5.
  • 6.
    제목 전체 복사 젤리랩형태소 분석(http://lab.newsjel.ly/analy/morpheme/) 입력창에 복사 화살표 클릭 출력 복사해 엑셀 파일로 저장 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 미세먼지_기사제목형태소분석_4주차_박대민.xlsx 형태소분석: 기사 제목 형태소 분석
  • 7.
    리드 전체 복사 젤리랩형태소분석(http://lab.newsjel.ly/analy/morpheme/) 입력창에 복사 화살표 클릭 출력 복사해 엑셀 파일로 저장 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 미세먼지_기사리드형태소분석_4주차_박대민.xlsx 형태소분석: 기사 리드 형태소 분석
  • 8.
  • 9.
     빈도 기준50위권 내에 불용어 제거(숫자, 보조명사, 조사, 부사, 오 류, 동사, 언론사명 등) 엑셀 데이터 복사 빈도 기준 50위권 컷오프 워드클라우드 시각화 시각화 결과 저장 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 예시: 미세먼지_젤리랩기사제목형태소_4주차_박대민.png 젤리랩 이용 워드클라우드 시각화: 기사 제목 형태소 50위권
  • 10.
     빈도 기준50위권 내에 불용어 제거(숫자, 보조명사, 조사, 부사, 오 류, 동사, 언론사명 등) 엑셀 데이터 복사 빈도 기준 50위권 컷오프 워드클라우드 시각화 시각화 결과 저장 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 예시: 미세먼지_젤리랩기사리드형태소_4주차_박대민.png 젤리랩 이용 워드클라우드 시각화: 기사 리드 형태소 50위권
  • 11.
  • 12.
    워드잇아웃을 이용한 워드클라우드시각화: 기사 주제어 50위권 기사주제어 빈도 기준 50위권 복사 ‘Table 선택’→’엑셀 데이터 붙여넣기’→’generate’ 폰트, 칼라, 레이아웃, 사이즈 설정 변경 글자 크기를 랭크 순으로 조정 ’regenerate’ 시각화 결과 캡쳐 후 그림판을 이용해 파일 저장 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 예시: 미세먼지_워드잇아웃기사주제어_4주차_박대민.png
  • 13.
  • 14.
    #news_big_data 다음 주 주제: -인용문 단위 뉴스 자연어처리 다음 주 읽을거리: - 없음