1. #BigKinds
Daemin PARK
Senior Researcher
Korea Press Foundation
heathe0@gmail.com
https://www.facebook.com/daeminpark77
https://brunch.co.kr/@daeminpark
https://www.slideshare.net/DaeminPark1
https://goo.gl/MvwMyK
2. 뉴스 빅데이터란 무엇인가: 수집-NLP-SNA-해석
뉴스 자연어처리란 무엇인가: 형태소분석, 구문분석, 의미분석, 담론분석
이전 시간 내용
5. 상세검색
검색유형: 뉴스
상세검색: 미세먼지
검색기간: 2019.3.04.-2019.3.05.
언론사: 중앙지
주제분류: 선택 없음
사건사고분류: 선택 없음
검색
100건씩 보기
다운로드
수집: ‘미세먼지’ 기사 2일치 다운로드
파일명: NewsResult_20190304-20190305_[주차]_[이름].xlsx
NewsResult_20190304-20190305_3주차_박대민.xlsx
6. 특성추출을 주제어로 변경 후 10개 분할
파일명: reference_미세먼지기사_중앙지_중앙지_전체_전체_20190304_20190304_[주차]_[이름].[확장자]
reference_미세먼지기사_중앙지_중앙지_전체_전체_ 20190304_20190304_3주차_박대민.xlsx
수집: ‘미세먼지’ 기사
7. 상세검색
검색유형: 뉴스 인용문
상세검색: 미세먼지
검색기간: 2019.3.04.-2019.3.05.
언론사: 중앙지
주제분류: 선택 없음
사건사고분류: 선택 없음
검색
100건씩 보기
인용문 다운로드
수집: ‘미세먼지’ 인용문 2일치 다운로드
파일명: quotation_20190304-20190305_[주차]_[이름].xlsx
quotation_20190304-20190305_3주차_박대민.xlsx
10. 검색어: ‘미세먼지’
분석매체: 경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨
레, 한국일보
분석기간: 2019년 3월 4일-2019년 3월 5일
기사 수: 201건
분석유목: 기사 특성추출, 인용문 특성추출
수집 및 분석 프로그램: <빅카인즈>
수집일: 2019년 3월 5일
분석 프로그램: EXCEL
분석 개요
11. 엑셀에 ‘특성추출’열 전체 복사
‘데이터’→’텍스트나누기’ →’구분기호로 분리’ →’쉼표’
K열 이후 삭제(K열 선택→’ctrl+shift+→’ →’Del’)
1행 삭제
전체 선택(ctrl+a)
A열에 B열~J열 데이터 모음
1행 추가, A열 1행에 ‘기사주제어', B열 1행에 “빈도”라고 입력
A열과 B열 선택 후 ‘데이터-필터’ 적용, A열 내림차순 정렬
B열에 숫자 1채움
삽입 → 피벗테이블 → A,B열 선택
주제어,빈도 체크→ ‘행 레이블-기타 정렬 옵션-내림차순 기준-빈도 선택’
분석 결과 엑셀 저장
분석: 기사 주제어 빈도분석
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_ 기사주제어빈도분석_3주차_박대민.xlsx
12. 엑셀에 ‘특성추출’ 열 전체 복사
‘데이터’→’텍스트나누기’ →’구분기호로 분리’ →’쉼표’
K열 이후 삭제(K열 선택→’ctrl+shift+→’→’Del’)
1행 삭제
전체 선택(ctrl+a)
A열에 B열~J열 데이터 모음
1행 추가, A열 1행에 ‘인용문주제어', B열 1행에 “빈도”라고 입력
A열과 B열 선택 후 ‘데이터-필터’ 적용, A열 내림차순 정렬
B열에 숫자 1채움
삽입 → 피벗테이블 → A,B열 선택
주제어,빈도 체크→ ‘행 레이블-기타 정렬 옵션-내림차순 기준-빈도 선택’
분석 결과 엑셀 저장
분석: 인용문 주제어 빈도분석
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_ 인용문주제어빈도분석_3주차_박대민.xlsx