SlideShare a Scribd company logo
1 of 14
Download to read offline
#BigKinds
Daemin PARK
Senior Researcher
Korea Press Foundation
heathe0@gmail.com
https://www.facebook.com/daeminpark77
https://brunch.co.kr/@daeminpark
https://www.slideshare.net/DaeminPark1
https://goo.gl/MvwMyK
뉴스 빅데이터란 무엇인가: 수집-NLP-SNA-해석
뉴스 자연어처리란 무엇인가: 형태소분석, 구문분석, 의미분석, 담론분석
이전 시간 내용
자료 수집
https://www.bigkinds.or.kr/
빅카인즈 가입
상세검색
 검색유형: 뉴스
 상세검색: 미세먼지
 검색기간: 2019.3.04.-2019.3.05.
 언론사: 중앙지
 주제분류: 선택 없음
 사건사고분류: 선택 없음
 검색
 100건씩 보기
 다운로드
수집: ‘미세먼지’ 기사 2일치 다운로드
파일명: NewsResult_20190304-20190305_[주차]_[이름].xlsx
NewsResult_20190304-20190305_3주차_박대민.xlsx
특성추출을 주제어로 변경 후 10개 분할
파일명: reference_미세먼지기사_중앙지_중앙지_전체_전체_20190304_20190304_[주차]_[이름].[확장자]
reference_미세먼지기사_중앙지_중앙지_전체_전체_ 20190304_20190304_3주차_박대민.xlsx
수집: ‘미세먼지’ 기사
상세검색
 검색유형: 뉴스 인용문
 상세검색: 미세먼지
 검색기간: 2019.3.04.-2019.3.05.
 언론사: 중앙지
 주제분류: 선택 없음
 사건사고분류: 선택 없음
 검색
 100건씩 보기
 인용문 다운로드
수집: ‘미세먼지’ 인용문 2일치 다운로드
파일명: quotation_20190304-20190305_[주차]_[이름].xlsx
quotation_20190304-20190305_3주차_박대민.xlsx
파일명: reference_미세먼지인용문_중앙지_중앙지_전체_전체_20190304_20190304_[주차]_[이름].[확장자]
reference_미세먼지인용문_중앙지_중앙지_전체_전체_ 20190304_20190305_3주차_박대민.xlsx
수집: ‘미세먼지’ 인용문
빈도분석
검색어: ‘미세먼지’
분석매체: 경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨
레, 한국일보
분석기간: 2019년 3월 4일-2019년 3월 5일
기사 수: 201건
분석유목: 기사 특성추출, 인용문 특성추출
수집 및 분석 프로그램: <빅카인즈>
수집일: 2019년 3월 5일
분석 프로그램: EXCEL
분석 개요
엑셀에 ‘특성추출’열 전체 복사
‘데이터’→’텍스트나누기’ →’구분기호로 분리’ →’쉼표’
K열 이후 삭제(K열 선택→’ctrl+shift+→’ →’Del’)
1행 삭제
전체 선택(ctrl+a)
A열에 B열~J열 데이터 모음
1행 추가, A열 1행에 ‘기사주제어', B열 1행에 “빈도”라고 입력
A열과 B열 선택 후 ‘데이터-필터’ 적용, A열 내림차순 정렬
B열에 숫자 1채움
 삽입 → 피벗테이블 → A,B열 선택
주제어,빈도 체크→ ‘행 레이블-기타 정렬 옵션-내림차순 기준-빈도 선택’
분석 결과 엑셀 저장
분석: 기사 주제어 빈도분석
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_ 기사주제어빈도분석_3주차_박대민.xlsx
엑셀에 ‘특성추출’ 열 전체 복사
‘데이터’→’텍스트나누기’ →’구분기호로 분리’ →’쉼표’
K열 이후 삭제(K열 선택→’ctrl+shift+→’→’Del’)
1행 삭제
전체 선택(ctrl+a)
A열에 B열~J열 데이터 모음
1행 추가, A열 1행에 ‘인용문주제어', B열 1행에 “빈도”라고 입력
A열과 B열 선택 후 ‘데이터-필터’ 적용, A열 내림차순 정렬
B열에 숫자 1채움
 삽입 → 피벗테이블 → A,B열 선택
주제어,빈도 체크→ ‘행 레이블-기타 정렬 옵션-내림차순 기준-빈도 선택’
분석 결과 엑셀 저장
분석: 인용문 주제어 빈도분석
파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자]
미세먼지_ 인용문주제어빈도분석_3주차_박대민.xlsx
참고자료
#news_big_data
다음 주 주제:
- 기사 단위 뉴스 자연어처리 실습
다음 주 읽을거리:
- 없음

More Related Content

More from Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석Daemin Park
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media BlockchainDaemin Park
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형Daemin Park
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Daemin Park
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)Daemin Park
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인Daemin Park
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Daemin Park
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Daemin Park
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)Daemin Park
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)Daemin Park
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)Daemin Park
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)Daemin Park
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)Daemin Park
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)Daemin Park
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)Daemin Park
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구Daemin Park
 
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론Daemin Park
 
김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)
김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)
김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)Daemin Park
 
이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)
이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)
이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)Daemin Park
 
박춘원: 보헤미안 랩소디와 블록체인 기반 미디어 기술 발전 방향 (미디어스타트업 연구회)
박춘원: 보헤미안 랩소디와 블록체인 기반 미디어  기술 발전 방향 (미디어스타트업 연구회)박춘원: 보헤미안 랩소디와 블록체인 기반 미디어  기술 발전 방향 (미디어스타트업 연구회)
박춘원: 보헤미안 랩소디와 블록체인 기반 미디어 기술 발전 방향 (미디어스타트업 연구회)Daemin Park
 

More from Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
2주차: 뉴스 빅데이터 분석을 위한 자연어처리 이론
 
김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)
김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)
김혁주: 로컬 코워킹 스페이스 (미디어스타트업 연구회)
 
이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)
이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)
이성규: 뉴스 스타트업 생태계의 선순환을 위한 조건 (미디어스타트업 연구회)
 
박춘원: 보헤미안 랩소디와 블록체인 기반 미디어 기술 발전 방향 (미디어스타트업 연구회)
박춘원: 보헤미안 랩소디와 블록체인 기반 미디어  기술 발전 방향 (미디어스타트업 연구회)박춘원: 보헤미안 랩소디와 블록체인 기반 미디어  기술 발전 방향 (미디어스타트업 연구회)
박춘원: 보헤미안 랩소디와 블록체인 기반 미디어 기술 발전 방향 (미디어스타트업 연구회)
 

3주차: 빅카인즈의 이용과 전처리

  • 1. #BigKinds Daemin PARK Senior Researcher Korea Press Foundation heathe0@gmail.com https://www.facebook.com/daeminpark77 https://brunch.co.kr/@daeminpark https://www.slideshare.net/DaeminPark1 https://goo.gl/MvwMyK
  • 2. 뉴스 빅데이터란 무엇인가: 수집-NLP-SNA-해석 뉴스 자연어처리란 무엇인가: 형태소분석, 구문분석, 의미분석, 담론분석 이전 시간 내용
  • 5. 상세검색  검색유형: 뉴스  상세검색: 미세먼지  검색기간: 2019.3.04.-2019.3.05.  언론사: 중앙지  주제분류: 선택 없음  사건사고분류: 선택 없음  검색  100건씩 보기  다운로드 수집: ‘미세먼지’ 기사 2일치 다운로드 파일명: NewsResult_20190304-20190305_[주차]_[이름].xlsx NewsResult_20190304-20190305_3주차_박대민.xlsx
  • 6. 특성추출을 주제어로 변경 후 10개 분할 파일명: reference_미세먼지기사_중앙지_중앙지_전체_전체_20190304_20190304_[주차]_[이름].[확장자] reference_미세먼지기사_중앙지_중앙지_전체_전체_ 20190304_20190304_3주차_박대민.xlsx 수집: ‘미세먼지’ 기사
  • 7. 상세검색  검색유형: 뉴스 인용문  상세검색: 미세먼지  검색기간: 2019.3.04.-2019.3.05.  언론사: 중앙지  주제분류: 선택 없음  사건사고분류: 선택 없음  검색  100건씩 보기  인용문 다운로드 수집: ‘미세먼지’ 인용문 2일치 다운로드 파일명: quotation_20190304-20190305_[주차]_[이름].xlsx quotation_20190304-20190305_3주차_박대민.xlsx
  • 10. 검색어: ‘미세먼지’ 분석매체: 경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 조선일보, 중앙일보, 한겨 레, 한국일보 분석기간: 2019년 3월 4일-2019년 3월 5일 기사 수: 201건 분석유목: 기사 특성추출, 인용문 특성추출 수집 및 분석 프로그램: <빅카인즈> 수집일: 2019년 3월 5일 분석 프로그램: EXCEL 분석 개요
  • 11. 엑셀에 ‘특성추출’열 전체 복사 ‘데이터’→’텍스트나누기’ →’구분기호로 분리’ →’쉼표’ K열 이후 삭제(K열 선택→’ctrl+shift+→’ →’Del’) 1행 삭제 전체 선택(ctrl+a) A열에 B열~J열 데이터 모음 1행 추가, A열 1행에 ‘기사주제어', B열 1행에 “빈도”라고 입력 A열과 B열 선택 후 ‘데이터-필터’ 적용, A열 내림차순 정렬 B열에 숫자 1채움  삽입 → 피벗테이블 → A,B열 선택 주제어,빈도 체크→ ‘행 레이블-기타 정렬 옵션-내림차순 기준-빈도 선택’ 분석 결과 엑셀 저장 분석: 기사 주제어 빈도분석 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 미세먼지_ 기사주제어빈도분석_3주차_박대민.xlsx
  • 12. 엑셀에 ‘특성추출’ 열 전체 복사 ‘데이터’→’텍스트나누기’ →’구분기호로 분리’ →’쉼표’ K열 이후 삭제(K열 선택→’ctrl+shift+→’→’Del’) 1행 삭제 전체 선택(ctrl+a) A열에 B열~J열 데이터 모음 1행 추가, A열 1행에 ‘인용문주제어', B열 1행에 “빈도”라고 입력 A열과 B열 선택 후 ‘데이터-필터’ 적용, A열 내림차순 정렬 B열에 숫자 1채움  삽입 → 피벗테이블 → A,B열 선택 주제어,빈도 체크→ ‘행 레이블-기타 정렬 옵션-내림차순 기준-빈도 선택’ 분석 결과 엑셀 저장 분석: 인용문 주제어 빈도분석 파일명: [검색어]_[분석 유형] _[주차]_[이름].[확장자] 미세먼지_ 인용문주제어빈도분석_3주차_박대민.xlsx
  • 14. #news_big_data 다음 주 주제: - 기사 단위 뉴스 자연어처리 실습 다음 주 읽을거리: - 없음