Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

How to do things with 'BigKinds'

738 views

Published on

- How to do a news big data analysis with <bigkinds>
- Data transformation, NLP, Semantic Network Analysis, Visualization
- Samples of case studies

Published in: Data & Analytics
  • Login to see the comments

How to do things with 'BigKinds'

  1. 1. How to do things with ‘BigKinds’ Daemin PARK Korea Press Foundation Senior Researcher 1
  2. 2. 뉴스 빅데이터와의 만남 Content 키워드 트렌드 기능 How to do things with ‘BigKinds’ 2 뉴스 검색 및 인용문 검색 기능 뉴스 빅데이터 분석 뉴스 의미연결망의 분포 뉴스 의미연결망 분석 사례 부록: 자연어처리 성능, 기타 기능
  3. 3. 뉴스 빅데이터와의 만남 : 정의, 유형, 특성 3
  4. 4. News Big Data 4 NLP SNA Raw Meta
  5. 5. News big data is dirty and dynamic 5 https://namu.wiki/w/무구정광대다라니경 http://www.imdb.com/title/tt0477347/mediaindex?ref_=tt_pv_mi_sm
  6. 6. <BigKinds>: Aggregation & NLP 6
  7. 7. Analysis: Excel, Description, and Degree 7 井上雄彦(1993). < Slam Dunk>. 東京: 週刊少年ジャンプ.
  8. 8. 키워드 트렌드 기능 : DB 한계 고려한 기술통계 8
  9. 9. 키워드 트렌드 기능 9
  10. 10. 키워드 트렌드 다운로드 파일 10
  11. 11. 매체별 수집 시기 박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥 재단. 11
  12. 12. 데이터 수집 DB, 수집 일 박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥 재단. 12 - 데이터 수집 DB: <빅카인즈> - 데이터 수집 완료일: 2016년 10월 21일
  13. 13. 매체별 기사 수 13 박대민(2016.4.18.). 신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사. <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥재단.
  14. 14. 검색 기사의 기술통계 박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥 재단. 14
  15. 15. 뉴스 검색 및 인용문 검색 기능 : 다운로드, 전처리 15
  16. 16. 뉴스 검색 기능 16
  17. 17. 뉴스 검색 다운로드 파일 17 수집된 메타데이터: 뉴스 식별자, 일자, 언론사, 기고자, 제목, 본문 지면: 통합분류1, 통합분류2, 통합분류3 사건/사고: 사건/사고1, 사건/사고2, 사건/사고3 개체명: 인물, 위치, 기관 주제: 키워드, 특성추출 (기사 수준)
  18. 18. 뉴스 검색 데이터 변환 및 보완 18 변환 -수집데이터: 뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 기고자(ART_BYLINE), 제목(ART_HEAD), 본문 (ART_CONTENT) -지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3) -개체명: 인물(ART_PERSON), 위치(ART_LOCATION), 기관(ART_ORGANIZATION) -주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3) 삭제 -사건/사고1, 사건/사고2, 사건/사고3, 특성추출 보완 - 빅카인즈 내 원문 링크: NEWS_LINK
  19. 19. 인용문 검색 다운로드 기능 19
  20. 20. 인용문 검색 파일 20 수집된 메타데이터: 뉴스 식별자, 일자, 언론사, 제목, 소스, 인용문 지면: 통합분류1, 통합분류2, 통합분류3 사건/사고: 사건/사고1, 사건/사고2, 사건/사고3 주제: 키워드, 특성추출 (인용문 수준)
  21. 21. 인용문 검색 Data 변환 및 보완 21 변환 -수집된 메타데이터: 뉴스 식별자(ART_ID), 일자(ART_DATE), 언론사(ART_PROVIDER), 제목(ART_HEAD), 소스(INFOSRC), 인용문(STN_CONTENT) -지면: 통합분류1(ART_CAT1), 통합분류2(ART_CAT2), 통합분류3(ART_CAT3) 삭제 -사건/사고1, 사건/사고2, 사건/사고3, 키워드, 특성추출 보완 -인용문: SEN_ID(인용문 식별자) -주제(인용문 수준): SNT_TAG1, SNT_TAG2, SNT_TAG3 -정보원: INFOSRC_PER(정보원 인명), INFOSRC_ORG(정보원 기관), INFOSRC_OCCUPATION(직위/직함) -주제(기사 수준) : 키워드(ART_TAG1, ART_TAG2, ART_TAG3) -빅카인즈 내 원문 링크: NEWS_LINK
  22. 22. Edge list 22 Semantic Network Data 생성 Linked list Matrix
  23. 23. Semantic Network Data 생성 박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. 23
  24. 24. File Naming 24 reference_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xls(또는 xlsx) edgeList_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xlsx degree_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xlsx degreeExponent_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일]_[E].xlsx degreeUnitPeriod_[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일]_[단위 기간]_[디그리 최 소값].xlsx rank_[순위]__[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xls description__[노드 유형]_[시작 매체]_[끝 매체]_[시작 지면]_[끝 지면]_[시작 일]_[끝 일].xlsx
  25. 25. 뉴스 빅데이터 분석 : 의미연결망 분석 25
  26. 26. - 형태소분석, NER - 구문분석, 의미분석 - data cleansing - 프로그램 기획 개발 - Visualization - 정보원 분석 - 인용문 분석 - 담론분석 - 구조 파악 - Transpose, Diagonal, Dichotomize - centrality 01 02 03 04 Crawling NLP, Data cleansing Semantic Network Analysis Discourse Analysis 26 - 데이터 모델링 - 수작업, Crawler, 계약 - 자료는 충분히 많아야 함 Procedure of News Big Data Analytics 빅카인즈
  27. 27. Transformation 27 빅카인즈: 데이터 수집, 자연어처리 뉴스젤리: 탐색적 연구 -형태소분석 - 워드클라우드 넷마이너: 행렬 변환 - file > import - transform > 2 mode - comembership-correlation-inner product - transform > value > diagonal - analyze > neighbor > degree UCINET: 파일 포맷 변환 - data > data editor > DL editor - data format > matrix > save
  28. 28. Analysis & Visualization 28 NETDRAW: 연결망 분석 및 시각화 - file > open > ucinet dl text file > network (1-mode) - analysis > centrality measures > set node sizes by: degree - properties > nodes > label > size - properties > lines > size > tie strength - properties > lines > arrow heads > arrow heads off, apply to all -layout > graphic theoretic layout - layout > ego network - geodesic distance from ego: 1 or 2
  29. 29. Folder-to-Folder 29 FileNameStandizer DegreeAnalyzer EdgelistConverter Statistics Ranker QuoteRanker DegreeExponent FragmentAnalyzer SentenceNetAnalyzer Consolidator Partitioner sen_tag_similar reference article_cooccur sen_src Big kinds article sen_similar degreesen_network shortest_path clique sen_rank sen_summary sen_detail diameter sen_main sen_deg rank org_deg tag_degedgelist src_degdegree degree rank org_rank tag_rank src_rank description org_descrip tag_descrip src_descrip article_descrip sen_rank sen_rank_org sen_rank_tag sen_rank_src article_cooccur sen_cooccur src_network org_network tag_network
  30. 30. 뉴스 의미연결망의 분포 : 분석 수준, 두터운 꼬리, 동조화와 파편화 30
  31. 31. Power Law 31
  32. 32. Time Series 박대민(2016). 장기 시계열 내용 분석을 위한 뉴스 빅데이터 분석의 활용 가능성: 100만 건 기사의 정보원과 주제로 본 신문 26년. <한국언론학보>, 60권 5호, 353-407. 32
  33. 33. Level of Analysis 박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. 33
  34. 34. Dimension Reduction Nouns Net News Sources Net 34
  35. 35. Maturity 35 Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences..
  36. 36. Growth 36
  37. 37. Fat-tailed 연결정도(x축)에 따른 연결정도지수(y축)의 추이 박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. 연결정도(x축)에 따른 연결정도지수(y축)의 추이 37
  38. 38. Synchronization & Fragmentation 38
  39. 39. 뉴스 의미연결망 분석 사례 : 정보원, 주제, 정보원-주제 39
  40. 40. Fundamentals of News Source Network 박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. 21 1 2 3 1 4 5 2 3 1 4 5 40 - 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 준연결망(quasi network) - 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
  41. 41. Word Cloud 형태소 분석, 빈도분석 개념어 분석, 의미연결망분석 41
  42. 42. Keyword-centric Network 박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단. 42
  43. 43. Keyword-centric Network 43 박대민, 오세욱 (2016.2.). AI 21년: 뉴스 빅데이터로 본 인공지능의 역사. <News Big Data Analytics & Insights>, 1권 2호. 서울: 한국언론진흥재단.
  44. 44. News Source Network: Thoughtless Comments 44
  45. 45. News Source Network Analysis 한겨레동아 박대민(2015). 사실기사의 직접인용에 대한 이중의 타당성 문제의 검토: 동아일보와 한겨레신문의 4대강 추진 논란 기사에 대한 뉴스 정보원 연결망 및 인용문 분석. <한국언론학 보>, 59권 5호, 121-151. 45
  46. 46. Source-Topic Network 박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단. 46
  47. 47. Attribute 47 박대민 (2016.2.). 지난 10년간 새해 화두는 ‘경쟁력’과 ‘북한’: 신년사 보도에 대한 뉴스 빅데이터 분석으로 본 한국. <News Big Data Analytics & Insights>, 1권 0호. 서울: 한국언론진흥재단.
  48. 48. Time-series Content Analysis 박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단. 48
  49. 49. Time-series Content Analysis 박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단. 49
  50. 50. Discourse Analysis 박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문. 50
  51. 51. Q & A 51 <Interstellar>
  52. 52. 부록 : 자연어처리 성능, 기타 기능 52
  53. 53. NLP 성능: 개체명 인식 53 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  54. 54. NLP 성능: 지면 분류 54 솔트룩스(2015.10.). 자동분류 정확도 평가결과_1008
  55. 55. NLP 성능: 인용구 추출 55 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  56. 56. NLP 성능: 키워드 추출 56 Berlocher, I., Lee, K. I., & Kim, K. (2008, July). TopicRank: bringing insight to users. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 703-704). ACM. ISO 690
  57. 57. NLP 성능: 사건 사고 분류 57 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  58. 58. NLP 성능: 감성인식 58 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  59. 59. 기타: 네트워크 분석 59
  60. 60. 기타: 워드클라우드 60
  61. 61. 기타: 텍사노미 기반 검색 61

×