- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
- Big data is like teenage sex
- Structures of Big data
- News big data
- Natural language processing
- News source network
- Examples
- News big data anaysis software
- Further studies
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
내부적 이해
1. 데이터 저널리즘 개념잡기
(1) 빅데이터 시대, 빅데이터란?
(2) 빅데이터의 종류와 활용분야
(3) 빅데이터와 저널리즘의 상관관계
(4) 데이터 - 중심 저널리즘
(5) 사례로 보는 데이터 저널리즘
2. 데이터 저널리즘 과정알기
(1) 데이터 저널리즘 과정
외부적 기회
3. 데이터 저널리즘의 미래 찾기
(1) 데이터 저널리즘 관련 기관/행사
(2) 데이터 저널리즘의 전망
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
데이터 저널리즘.
많이는 들어봤는데, 누가 하는걸까?
그리고 그들의 비즈니스 모델은 무엇일까?!
뉴스젤리가 파헤친
데이터 저널리즘 비즈니스 모델!!
1. 영리기업
1) 기성언론
- 뉴욕타임스
- 가디언
- LA타임즈
- 블룸버그
- 로이터
- 이코노미스트
2) 스타트업
- Wanna Hacks
- Statista
- Timetric
- Data Market
- CSC
- DATA 뉴스
2.비영리 단체 및 기업
1) Propublica
2) Texas Tribune
3) Stiftung Warentest
데이터 저널리즘의 새 바람, 뉴스젤리(Newsjelly)
http://newsjel.ly
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
visualization site: http://goo.gl/I7PZdp
(powered by VISUAL DIVE & FUNEX>
- definition of news big data
- natural language processing of news articles
- news semantic network analysis
- visualization of news history
- 뉴스 생태계의 변화: 플랫폼, UX
- 뉴스 빅데이터의 정의: 메타, NLP, SNA
- 뉴스 빅데이터 분석: NLP, SNA
- 뉴스 빅데이터의 BM: 데이터 저널리즘, 전문가 시스템, 분석도구, 데이터 기반 서비스, CMS, 플랫폼
- 뉴스 빅데이터의 목표: Build Better World
데이터 저널리즘을 이해할 수 있는 유용한 자료 입니다.
http://newsjel.ly
내부적 이해
1. 데이터 저널리즘 개념잡기
(1) 빅데이터 시대, 빅데이터란?
(2) 빅데이터의 종류와 활용분야
(3) 빅데이터와 저널리즘의 상관관계
(4) 데이터 - 중심 저널리즘
(5) 사례로 보는 데이터 저널리즘
2. 데이터 저널리즘 과정알기
(1) 데이터 저널리즘 과정
외부적 기회
3. 데이터 저널리즘의 미래 찾기
(1) 데이터 저널리즘 관련 기관/행사
(2) 데이터 저널리즘의 전망
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
한국언론진흥재단에 대해
뉴스 미디어의 미래 디지털 및 모바일 혁신 분과에서 나온 제안 사항
1) 콘텐츠 혁신
- 포맷: 카드뉴스, 웹툰, 게임, 드론, 시각화, VR 등 새로운 뉴스 포맷 연구 및 개발 지원
- UX: 독자 분석을 위한 UX, 연결망 분석, 추천 알고리즘 등의 연구와 교육, UX 기반 서비스 연구 및 기획, 네이티브 광고 연구 및 기획
- 저널리즘 가치: 롱폼 저널리즘, 알고리즘 저널리즘, 참여 저널리즘 등 새로운 저널리즘 가치 연구
- 뉴스 빅데이터: 뉴스 빅데이터 고도화 및 활용을 위한 연구 및 시스템 서비스의 기획과 개발, 전문개발자 확충, 지능형 뉴스 검색엔진 기획, Structured journalism, 부가서비스 기획
2) 조직 혁신
- 인력: 전 직급 언론인 대상 모바일 혁신 교육 실시, 언론인 및 언론학자 맞춤형 모바일/디지털 스킬 매뉴얼 제작
- 조직: 모바일 퍼스트를 위한 인사 평가와 조직 개편 연구, 모바일 퍼스트를 위한 업무 프로세스 연구
- CMS: SaaS를 활용한 저비용/고효율 CMS 개발 지원, CMS 연계된 언론사 맞춤형 각종 플러그인 개발 및 공유, 사용자용 CMS 기획 개발
- 플랫폼: 뉴스 빅데이터 시스템을 활용한 오픈API, 오픈데이터, 오픈소스 전략 수립, 오픈플랫폼 활용 극대화를 위한 교육과 개발 협력을 위한 개발자 컨퍼런스 개최
3) 비즈니스 모델 혁신
- 광고: 네이티브 광고, 언론사 공동 광고 인벤토리 추진
- 저작권: 뉴스 빅데이터 사업을 통한 데이터 판매(B2B 영역) 방식의 저작권 사업 추진
- 부가사업: 언론사 사내 벤처 또는 언론사와 미디어 스타트업 간 협업 지원, 미디어 혁신 한정해 사내 벤처의 월급 지원, 미디어 해커톤 개최
- 투자: 개발자 컨퍼런스 개최, VC와 연결하고 기술 공유와 협업 및 투자 기회 제공
데이터 저널리즘.
많이는 들어봤는데, 누가 하는걸까?
그리고 그들의 비즈니스 모델은 무엇일까?!
뉴스젤리가 파헤친
데이터 저널리즘 비즈니스 모델!!
1. 영리기업
1) 기성언론
- 뉴욕타임스
- 가디언
- LA타임즈
- 블룸버그
- 로이터
- 이코노미스트
2) 스타트업
- Wanna Hacks
- Statista
- Timetric
- Data Market
- CSC
- DATA 뉴스
2.비영리 단체 및 기업
1) Propublica
2) Texas Tribune
3) Stiftung Warentest
데이터 저널리즘의 새 바람, 뉴스젤리(Newsjelly)
http://newsjel.ly
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
Natural language processing of News (intermediate): rule based modelDaemin Park
NLP of news in news big data analysis systems such as
1) 'NewsSource Beta' (powered by Advanced Institutes of Convergence Technology, Seoul National University)
2) 'Big kinds' (powered by Korea Press Foundation)
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
2. 발표자 소개
• 연구 분야
• 데이터 마이닝, 정보검색, 데이터베이스, 빅데이터
• 연구 경력
• 군산대 통계컴퓨터과학과 조교수 (2014 – 현재)
• 서울대 차세대융합기술연구원 연구교수 (2011 – 2014)
• 일리노이대 차세대디지털과학센터 선임연구원 (2010)
• 브리티시컬럼비아대 박사후연구원 (2008 – 2009)
• 펜실베이니아주립대 컴퓨터공학 박사 (2007)
• 연구 업적
• CACM, KAIS 등 SCI 11편
• ICDM, ICDE, SDM 등 주요 데이터 마이닝 학회 논문 발표
• 폴리티즈, 뉴스소스, 사회문제 키워드 추출 시스템 등 시스템 개발 및 시
연
• 연구재단, 정보화진흥원, 에너지기술평가원, 닐슨 등 빅데이터 연구 과
제 수행
• Data Science Lab : datalab@kunsan.ac.kr
2
3. News On New Media
Aggregation & Curation, Customization, Visualization
3
4. 새로운 방식의 뉴스 전달
낚시, 선정, 광고, 아마추어, 편향성, 쓸모 없음, 떨어지는 가독성…
4
5. Journalism적인 가치
• 사실성, 다양성, 심층성
• 사실성을 드러내는 관례
• 인용, 수치, 사례 등 [van Dijk 1988]
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자
• 저널리즘 연구의 주요 주제
• [Sigal 1973], [Schudson 1978], & [Gans 1979]
5
6. New Source Network Analysis (뉴스 정보원 연결망 분석)
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 뉴스 정보원 연결망
• 같은 기사에 두 정보원이 직접 인용문으로 함께 인용되면 이 정
보원들 간에 서로 의미론적 관계가 있다.
• 연결망(Network)을 분석하여 인물의 중요도를 계산
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도
로 추정
• 같은 정보원이 있는 뉴스를 클러스터링 중복기사를 사건별로
정리
6
8. Journalism가치에 기초한 기사 제공
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹어플리케이션
• 뉴스 기사를 쟁점 중심, 사실 중심으로 제시
• 관련된 기사, 정보원, 사실을 클러스터링
• 중복 기사와 문장을 축약해 대표 기사와 문장을 제공
• 기사, 정보원, 사실을 가중치에 따라 배치
• 인물 중심 시각화(visualization) 통한 뉴스의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 이용 대상 - 언론계, 전문가, 일반인
• 1차 타겟: 언론학자, 기자
• 2차 타겟: 법률가, 컨설턴트, 시장조사, 정치인, 대학생 등 뉴스 중
이용자(heavy user)
• 3차 타겟: 정치, 경제, 사회 등 사회 쟁점에 관심 많은 일반 독자
8
16. 기술적 접근
• 자연어 처리 (Natural Language Processing)
• 정보원의 자동 추출
• 이름, 조직, 직함
• 박근혜 대통령, 박 대통령, 박 전대표
• 통일부 김형석 대변인, 김형석 대변인, 김 대변인
• 익명이 많다 (김모씨, 이모씨, 청와대 모 관계자, 청와
대 핵심 관계자)
• 인용문의 추출
• Fact들도 추출 (숫자)
• 대용량 데이터
• 한국언론진흥재단 KINDS
• 28,507,321건의 기사
• 1990년 이후 66개 매체 기사
• 정보 시각화
자연어 처리
대용량 데이
터
정보 시각화
16
17. 자연어 처리
정보원 추출 및 매칭
• Web Resource & 수작업
검증을 통한 사전의 구성
• 저널리즘 영역 지식 활용한
정보원 추출 룰 작성
• SVM을 활용한 정보원
매칭
최소한의 수작업이 요구되는 정확한 자연어
처리
다매체 기사의 종합 및
문장의 중요도 결정 카테고리 분류
• 정보원의 소속 분류
• Bayesian classifier 를
활용하여 미 분류 기사의
지면 분류
• 문장 및 기사 클러스터링을
통해 유사 문장의 추출
• Inverted index Join
algorithm을 활용한 All-pair
similarity 의 빠른 계산
• TF-IDF 및 정보원의 중요도에
따른 대표 문장의 추출
오픈 소스를 활용한
범용성 확보
• JAVA 기반
• Lucene 검색엔진
• 서울대 꼬꼬마 형태소
분석기
• Weka의 기계학습
라이브러리
• Hadoop framework
17
18. 자연어처리 – 정보원 추출 및 매칭
- 뉴스의 인용문으로 부터 인명/직함/소속을 추출하고 동일 개체를 판단하여 하나의 개체로 매칭
18
22. 빅데이터 처리속도
68
90
63
1048
처리 시간(초)
기사와 무관한 텍스트 제거
정보원 추출 및 매칭
Lucene indexing
다매체 기사 요약 및 중요 문장 추출
- 1일치 평균 뉴스 기사 수 3,300개 기준일 때 21분 소요
- 실행 환경 CPU: Intel i3-2100 CPU @ 3.10GHz, RAM: 4GB, OS : Ubuntu 12.04
- 서비스 시작 후 1일 치 씩 처리시는 문제 없음
- Single machine에서 모든 데이터(365(일) * 23(년))를 처리 하기 위해서는 49일 소요 예상됨
22
23. 빅데이터 기술을 이용한 자연어 처리
- 분산처리를 통한 속도 개선 : Map-reduce 모델에서 Mapper 만 활용하여 Hadoop 분산
Framework를 통해 분산 처리
… Map
Map
Map
MySQL DB
…
1990/01/01
1990/01/02
1990/01/03
2013/12/05
1개의 Mapper의 task 끝날 때마다
다음 날짜를 처리
정보원
추출 모듈
HDFSSequential file
Lucene
index file
다매체 요약
모듈
HDFSLocal file sys.
자연어 처리결과
23
24. 성능 측정 결과
실험 환경
- Cluster 환경 : 1개의 Name Node, 8개 Data node ,
- Node spec. : CPU- Intel i3-2100 CPU @ 3.10GHz, RAM- 4GB, OS - Ubuntu 12.04
(Single machine 환경과 동일)
49일 6일 1시간 20 분
Name Node
(DFS Master)
Job Tracker
2nd Name Node
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
24
25. 빅데이터 서비스
검색
조인
테이블
5년 치 뉴스기사
- 쿼리 응답시간 최소화
- 조인 연산의 병렬 처리
Hive
- 실시간 데이터 서비스
- 부하 분산
- Failover
HBase
Name Node
(DFS Master)
Job Tracker
2nd Name Node
Client API
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
25
26. 26
26
☞ 66매체, 29백만 뉴스기사
(1990 – 현재)
☞ 매일 7000 뉴스기사 생성
크롤링
서버
크롤링
클라이언트
Hbase
데이터베
이스
자연어
처리
JSP
아파치 톰캣 서버
Lucene 검색
엔진
PHP
Ajax
한국언론진흥재단
하둡 분산 파일 시스템
리눅스 운영체제
DB 최적화
Hive
뉴스 큐레이션 시스템
RDBMS
동아
일보
중앙
일보
. . .
-인명사전 구축
-인명/소속/직함 식별
-인명 매칭 (김웅남 vs 김웅남)
-중복 뉴스기사 클러스터링
-지면 자동 분류
-소셜 그래프 생성
-인물 중요도 측정
☞단일 컴퓨터: 7000*23*70분 = 49일
☞분산병렬처리: 6일 1시간 20분
7배 성능 향상
클러스터 시스템
☞ 1 Name Node & 8 Data Nodes
빅데이터 시스템 구성
MapReduce
27. News Source: Journalism 가치에 기반한 뉴스 제공
• Journalism적인 가치: 사실성, 다양성, 심층성
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자 & 저널리즘 연구의 주요 주제
• 뉴스 정보원 연결망
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도로 추정
• 같은 정보원이 있는 뉴스를 클러스터링 중복기사를 사건별로 정리
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹 어플리케이션
• 뉴스 기사들을 뉴스기사 내의 사실을 중심으로 요약해서 제공 함
• 중요한 순서대로 기사를 배열
• 의미 관계를 파악하게 도와주는 스마트 뉴스 서비스
• 인물 중심의 시각화(visualization)을 통한 사건의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 타겟 유저: 뉴스 중 이용자(heavy user)
• 기자, 언론학자, 정치인, 법률가, 컨설턴트, 대학생 등을 위한 서비스
• 뉴스를 쟁점 중심으로 심층적으로 분석하기 위한 사람을 위한 서비스
자연어 처리
대용량 데이
터
정보 시각화
27