SlideShare a Scribd company logo
1 of 72
Download to read offline
데이터 + 저널리즘
이성규 블로터 미디어랩장
Facebook
instant article
Apple
News App
Snapchat
Discovery
New York Times New York Times CNN
NBC NEWS CNN BUZZFEED
GUARDIAN WASHINGTON POST DAILY MAIL
BBC NEWS BLOOMBERG
NATIONAL
GEOGRAPHIC
WAHSINGTON POST HEARST COSMOPOLITAN
등 약 30개 언론사 등 50개 이상 언론사 등 14개 언론사
IT 거인 뉴스 서비스의 특징
• 네이버 검색 방식의 OUTLINK 지양(모두 INLINK)
• 뉴스 전재료 지급 지양(모두 광고 수익 배분 방식)
• 광고 수익은 7(언론사):3(플랫폼), 직접 영업 100% 지급
• 뉴스 소비 경험의 혁신성(다양한 렌더링 기술 제공)
• 뉴스 전송 방송의 간편화(RSS 등)
입점 언론사는 어리석은가?
Data
분석 대상 데이터
내부 데이터 외부 데이터
실현 유형
독자 열독 행위 분석
디지털 광고 효과 측정
데이터 기반 리포팅
네이티브 광고
로봇 저널리즘
데이터 저널리즘
센서 저널리즘
효과
트래픽 향상
디지털 수익 향상
신뢰도 향상
저널리즘 혁신 기여
연합뉴스 데이터 과학자 채용
• 통계학적 지식 + R 활용 능력 요구
• 다양한 뉴스의 생산, 배포 전략 수립
에 활용
뉴스타파 데이터 저널리스트 채용
• 우대사항 : 다음 사항에 대한 경험과 지식
▲ 프로그래밍 언어(Python)
▲ 웹 개발 (HTML, CSS, Javascript)
▲ 데이터 시각화
▲ RDBMS 또는 NoSQL
▲ Open Source GIS tool
▲ 기타 Open Source와 Open Data

• 담당업무 : 데이터 기반 탐사 보도 프로젝트
중 ▲데이터 수집 ▲분석 ▲시각화 등에 관
련된 개발 업무
Journalism
& Data Science
– 알렉산더 벤자민 하워드.(2015). ‘데이터 저널리즘’. 한국언론진흥재단
“데이터 저널리즘이란 저널리즘 행위로 만들어낸 창
조물을 뒷받침하기 위해 데이터를 수집, 갈무리, 조직,
분석, 시각화 그리고 출간하는 행위이다. 좀 더 간결
하게 설명하면 저널리즘에 데이터 과학을 적용하는
것이라고 할 수 있다.
데이터 저널리즘 미디어
• 네이트 실버 : 파이브써티에이트(Fivethirtyeight)
• 에즈라 클라인 : vox.com
• 뉴욕타임스 : upshot
• 애틀랜틱미디어 : Quartz
• 가디언 : Datalog
• 구글 : Newslab Data Store
데이터 저널리즘의 역사
• Eckert-Mauchly, UNIVAC 활용 대통령 선거 예측
• CAR(Computer Aided Reporting)의 연장
• 2006년 : 애드리안 홀로바티 “신문은 데이터 다루는 방
식을 근본적으로 바꿔야 한다”
• 2010년 : 팀 버너스 리 “데이터 분석이 저널리즘의 미래”
센서 저널리즘
메이커 문화 + 데이터 저널리즘
WYNC의 센서 저널리즘
• 2013년 매미 추적기라 이름 붙인
지온 측정 센서 아두이노로 개발
• 도면과 조립 방식을 오픈소스로 공
개
• 독자들이 아두이노로 지온 측정기
직접 제작 및 데이터 전송
• 미국 동부해안 800개 지역 1750대
의 센서가 데이터 발송
• WYNC는 이를 시각화해 뉴스로 제
공
데이터의 변화와 저널리즘
• 국정원 해킹팀 사건의 경우 자료 분량만 400GB
• 국내 최초 분석 사례는 언론사가 아닌 개인 개발자(Rainygirl)
• 정부 등 공공 데이터는 API 형태로 제공(정보공개 청구?)
• IOT 등으로 센서가 생산하는 데이터 양이 폭발적 증가
• 데이터가 정보원이 되고 있으나 이를 수집, 분석할 역량 미흡
• 데이터를 전문적으로 분석할 수 있는 기술과 사람의 중요성 증
대
네이트 실버와 데이터 저널리즘
• “빅데이터 시대에 우리의 예측들이 실패
로 돌아갈 가능성이 더 큰 이유다. 검증
해야 할 가설 역시 기하급수적으로 많아
진다”(신호와 소음. 374쪽)
• "테틀록이 연구한 결과 언론과 인터뷰를
많이 한 전문가일수록 예측이 빗나가는
경향을 보였다”(신호와 소음. 89쪽)
• "베이즈 정리는 우리에게 사건에 대한
증거를 평가하기 전에 그 사건이 일어날
가능성을 어느 정도로 믿는지 구체적으
로 밝히라고 요구한다. 베이즈정리에서
는 이 추정을 경험적 믿음(사전확률)이
라고 부른다"(신호와 소음. 653쪽)
Audience &
Data Science
뉴욕타임스와 데이터 과학
• 2014년 콜럼비아대 수학과 교수인
크리스 위긴스를 최고데이터과학자
로 임명
• 머신러닝과 통계적 방법론으로 비
즈니스 문제 해결
• 2014년 유료 구독 탈퇴자 예측 모
델 개발
• 이에 앞서 월스트리트저널은 2013
년 10월 콜럼비아대 통계학과 레이
철 슈트 교수를 최고데이터과학자
로 영입
VOX Media와 데이터과학
• VOX MEDIA는 지난 4월 Opbandit이
라는 데이터 과학 스타트업 인수
• Opbandit은 데이터 트래킹을 토대로
썸네일 최적화, 톱 기사 배치 최적화를
지원하는 서비스(대안적 A/B 테스팅
툴)
• 뉴욕타임스, 그레이엄 홀딩스 등이 초
기 투자. 워싱턴포스트는 핵심 고객 중
한 곳
• Vox Media는 자체 CMS인 CHORUS
에 Opbandit을 통합해 업그레이드 할
예정
워싱턴포스트의 클래비스
• ‘기술 기업으로 변모’ 선언 뒤 클래
비스라는 추천 알고리즘 개발
• 아마존의 도서 및 상품 추천 알고리
즘 방식에서 착안(TF-IDF,
Collaborative Filtering)
• 지난 3월 기준 순방문자수 전년 동
기 대비 65% 상승
• 네이티브 광고 노출에 클래비스 기
술 활용
BBC와 어도비 애널리틱스
• 웹 애널리틱스 툴로 어도비 마케팅
클라우드와 차트비트 활용
• 각 기사별로 실시간 데이터 수집
• 각 뉴스 화면별 사용자 스크롤링 위
치도 추적
• 이를 토대로 디지털 에디터들은 콘
텐츠 배치 전략 결정
정보사회의 제어권
• 제임스 베니거 <컨트롤 레볼루션>
• 제어권의 핵심 요소 : 정보 프로세싱과 양방향 커뮤니케이션 => ‘완전한 제어’
• 양방향 커뮤니케이션 : 제어의 결과를 파악하기 위해 제어의 대상에서 제어의 주체로
정보가 되먹임되는 피드백도 갖춰야 한다
• 1930년대 인쇄매체 호황기
• ABC 측정 언론감시연합(AAM)은 인쇄매체 외부에 존재. 완전한 제어까지는 미치지
못했음
• 2010년대 페이스북 등 SNS 호황기
• 정보 프로세싱 기술에 관한 전세계 최고 수준의 인력과 노하우 보유
• ABC보다 더 정밀한 피드백 시스템을 갖추고 정보의 제어권을 장악
사례 1
가디언의 ‘오펀’
뉴스룸의 ‘오펀’ 활용 방식
• 950명 내부 직원들에게 모두 개방
• 시작은 가디언 프론트 페이지 기사 배치에 대한 기자들의 비판에 대한 대응책(개발 개시는 가디
언 해커톤에서)
• 나이지리아 선거 보도 기사의 경우 실제 나이지리아로부터 유입된 트래픽이 35% 차지
• “우리가 다른 지역으로 독자의 확장을 고민하고 있다면, 오펀의 데이터는 매우매우 유용하
다”(by Moran)
• Attention Time을 Click보다 더 중요하게 간주
• 독자들이 뉴스에 접근하는 의도에 대한 탐색과 이해
• 넬슨 만델라의 사망 기사는 페이스북에서 시간당 4만 like 기록했지만 클릭은 1만회에 불과.
3/4의 독자들은 그의 타계 소식을 알고 있었다는 걸 의미
사례 2
버즈피드 ‘파운드’
15억 달러
(NBCUniversial 투자&평가)
> FT 13억 달러(닛케이 인수가)
3억 달러
(2015년 예상)
Key Players
Ky Harlin(Conde Nast VP) Dao Nguyen(Publisher)
Dao Nguyen 주요 경력(출처 : Linkedin)
• 1990~1994년 하버드대 응용 수학 및 컴퓨터과학
• 1994~1998 액센추어 컨설턴트
• 1998~2001 콘크리트 미디어 프로듀서
• 2001~2003 르몽드 interactif 테크니컬 프로젝트 소장
• 2004~2006 르몽드 interactif VP
• 2006~2008 르몽드 interactif CEO
• 2009~2012 다우존스 벤처스 프로덕트 매니지먼트 디렉터
• 2012년 10월 버즈피드 입사
Key Technology
Pound(버즈피드 콘텐츠 확산 현황 측정 기술)
Process for Optimizing and Understanding Network Diffusion
Key Technology
SocialRank
Social Reproduction Rate = Viral Potential X Traffic
Key Concept
1.0X Social Lift(1 시드뷰 당 유발 소셜 뷰)
= Social View / Seed view + 1
2012년 9월 특허
(Jonah Peretti, Ky Harlin)
Method and System for Viral Promotion of Online Content
(Pub. No. : US2012/0239489 A1)
–특허 문서. Background. 0005
“어떤 콘텐트가 온라인에서 프로모션 될 수 있고 돼야
하는지, 광고주가 효과적으로 결정할 수 있도록 도와
주는 툴의 필요가 있었다.”
특허로 본 계측 과정
• 1단계 : paid-for view와 not-paid-for view의 실시간 온
라인 네트워크 모니터링
• 2단계 : paid for view / not paid for view의 바이럴 잠
재력 측정
• 3단계 : 각 콘텐트의 바이럴 잠재력(통계적 모델링) 최소
치 만족도 여부 확인
• 4단계 : 각 유입 채널별 바이럴 잠재력 측정
채널별 데이터 수집 구조
• 각 소셜채널 및 외부 유료 뷰별 독립적 url 구조 구축
• e.g., Sneaky Little Pups Raid the Kitchen!
• Direct Url: http://www.buzzfeed.com/afvofficial/
sneaky-little-pups-raid-the-kitchen#.oj2XZJ5Rn
• Facebook Share Url : http://www.buzzfeed.com/
afvofficial/sneaky-little-pups-raid-the-kitchen?
utm_term=.gmwE8Gy46
버즈피드는 무엇을 얻었나(Traffic)
• 바이럴 확산의 트리거 포인트 확인
• Viral Potential의 통계적 모델 2단계 충족 여부
• 리소스의 분배
• e.g., Dress color 기사
• 네이티브 광고의 확산 예측
• A/B 테스팅으로 끊임없는 재조정
버즈피드는 뭘 얻었나(Money)
• 광고 단가 주도 및 상승
• 네이티브 광고 CPM 당 평균 가격은 9달러
• 작은 썸네일의 경우 5달러, 프리미엄 위치 18달러
• CTR은 평균 1~3%로 웬만한 페이스북 광고보다 높은 수준
• 소셜네트워크 전용 광고 상품 운영
• 전체 네이티브 광고 중 20%는 소셜 전용 상품
• 애드네트워크 노출 시 CPM 3달러 지급도(현재 중단)
그리고 전략을 얻었다
Content는 in-link/out-link 내보내는 대신
User Behavior Data는 반드시 받아낸다
콘텐츠 전략
인기 있는 콘텐츠를 프로모션 하
는 것이 아니라 인기를 얻을 수 있
는 콘텐츠를 프로모션한다
버즈피드의 조언(SXSW 2015)
• 소셜 콘텐츠는 과학과 예술이 동시에 요구된다
• 모든 콘텐츠를 지배하는 통계 지표는 존재하지 않는다
• 더 많이 발행할수록 더 많은 것을 배운다. 최고의 기계학
습은 사람의 두뇌이다
• 데이터와 기술은 회사가 허락하는 만큼만 강력하다
• 문화는 버즈피드의 경쟁력 있는 이점이다
블로터 ‘AQUA’
왜 개발했나
• 어떤 뉴스가 향후 높은 공유수를 기록할까
• 과거 뉴스를 통해 새로운 트래픽을 만들 수는 없을까
• 네이버 트래픽 의존도를 더 낮출 수는 없을까
SPI(share potential) = SA*q
q : 콘텐츠의 품질 및 유익성
SA : 최근 n시간 동안의 소셜 공유 가속도
49.41% 증가
33.72% 증가
106.88% 증가
읽히는 뉴스 공유되는 뉴스
논증적 기사 정보적 기사
생활 밀착형 하드웨어 생활 밀착형 소프트웨어(저작권)
읽기 쉬운 텍스트 정보 선별 쉬운 리스티클
장문의 분석/해설 기사 장문의 분석/해설 기사
데이터 분석으로 배운 것들
• 통계(Metrics) 모니터링을 습관화하라
• 데이터 자체는 인사이트가 아니다
• 직감을 가설로 끊임없이 검증하고 테스트하라
• 퀄리티 저널리즘 유지하라
트레져헌터와 데이터과학
• ‘검색어 키워드 랭킹에 따라
트렌디한 콘텐츠 제작’,
• ‘현재 뜨고 있는 소재를 활용
한 콘텐츠 제작’,
• ‘특정 기념일에는 기념일 주
제에 맞는 콘텐츠 제작’,
• ‘처음 5초 안에 콘텐츠의 결
과물이나 호기심을 자극할
만한 부분 편집’
대량맞춤?
• Joseph Pine.(1993). Mass
Customizaiton.
• “정보 혁명은 효율적인 커뮤니케이
션을 차단하는 정보 과잉을 만들어
냈다”
• “신문은 관심사나 마인드, 시간적
여유, 분위기에 따라 독자가 읽고자
하는 정보에 어떤 영향을 미치는지
고려해야 한다”(2011. HBR)
Data
저널리즘과 생존의
병존을 위한 전제 조건
- 다니엘 벨,(1976/2006), 탈산업사회의 도래
“조직된 복잡성은 후기 산업사회의 지적, 사회적 골칫거리다. 거대 시스
템은 상호작용적 변수가 무수히 많이 뒤엉켜있기 때문에 제대로 관리하
여 주어진 목적으로 이루기가 매우 어렵다.
이에 대한 해법이 바로 ‘지적 기술’로 그 핵심은 직관적 판단을 일련의
알고리즘으로 대체하는 데 있다. 알고리즘은 흔히 자동기계, 컴퓨터 프
로그램, 통계학적 또는 수학적 공식에 의거한 일련의 지침으로 구현된
다.”
참고 자료
• Nguyen, Ashley.(2015.5.13). Making Content for the way
people consume media today. BF blog.
• Nguyen, Andrew and Adam. (2015.4.28). introducing Pound:
Process for Optimizing and Understanding Network Diffusion.
buzzfeed tech blog.
• Oberholzer-gee.(2014). Buzzfeed-the promise of native
advertising. havard business school.
• Peretti, Harlin.(2012.9.20). Method and System for viral
promotion of online content. US Patent. US 20120239498 A1.

More Related Content

What's hot

15회 오픈업 - 3. 북팔 김형석 대표
15회 오픈업 - 3. 북팔 김형석 대표15회 오픈업 - 3. 북팔 김형석 대표
15회 오픈업 - 3. 북팔 김형석 대표
VentureSquare
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안
Daemin Park
 

What's hot (8)

15회 오픈업 - 3. 북팔 김형석 대표
15회 오픈업 - 3. 북팔 김형석 대표15회 오픈업 - 3. 북팔 김형석 대표
15회 오픈업 - 3. 북팔 김형석 대표
 
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
 
데이터저널리즘 국내 Newsjelly
데이터저널리즘 국내 Newsjelly데이터저널리즘 국내 Newsjelly
데이터저널리즘 국내 Newsjelly
 
데이터저널리즘 프로젝트 - 너머
데이터저널리즘 프로젝트 - 너머데이터저널리즘 프로젝트 - 너머
데이터저널리즘 프로젝트 - 너머
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 
[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 

Viewers also liked

고품질 저널리즘에 도움을 주는 기술들
고품질 저널리즘에 도움을 주는 기술들고품질 저널리즘에 도움을 주는 기술들
고품질 저널리즘에 도움을 주는 기술들
Sungkyu Lee
 
1214[보도자료]정부돈받아기사쓴언론사내역
1214[보도자료]정부돈받아기사쓴언론사내역1214[보도자료]정부돈받아기사쓴언론사내역
1214[보도자료]정부돈받아기사쓴언론사내역
Sungkyu Lee
 

Viewers also liked (18)

사회적 소통과 국어교육
사회적 소통과 국어교육사회적 소통과 국어교육
사회적 소통과 국어교육
 
중앙대 강연_socialmedia와 journalism
중앙대 강연_socialmedia와 journalism중앙대 강연_socialmedia와 journalism
중앙대 강연_socialmedia와 journalism
 
2016 inma스터디 발표 자료
2016 inma스터디 발표 자료 2016 inma스터디 발표 자료
2016 inma스터디 발표 자료
 
인공지능 시대와 뉴스의 미래
인공지능 시대와 뉴스의 미래인공지능 시대와 뉴스의 미래
인공지능 시대와 뉴스의 미래
 
제5회지방선거 투표율분석 보고서(최종)
제5회지방선거 투표율분석 보고서(최종)제5회지방선거 투표율분석 보고서(최종)
제5회지방선거 투표율분석 보고서(최종)
 
Social Media & Participatory Democracy
Social Media & Participatory DemocracySocial Media & Participatory Democracy
Social Media & Participatory Democracy
 
애자일 뉴스룸이 오고 있다
애자일 뉴스룸이 오고 있다애자일 뉴스룸이 오고 있다
애자일 뉴스룸이 오고 있다
 
고품질 저널리즘에 도움을 주는 기술들
고품질 저널리즘에 도움을 주는 기술들고품질 저널리즘에 도움을 주는 기술들
고품질 저널리즘에 도움을 주는 기술들
 
the crisis of old media, citizen journalism is alternative
the crisis of old media, citizen journalism is alternativethe crisis of old media, citizen journalism is alternative
the crisis of old media, citizen journalism is alternative
 
Technology and Journalism
Technology and JournalismTechnology and Journalism
Technology and Journalism
 
기자들을 위한 소셜미디어 활용법
기자들을 위한 소셜미디어 활용법기자들을 위한 소셜미디어 활용법
기자들을 위한 소셜미디어 활용법
 
Social Tools for Journalist
Social Tools for JournalistSocial Tools for Journalist
Social Tools for Journalist
 
1214[보도자료]정부돈받아기사쓴언론사내역
1214[보도자료]정부돈받아기사쓴언론사내역1214[보도자료]정부돈받아기사쓴언론사내역
1214[보도자료]정부돈받아기사쓴언론사내역
 
소셜 미디어 영향력 평가 서비스와 비즈니스 활용
소셜 미디어 영향력 평가 서비스와 비즈니스 활용소셜 미디어 영향력 평가 서비스와 비즈니스 활용
소셜 미디어 영향력 평가 서비스와 비즈니스 활용
 
정책설명자료집 ‘서울을 바꾸는 박원순의 희망셈법’
정책설명자료집 ‘서울을 바꾸는 박원순의 희망셈법’정책설명자료집 ‘서울을 바꾸는 박원순의 희망셈법’
정책설명자료집 ‘서울을 바꾸는 박원순의 희망셈법’
 
SNS 이용한 취재, 기사발굴, 유통 방법
SNS 이용한 취재, 기사발굴, 유통 방법SNS 이용한 취재, 기사발굴, 유통 방법
SNS 이용한 취재, 기사발굴, 유통 방법
 
'소셜음악' 뮤즈어라이브 회사 소개
'소셜음악' 뮤즈어라이브 회사 소개'소셜음악' 뮤즈어라이브 회사 소개
'소셜음악' 뮤즈어라이브 회사 소개
 
소셜웹과 개인의 비영리 재능·재화 공유 문화
소셜웹과 개인의 비영리 재능·재화 공유 문화소셜웹과 개인의 비영리 재능·재화 공유 문화
소셜웹과 개인의 비영리 재능·재화 공유 문화
 

Similar to 빅데이터와 저널리즘

미디어 환경변화와 경영전략
미디어 환경변화와 경영전략미디어 환경변화와 경영전략
미디어 환경변화와 경영전략
Sungkyu Lee
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
Han Woo PARK
 
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
Han Woo PARK
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Myungjin Lee
 
저널리즘 스타트업의 혁신 사례들
저널리즘 스타트업의 혁신 사례들저널리즘 스타트업의 혁신 사례들
저널리즘 스타트업의 혁신 사례들
Sungkyu Lee
 

Similar to 빅데이터와 저널리즘 (20)

Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
미디어 환경변화와 경영전략
미디어 환경변화와 경영전략미디어 환경변화와 경영전략
미디어 환경변화와 경영전략
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
 
박한우 빅데이터 기술이전 특허소개
박한우 빅데이터 기술이전 특허소개박한우 빅데이터 기술이전 특허소개
박한우 빅데이터 기술이전 특허소개
 
뉴스룸의 변화와 전망 - hackable newsroom
뉴스룸의 변화와 전망 - hackable newsroom뉴스룸의 변화와 전망 - hackable newsroom
뉴스룸의 변화와 전망 - hackable newsroom
 
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
빅데이터와 Sns 시대의 지방언론방송 2 (16 nov2014)
 
JnJ Insight_How_Digital Marketers Use Big Data
JnJ Insight_How_Digital Marketers Use Big DataJnJ Insight_How_Digital Marketers Use Big Data
JnJ Insight_How_Digital Marketers Use Big Data
 
저널리즘과 생존, 공존의 해법
저널리즘과 생존, 공존의 해법저널리즘과 생존, 공존의 해법
저널리즘과 생존, 공존의 해법
 
Technology and Journalism v.13.05.09
Technology and Journalism v.13.05.09Technology and Journalism v.13.05.09
Technology and Journalism v.13.05.09
 
[애드오피 행사] 미디어의 미래 by Heeun Park(알토스벤처스 박희은심사역)
[애드오피 행사] 미디어의 미래 by Heeun Park(알토스벤처스 박희은심사역)[애드오피 행사] 미디어의 미래 by Heeun Park(알토스벤처스 박희은심사역)
[애드오피 행사] 미디어의 미래 by Heeun Park(알토스벤처스 박희은심사역)
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
[E-commerce & Retail Day] Amazon 혁신과 AWS Retail 사례
[E-commerce & Retail Day] Amazon 혁신과 AWS Retail 사례[E-commerce & Retail Day] Amazon 혁신과 AWS Retail 사례
[E-commerce & Retail Day] Amazon 혁신과 AWS Retail 사례
 
소비자 직접 서비스(DTC Direct to Consumer) 시대의 도래와 시사점
소비자 직접 서비스(DTC Direct to Consumer) 시대의 도래와 시사점소비자 직접 서비스(DTC Direct to Consumer) 시대의 도래와 시사점
소비자 직접 서비스(DTC Direct to Consumer) 시대의 도래와 시사점
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
로봇은 기자를 대체할까
로봇은 기자를 대체할까로봇은 기자를 대체할까
로봇은 기자를 대체할까
 
Digital curation
Digital curationDigital curation
Digital curation
 
뉴스젤리 인터랙티브 소개서 2016
뉴스젤리 인터랙티브 소개서 2016뉴스젤리 인터랙티브 소개서 2016
뉴스젤리 인터랙티브 소개서 2016
 
저널리즘 스타트업의 혁신 사례들
저널리즘 스타트업의 혁신 사례들저널리즘 스타트업의 혁신 사례들
저널리즘 스타트업의 혁신 사례들
 

빅데이터와 저널리즘

  • 1. 데이터 + 저널리즘 이성규 블로터 미디어랩장
  • 2.
  • 3.
  • 4. Facebook instant article Apple News App Snapchat Discovery New York Times New York Times CNN NBC NEWS CNN BUZZFEED GUARDIAN WASHINGTON POST DAILY MAIL BBC NEWS BLOOMBERG NATIONAL GEOGRAPHIC WAHSINGTON POST HEARST COSMOPOLITAN 등 약 30개 언론사 등 50개 이상 언론사 등 14개 언론사
  • 5. IT 거인 뉴스 서비스의 특징 • 네이버 검색 방식의 OUTLINK 지양(모두 INLINK) • 뉴스 전재료 지급 지양(모두 광고 수익 배분 방식) • 광고 수익은 7(언론사):3(플랫폼), 직접 영업 100% 지급 • 뉴스 소비 경험의 혁신성(다양한 렌더링 기술 제공) • 뉴스 전송 방송의 간편화(RSS 등)
  • 7.
  • 8.
  • 10. 분석 대상 데이터 내부 데이터 외부 데이터 실현 유형 독자 열독 행위 분석 디지털 광고 효과 측정 데이터 기반 리포팅 네이티브 광고 로봇 저널리즘 데이터 저널리즘 센서 저널리즘 효과 트래픽 향상 디지털 수익 향상 신뢰도 향상 저널리즘 혁신 기여
  • 11. 연합뉴스 데이터 과학자 채용 • 통계학적 지식 + R 활용 능력 요구 • 다양한 뉴스의 생산, 배포 전략 수립 에 활용
  • 12. 뉴스타파 데이터 저널리스트 채용 • 우대사항 : 다음 사항에 대한 경험과 지식 ▲ 프로그래밍 언어(Python) ▲ 웹 개발 (HTML, CSS, Javascript) ▲ 데이터 시각화 ▲ RDBMS 또는 NoSQL ▲ Open Source GIS tool ▲ 기타 Open Source와 Open Data
 • 담당업무 : 데이터 기반 탐사 보도 프로젝트 중 ▲데이터 수집 ▲분석 ▲시각화 등에 관 련된 개발 업무
  • 14. – 알렉산더 벤자민 하워드.(2015). ‘데이터 저널리즘’. 한국언론진흥재단 “데이터 저널리즘이란 저널리즘 행위로 만들어낸 창 조물을 뒷받침하기 위해 데이터를 수집, 갈무리, 조직, 분석, 시각화 그리고 출간하는 행위이다. 좀 더 간결 하게 설명하면 저널리즘에 데이터 과학을 적용하는 것이라고 할 수 있다.
  • 15. 데이터 저널리즘 미디어 • 네이트 실버 : 파이브써티에이트(Fivethirtyeight) • 에즈라 클라인 : vox.com • 뉴욕타임스 : upshot • 애틀랜틱미디어 : Quartz • 가디언 : Datalog • 구글 : Newslab Data Store
  • 16. 데이터 저널리즘의 역사 • Eckert-Mauchly, UNIVAC 활용 대통령 선거 예측 • CAR(Computer Aided Reporting)의 연장 • 2006년 : 애드리안 홀로바티 “신문은 데이터 다루는 방 식을 근본적으로 바꿔야 한다” • 2010년 : 팀 버너스 리 “데이터 분석이 저널리즘의 미래”
  • 17.
  • 18.
  • 19.
  • 20. 센서 저널리즘 메이커 문화 + 데이터 저널리즘
  • 21. WYNC의 센서 저널리즘 • 2013년 매미 추적기라 이름 붙인 지온 측정 센서 아두이노로 개발 • 도면과 조립 방식을 오픈소스로 공 개 • 독자들이 아두이노로 지온 측정기 직접 제작 및 데이터 전송 • 미국 동부해안 800개 지역 1750대 의 센서가 데이터 발송 • WYNC는 이를 시각화해 뉴스로 제 공
  • 22. 데이터의 변화와 저널리즘 • 국정원 해킹팀 사건의 경우 자료 분량만 400GB • 국내 최초 분석 사례는 언론사가 아닌 개인 개발자(Rainygirl) • 정부 등 공공 데이터는 API 형태로 제공(정보공개 청구?) • IOT 등으로 센서가 생산하는 데이터 양이 폭발적 증가 • 데이터가 정보원이 되고 있으나 이를 수집, 분석할 역량 미흡 • 데이터를 전문적으로 분석할 수 있는 기술과 사람의 중요성 증 대
  • 23.
  • 24.
  • 25. 네이트 실버와 데이터 저널리즘 • “빅데이터 시대에 우리의 예측들이 실패 로 돌아갈 가능성이 더 큰 이유다. 검증 해야 할 가설 역시 기하급수적으로 많아 진다”(신호와 소음. 374쪽) • "테틀록이 연구한 결과 언론과 인터뷰를 많이 한 전문가일수록 예측이 빗나가는 경향을 보였다”(신호와 소음. 89쪽) • "베이즈 정리는 우리에게 사건에 대한 증거를 평가하기 전에 그 사건이 일어날 가능성을 어느 정도로 믿는지 구체적으 로 밝히라고 요구한다. 베이즈정리에서 는 이 추정을 경험적 믿음(사전확률)이 라고 부른다"(신호와 소음. 653쪽)
  • 27.
  • 28. 뉴욕타임스와 데이터 과학 • 2014년 콜럼비아대 수학과 교수인 크리스 위긴스를 최고데이터과학자 로 임명 • 머신러닝과 통계적 방법론으로 비 즈니스 문제 해결 • 2014년 유료 구독 탈퇴자 예측 모 델 개발 • 이에 앞서 월스트리트저널은 2013 년 10월 콜럼비아대 통계학과 레이 철 슈트 교수를 최고데이터과학자 로 영입
  • 29. VOX Media와 데이터과학 • VOX MEDIA는 지난 4월 Opbandit이 라는 데이터 과학 스타트업 인수 • Opbandit은 데이터 트래킹을 토대로 썸네일 최적화, 톱 기사 배치 최적화를 지원하는 서비스(대안적 A/B 테스팅 툴) • 뉴욕타임스, 그레이엄 홀딩스 등이 초 기 투자. 워싱턴포스트는 핵심 고객 중 한 곳 • Vox Media는 자체 CMS인 CHORUS 에 Opbandit을 통합해 업그레이드 할 예정
  • 30. 워싱턴포스트의 클래비스 • ‘기술 기업으로 변모’ 선언 뒤 클래 비스라는 추천 알고리즘 개발 • 아마존의 도서 및 상품 추천 알고리 즘 방식에서 착안(TF-IDF, Collaborative Filtering) • 지난 3월 기준 순방문자수 전년 동 기 대비 65% 상승 • 네이티브 광고 노출에 클래비스 기 술 활용
  • 31. BBC와 어도비 애널리틱스 • 웹 애널리틱스 툴로 어도비 마케팅 클라우드와 차트비트 활용 • 각 기사별로 실시간 데이터 수집 • 각 뉴스 화면별 사용자 스크롤링 위 치도 추적 • 이를 토대로 디지털 에디터들은 콘 텐츠 배치 전략 결정
  • 32. 정보사회의 제어권 • 제임스 베니거 <컨트롤 레볼루션> • 제어권의 핵심 요소 : 정보 프로세싱과 양방향 커뮤니케이션 => ‘완전한 제어’ • 양방향 커뮤니케이션 : 제어의 결과를 파악하기 위해 제어의 대상에서 제어의 주체로 정보가 되먹임되는 피드백도 갖춰야 한다 • 1930년대 인쇄매체 호황기 • ABC 측정 언론감시연합(AAM)은 인쇄매체 외부에 존재. 완전한 제어까지는 미치지 못했음 • 2010년대 페이스북 등 SNS 호황기 • 정보 프로세싱 기술에 관한 전세계 최고 수준의 인력과 노하우 보유 • ABC보다 더 정밀한 피드백 시스템을 갖추고 정보의 제어권을 장악
  • 34.
  • 35.
  • 36.
  • 37. 뉴스룸의 ‘오펀’ 활용 방식 • 950명 내부 직원들에게 모두 개방 • 시작은 가디언 프론트 페이지 기사 배치에 대한 기자들의 비판에 대한 대응책(개발 개시는 가디 언 해커톤에서) • 나이지리아 선거 보도 기사의 경우 실제 나이지리아로부터 유입된 트래픽이 35% 차지 • “우리가 다른 지역으로 독자의 확장을 고민하고 있다면, 오펀의 데이터는 매우매우 유용하 다”(by Moran) • Attention Time을 Click보다 더 중요하게 간주 • 독자들이 뉴스에 접근하는 의도에 대한 탐색과 이해 • 넬슨 만델라의 사망 기사는 페이스북에서 시간당 4만 like 기록했지만 클릭은 1만회에 불과. 3/4의 독자들은 그의 타계 소식을 알고 있었다는 걸 의미
  • 38.
  • 40. 15억 달러 (NBCUniversial 투자&평가) > FT 13억 달러(닛케이 인수가)
  • 42.
  • 43. Key Players Ky Harlin(Conde Nast VP) Dao Nguyen(Publisher)
  • 44. Dao Nguyen 주요 경력(출처 : Linkedin) • 1990~1994년 하버드대 응용 수학 및 컴퓨터과학 • 1994~1998 액센추어 컨설턴트 • 1998~2001 콘크리트 미디어 프로듀서 • 2001~2003 르몽드 interactif 테크니컬 프로젝트 소장 • 2004~2006 르몽드 interactif VP • 2006~2008 르몽드 interactif CEO • 2009~2012 다우존스 벤처스 프로덕트 매니지먼트 디렉터 • 2012년 10월 버즈피드 입사
  • 45. Key Technology Pound(버즈피드 콘텐츠 확산 현황 측정 기술) Process for Optimizing and Understanding Network Diffusion
  • 46. Key Technology SocialRank Social Reproduction Rate = Viral Potential X Traffic
  • 47. Key Concept 1.0X Social Lift(1 시드뷰 당 유발 소셜 뷰) = Social View / Seed view + 1
  • 48.
  • 49. 2012년 9월 특허 (Jonah Peretti, Ky Harlin) Method and System for Viral Promotion of Online Content (Pub. No. : US2012/0239489 A1)
  • 50. –특허 문서. Background. 0005 “어떤 콘텐트가 온라인에서 프로모션 될 수 있고 돼야 하는지, 광고주가 효과적으로 결정할 수 있도록 도와 주는 툴의 필요가 있었다.”
  • 51.
  • 52. 특허로 본 계측 과정 • 1단계 : paid-for view와 not-paid-for view의 실시간 온 라인 네트워크 모니터링 • 2단계 : paid for view / not paid for view의 바이럴 잠 재력 측정 • 3단계 : 각 콘텐트의 바이럴 잠재력(통계적 모델링) 최소 치 만족도 여부 확인 • 4단계 : 각 유입 채널별 바이럴 잠재력 측정
  • 53. 채널별 데이터 수집 구조 • 각 소셜채널 및 외부 유료 뷰별 독립적 url 구조 구축 • e.g., Sneaky Little Pups Raid the Kitchen! • Direct Url: http://www.buzzfeed.com/afvofficial/ sneaky-little-pups-raid-the-kitchen#.oj2XZJ5Rn • Facebook Share Url : http://www.buzzfeed.com/ afvofficial/sneaky-little-pups-raid-the-kitchen? utm_term=.gmwE8Gy46
  • 54. 버즈피드는 무엇을 얻었나(Traffic) • 바이럴 확산의 트리거 포인트 확인 • Viral Potential의 통계적 모델 2단계 충족 여부 • 리소스의 분배 • e.g., Dress color 기사 • 네이티브 광고의 확산 예측 • A/B 테스팅으로 끊임없는 재조정
  • 55. 버즈피드는 뭘 얻었나(Money) • 광고 단가 주도 및 상승 • 네이티브 광고 CPM 당 평균 가격은 9달러 • 작은 썸네일의 경우 5달러, 프리미엄 위치 18달러 • CTR은 평균 1~3%로 웬만한 페이스북 광고보다 높은 수준 • 소셜네트워크 전용 광고 상품 운영 • 전체 네이티브 광고 중 20%는 소셜 전용 상품 • 애드네트워크 노출 시 CPM 3달러 지급도(현재 중단)
  • 56. 그리고 전략을 얻었다 Content는 in-link/out-link 내보내는 대신 User Behavior Data는 반드시 받아낸다
  • 57. 콘텐츠 전략 인기 있는 콘텐츠를 프로모션 하 는 것이 아니라 인기를 얻을 수 있 는 콘텐츠를 프로모션한다
  • 58. 버즈피드의 조언(SXSW 2015) • 소셜 콘텐츠는 과학과 예술이 동시에 요구된다 • 모든 콘텐츠를 지배하는 통계 지표는 존재하지 않는다 • 더 많이 발행할수록 더 많은 것을 배운다. 최고의 기계학 습은 사람의 두뇌이다 • 데이터와 기술은 회사가 허락하는 만큼만 강력하다 • 문화는 버즈피드의 경쟁력 있는 이점이다
  • 60. 왜 개발했나 • 어떤 뉴스가 향후 높은 공유수를 기록할까 • 과거 뉴스를 통해 새로운 트래픽을 만들 수는 없을까 • 네이버 트래픽 의존도를 더 낮출 수는 없을까
  • 61. SPI(share potential) = SA*q q : 콘텐츠의 품질 및 유익성 SA : 최근 n시간 동안의 소셜 공유 가속도
  • 62.
  • 63.
  • 65. 읽히는 뉴스 공유되는 뉴스 논증적 기사 정보적 기사 생활 밀착형 하드웨어 생활 밀착형 소프트웨어(저작권) 읽기 쉬운 텍스트 정보 선별 쉬운 리스티클 장문의 분석/해설 기사 장문의 분석/해설 기사
  • 66. 데이터 분석으로 배운 것들 • 통계(Metrics) 모니터링을 습관화하라 • 데이터 자체는 인사이트가 아니다 • 직감을 가설로 끊임없이 검증하고 테스트하라 • 퀄리티 저널리즘 유지하라
  • 67. 트레져헌터와 데이터과학 • ‘검색어 키워드 랭킹에 따라 트렌디한 콘텐츠 제작’, • ‘현재 뜨고 있는 소재를 활용 한 콘텐츠 제작’, • ‘특정 기념일에는 기념일 주 제에 맞는 콘텐츠 제작’, • ‘처음 5초 안에 콘텐츠의 결 과물이나 호기심을 자극할 만한 부분 편집’
  • 68. 대량맞춤? • Joseph Pine.(1993). Mass Customizaiton. • “정보 혁명은 효율적인 커뮤니케이 션을 차단하는 정보 과잉을 만들어 냈다” • “신문은 관심사나 마인드, 시간적 여유, 분위기에 따라 독자가 읽고자 하는 정보에 어떤 영향을 미치는지 고려해야 한다”(2011. HBR)
  • 69.
  • 71. - 다니엘 벨,(1976/2006), 탈산업사회의 도래 “조직된 복잡성은 후기 산업사회의 지적, 사회적 골칫거리다. 거대 시스 템은 상호작용적 변수가 무수히 많이 뒤엉켜있기 때문에 제대로 관리하 여 주어진 목적으로 이루기가 매우 어렵다. 이에 대한 해법이 바로 ‘지적 기술’로 그 핵심은 직관적 판단을 일련의 알고리즘으로 대체하는 데 있다. 알고리즘은 흔히 자동기계, 컴퓨터 프 로그램, 통계학적 또는 수학적 공식에 의거한 일련의 지침으로 구현된 다.”
  • 72. 참고 자료 • Nguyen, Ashley.(2015.5.13). Making Content for the way people consume media today. BF blog. • Nguyen, Andrew and Adam. (2015.4.28). introducing Pound: Process for Optimizing and Understanding Network Diffusion. buzzfeed tech blog. • Oberholzer-gee.(2014). Buzzfeed-the promise of native advertising. havard business school. • Peretti, Harlin.(2012.9.20). Method and System for viral promotion of online content. US Patent. US 20120239498 A1.