1. 웹의 진화와 지식 구조화
Youngwhan Lee, Ph. D.
전화: 010-7997-0345
이메일: nicklee@konkuk.ac.kr
Facebook: Youngwhan Nick Lee
Twitter: nicklee002
1
2. Internet Today
2010:
• Estimated 1011 Web pages in the World
2012:
• Social Media: Facebook (1 Billion Monthly Active Users)
• 문자 발명후 2003년까지 5 엑사 바이트 2012년 현재 매일 7 엑사바이트 데이터 생성 중
• Is “big data” a big pile of garbage?
1-2
3.
4. 목차
1. 웹의 진화
– 지식/정보 추출 기술
2. 롱테일 현상과 산업
3. 데이터의 웹: Linked Open Data (LOD)
4. 큐레이션
5. 소셜미디어 분석
– 예: 강남스타일과 시사점
8. What are the Problems with the Web?
• Not easy to find information
– “Data Mining” gives an answer of 30 Million Pages
• No way to find the information that I want
– How can you find the pianist name of a song that is
being played in the radio?
• Search results cannot be connected
– Companies that got venture capital investment more
than $1 Billions that is related Pyramidal Neurons
– Landlocked countries the population more than 10
Millions
• Vocabulary sensitive
– River that flows into Atlantic ocean?
• Data, information or knowledge that I am interested
does not find me real-time
9. Linked Open Data (LOD) Principles
Linking Open Data (LOD) is to connect and to open data to public
A little history of LOD Project
Tim Berners-Lee proposed LOD(Linking Open Data) project (2006)
Since the proposal, numerous countries and organizations participated, caused LOD to
explode in terms of the number of data
Wikipedia DBpedia (www.dbpedia.org)
Bio2RDF project opened in 27 fields of Biology, Genetics, Medical-related, of which the
data sets are about 2.3 billions (Bio2RDF.org) (2008.10)
BBC announced to participate LOD project (www.bbc.org), now one of the institutes
actively utilizing the data
US Data.gov released 5 billion data triples
US Library of Congress announced to join LOD project.
(http://id.loc.gov/authorities/sh85042531#concept)
NY Times ( data.nytimes.com) release their data of 150 years of publication (2009.10)
US Whitehouse release a plan to open data in RDF (2009.11)
1. Use URIs as names for things
4 Principles 2. Use HTTP URIs
of LOD 3. When someone looks up a URI, provide useful information
4. Include links to other URIs
16. Web 3.0: Merging the two
Perspectives
WWW Propoal Semantic
(1989) Web LOD Proposal (2006) “GGG” Proposal (2007)
Technology Knowledge-based
Innovation Semantics Web
Perspective
Next Generation Web
Data-based
Semantic Web
Web 3.0
Market
Behavior
Perspective WEB 1.0 WEB 2.0 “WEB2” Proposal (2009)
Technical Proposal Phase
Practical Use Phase
24. 전희주: 텔레콤 이탈고객 분석
■ 양방향 해지자 네트워크 분석
• Color: 해지일자 별 표현
(빨간색->보라색: 해지일자 선->
후)
• Shape: 십자가 모양 (이탈유발자)
- Connector 및 Broker 역할 점수가 평
균점수보다 모두 높은 고객
• Size: 연령 (20대 ~ 50대 분포)
• Label: 해지일자
<그림 1> 102명 해지자들 간의 네트워 해지유발자를 찾아낼 수 있다
소셜 네트워크 분석을 통하여
24
크
출처: 2012 하계 통계학회 2012-11
26. 오빤 강남 스타일
• 8억 클릭 육박 중.
•2012년 7월 15일 뮤직비디오 공개
• 2012년 8월 24일, 40(+40)일 경과: 5000만 뷰
• 2012년 9월 4일, 52 (+11)일 경과: 1억 뷰
• 2012년 9월 12일, 60 (+8)일 경과: 1.5억 뷰
• 2012년 9월 18일, 66(+6)일 경과: 2억 뷰
• 2012년 9월 26일, 74일 경과: 3억 뷰
• 2012년 10월 20일, 98일 경과: 5억 284만 뷰
• 2012년 11월 20일, 128일 경과: 7억 704만 뷰
• 참고) 역대 유투브 조회수
– 1위: 저스틴 비버의 ‘Baby’ 7억 9105만 건
– 2위: 제니퍼 로페즈의 ‘On the floor’ 6억 1072만 건