SlideShare a Scribd company logo
1 of 113
Mapping (Big) Data-
Research and Issues
Virtual Knowledge Studio (VKS)
박한우 교수
영남대 언론정보학과
영남대 사이버감성연구소
아시아트리플헬릭스 학회장
대구경북소셜미디어포럼
TEDxPalgong ( 전 )
네델란드왕립아카데미 ( 전 )
옥스퍼드인터넷연구소 ( 전 )
hanpark@ynu.ac.kr
www.hanpark.net
빅데이터의 개념 및 특징빅데이터의 개념 및 특징
데이터 사이언스 배경데이터 사이언스 배경
( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향
사회적 이슈 및 시사점사회적 이슈 및 시사점
1
.
3.
4.
2.
[ 목차 ]
van Dijk (2012, p.220)
Big data
 Big data usually includes data sets with
sizes beyond the ability of commonly-used
software tools to capture, manage, and
process the data within a tolerable elapsed
time.
 Big data sizes may vary per discipline.
 Characteristics: Garner’s 3Vs plus SAS’s VC
- Volume (amount of data), Velocity (speed of
data in and out), Variety (range of data
types and sources)
- Variability: Data flows can be highly
inconsistent with daily, seasonal, and event-
triggered peak data loads
- Complexity: Multiple data sources requiring
cleaning, linking, and matching the data
across systems.
http://en.wikipedia.org/wiki/Big_data
http://ec.europa.eu/enterprise/policies/innovation/policy/busines
http://www.youtube.com/watch?v=G3XoEGHQbrA&list=UUGrraKQiTF-ml0KqPQ8mrUA
Data-driven Research that focuses
on extracting meaningful data from
techno-socio-economic systems to
discover some hidden patterns.
Today’s “big” is probably tomorrow’s “medium” and
next week’s “small” and thus the most effective defini-
tion of “big data” may be derived when the size of data
itself becomes part of the research problem.
Loukides (2012)
Big data sizes may vary perdiscipline.
Big Data and Social Webometrics Network
Analysis
Big Data and Social Webometrics Network
Analysis
Increasing data size in terms
of the no. of nodes
Micro ≦100 nodes →10K
Meso ≦1000 nodes →1000K
Macro ≦10000 nodes
→100,000K
Super-
Macro
≥10000 nodes → ∽
출처 : 박한우 (2014)
http://www.clickz.com/clickz/news/23369
Data Insights: New Ways to Visualize and Make Sense of
Data , 2012 by Hunter Whitney
http://www.amazon.com/Data-Insights-Ways-Visualize-Sense/dp/0123877938
http://www.slideshare.net/MartinKaltenboeck/introduction-open-government-data
http://www.youtube.com/watch?v=ga1aSJXCFe0&feature=player_embedded
http://home.jtbc.joins.com/Vod/VodView.aspx?epis_id=EP10021807
Data Insights: New Ways to Visualize and Make Sense of
Data , 2012 by Hunter Whitney 
서울시 , 빅데이터 심야버스 노선 구축
빅데이터의 개념 및 특징빅데이터의 개념 및 특징
데이터 사이언스 배경데이터 사이언스 배경
( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향
사회적 이슈 및 시사점사회적 이슈 및 시사점
1
.
3.
4.
2.
[ 목차 ]
“Data Science” refers to “a discipline that incorporates
varying elements and builds on techniques and theories
from many fields, including data visualization with the goal
of extracting meaning from data and creating data
products.”
http://en.wikipedia.org/wiki/Data_science
Origin of Data Science
Park, H. W., & Leydesdorff, L. (2013 Work-In-Progress). Decomposing a Data-Driven Science Using a Scientometric Method.
 One is Peter Naur’s 1974 book “Concise Survey of Computer
Methods”, a survey of contemporary data processing methods in a wide
range of applications (Gilpress, 2012).
 The other is when the term “big data” first appeared in 1970 in the
Scopus database (Halevi and Moed, 2012). There was no particular key
milestone since 1970s.
 During the 1990s period, the term had been usually related to
computer modeling and software development for large datasets.
Knowledge Discovery and Data Mining in 1997. Rousseau (2012) also
regards the 1993 publication as the first documents indexed in the Web
version of Web of Science.
A more recent development was made with the
establishment of journals that included the term “Data Science”
in their titles:
•Data Science Journal in 2002
•Journal of Data Science in 2003
•EPJ Data Science in 2012
•GigaScience  gigasciencejournal.com in 2012
•Big Data & Society in 2015
http://bigdatasoc.blogspot.kr/2014/11/celebrating-official-launch-of-big-data.html?spref=fb
http://bigdatasoc.blogspot.co.uk/
Science published a special
issue (February 11, 2011) looking
broadly at increasingly data-driven
research efforts as a scientific
domain (Science staff, 2011).
Data Science is composed of interrelated
clusters of research tasks. For example, the
technologies on data collection, curation,
and access, and the unique skill sets have
increasingly been central to Data Science
(Science staff, 2011).
An international conference called “Data Science
Summit” (http://www.greenplum.com/datasciencesummit).
http://novaspivack.typepad.com/nova_spivacks_weblog/2007/02/steps_towards_a.html 에서 재인용
All models are wrong but some are useful
Emergence of data author on dataverse
Andersons claims
 Data is everything we need.
 We don't have to settle for models.
 Agnostic statistics.
 Out with every theory of human behavior.
 This approach to science — hypothesize, model,
test — is becoming obsolete.
 Petabytes allow us to say: "Correlation is
enough." We can stop looking for models.
 What can science learn from Google? E-Science.
Big data and the end of theory?
 Does big data have the answers? Maybe some, but not all, says -
Mark Graham
 In 2008, Chris Anderson, then editor of Wired, wrote a provocative
piece titled The End of Theory.Anderson was referring to the ways
that computers, algorithms, and big data can potentially generate
more insightful, useful, accurate, or true results than specialists or
domain experts who traditionally craft carefully targeted
hypotheses and research strategies.
 We may one day get to the point where sufficient quantities of big
data can be harvested to answer all of the social questions that
most concern us. I doubt it though. There will always be digital
divides; always be uneven data shadows; and always be biases in
how information and technology are used and produced.
 And so we shouldn't forget the important role of specialists to
contextualize and offer insights into what our data do, and maybe
more importantly, don't tell us.
http://www.guardian.co.uk/news/datablog/2012/mar/09/big-data-theory
Graham, M., Hale, S.A & Gaffney, D. (2014). Where in the world are you?
Geolocation and language identification in Twitter. Professional
Geographer. 66(4).http://www.tandfonline.com/doi/abs/10.1080/00330124.2014.907699#.VGnmIvms
X0d
Number of geotagged tweets per country between 10 November 10 and 16
December 2011. 
Computational (Social) Science
Park, H. W., & Leydesdorff, L. (2013 Work-In-Progress). Decomposing a Data-Driven Science Using a Scientometric Method.
 Focus on the methodological perspective based on
the use of new digital tools to manage the data
deluge.
 Development of e-science tools to automate
research process.
 Experimentation with new types of data
visualization.
http://participatorysociety.org/wiki/index
.php?title=Online_Research
Why Data Science?
Savage and Burrows (2007, p.
886) lament, “Fifty years ago,
academic social scientists might
be seen as occupying the apex
of the – generally limited – social
science research ‘apparatus’.
Now they occupy an increasingly
marginal position in the huge
research infrastructure”.
Bonacich, P. (2004).
The Invasion of the Physicists. Social Networks 26(3): 285-288
http://bds.sagepub.com/content/1/1/2053951714540280.full
http://www.bbc.com/news/uk-22007058
http://www.bbc.com/news/uk-22020836
http://www.bbc.com/news/uk-22011732
This approach to science is attributed to the late Jim Gray,
one of the most influential computer scientists, at Microsoft.
http://www.oii.ox.ac.uk/research/projects/?
id=98
Global Communication 2team
( 빅 ) 데이터과학의
도전
이론의 종말 - 증거기반 경
영
Jeffrey Pfeffer, Robert I. Sutton (2006)
How companies can bolster performance and trump the
competition through evidence-based management, an
approach to decision-making and action that is driven by
hard facts rather than half-truths or hype.
· 빅데이터의 등장으로 전통
적인 과학 연구방법론 퇴색
· 인식의 한계치를 넘어선
데이터 ( 팩트가 아닌 패
턴 )
http://www.datacenterknowledge.com/archives/2011/09
/23/the-lessons-of-moneyball-for-big-data-analysis/
Common Biases in Data Analysis
It’s easy to develop
“affirmation bias,” DePodesta
said. “Once we’ve made up our
minds, we resist information
that doesn’t agree with our
conclusion,” he said.
A particular problem in
baseball is “appearance bias”
– the notion that some
athletes look more like great
baseball players than others.
It’s also an issue in
business, DePodesta said,
citing a data point from 
Malcolm Gadwell on height and
business success. Gladwell
found that although just 3.9
percent of American males are
6-foot-2 or taller, about 30
The Signal and the Noise:
Why Most Predictions Fail but Some Don't. Nate Silver
I do not go as far as a Popper in asserting
that such theories are therefore unscientific
or that they lack any value. However, the fact
that the few theories we can test have produced
quite poor results suggests that many of the
ideas we haven’t tested are very wrong as well.
We are undoubtedly living with many delusions
that we do not even realize. page 15
OECD (2012). OECD Technology Foresight Forum 2012 - Harnessing data as a new source of growth: Big
data analytics and policies. OECD Headquarters, Paris, France 22 October 2012
빅데이터와 SNS 시대의
연구정보 서비스의 과학화
• Scientometrics 와 Triple Helix 분야
의 지속적 성장과 학제간 확장
- Technometrics, Webometrics,
Informetrics
- 이용자 주도형 오픈 툴과 글로벌 A&I
서비스의 보편화 가속됨
Mike Thelwall: WA 2.0
http://lexiurl.wlv.ac.uk/index.html
March Smith: NodeXL
http://nodexl.codeplex.com/
Han Woo PARK
KrKWIC, WeboNaver, WeboDaum
ArcGIS  를 이용한 오픈데이터 툴 . 세계은행 데이터 등
cool
빅데이터의 개념 및 특징빅데이터의 개념 및 특징
데이터 사이언스 배경데이터 사이언스 배경
( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향
사회적 이슈 및 시사점사회적 이슈 및 시사점
1
.
3.
4.
2.
[ 목차 ]
The Coming of Triple Divide?
There are three main gaps I’d like to emphasize
in the present/future of Big Data research
community:
1)Developing/Transitional VS
Developed/Advanced countries,
2)Researcher in academia VS Researcher in
commercial sector,
3)Researchers with computational skills VS
Less computational scholars.
Method used Developed
Country/Region
Developing
Country/Region
Mixed Region
N % N % N %
Social-Informetics 114 74.51 30 83.33 9 52.94
Scientometrics 28 18.30 6 16.67 8 47.06
Webometrics 11 7.19 0 0 0 0
Total 153 100 36 100 17 100
No. of articles in each category of methods by
the developed/developing division
Skoric, M. M. (2013, Online First). The implications of big data for developing and
transitional economies: Extending the Triple Helix?. Scientometrics.
Number of “Big data” papers per year
Halevi, G., & Moed, H. F. (2012).
Rousseau (2012)
We performed a similar search in the WoS (TS=“Big data”) on October
2, 2012, leading to 142 articles. We removed the oldest one (1974), and
kept 141 published during the period 1993-2012). Halevi and Moed
observed an over-exponential growth over the period 1970-2011, while
we found a growth curve that could best be described by a cubic
polynomial (R2=0.963, with year 1992=0), which is illustrated in Fig. 1.
Subject areas researching Big Data
Halevi, G., & Moed, H. F. (2012).
Rousseau (2012)
Geographical Distribution of Big Data papers
Halevi, G., & Moed, H. F. (2012).
Rousseau (2012)
Phrase map of highly occurring keywords 1999-2005
Halevi, G., & Moed, H. F. (2012).
Phrase map of highly occurring keywords 2006-2012
Halevi, G., & Moed, H. F. (2012).
Park, H. W., & Leydesdorff, L. (2013 Work-In-Progress). Decomposing a Data-Driven Science Using a Scientometric Method.
 But, Halevi and Moed (2012), and Rousseau (2012) are
based on descriptive statistics. Therefore, we intend to
add the network perspective both in the social (in terms
of co-authorship) and semantic networks.
 Furthermore, we extend search queries to various
terminologies related to Data Science because the term
“big data” is regarded only as one among a list of policy
priority issues.
 We show where the research system in Data Science is
“hot” in terms of international collaborations and
prevailing semantics.
Park, H.W.@
, & Leydesdorff, L. (2013). Decomposing Social and Semantic Networks in Emerging
“Big Data” Research. Journal of Informetrics*. 7 (3), 756-765.
http://graphics.wsj.com/house-midterm-elections-facebook/
Economics in the age of big data
http://www.sciencemag.org/content/346/6210/1243089
.full
The rise of empirical economics
• Finally, data come with less structure. Economists
are used to working with “rectangular” data,
with N observations and   K <<   N variables per 
observation and a relatively simple dependence
structure between the observations. New data sets
often have higher dimensionality and less-clear
structure. For example, Internet browsing histories
contain a great deal of information about a person’s
interests and beliefs and how they evolve over time.
But how can one extract this information? The data
record a sequence of events that can be organized in
an enormous number of ways, which may or may not be
clearly linked and from which an almost unlimited
number of variables can be created. Figuring out how
to organize and reduce the dimensionality of large-
scale, unstructured data is becoming a crucial
challenge in empirical economic research.
Using Big Data to Fight Range
Anxiety in Electric Vehicles
• The software acquires
data from five
sources: Google Maps
(for route, terrain,
and traffic data),
Wunderground.com (for
weather), driver
history (through
driving behavior
measurements),
vehicle manufacturers
(for vehicle modeling
data), and battery
manufacturers (for
battery modeling
data). 
http://spectrum.ieee.org/cars-that-think/transportation/sensors/using-big-data-to-fight-range-anxiety-in-electric-
vehicles
Bi-linked network of politically active
A-list Korean citizen blogs (July 2005)
2005 년 한국정치 파워블로거와 국회의원
URI=Centre
DLP=Left
GNP=Right
Just A-list blogs exchanging links with politicians
Affiliation network using pages linked to Lee’s and Park’s sites
이명박과 박근혜 후보 사이트의 인터넷 네트워크
N = 901 (Lee: 215, Park: 692, Shared: 6)
e- 리서치 도구의 활용 : 웹가시성 분석
 블로그 공간에서 후보자들의 웹가시성 수준과 득표 수
간에 밀접한 상관성을 나타냄 . ( 임연수 , 박한우 , 2010,
JKDAS)
실제 득표수
평균 블로그 수
2009 년 10 월 28 일 재보선 결과
- 당선자 모두 블로그 가시성 높음
I. 소셜 미디어의 특징 및 영향력
10.26 재보궐 선거 사례
(2)
• 페이스북에서 이름이 동시에 언급되는 이름 연결망을
구성하여 분석
• 초반에는 두 후보자가 비슷하게 언급되다가 ,
중반에 접어들자 박원순 지지자들과 박원순이 언급
되면서
나경원 후보자 지지자가 안보이게 되고 ,
종반에는 박원순 중심으로 네트워크가 재편되며 종
결됨
I. Semantic network 의미망에서 중심성 비교
10.26 재보궐 선거 사례
(2)
• 서울시장 선거 관련 메세지들의
내용을 분석하여 나오는 단어들의
빈도 분석
• 초반부터 나경원 후보는 빈도가
떨어지다가 , 후반에 박원순 후보
와 경쟁 및 선거 결과를 이야기하
면서 나타나는 경우를 제외하고는
줄곳 담론외곽에 존재
• 안철수 효과는 초반에 크고 , 중
반이후 떨이지는 효과가 나타났으
나 , 한나라당이라는 언급이 높게
나오면서 집권여당에 반하는 정서
가 나타나 , 선거의 성격을 말해
줌
 Figure 4. T Values for Bilateral Relationships between Park and Moon
 트위터 , 페이스북 , 구글에서 나타난 박근혜와 문재인 후보 간 트리플헬릭스 지
수 값
19 대 대통령 선거
http://www.dt.co.kr/contents.html?article_no=2014121702100960718001
http://www.yeongnam.com/mnews/newsview.do?mode=newsView&newskey=20140604.010060719390001
http://news.chosun.com/site/data/html_dir/2011/05/11/2011051100195.html?
news_topR
빅데이터의 개념 및 특징빅데이터의 개념 및 특징
데이터 사이언스 배경데이터 사이언스 배경
( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향
사회적 이슈 및 시사점사회적 이슈 및 시사점
1
.
3.
4.
2.
[ 목차 ]
Yet, there still are serious problems to overcome. A
trenchant critique concerning the big data field as it is
nowadays came in the form of six statements intending to
temper unbridled enthusiasm. [42]
These six provocative
statements are:
 Big data change the definition of knowledge;
 Claims to accuracy and objectivity are misleading;
 More data are not always better data;
 Taken out of context, big data loses its meaning;
 Just because it is accessible, it does not make it ethical; and
 (Limited) access to big data creates a new digital divide.
Rousseau (2012)
Big Data's Slippery Issue of
Causation vs. Correlation
Big Data's Slippery Issue of
Causation vs. Correlation
박한우 , 소셜 여론조사의 실제와 과제 - ‘ 저비용 고효
율’ SNS 로 여론 읽기 . 월간 < 신문과 방송 >, 2012
년 7 월 . 84-88 쪽 .
대구시의 조직 개편 ( 안 ) 과 오픈 데이터
경제
 뉴욕대가 조사한 바에 따르면 미국에서 활동하는 오픈
데이터 기업이 500 개이며 , 이 가운데 3 분의 2 는 최
근 5 년 이내에 설립되었다고 한다 . 
 부동산 회사인 질로 (Zillow) 는 좋은 사례다 . 이 회사는
주택 보유자 , 구매자 , 판매자 , 임대업자 , 중개업자 , 대
부업자 , 땅 주인 , 감정평가사에게 꼭 필요한 정보의 검
색과 공유를 촉진하기 위한 온라인 마켓플레이스를 제
공한다 .
 우편번호만 입력하면 학군과 안전도 등 부동산 관련
정보에 접근이 가능하다 . 이 서비스는 1 억 1 천만건이
넘는 미국 주택 데이터를 기반으로 만들어져 현재 30
억달러 이상의 자본을 시장에 유통시키는 효과를 가져
왔다 . 
http://www.opendata500.com/us/list/
Global Communication 2team
빅데이터에 대한 부정적인 시각 등장
- 빅데이터의 가치
- 저장 , 분석 및 해석기술 한계 존재
- 현재의 붐은 호들갑스러운 측면 존재
빅데이터 갭 : Promise VS Capabilities
빅데이터의 도전
Global Communication 2team
빅데이터의 도전 빅데이터 ‘ Gap’ 분석사례
· 151 명 연방 정부 CIO 및 IT 관리자 대상 빅데이터갭 조사실시 .
· 실질적으로 현재 데이터를 제대로 활용하고 있는 기관도 적으며 , 데
이터소유권 문제도 확립되지 않은 것으로 나타남 .
[ 정부美 IT 네트워크 ‘ Meritalk’ 는 빅데이터
의 가능성과 현실에는 Gap 이 존재한다고
분석 ]
http://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
어떤 실험을 하는지 우리는 알고 있는가 ?
http://www.nature.com/news/facebook-experiment-boosts-us-voter-turnout-1.11401
우리는 정확히 인지하지 못한 채 동의했다
User Content VS Site Content
대부분의 SNS 서비스는 “ User Content” 를
무력하게 만드는 “ Site Content” 규정이 있
음 (p. 60).
Global Communication 2team
3.결론 및결론 및
시사점시사점
기술 + 사회문화적 요소에 대한 면밀한 검토
- 빅데이터 및 AI 논의에서 빠지지 않는 것이 개인정보 유출 및
사생활
침해와 같은 역기능 문제
- 기술의 발전과 더불어 우리가 원하는 미래상에 대한 명확한 이
해와 ,
이를 달성하기 위한 정치사회적 기반에 대한 근본적인 모색이
박한우 교수는 2012 년 2 월에 미국에서 벌어
진 사건을 예로 들었다 . 영국의 대학생 두 명
이 미국에 입국하면서 로스앤젤레스 공항을
폭파하겠다는 말을 트위터에 썼는데 이것이
미국 정부에 적발됐다 . 박 교수는 “이 경우 정
부는 트위터 전체가 아니라 트위터에 글을 올
린 사람을 , 올린 것을 규제한 것인데 미국 정
부가 일상적으로 트위터를 들여 다본다는 문
제로 번졌다”고 설명했다 .
Guardian 소셜 데이터저널리즘 10 계명
 It may be trendy but it’s not new
 Open data means open data journalism
 Has data journalism become curation?
 Bigger datasets, smaller things
 Data journalism is 80% perspiration, 10% great idea, 10% output
 Long and short-form
 Anyone can do it…
 … but looks can be everything
 You don’t have to be a programmer
 It’s (still) all about stories
http://www.guardian.co.uk/news/datablog/2011
/jul/28/data-journalism
Prof. Han Woo PARK
World Class University Webometrics Institute
CyberEmotions Research Center
Department of Media and Communication,
YeungNam University, Korea
hanpark@ynu.ac.kr www.hanpark.net
이 슬라이드 작성에 도움을 준 사이버감성연구소 연구원들과
학부 / 대학원 강의 수강생에게 고마움을 표시합니다 .
이 슬라이드는 개인적 목적으로 만든 비공개 자료입니다 .
배포 및 복사를 금지합니다 .

More Related Content

What's hot

Information Visualization for Knowledge Discovery: An Introduction
Information Visualization for Knowledge Discovery: An IntroductionInformation Visualization for Knowledge Discovery: An Introduction
Information Visualization for Knowledge Discovery: An Introduction
Krist Wongsuphasawat
 
Introduction to Apache Mahout
Introduction to Apache MahoutIntroduction to Apache Mahout
Introduction to Apache Mahout
Edureka!
 

What's hot (20)

ML crash course
ML crash courseML crash course
ML crash course
 
Introduction to Python for Data Science
Introduction to Python for Data ScienceIntroduction to Python for Data Science
Introduction to Python for Data Science
 
Python in Data Science Work
Python in Data Science WorkPython in Data Science Work
Python in Data Science Work
 
Myths and Mathemagical Superpowers of Data Scientists
Myths and Mathemagical Superpowers of Data ScientistsMyths and Mathemagical Superpowers of Data Scientists
Myths and Mathemagical Superpowers of Data Scientists
 
Using hadoop for big data
Using hadoop for big dataUsing hadoop for big data
Using hadoop for big data
 
Data Science : Make Smarter Business Decisions
Data Science : Make Smarter Business DecisionsData Science : Make Smarter Business Decisions
Data Science : Make Smarter Business Decisions
 
Information Visualization for Knowledge Discovery: An Introduction
Information Visualization for Knowledge Discovery: An IntroductionInformation Visualization for Knowledge Discovery: An Introduction
Information Visualization for Knowledge Discovery: An Introduction
 
The Hitchhiker's Guide to Machine Learning with Python & Apache Spark
The Hitchhiker's Guide to Machine Learning with Python & Apache SparkThe Hitchhiker's Guide to Machine Learning with Python & Apache Spark
The Hitchhiker's Guide to Machine Learning with Python & Apache Spark
 
Building Data Scientists
Building Data ScientistsBuilding Data Scientists
Building Data Scientists
 
Analyzing social media with Python and other tools (4/4)
Analyzing social media with Python and other tools (4/4) Analyzing social media with Python and other tools (4/4)
Analyzing social media with Python and other tools (4/4)
 
Introduction to Apache Mahout
Introduction to Apache MahoutIntroduction to Apache Mahout
Introduction to Apache Mahout
 
The Art of Social Media Analysis with Twitter & Python-OSCON 2012
The Art of Social Media Analysis with Twitter & Python-OSCON 2012The Art of Social Media Analysis with Twitter & Python-OSCON 2012
The Art of Social Media Analysis with Twitter & Python-OSCON 2012
 
Distributed Natural Language Processing Systems in Python
Distributed Natural Language Processing Systems in PythonDistributed Natural Language Processing Systems in Python
Distributed Natural Language Processing Systems in Python
 
UBC STAT545 2014 Cm002 deep thoughts
UBC STAT545 2014 Cm002 deep thoughtsUBC STAT545 2014 Cm002 deep thoughts
UBC STAT545 2014 Cm002 deep thoughts
 
Data Visualization: A Quick Tour for Data Science Enthusiasts
Data Visualization: A Quick Tour for Data Science EnthusiastsData Visualization: A Quick Tour for Data Science Enthusiasts
Data Visualization: A Quick Tour for Data Science Enthusiasts
 
R, Data Wrangling & Predicting NFL with Elo like Nate SIlver & 538
R, Data Wrangling & Predicting NFL with Elo like Nate SIlver & 538R, Data Wrangling & Predicting NFL with Elo like Nate SIlver & 538
R, Data Wrangling & Predicting NFL with Elo like Nate SIlver & 538
 
Meetup sthlm - introduction to Machine Learning with demo cases
Meetup sthlm - introduction to Machine Learning with demo casesMeetup sthlm - introduction to Machine Learning with demo cases
Meetup sthlm - introduction to Machine Learning with demo cases
 
Probabilistic Programming: Why, What, How, When?
Probabilistic Programming: Why, What, How, When?Probabilistic Programming: Why, What, How, When?
Probabilistic Programming: Why, What, How, When?
 
Sentiment Analysis In Retail Domain
Sentiment Analysis In Retail DomainSentiment Analysis In Retail Domain
Sentiment Analysis In Retail Domain
 
R, Data Wrangling & Kaggle Data Science Competitions
R, Data Wrangling & Kaggle Data Science CompetitionsR, Data Wrangling & Kaggle Data Science Competitions
R, Data Wrangling & Kaggle Data Science Competitions
 

Similar to Mapping (big) data science (15 dec2014)대학(원)생

Ict와 사회과학지식간 학제간 연구동향(23 march2013)
Ict와 사회과학지식간 학제간 연구동향(23 march2013)Ict와 사회과학지식간 학제간 연구동향(23 march2013)
Ict와 사회과학지식간 학제간 연구동향(23 march2013)
Han Woo PARK
 
Sci 2011 big_data(30_may13)2nd revised _ loet
Sci 2011 big_data(30_may13)2nd revised _ loetSci 2011 big_data(30_may13)2nd revised _ loet
Sci 2011 big_data(30_may13)2nd revised _ loet
Han Woo PARK
 
Big Data in NATO and Your Role
Big Data in NATO and Your RoleBig Data in NATO and Your Role
Big Data in NATO and Your Role
Jay Gendron
 
Introduction to Data Science 5-13.pptx
Introduction to Data Science 5-13.pptxIntroduction to Data Science 5-13.pptx
Introduction to Data Science 5-13.pptx
datapro2
 

Similar to Mapping (big) data science (15 dec2014)대학(원)생 (20)

International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Science
 
Ict와 사회과학지식간 학제간 연구동향(23 march2013)
Ict와 사회과학지식간 학제간 연구동향(23 march2013)Ict와 사회과학지식간 학제간 연구동향(23 march2013)
Ict와 사회과학지식간 학제간 연구동향(23 march2013)
 
Decomposing Social and Semantic Networks in Emerging “Big Data” Research
Decomposing Social and Semantic Networks in Emerging “Big Data” ResearchDecomposing Social and Semantic Networks in Emerging “Big Data” Research
Decomposing Social and Semantic Networks in Emerging “Big Data” Research
 
Data Science - An emerging Stream of Science with its Spreading Reach & Impact
Data Science - An emerging Stream of Science with its Spreading Reach & ImpactData Science - An emerging Stream of Science with its Spreading Reach & Impact
Data Science - An emerging Stream of Science with its Spreading Reach & Impact
 
Analíticas del aprendizaje: una perspectiva crítica
Analíticas del aprendizaje: una perspectiva críticaAnalíticas del aprendizaje: una perspectiva crítica
Analíticas del aprendizaje: una perspectiva crítica
 
Introduction to Data Science 1118.pptx
Introduction to Data Science 1118.pptxIntroduction to Data Science 1118.pptx
Introduction to Data Science 1118.pptx
 
“Big data” in human services organisations: Practical problems and ethical di...
“Big data” in human services organisations: Practical problems and ethical di...“Big data” in human services organisations: Practical problems and ethical di...
“Big data” in human services organisations: Practical problems and ethical di...
 
Sci 2011 big_data(30_may13)2nd revised _ loet
Sci 2011 big_data(30_may13)2nd revised _ loetSci 2011 big_data(30_may13)2nd revised _ loet
Sci 2011 big_data(30_may13)2nd revised _ loet
 
Reinventing Laboratory Data To Be Bigger, Smarter & Faster
Reinventing Laboratory Data To Be Bigger, Smarter & FasterReinventing Laboratory Data To Be Bigger, Smarter & Faster
Reinventing Laboratory Data To Be Bigger, Smarter & Faster
 
Big data survey
Big data surveyBig data survey
Big data survey
 
Big data trends in 2020
Big data trends in 2020Big data trends in 2020
Big data trends in 2020
 
Big data divided (24 march2014)
Big data divided (24 march2014)Big data divided (24 march2014)
Big data divided (24 march2014)
 
Introduction to Data Science 1114.pptx
Introduction to Data Science 1114.pptxIntroduction to Data Science 1114.pptx
Introduction to Data Science 1114.pptx
 
Data science Innovations January 2018
Data science Innovations January 2018Data science Innovations January 2018
Data science Innovations January 2018
 
Application and Methods of Deep Learning in IoT
Application and Methods of Deep Learning in IoTApplication and Methods of Deep Learning in IoT
Application and Methods of Deep Learning in IoT
 
Big Data in NATO and Your Role
Big Data in NATO and Your RoleBig Data in NATO and Your Role
Big Data in NATO and Your Role
 
Introduction to Data Science 5-13.pptx
Introduction to Data Science 5-13.pptxIntroduction to Data Science 5-13.pptx
Introduction to Data Science 5-13.pptx
 
Introduction to Data Science 5-13.pptx
Introduction to Data Science 5-13.pptxIntroduction to Data Science 5-13.pptx
Introduction to Data Science 5-13.pptx
 
Data science innovations
Data science innovations Data science innovations
Data science innovations
 
Understand the Idea of Big Data and in Present Scenario
Understand the Idea of Big Data and in Present ScenarioUnderstand the Idea of Big Data and in Present Scenario
Understand the Idea of Big Data and in Present Scenario
 

More from Han Woo PARK

4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
Han Woo PARK
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)
Han Woo PARK
 
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
Han Woo PARK
 
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
Han Woo PARK
 
세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다
Han Woo PARK
 

More from Han Woo PARK (20)

소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
 
WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)
 
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
 
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
 
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies JournalAnother Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
 
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
 
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)
 
Global mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google ScholarGlobal mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google Scholar
 
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
 
향기담은 하루찻집
향기담은 하루찻집향기담은 하루찻집
향기담은 하루찻집
 
Twitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXLTwitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXL
 
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
 
Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...
 
세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다
 
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
 
2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음
 
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
 
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
 

Recently uploaded

Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...
Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...
Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...
Klinik kandungan
 
sourabh vyas1222222222222222222244444444
sourabh vyas1222222222222222222244444444sourabh vyas1222222222222222222244444444
sourabh vyas1222222222222222222244444444
saurabvyas476
 
bams-3rd-case-presentation-scabies-12-05-2020.pptx
bams-3rd-case-presentation-scabies-12-05-2020.pptxbams-3rd-case-presentation-scabies-12-05-2020.pptx
bams-3rd-case-presentation-scabies-12-05-2020.pptx
JocylDuran
 
Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...
Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...
Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...
mikehavy0
 
原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证
原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证
原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证
pwgnohujw
 
如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样
如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样
如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样
jk0tkvfv
 
如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样
如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样
如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样
wsppdmt
 
一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格
一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格
一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格
q6pzkpark
 
Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...
Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...
Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...
Obat Aborsi 088980685493 Jual Obat Aborsi
 

Recently uploaded (20)

Ranking and Scoring Exercises for Research
Ranking and Scoring Exercises for ResearchRanking and Scoring Exercises for Research
Ranking and Scoring Exercises for Research
 
Identify Rules that Predict Patient’s Heart Disease - An Application of Decis...
Identify Rules that Predict Patient’s Heart Disease - An Application of Decis...Identify Rules that Predict Patient’s Heart Disease - An Application of Decis...
Identify Rules that Predict Patient’s Heart Disease - An Application of Decis...
 
Unsatisfied Bhabhi ℂall Girls Vadodara Book Esha 7427069034 Top Class ℂall Gi...
Unsatisfied Bhabhi ℂall Girls Vadodara Book Esha 7427069034 Top Class ℂall Gi...Unsatisfied Bhabhi ℂall Girls Vadodara Book Esha 7427069034 Top Class ℂall Gi...
Unsatisfied Bhabhi ℂall Girls Vadodara Book Esha 7427069034 Top Class ℂall Gi...
 
Aggregations - The Elasticsearch "GROUP BY"
Aggregations - The Elasticsearch "GROUP BY"Aggregations - The Elasticsearch "GROUP BY"
Aggregations - The Elasticsearch "GROUP BY"
 
Case Study 4 Where the cry of rebellion happen?
Case Study 4 Where the cry of rebellion happen?Case Study 4 Where the cry of rebellion happen?
Case Study 4 Where the cry of rebellion happen?
 
社内勉強会資料_Object Recognition as Next Token Prediction
社内勉強会資料_Object Recognition as Next Token Prediction社内勉強会資料_Object Recognition as Next Token Prediction
社内勉強会資料_Object Recognition as Next Token Prediction
 
Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...
Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...
Jual obat aborsi Bandung ( 085657271886 ) Cytote pil telat bulan penggugur ka...
 
sourabh vyas1222222222222222222244444444
sourabh vyas1222222222222222222244444444sourabh vyas1222222222222222222244444444
sourabh vyas1222222222222222222244444444
 
Fuel Efficiency Forecast: Predictive Analytics for a Greener Automotive Future
Fuel Efficiency Forecast: Predictive Analytics for a Greener Automotive FutureFuel Efficiency Forecast: Predictive Analytics for a Greener Automotive Future
Fuel Efficiency Forecast: Predictive Analytics for a Greener Automotive Future
 
Solution manual for managerial accounting 8th edition by john wild ken shaw b...
Solution manual for managerial accounting 8th edition by john wild ken shaw b...Solution manual for managerial accounting 8th edition by john wild ken shaw b...
Solution manual for managerial accounting 8th edition by john wild ken shaw b...
 
How to Transform Clinical Trial Management with Advanced Data Analytics
How to Transform Clinical Trial Management with Advanced Data AnalyticsHow to Transform Clinical Trial Management with Advanced Data Analytics
How to Transform Clinical Trial Management with Advanced Data Analytics
 
bams-3rd-case-presentation-scabies-12-05-2020.pptx
bams-3rd-case-presentation-scabies-12-05-2020.pptxbams-3rd-case-presentation-scabies-12-05-2020.pptx
bams-3rd-case-presentation-scabies-12-05-2020.pptx
 
Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...
Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...
Abortion Clinic in Kempton Park +27791653574 WhatsApp Abortion Clinic Service...
 
原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证
原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证
原件一样(UWO毕业证书)西安大略大学毕业证成绩单留信学历认证
 
如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样
如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样
如何办理(UCLA毕业证书)加州大学洛杉矶分校毕业证成绩单学位证留信学历认证原件一样
 
如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样
如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样
如何办理英国诺森比亚大学毕业证(NU毕业证书)成绩单原件一模一样
 
一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格
一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格
一比一原版(曼大毕业证书)曼尼托巴大学毕业证成绩单留信学历认证一手价格
 
Identify Customer Segments to Create Customer Offers for Each Segment - Appli...
Identify Customer Segments to Create Customer Offers for Each Segment - Appli...Identify Customer Segments to Create Customer Offers for Each Segment - Appli...
Identify Customer Segments to Create Customer Offers for Each Segment - Appli...
 
What is Insertion Sort. Its basic information
What is Insertion Sort. Its basic informationWhat is Insertion Sort. Its basic information
What is Insertion Sort. Its basic information
 
Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...
Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...
Jual Obat Aborsi Lhokseumawe ( Asli No.1 ) 088980685493 Obat Penggugur Kandun...
 

Mapping (big) data science (15 dec2014)대학(원)생

  • 1. Mapping (Big) Data- Research and Issues Virtual Knowledge Studio (VKS) 박한우 교수 영남대 언론정보학과 영남대 사이버감성연구소 아시아트리플헬릭스 학회장 대구경북소셜미디어포럼 TEDxPalgong ( 전 ) 네델란드왕립아카데미 ( 전 ) 옥스퍼드인터넷연구소 ( 전 ) hanpark@ynu.ac.kr www.hanpark.net
  • 2. 빅데이터의 개념 및 특징빅데이터의 개념 및 특징 데이터 사이언스 배경데이터 사이언스 배경 ( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향 사회적 이슈 및 시사점사회적 이슈 및 시사점 1 . 3. 4. 2. [ 목차 ]
  • 4. Big data  Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture, manage, and process the data within a tolerable elapsed time.  Big data sizes may vary per discipline.  Characteristics: Garner’s 3Vs plus SAS’s VC - Volume (amount of data), Velocity (speed of data in and out), Variety (range of data types and sources) - Variability: Data flows can be highly inconsistent with daily, seasonal, and event- triggered peak data loads - Complexity: Multiple data sources requiring cleaning, linking, and matching the data across systems. http://en.wikipedia.org/wiki/Big_data
  • 6.
  • 7.
  • 9. Data-driven Research that focuses on extracting meaningful data from techno-socio-economic systems to discover some hidden patterns.
  • 10. Today’s “big” is probably tomorrow’s “medium” and next week’s “small” and thus the most effective defini- tion of “big data” may be derived when the size of data itself becomes part of the research problem. Loukides (2012) Big data sizes may vary perdiscipline.
  • 11. Big Data and Social Webometrics Network Analysis Big Data and Social Webometrics Network Analysis Increasing data size in terms of the no. of nodes Micro ≦100 nodes →10K Meso ≦1000 nodes →1000K Macro ≦10000 nodes →100,000K Super- Macro ≥10000 nodes → ∽ 출처 : 박한우 (2014)
  • 13. Data Insights: New Ways to Visualize and Make Sense of Data , 2012 by Hunter Whitney
  • 17.
  • 18. Data Insights: New Ways to Visualize and Make Sense of Data , 2012 by Hunter Whitney 
  • 19. 서울시 , 빅데이터 심야버스 노선 구축
  • 20. 빅데이터의 개념 및 특징빅데이터의 개념 및 특징 데이터 사이언스 배경데이터 사이언스 배경 ( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향 사회적 이슈 및 시사점사회적 이슈 및 시사점 1 . 3. 4. 2. [ 목차 ]
  • 21. “Data Science” refers to “a discipline that incorporates varying elements and builds on techniques and theories from many fields, including data visualization with the goal of extracting meaning from data and creating data products.” http://en.wikipedia.org/wiki/Data_science
  • 22. Origin of Data Science Park, H. W., & Leydesdorff, L. (2013 Work-In-Progress). Decomposing a Data-Driven Science Using a Scientometric Method.  One is Peter Naur’s 1974 book “Concise Survey of Computer Methods”, a survey of contemporary data processing methods in a wide range of applications (Gilpress, 2012).  The other is when the term “big data” first appeared in 1970 in the Scopus database (Halevi and Moed, 2012). There was no particular key milestone since 1970s.  During the 1990s period, the term had been usually related to computer modeling and software development for large datasets. Knowledge Discovery and Data Mining in 1997. Rousseau (2012) also regards the 1993 publication as the first documents indexed in the Web version of Web of Science.
  • 23. A more recent development was made with the establishment of journals that included the term “Data Science” in their titles: •Data Science Journal in 2002 •Journal of Data Science in 2003 •EPJ Data Science in 2012 •GigaScience  gigasciencejournal.com in 2012 •Big Data & Society in 2015
  • 26. Science published a special issue (February 11, 2011) looking broadly at increasingly data-driven research efforts as a scientific domain (Science staff, 2011). Data Science is composed of interrelated clusters of research tasks. For example, the technologies on data collection, curation, and access, and the unique skill sets have increasingly been central to Data Science (Science staff, 2011).
  • 27. An international conference called “Data Science Summit” (http://www.greenplum.com/datasciencesummit).
  • 29. All models are wrong but some are useful Emergence of data author on dataverse
  • 30. Andersons claims  Data is everything we need.  We don't have to settle for models.  Agnostic statistics.  Out with every theory of human behavior.  This approach to science — hypothesize, model, test — is becoming obsolete.  Petabytes allow us to say: "Correlation is enough." We can stop looking for models.  What can science learn from Google? E-Science.
  • 31. Big data and the end of theory?  Does big data have the answers? Maybe some, but not all, says - Mark Graham  In 2008, Chris Anderson, then editor of Wired, wrote a provocative piece titled The End of Theory.Anderson was referring to the ways that computers, algorithms, and big data can potentially generate more insightful, useful, accurate, or true results than specialists or domain experts who traditionally craft carefully targeted hypotheses and research strategies.  We may one day get to the point where sufficient quantities of big data can be harvested to answer all of the social questions that most concern us. I doubt it though. There will always be digital divides; always be uneven data shadows; and always be biases in how information and technology are used and produced.  And so we shouldn't forget the important role of specialists to contextualize and offer insights into what our data do, and maybe more importantly, don't tell us. http://www.guardian.co.uk/news/datablog/2012/mar/09/big-data-theory
  • 32. Graham, M., Hale, S.A & Gaffney, D. (2014). Where in the world are you? Geolocation and language identification in Twitter. Professional Geographer. 66(4).http://www.tandfonline.com/doi/abs/10.1080/00330124.2014.907699#.VGnmIvms X0d Number of geotagged tweets per country between 10 November 10 and 16 December 2011. 
  • 33. Computational (Social) Science Park, H. W., & Leydesdorff, L. (2013 Work-In-Progress). Decomposing a Data-Driven Science Using a Scientometric Method.  Focus on the methodological perspective based on the use of new digital tools to manage the data deluge.  Development of e-science tools to automate research process.  Experimentation with new types of data visualization.
  • 35.
  • 36. Why Data Science? Savage and Burrows (2007, p. 886) lament, “Fifty years ago, academic social scientists might be seen as occupying the apex of the – generally limited – social science research ‘apparatus’. Now they occupy an increasingly marginal position in the huge research infrastructure”. Bonacich, P. (2004). The Invasion of the Physicists. Social Networks 26(3): 285-288
  • 39. This approach to science is attributed to the late Jim Gray, one of the most influential computer scientists, at Microsoft.
  • 41. Global Communication 2team ( 빅 ) 데이터과학의 도전 이론의 종말 - 증거기반 경 영 Jeffrey Pfeffer, Robert I. Sutton (2006) How companies can bolster performance and trump the competition through evidence-based management, an approach to decision-making and action that is driven by hard facts rather than half-truths or hype. · 빅데이터의 등장으로 전통 적인 과학 연구방법론 퇴색 · 인식의 한계치를 넘어선 데이터 ( 팩트가 아닌 패 턴 )
  • 42.
  • 43. http://www.datacenterknowledge.com/archives/2011/09 /23/the-lessons-of-moneyball-for-big-data-analysis/ Common Biases in Data Analysis It’s easy to develop “affirmation bias,” DePodesta said. “Once we’ve made up our minds, we resist information that doesn’t agree with our conclusion,” he said. A particular problem in baseball is “appearance bias” – the notion that some athletes look more like great baseball players than others. It’s also an issue in business, DePodesta said, citing a data point from  Malcolm Gadwell on height and business success. Gladwell found that although just 3.9 percent of American males are 6-foot-2 or taller, about 30
  • 44. The Signal and the Noise: Why Most Predictions Fail but Some Don't. Nate Silver I do not go as far as a Popper in asserting that such theories are therefore unscientific or that they lack any value. However, the fact that the few theories we can test have produced quite poor results suggests that many of the ideas we haven’t tested are very wrong as well. We are undoubtedly living with many delusions that we do not even realize. page 15
  • 45. OECD (2012). OECD Technology Foresight Forum 2012 - Harnessing data as a new source of growth: Big data analytics and policies. OECD Headquarters, Paris, France 22 October 2012
  • 46. 빅데이터와 SNS 시대의 연구정보 서비스의 과학화 • Scientometrics 와 Triple Helix 분야 의 지속적 성장과 학제간 확장 - Technometrics, Webometrics, Informetrics - 이용자 주도형 오픈 툴과 글로벌 A&I 서비스의 보편화 가속됨
  • 47. Mike Thelwall: WA 2.0 http://lexiurl.wlv.ac.uk/index.html
  • 49. Han Woo PARK KrKWIC, WeboNaver, WeboDaum
  • 50.
  • 51.
  • 52. ArcGIS  를 이용한 오픈데이터 툴 . 세계은행 데이터 등 cool
  • 53.
  • 54.
  • 55.
  • 56.
  • 57.
  • 58.
  • 59.
  • 60.
  • 61.
  • 62. 빅데이터의 개념 및 특징빅데이터의 개념 및 특징 데이터 사이언스 배경데이터 사이언스 배경 ( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향 사회적 이슈 및 시사점사회적 이슈 및 시사점 1 . 3. 4. 2. [ 목차 ]
  • 63. The Coming of Triple Divide? There are three main gaps I’d like to emphasize in the present/future of Big Data research community: 1)Developing/Transitional VS Developed/Advanced countries, 2)Researcher in academia VS Researcher in commercial sector, 3)Researchers with computational skills VS Less computational scholars.
  • 64. Method used Developed Country/Region Developing Country/Region Mixed Region N % N % N % Social-Informetics 114 74.51 30 83.33 9 52.94 Scientometrics 28 18.30 6 16.67 8 47.06 Webometrics 11 7.19 0 0 0 0 Total 153 100 36 100 17 100 No. of articles in each category of methods by the developed/developing division Skoric, M. M. (2013, Online First). The implications of big data for developing and transitional economies: Extending the Triple Helix?. Scientometrics.
  • 65. Number of “Big data” papers per year Halevi, G., & Moed, H. F. (2012).
  • 66. Rousseau (2012) We performed a similar search in the WoS (TS=“Big data”) on October 2, 2012, leading to 142 articles. We removed the oldest one (1974), and kept 141 published during the period 1993-2012). Halevi and Moed observed an over-exponential growth over the period 1970-2011, while we found a growth curve that could best be described by a cubic polynomial (R2=0.963, with year 1992=0), which is illustrated in Fig. 1.
  • 67. Subject areas researching Big Data Halevi, G., & Moed, H. F. (2012).
  • 69. Geographical Distribution of Big Data papers Halevi, G., & Moed, H. F. (2012).
  • 71. Phrase map of highly occurring keywords 1999-2005 Halevi, G., & Moed, H. F. (2012).
  • 72. Phrase map of highly occurring keywords 2006-2012 Halevi, G., & Moed, H. F. (2012).
  • 73. Park, H. W., & Leydesdorff, L. (2013 Work-In-Progress). Decomposing a Data-Driven Science Using a Scientometric Method.  But, Halevi and Moed (2012), and Rousseau (2012) are based on descriptive statistics. Therefore, we intend to add the network perspective both in the social (in terms of co-authorship) and semantic networks.  Furthermore, we extend search queries to various terminologies related to Data Science because the term “big data” is regarded only as one among a list of policy priority issues.  We show where the research system in Data Science is “hot” in terms of international collaborations and prevailing semantics.
  • 74.
  • 75. Park, H.W.@ , & Leydesdorff, L. (2013). Decomposing Social and Semantic Networks in Emerging “Big Data” Research. Journal of Informetrics*. 7 (3), 756-765.
  • 76.
  • 78. Economics in the age of big data http://www.sciencemag.org/content/346/6210/1243089 .full
  • 79. The rise of empirical economics • Finally, data come with less structure. Economists are used to working with “rectangular” data, with N observations and   K <<   N variables per  observation and a relatively simple dependence structure between the observations. New data sets often have higher dimensionality and less-clear structure. For example, Internet browsing histories contain a great deal of information about a person’s interests and beliefs and how they evolve over time. But how can one extract this information? The data record a sequence of events that can be organized in an enormous number of ways, which may or may not be clearly linked and from which an almost unlimited number of variables can be created. Figuring out how to organize and reduce the dimensionality of large- scale, unstructured data is becoming a crucial challenge in empirical economic research.
  • 80. Using Big Data to Fight Range Anxiety in Electric Vehicles • The software acquires data from five sources: Google Maps (for route, terrain, and traffic data), Wunderground.com (for weather), driver history (through driving behavior measurements), vehicle manufacturers (for vehicle modeling data), and battery manufacturers (for battery modeling data).  http://spectrum.ieee.org/cars-that-think/transportation/sensors/using-big-data-to-fight-range-anxiety-in-electric- vehicles
  • 81. Bi-linked network of politically active A-list Korean citizen blogs (July 2005) 2005 년 한국정치 파워블로거와 국회의원 URI=Centre DLP=Left GNP=Right Just A-list blogs exchanging links with politicians
  • 82. Affiliation network using pages linked to Lee’s and Park’s sites 이명박과 박근혜 후보 사이트의 인터넷 네트워크 N = 901 (Lee: 215, Park: 692, Shared: 6)
  • 83. e- 리서치 도구의 활용 : 웹가시성 분석  블로그 공간에서 후보자들의 웹가시성 수준과 득표 수 간에 밀접한 상관성을 나타냄 . ( 임연수 , 박한우 , 2010, JKDAS) 실제 득표수 평균 블로그 수
  • 84. 2009 년 10 월 28 일 재보선 결과 - 당선자 모두 블로그 가시성 높음
  • 85. I. 소셜 미디어의 특징 및 영향력 10.26 재보궐 선거 사례 (2) • 페이스북에서 이름이 동시에 언급되는 이름 연결망을 구성하여 분석 • 초반에는 두 후보자가 비슷하게 언급되다가 , 중반에 접어들자 박원순 지지자들과 박원순이 언급 되면서 나경원 후보자 지지자가 안보이게 되고 , 종반에는 박원순 중심으로 네트워크가 재편되며 종 결됨
  • 86. I. Semantic network 의미망에서 중심성 비교 10.26 재보궐 선거 사례 (2) • 서울시장 선거 관련 메세지들의 내용을 분석하여 나오는 단어들의 빈도 분석 • 초반부터 나경원 후보는 빈도가 떨어지다가 , 후반에 박원순 후보 와 경쟁 및 선거 결과를 이야기하 면서 나타나는 경우를 제외하고는 줄곳 담론외곽에 존재 • 안철수 효과는 초반에 크고 , 중 반이후 떨이지는 효과가 나타났으 나 , 한나라당이라는 언급이 높게 나오면서 집권여당에 반하는 정서 가 나타나 , 선거의 성격을 말해 줌
  • 87.
  • 88.  Figure 4. T Values for Bilateral Relationships between Park and Moon  트위터 , 페이스북 , 구글에서 나타난 박근혜와 문재인 후보 간 트리플헬릭스 지 수 값 19 대 대통령 선거
  • 89.
  • 93.
  • 94.
  • 95.
  • 96.
  • 97. 빅데이터의 개념 및 특징빅데이터의 개념 및 특징 데이터 사이언스 배경데이터 사이언스 배경 ( 빅 ) 데이터 R&D 동향( 빅 ) 데이터 R&D 동향 사회적 이슈 및 시사점사회적 이슈 및 시사점 1 . 3. 4. 2. [ 목차 ]
  • 98. Yet, there still are serious problems to overcome. A trenchant critique concerning the big data field as it is nowadays came in the form of six statements intending to temper unbridled enthusiasm. [42] These six provocative statements are:  Big data change the definition of knowledge;  Claims to accuracy and objectivity are misleading;  More data are not always better data;  Taken out of context, big data loses its meaning;  Just because it is accessible, it does not make it ethical; and  (Limited) access to big data creates a new digital divide. Rousseau (2012)
  • 99. Big Data's Slippery Issue of Causation vs. Correlation
  • 100. Big Data's Slippery Issue of Causation vs. Correlation
  • 101. 박한우 , 소셜 여론조사의 실제와 과제 - ‘ 저비용 고효 율’ SNS 로 여론 읽기 . 월간 < 신문과 방송 >, 2012 년 7 월 . 84-88 쪽 .
  • 102. 대구시의 조직 개편 ( 안 ) 과 오픈 데이터 경제  뉴욕대가 조사한 바에 따르면 미국에서 활동하는 오픈 데이터 기업이 500 개이며 , 이 가운데 3 분의 2 는 최 근 5 년 이내에 설립되었다고 한다 .   부동산 회사인 질로 (Zillow) 는 좋은 사례다 . 이 회사는 주택 보유자 , 구매자 , 판매자 , 임대업자 , 중개업자 , 대 부업자 , 땅 주인 , 감정평가사에게 꼭 필요한 정보의 검 색과 공유를 촉진하기 위한 온라인 마켓플레이스를 제 공한다 .  우편번호만 입력하면 학군과 안전도 등 부동산 관련 정보에 접근이 가능하다 . 이 서비스는 1 억 1 천만건이 넘는 미국 주택 데이터를 기반으로 만들어져 현재 30 억달러 이상의 자본을 시장에 유통시키는 효과를 가져 왔다 . 
  • 104. Global Communication 2team 빅데이터에 대한 부정적인 시각 등장 - 빅데이터의 가치 - 저장 , 분석 및 해석기술 한계 존재 - 현재의 붐은 호들갑스러운 측면 존재 빅데이터 갭 : Promise VS Capabilities 빅데이터의 도전
  • 105. Global Communication 2team 빅데이터의 도전 빅데이터 ‘ Gap’ 분석사례 · 151 명 연방 정부 CIO 및 IT 관리자 대상 빅데이터갭 조사실시 . · 실질적으로 현재 데이터를 제대로 활용하고 있는 기관도 적으며 , 데 이터소유권 문제도 확립되지 않은 것으로 나타남 . [ 정부美 IT 네트워크 ‘ Meritalk’ 는 빅데이터 의 가능성과 현실에는 Gap 이 존재한다고 분석 ]
  • 107. 어떤 실험을 하는지 우리는 알고 있는가 ? http://www.nature.com/news/facebook-experiment-boosts-us-voter-turnout-1.11401
  • 108. 우리는 정확히 인지하지 못한 채 동의했다
  • 109. User Content VS Site Content 대부분의 SNS 서비스는 “ User Content” 를 무력하게 만드는 “ Site Content” 규정이 있 음 (p. 60).
  • 110.
  • 111. Global Communication 2team 3.결론 및결론 및 시사점시사점 기술 + 사회문화적 요소에 대한 면밀한 검토 - 빅데이터 및 AI 논의에서 빠지지 않는 것이 개인정보 유출 및 사생활 침해와 같은 역기능 문제 - 기술의 발전과 더불어 우리가 원하는 미래상에 대한 명확한 이 해와 , 이를 달성하기 위한 정치사회적 기반에 대한 근본적인 모색이 박한우 교수는 2012 년 2 월에 미국에서 벌어 진 사건을 예로 들었다 . 영국의 대학생 두 명 이 미국에 입국하면서 로스앤젤레스 공항을 폭파하겠다는 말을 트위터에 썼는데 이것이 미국 정부에 적발됐다 . 박 교수는 “이 경우 정 부는 트위터 전체가 아니라 트위터에 글을 올 린 사람을 , 올린 것을 규제한 것인데 미국 정 부가 일상적으로 트위터를 들여 다본다는 문 제로 번졌다”고 설명했다 .
  • 112. Guardian 소셜 데이터저널리즘 10 계명  It may be trendy but it’s not new  Open data means open data journalism  Has data journalism become curation?  Bigger datasets, smaller things  Data journalism is 80% perspiration, 10% great idea, 10% output  Long and short-form  Anyone can do it…  … but looks can be everything  You don’t have to be a programmer  It’s (still) all about stories http://www.guardian.co.uk/news/datablog/2011 /jul/28/data-journalism
  • 113. Prof. Han Woo PARK World Class University Webometrics Institute CyberEmotions Research Center Department of Media and Communication, YeungNam University, Korea hanpark@ynu.ac.kr www.hanpark.net 이 슬라이드 작성에 도움을 준 사이버감성연구소 연구원들과 학부 / 대학원 강의 수강생에게 고마움을 표시합니다 . 이 슬라이드는 개인적 목적으로 만든 비공개 자료입니다 . 배포 및 복사를 금지합니다 .

Editor's Notes

  1. http://forum.joomla.org/viewtopic.php?f=52&amp;t=2799
  2. Data Insights: New Ways to Visualize and Make Sense of Data , 2012 by Hunter Whitney  (Author)
  3. 연구실 컴퓨터의 아이패드 사진 복사한 폴더에서 Science 잡지 특집호 그림을 여기에.. 엠비씨 준비하던 것에 있는 거 아니가?
  4. After the crisis? Big Data and the methodological challenges of empirical sociology
  5. 일본 중의원 선거에서 빅데이터를 통한 사전 선거 예측이 95%의 정확도를 보여 주목된다. 지난 12일 일본에서 치러진 중의원 선거는 빅데이터가 선거에 얼마나 중요한 영향력을 갖게 되는지 보여주는 자리였다. 야후는 지난해 참의원 선거에 이어 중의원 선거에도 빅데이터를 활용해 당선 결과를 예측했다.지난해 야후는 이전 선거 결과를 분석해 각 정당 별 득표를 추정하고, 자체적인 기준을 반영한 검색량을 통해 득표 수를 추정했다. 또 과거 사례를 바탕으로 검색량 변화를 함수로 만들어 선거 시점의 득표 수를 바탕으로 각 당의 당선 의석 수를 계산한 바 있다. 각 후보들의 소셜네트워크서비스 노출 빈도도 변수에 포함했다. 이번 중의원 선거는 분석에 활용되는 변수를 최신 데이터로 반영해 지난해 참의원 선거보다 정확도를 높인 것이 특징이다. 선거 막판에 분위기에 따라 투표를 결정하는 중간층의 간섭을 최소화 했다. 또, 투표율에 따라 오차비율이 커지는 것을 감안해 투표율 50% 초반, 60%일 경우를 가정해 의석 수를 다르게 산정했다. 빅데이터 분석은 기존 선거 이력을 반영하기 때문에, 투표율이 이전 선거 대비 큰 변화를 보일 경우 오차 범위도 그만큼 커진다. 야후는 50% 초반일 때 자민당과 민주당의 의석 수는 각각 300석과 69석, 60%일 때 311석과 61석으로 예상했다. 14일 투표 결과 자민당은 291석, 민주당은 73석을 차지했다. 투표율이 52.99%인 것을 감안하면, 자민당과 민주당의 의석 수를 95.75% 정확도를 보인 것이다. 특이한 점은 이번 선거에서 예상을 뛰어넘어 21석을 차지한 공산당의 의석을 23석(투표율 50%일 경우)로 예상한 점이다. 이에 대해 야후 측은 정당의 주목도과 득표율은 기본적으로 상관 관계가 있지만, 정당별로 주목도나 투표율의 영향을 덜 받는 당이 있기 때문에 다른 변수를 적용했다고 밝혔다. 반대로 빗나간 예상도 확인됐다. 유신당은 20여석이 예상됐지만, 실제 차지한 의석은 41석으로 오차율이 높아 빅데이터 분석의 한계도 존재한다는 것이 확인됐다.전문가들은 향후 빅데이터 기술이 선거에 더 많은 영향을 미칠 것으로 전망하고 있다. 누적된 데이터와 수정된 알고리즘을 통해 오차를 줄일 수 있기 때문이다. 이에 오는 2016년 우리나라에서 치러지는 국회의원 선거도 빅데이터를 통한 전략이 중요하게 작용할 것으로 보인다. 국내 빅데이터 전문업체 와이즈넛는 올해 전국동시지방선거를 SNS 정보를 기반으로 분석해 후보자 당락을 예상하는 &amp;apos;초이스 2014&amp;apos; 서비스를 제공한 바 있다. 초이스 2014는 11개 관심 지역의 단체장과 교육감 중 서울시장, 광주시장, 세종시장, 서울시 교육감 등 7개 선거 결과를 적중시켰다. 선거 후보자들과 관련된 트위터, 블로그, 카페 등 SNS에 올라온 내용만으로도 주요 선거결과를 예측했다.이미 해외에서는 빅데이터가 선거 예측 도구로 활용되고 있으며, 빅데이터를 어떻게 활용하는지가 선거의 당락을 결정할 정도로 중요해지고 있다. 지난 2012년 미국 대통령 선거에서 오바마 대통령이 데이터 분석 팀을 구성한 것은 잘 알려진 일이다. SW업계 관계자는 &amp;quot;스마트폰과 SNS 확대로 빅데이터 예측에 적용할 수 있는 정보가 많아지면서 정확도도 높아지고 있다&amp;quot;라며 &amp;quot;2016년 국회의원 선거는 빅데이터 전략의 싸움이 될 것&amp;quot;이라고 말했다. 이형근기자bass007@ ▶이형근기자의 블로그 바로가기
  6. Most large retailers similarly analyse enormous quantities of data from their databases of sales (which are linked to you by credit card numbers and loyalty cards) in order to make uncanny predictions about your future behaviours. In a now famous case, the American retailer, Target, upset a Minneapolis man by knowing more about his teenage daughter&amp;apos;s sex life than he did. Target was able to predict his daughter&amp;apos;s pregnancy by monitoring her shopping patterns and comparing that information to an enormous database detailing billions of dollars of sales. This ultimately allows the company to make uncanny predictions about its shoppers.