SlideShare a Scribd company logo
빅데이터의 이해 : 
데이터 사이언스와 인문학적 통찰력 
학습목표 
○ 빅데이터와 데이터 사이언스에 대하여 정확히 이해하고 왜 인문학적 통 
찰력이 필요한가에 대하여 알아가는 것을 목표로 한다. 
빅데이터 데이터 사이언스 
인문학 통찰력 
재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형이다. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다. 그 자체는 단순한 
사실에 불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에 소용되는 정보를 만들어낸다.. 
실험과 같이 검증된 방법으로 얻어 낸 자연계에 관한 체계적 지식 체계 
인문학은 근대과학에 대해 그 목적과 가치를 인간적 입장에서 규정하는, 인간과 인류 문화에 관한 모든 정신과학을 통칭하여 일컫는다. 
꿰뚫어 보는 직관
데이터
Data의 정의 
“ Data are values of qualitative or 
quantitative variables, belong to a 
set of items.” 
Set of items : Sometimes called the population; the set of objects you are interested in. 
Variables : A measurement or characteristic of an item 
Qualitative : Country of origin, sex, treatment... 
Quantitative : Height, weight, blood pressure...
Set of Item 
Oxford 대사전 : 추론과 추정의 근거를 이루는 사실 
 데이터를 단순한 객체로서 가치뿐 아니라 다른 객체와의 상호 관계 속에서 가치를 갖는 것 
존재적 특성 
 객관적 사실(fact, raw material) 
당위적 특성 
 추론, 예측, 전망 추정을 위한 근거
존재적 특성 
존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터 
(quantitative data) 로 구분한다. 
 정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다 
 정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게
당위적 특성 
우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가 
가지고 있는 존재 목적. 
 수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하여 논문 예 
측 경영전략 정책을 수립하는 일련의 가치 창출. 
암묵지 형식지 
경험을 통해 
습득된 무형의 
지식 
형상화된 지식
The data is the second most important thing 
 The most important thing in data science is the question 
 The second most important is data 
 Often the data will limit or enable the question 
 But having data can’t save you if you don’t have a question
데이터베이스
데이터베이스 
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데 
이터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터 
의 집합 
히스토리 
 1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발 
 1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생 
 1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상) 
 1980년대 관계형 데이터베이스 시스템 출시 
 1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기(SQL등장) 
 2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 탄생
데이터베이스 ACID 이론 
 원자성(Atomicity) : 트랜잭션의 처리는 
완전히 끝마치지 않을 경우에는 전혀 
이루어지지 않은 것과 같아야 한다. 
이러한 특성을 All or Nothing"이라 한다. 
 일관성(Consistency) : 트랜잭션들간의 
영향이 한 방향으로만 전달되어야 한다. 
 고립성(Isolation) : 트랜잭션의 부분적인 
상태를 다른 트랜잭션에 제공해서는 안된다. 
 지속성(Durability) : 성공적인 트랜잭션의 
수행 후에는 반드시 데이터베이스 
(디스크)에 반영하여야 한다.
Big Data 처리의 문제점 
왜 데이터는 갑자기 커졌을까(INPUT)? 
데이터의 처리는(OUTPUT)?
CAP 이론 
2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem), 
혹은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨 
터 시스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것 
은 불가능하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다 
일관성 (Consistency) 
각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다. 
가용성 (Availability) 
모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야 
한다. 
분단가용성 (Partition Tolerance) 
물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을 
해야 한다.
CAP 이론 
CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형) 
AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합)
NoSql 
Not-Only-SQL 빅데이터 분산처리 및 저장 기수로가 함께 발달된 분산 데이터 
베이스 기술 
 Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis 
 Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB 
 Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase 
 Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용 
: MongoDB, Cloudant
r그만 따라해!!!
빅데이터
Data 용량 추이
Big Data 
“너무 클(Volume) 가능성을 갖는 
(Velocity) 디지털 형태(Variety)의 데 
이터” 
Volume 
Velocity 
Variety 
3V Value
Big Data 
당위론적 특성?
빅데이터전망
Big Data가 변화시킨 것들 
사전처리  사후처리(표준화된 문서포맷) 
표본조사  전수조사(잉여력) 
질  양(번역시스템) 
인과관계  상관관계(Aviva)
Ice Break 
다음중 Big Data라고 생각되는 것은 
어느 것 일까요? 
미의회 
도서관 자료 
한국고용정보원 
자료 
Twitter 
자료
Hype Cycle 
1995년부터 정보 테크놀러지 전문업체 가트너에 의해 제창된 개념으로서 새로운 
테크놀러지의 특성을 시간에 따라 변이되는 다섯 가지 단계로 표현한 것이다. 
이는 전 세계 적으로 널리 알려져서 현재 새로운 테크놀러 지가 등장한 경우 그 새 
로운 테크놀러지의 전반적인 예측방향을 논할 때 주로 참조되고 있으며, 업계 표준 
의 테크놀러지에 대한 시간대적 특성 단계 표현 툴이다. 
1단계 Technology Trigger - 촉발된 테크놀러지 
2단계 Peak of Inflated Expectation - 기대치의 피크 
3단계 Trough of Disillusionment) - 각성의 골 
4단계 Slope of Enlightenment - 완만한 개화 
5단계 Plateau of Productivity - 안정적 생산성
Big Data 의 활용 
시장예측
선호분석
사회적분위기 파악
트렌드 감지 및 예측
무엇이 잘 못 되어 가고 있는가?
무엇이 잘 못 되어 가고 있는가?
예측을 위한 주요 요소 
질문  데이터 선정  측정  알고리즘  요인들  평가 
 무엇을 예측 할 것이며 무엇을 가지고 예측하려 하는가? 
 예측하기 위한 최선의 데이터를 선정해야 한다. 
 적용할 알고리즘 결정 
 알고리즘에 들어갈 Parameters들을 결정 
 새로운 데이터 셋을 넣어 알고리즘에 대한 평가
미래의 빅데이터 
 데이터 : 모든 것의 데이터화 
 기 술 : 진화하는 알고리즘 
 인 력 : 데이터 사이언티스트, 알고리즈미스트

More Related Content

What's hot

데이터의 이해
데이터의 이해데이터의 이해
데이터의 이해
paul lee
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
분산데이터 저장 기술
분산데이터 저장 기술분산데이터 저장 기술
분산데이터 저장 기술
paul lee
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015
YoungMin Jeon
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
Myungjin Lee
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 
2015 경영과 정보기술 - 빅데이터(Big Data)
2015 경영과 정보기술 - 빅데이터(Big Data)2015 경영과 정보기술 - 빅데이터(Big Data)
2015 경영과 정보기술 - 빅데이터(Big Data)
kyunguk_Kim
 

What's hot (7)

데이터의 이해
데이터의 이해데이터의 이해
데이터의 이해
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
분산데이터 저장 기술
분산데이터 저장 기술분산데이터 저장 기술
분산데이터 저장 기술
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
2015 경영과 정보기술 - 빅데이터(Big Data)
2015 경영과 정보기술 - 빅데이터(Big Data)2015 경영과 정보기술 - 빅데이터(Big Data)
2015 경영과 정보기술 - 빅데이터(Big Data)
 

Viewers also liked

일신오토클레이브 회사소개서
일신오토클레이브 회사소개서일신오토클레이브 회사소개서
일신오토클레이브 회사소개서
ilshinautoclave
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
Gruter
 
코드 리뷰 시스템 소개
코드 리뷰 시스템 소개코드 리뷰 시스템 소개
코드 리뷰 시스템 소개Young-Ho Cha
 
[131] packetbeat과 elasticsearch
[131] packetbeat과 elasticsearch[131] packetbeat과 elasticsearch
[131] packetbeat과 elasticsearch
NAVER D2
 
우리가 몰랐던 크롬 개발자 도구
우리가 몰랐던 크롬 개발자 도구우리가 몰랐던 크롬 개발자 도구
우리가 몰랐던 크롬 개발자 도구
Jae Sung Park
 
[162] jpa와 모던 자바 데이터 저장 기술
[162] jpa와 모던 자바 데이터 저장 기술[162] jpa와 모던 자바 데이터 저장 기술
[162] jpa와 모던 자바 데이터 저장 기술
NAVER D2
 
깨끗한 코드 (클린 코드, Clean Code)
깨끗한 코드 (클린 코드, Clean Code)깨끗한 코드 (클린 코드, Clean Code)
깨끗한 코드 (클린 코드, Clean Code)
Jay Park
 
[123] quality without qa
[123] quality without qa[123] quality without qa
[123] quality without qa
NAVER D2
 
웹 Front-End 실무 이야기
웹 Front-End 실무 이야기웹 Front-End 실무 이야기
웹 Front-End 실무 이야기
JinKwon Lee
 

Viewers also liked (9)

일신오토클레이브 회사소개서
일신오토클레이브 회사소개서일신오토클레이브 회사소개서
일신오토클레이브 회사소개서
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
코드 리뷰 시스템 소개
코드 리뷰 시스템 소개코드 리뷰 시스템 소개
코드 리뷰 시스템 소개
 
[131] packetbeat과 elasticsearch
[131] packetbeat과 elasticsearch[131] packetbeat과 elasticsearch
[131] packetbeat과 elasticsearch
 
우리가 몰랐던 크롬 개발자 도구
우리가 몰랐던 크롬 개발자 도구우리가 몰랐던 크롬 개발자 도구
우리가 몰랐던 크롬 개발자 도구
 
[162] jpa와 모던 자바 데이터 저장 기술
[162] jpa와 모던 자바 데이터 저장 기술[162] jpa와 모던 자바 데이터 저장 기술
[162] jpa와 모던 자바 데이터 저장 기술
 
깨끗한 코드 (클린 코드, Clean Code)
깨끗한 코드 (클린 코드, Clean Code)깨끗한 코드 (클린 코드, Clean Code)
깨끗한 코드 (클린 코드, Clean Code)
 
[123] quality without qa
[123] quality without qa[123] quality without qa
[123] quality without qa
 
웹 Front-End 실무 이야기
웹 Front-End 실무 이야기웹 Front-End 실무 이야기
웹 Front-End 실무 이야기
 

Similar to 빅데이터전문가교육 2학기

[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터
Suntae Kim
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
메가트렌드랩 megatrendlab
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용구중억 (한국기초과학지원연구원)
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
Myunggoon Choi
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
Suntae Kim
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti
glorykim
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
Daemin Park
 
빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성Jeong-Soo KANG
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
Open Cyber University of Korea
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
SuHyun Jeon
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
SRCDSC
 
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
AlexanderPark28
 
진화형 지식처리 인공지능 기술의 동향과 산업전망
진화형 지식처리 인공지능 기술의 동향과 산업전망진화형 지식처리 인공지능 기술의 동향과 산업전망
진화형 지식처리 인공지능 기술의 동향과 산업전망
메가트렌드랩 megatrendlab
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ss
JinSoo Park
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
NAVER D2
 
digital archiving
digital archivingdigital archiving
digital archiving
Hansung University
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
Hosung Lee
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
iron han
 

Similar to 빅데이터전문가교육 2학기 (20)

[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
빅데이터
빅데이터빅데이터
빅데이터
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성빅데이터, 가치창출구조와 가능성
빅데이터, 가치창출구조와 가능성
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
 
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
데이터 노마디즘_4차 산업혁명 시대 인문학을 위한 다언어 다문화 데이터 아카이브 플랫폼 구상_20201101_new_수정완료.pdf
 
진화형 지식처리 인공지능 기술의 동향과 산업전망
진화형 지식처리 인공지능 기술의 동향과 산업전망진화형 지식처리 인공지능 기술의 동향과 산업전망
진화형 지식처리 인공지능 기술의 동향과 산업전망
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ss
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
digital archiving
digital archivingdigital archiving
digital archiving
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 

More from Kangwook Lee

빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1Kangwook Lee
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)Kangwook Lee
 
Editing textvariables
Editing textvariablesEditing textvariables
Editing textvariablesKangwook Lee
 
Subsetting andsorting
Subsetting andsortingSubsetting andsorting
Subsetting andsortingKangwook Lee
 
Readingfromothersources
ReadingfromothersourcesReadingfromothersources
ReadingfromothersourcesKangwook Lee
 

More from Kangwook Lee (20)

빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1
 
분석8기 4조
분석8기 4조분석8기 4조
분석8기 4조
 
분석7기 5조
분석7기 5조분석7기 5조
분석7기 5조
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
분석5기 4조
분석5기 4조분석5기 4조
분석5기 4조
 
기술8기 2조
기술8기 2조기술8기 2조
기술8기 2조
 
기술7기 2조
기술7기 2조기술7기 2조
기술7기 2조
 
기술6기 3조
기술6기 3조기술6기 3조
기술6기 3조
 
기술5기 1조
기술5기 1조기술5기 1조
기술5기 1조
 
Apply교육
Apply교육Apply교육
Apply교육
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
 
Editing textvariables
Editing textvariablesEditing textvariables
Editing textvariables
 
Summarizing data
Summarizing dataSummarizing data
Summarizing data
 
Subsetting andsorting
Subsetting andsortingSubsetting andsorting
Subsetting andsorting
 
Readingfromothersources
ReadingfromothersourcesReadingfromothersources
Readingfromothersources
 
Readingfromapis
ReadingfromapisReadingfromapis
Readingfromapis
 
Reading files4
Reading files4Reading files4
Reading files4
 
Reading files3
Reading files3Reading files3
Reading files3
 
Reading files2
Reading files2Reading files2
Reading files2
 
Reading files1
Reading files1Reading files1
Reading files1
 

빅데이터전문가교육 2학기

  • 1. 빅데이터의 이해 : 데이터 사이언스와 인문학적 통찰력 학습목표 ○ 빅데이터와 데이터 사이언스에 대하여 정확히 이해하고 왜 인문학적 통 찰력이 필요한가에 대하여 알아가는 것을 목표로 한다. 빅데이터 데이터 사이언스 인문학 통찰력 재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형이다. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다. 그 자체는 단순한 사실에 불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에 소용되는 정보를 만들어낸다.. 실험과 같이 검증된 방법으로 얻어 낸 자연계에 관한 체계적 지식 체계 인문학은 근대과학에 대해 그 목적과 가치를 인간적 입장에서 규정하는, 인간과 인류 문화에 관한 모든 정신과학을 통칭하여 일컫는다. 꿰뚫어 보는 직관
  • 3. Data의 정의 “ Data are values of qualitative or quantitative variables, belong to a set of items.” Set of items : Sometimes called the population; the set of objects you are interested in. Variables : A measurement or characteristic of an item Qualitative : Country of origin, sex, treatment... Quantitative : Height, weight, blood pressure...
  • 4. Set of Item Oxford 대사전 : 추론과 추정의 근거를 이루는 사실  데이터를 단순한 객체로서 가치뿐 아니라 다른 객체와의 상호 관계 속에서 가치를 갖는 것 존재적 특성  객관적 사실(fact, raw material) 당위적 특성  추론, 예측, 전망 추정을 위한 근거
  • 5. 존재적 특성 존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터 (quantitative data) 로 구분한다.  정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다  정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게
  • 6. 당위적 특성 우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가 가지고 있는 존재 목적.  수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하여 논문 예 측 경영전략 정책을 수립하는 일련의 가치 창출. 암묵지 형식지 경험을 통해 습득된 무형의 지식 형상화된 지식
  • 7. The data is the second most important thing  The most important thing in data science is the question  The second most important is data  Often the data will limit or enable the question  But having data can’t save you if you don’t have a question
  • 9. 데이터베이스 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데 이터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터 의 집합 히스토리  1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발  1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생  1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상)  1980년대 관계형 데이터베이스 시스템 출시  1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기(SQL등장)  2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 탄생
  • 10. 데이터베이스 ACID 이론  원자성(Atomicity) : 트랜잭션의 처리는 완전히 끝마치지 않을 경우에는 전혀 이루어지지 않은 것과 같아야 한다. 이러한 특성을 All or Nothing"이라 한다.  일관성(Consistency) : 트랜잭션들간의 영향이 한 방향으로만 전달되어야 한다.  고립성(Isolation) : 트랜잭션의 부분적인 상태를 다른 트랜잭션에 제공해서는 안된다.  지속성(Durability) : 성공적인 트랜잭션의 수행 후에는 반드시 데이터베이스 (디스크)에 반영하여야 한다.
  • 11. Big Data 처리의 문제점 왜 데이터는 갑자기 커졌을까(INPUT)? 데이터의 처리는(OUTPUT)?
  • 12. CAP 이론 2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem), 혹은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨 터 시스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것 은 불가능하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다 일관성 (Consistency) 각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다. 가용성 (Availability) 모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야 한다. 분단가용성 (Partition Tolerance) 물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을 해야 한다.
  • 13. CAP 이론 CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형) AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합)
  • 14. NoSql Not-Only-SQL 빅데이터 분산처리 및 저장 기수로가 함께 발달된 분산 데이터 베이스 기술  Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis  Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB  Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase  Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용 : MongoDB, Cloudant
  • 18. Big Data “너무 클(Volume) 가능성을 갖는 (Velocity) 디지털 형태(Variety)의 데 이터” Volume Velocity Variety 3V Value
  • 21. Big Data가 변화시킨 것들 사전처리  사후처리(표준화된 문서포맷) 표본조사  전수조사(잉여력) 질  양(번역시스템) 인과관계  상관관계(Aviva)
  • 22. Ice Break 다음중 Big Data라고 생각되는 것은 어느 것 일까요? 미의회 도서관 자료 한국고용정보원 자료 Twitter 자료
  • 23. Hype Cycle 1995년부터 정보 테크놀러지 전문업체 가트너에 의해 제창된 개념으로서 새로운 테크놀러지의 특성을 시간에 따라 변이되는 다섯 가지 단계로 표현한 것이다. 이는 전 세계 적으로 널리 알려져서 현재 새로운 테크놀러 지가 등장한 경우 그 새 로운 테크놀러지의 전반적인 예측방향을 논할 때 주로 참조되고 있으며, 업계 표준 의 테크놀러지에 대한 시간대적 특성 단계 표현 툴이다. 1단계 Technology Trigger - 촉발된 테크놀러지 2단계 Peak of Inflated Expectation - 기대치의 피크 3단계 Trough of Disillusionment) - 각성의 골 4단계 Slope of Enlightenment - 완만한 개화 5단계 Plateau of Productivity - 안정적 생산성
  • 24.
  • 25.
  • 26.
  • 27. Big Data 의 활용 시장예측
  • 31. 무엇이 잘 못 되어 가고 있는가?
  • 32. 무엇이 잘 못 되어 가고 있는가?
  • 33. 예측을 위한 주요 요소 질문  데이터 선정  측정  알고리즘  요인들  평가  무엇을 예측 할 것이며 무엇을 가지고 예측하려 하는가?  예측하기 위한 최선의 데이터를 선정해야 한다.  적용할 알고리즘 결정  알고리즘에 들어갈 Parameters들을 결정  새로운 데이터 셋을 넣어 알고리즘에 대한 평가
  • 34. 미래의 빅데이터  데이터 : 모든 것의 데이터화  기 술 : 진화하는 알고리즘  인 력 : 데이터 사이언티스트, 알고리즈미스트