빅데이터전문가교육 2학기

빅데이터의 이해 :
데이터 사이언스와 인문학적 통찰력
학습목표
○ 빅데이터와 데이터 사이언스에 대하여 정확히 이해하고 왜 인문학적 통
찰력이 필요한가에 대하여 알아가는 것을 목표로 한다.
빅데이터 데이터 사이언스
인문학 통찰력
재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형이다. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다. 그 자체는 단순한
사실에 불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에 소용되는 정보를 만들어낸다..
실험과 같이 검증된 방법으로 얻어 낸 자연계에 관한 체계적 지식 체계
인문학은 근대과학에 대해 그 목적과 가치를 인간적 입장에서 규정하는, 인간과 인류 문화에 관한 모든 정신과학을 통칭하여 일컫는다.
꿰뚫어 보는 직관

Data의 정의
“ Data are values of qualitative or
quantitative variables, belong to a
set of items.”
Set of items : Sometimes called the population; the set of objects you are interested in.
Variables : A measurement or characteristic of an item
Qualitative : Country of origin, sex, treatment...
Quantitative : Height, weight, blood pressure...

Set of Item
Oxford 대사전 : 추론과 추정의 근거를 이루는 사실
 데이터를 단순한 객체로서 가치뿐 아니라 다른 객체와의 상호 관계 속에서 가치를 갖는 것
존재적 특성
 객관적 사실(fact, raw material)
당위적 특성
 추론, 예측, 전망 추정을 위한 근거

존재적 특성
존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터
(quantitative data) 로 구분한다.
 정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다
 정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게

당위적 특성
우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가
가지고 있는 존재 목적.
 수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하여 논문 예
측 경영전략 정책을 수립하는 일련의 가치 창출.
암묵지 형식지
경험을 통해
습득된 무형의
지식
형상화된 지식

The data is the second most important thing
 The most important thing in data science is the question
 The second most important is data
 Often the data will limit or enable the question
 But having data can’t save you if you don’t have a question

데이터베이스
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데
이터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터
의 집합
히스토리
 1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발
 1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생
 1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상)
 1980년대 관계형 데이터베이스 시스템 출시
 1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기(SQL등장)
 2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 탄생

데이터베이스 ACID 이론
 원자성(Atomicity) : 트랜잭션의 처리는
완전히 끝마치지 않을 경우에는 전혀
이루어지지 않은 것과 같아야 한다.
이러한 특성을 All or Nothing"이라 한다.
 일관성(Consistency) : 트랜잭션들간의
영향이 한 방향으로만 전달되어야 한다.
 고립성(Isolation) : 트랜잭션의 부분적인
상태를 다른 트랜잭션에 제공해서는 안된다.
 지속성(Durability) : 성공적인 트랜잭션의
수행 후에는 반드시 데이터베이스
(디스크)에 반영하여야 한다.

Big Data 처리의 문제점
왜 데이터는 갑자기 커졌을까(INPUT)?
데이터의 처리는(OUTPUT)?

CAP 이론
2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem),
혹은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨
터 시스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것
은 불가능하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다
일관성 (Consistency)
각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다.
가용성 (Availability)
모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야
한다.
분단가용성 (Partition Tolerance)
물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을
해야 한다.

CAP 이론
CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형)
AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합)

NoSql
Not-Only-SQL 빅데이터 분산처리 및 저장 기수로가 함께 발달된 분산 데이터
베이스 기술
 Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis
 Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB
 Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase
 Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용
: MongoDB, Cloudant

Big Data
“너무 클(Volume) 가능성을 갖는
(Velocity) 디지털 형태(Variety)의 데
이터”
Volume
Velocity
Variety
3V Value

Big Data
당위론적 특성?

Big Data가 변화시킨 것들
사전처리  사후처리(표준화된 문서포맷)
표본조사  전수조사(잉여력)
질  양(번역시스템)
인과관계  상관관계(Aviva)

Ice Break
다음중 Big Data라고 생각되는 것은
어느 것 일까요?
미의회
도서관 자료
한국고용정보원
자료
Twitter
자료

Hype Cycle
1995년부터 정보 테크놀러지 전문업체 가트너에 의해 제창된 개념으로서 새로운
테크놀러지의 특성을 시간에 따라 변이되는 다섯 가지 단계로 표현한 것이다.
이는 전 세계 적으로 널리 알려져서 현재 새로운 테크놀러 지가 등장한 경우 그 새
로운 테크놀러지의 전반적인 예측방향을 논할 때 주로 참조되고 있으며, 업계 표준
의 테크놀러지에 대한 시간대적 특성 단계 표현 툴이다.
1단계 Technology Trigger - 촉발된 테크놀러지
2단계 Peak of Inflated Expectation - 기대치의 피크
3단계 Trough of Disillusionment) - 각성의 골
4단계 Slope of Enlightenment - 완만한 개화
5단계 Plateau of Productivity - 안정적 생산성

Big Data 의 활용
시장예측

무엇이 잘 못 되어 가고 있는가?

예측을 위한 주요 요소
질문  데이터 선정  측정  알고리즘  요인들  평가
 무엇을 예측 할 것이며 무엇을 가지고 예측하려 하는가?
 예측하기 위한 최선의 데이터를 선정해야 한다.
 적용할 알고리즘 결정
 알고리즘에 들어갈 Parameters들을 결정
 새로운 데이터 셋을 넣어 알고리즘에 대한 평가

미래의 빅데이터
 데이터 : 모든 것의 데이터화
 기 술 : 진화하는 알고리즘
 인 력 : 데이터 사이언티스트, 알고리즈미스트

빅데이터전문가교육 2학기

Recommended

Recommended

More Related Content

What's hot

What's hot (7)

Viewers also liked

Viewers also liked (9)

Similar to 빅데이터전문가교육 2학기

Similar to 빅데이터전문가교육 2학기 (20)

More from Kangwook Lee

More from Kangwook Lee (20)

빅데이터전문가교육 2학기