SlideShare a Scribd company logo
1 of 18
Download to read offline
데이터의 이해
빅데이터 플랫폼 제1강
1강. 데이터의 이해
2강. 빅데이터의 이해
3강. 빅데이터 처리기술의 이해
4강. 분산 데이터 저장 기술
5강. 하둡 에코시스템 이란
6강. 가상화 플랫폼
INDEX
7강. 하둡
8강. 아파치 스파크1
9강. 아파치 스파크2
10강. 데이터분석 방법론
11강. 4차산업혁명과 빅데이터
12강. 빅데이터와 인공지능
빅데이터 플랫폼
CONTENTS
01 02 03 04
데이터의 이해 데이터 마이닝이란
무엇인가
데이터의 이해
• 자료(資料, data, 데이터)는 문자, 숫자, 소리,
그림, 영상, 단어 등의 형태로 된 의미 단위이다.
보통 연구나 조사 등의 바탕이 되는 재료를
말하며, 자료를 의미있게 정리하면 정보가 된다.
DATA
01
https://ko.wikipedia.org/wiki/자료
데이터를 통해
무엇을 할 것인가?
데이터의 이해
01
DATA
D
Information
I
Knowledge
K
Wision
W
동일한 물건이 A마트에서는
100원에 B마트에서는
200원에 판매한다는 데이터
수집
A마트에 있는 물건이
더 저렴하다는 정보를
얻음
상대적으로 저렴한 A
마트에서 물건을 구입
해야겠다는 정보를
활용한 지식 획득
다른 물건도 A마트가
저렴할 것이라는 판단
에 이르게됨
데이터 정보 지식 지혜
데이터의 이해
01
데이터의 이해
구분 정성적 데이터 정량적 데이터
형태 비정형 데이터 정형ㆍ반정형 데이터
특징 객체 하나에 함의된 정보를 갖고 있다. 속성이 모여 객체를 이룬다.
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장 형태 파일, 웹 데이터베이스, 스프레드시트
소스위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 DBMS)
01
• 정형 데이터는 관계형 데이터베이스 시스템의
테이블과 같이 고정된 컬럼에 저장되는 데이터와
파일, 그리고 지정된 행과 열에 의해 데이터의 속
성이 구별되는 스프레드시트 형태로 존재
• 관계형 데이터베이스 시스템의 정형 데이터를
비정형 데이터와 비교할 때 가장 큰 차이점은 이
러한 데이터의 스키마(데이터 구조) 존재 여부
정형 데이터(Structured Data)
www.dbguide.net/
데이터의 이해
01
• 반정형 데이터는 데이터 내부에 정형데이터의
스키마에 해당되는 메타데이터를 갖고 있으며,
일반적으로 파일 형태로 저장됨
• 반정형 데이터의 경우 데이터 내부에 데이터 구
조에 대한 메터 정보를 포함하고 있음
• 비정형 데이터는 내부에 있는 규칙성을 파악해
데이터를 파싱할 수 있음
정형 데이터(Semi-Structred Data)
데이터의 이해
www.dbguide.net/
01
• 비정형 데이터는 데이터 세트가 아닌 하나의
데이터가 수집 데이터로 객체화되어 있는 형태
• 언어 분석이 가능한 텍스트 데이터나 이미지, 동
영상 같은 멀티미디어 데이터가 대표적인 형태
• 데이터의 스키마가 존재하지 않기 때문에 관계형
데이터베이스에 저장할 수 없고 특별한 형태의
저장소 필요
비정형 데이터 (Unstructured-Data)
데이터의 이해
www.dbguide.net/
01
데이터의 이해
01
https://ko.wikipedia.org/wiki/데이터베이스
데이터베이스의 이해
DBMS (Database Management System) 을 통해서 데이터베이스의 구축 및 사용자와 데이터베이스 간의 소통 수단으로
데이터 정의, 조작, 제어하는데 사용되는 언어를 의미합니다.
데이터베이스 언어의 종류로는 그 역할에 따라 데이터베이스 정의어(DDL), 조작어(DML), 제어어(DCL), 트랜젝션 제어어(TCL)
로 나눌 수 있습니다.
데이터베이스 언어
DDL DML DCL TCL
01
데이터베이스의 이해
DDL (Data Definition Language)
데이터베이스를 구축하거나 수정하는데 사용되며 데이터베이스의 구조와 데이터의 형식, 접근방식을 정의하는
언어입니다. DDL은 번역된 결과가 Data Dictionary 라는 데이터 사전 파일에 저장이 됩니다.
명령어로는 CREATE, ALTER, DROP, RENAME, TRUNCATE 가 있습니다.
DML (Data Manipulation Language)
사용자 DBMS와 응용프로그램 간의 interface를 제공하며 사용자가 데이터를 직접 처리할 수 있게 하는 명령어로
데이터베이스의 Sub Language 역할을 합니다.
명령어로는 SELECT, INSERT, UPDATE, DELETE 가 있습니다.
DCL (Data Control Language)
데이터베이스에 접근하고 객체들을 사용하도록 권한을 주고 회수하는 명령어입니다.
주된 명령어로는 GRANT, REVOKE 가 있습니다.
TCL (Transaction Control Language)
논리적인 단위의 작업(트랜잭션) 을 묶어서 제어하는 명령어로 COMMIT, ROLLBACK, SAVEPOINT 가 있습니다.
01
데이터 마이닝의 이해
Data + Mining
02
“대량의 데이터집합으로부터 유용한 정보를 추출하는 것”
(Han et al 2001)
“데이터 마이닝이란 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이
용해서 대량의 데이터를 탐색하고 분석하는 과정” (Berry and Linoff, 1997)
“데이터 마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이요해서 데이터 저장소에 저
장된 대량의 데이터를 조사함으로 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정”
(Gartner Group, 2004)
데이터 마이닝의 정의
데이터 마이닝의 이해
02
데이터 마이닝의 이해
02
데이터 마이닝의 기법
데이터 마이닝 적용 기법 설명
분류(Classification) 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것
추정(Estimation) 주어진 입력 데이터를 사용하여 알려지지 않은 연속된 변수의 값을 추정함
예측(Prediction) 데이터를 통해 가설을 세우고 이를 통해 사건을 미리 헤아려 짐작함
연관분석(Association) 각 집단의 특성을 파악하여 관계를 분석하고 이를 통해 ‘조건-결과’식으로 표현함
군집(Clustering) 객체에 대해 관측된 여러 개의 변수 값 들로부터 몇개의 그룹으로 집단화 하는 것
기술 (Description) 데이터가 가지고 있는 의미를 단순화함
데이터 마이닝의 이해
02
감사합니다

More Related Content

Similar to 데이터의 이해

고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터JM code group
 
디지털 인문학 데이터베이스 개론
디지털 인문학 데이터베이스 개론디지털 인문학 데이터베이스 개론
디지털 인문학 데이터베이스 개론Baro Kim
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)SuHyun Jeon
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구 빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구 JM code group
 
181215 MS SQL로 알아보는 데이터베이스
181215 MS SQL로 알아보는 데이터베이스181215 MS SQL로 알아보는 데이터베이스
181215 MS SQL로 알아보는 데이터베이스KWANGIL KIM
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황LiST Inc
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
2016년 인문정보학 Sql세미나 1/3
2016년 인문정보학 Sql세미나 1/32016년 인문정보학 Sql세미나 1/3
2016년 인문정보학 Sql세미나 1/3in2acous
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
LOD 구축현황 과 현황
LOD 구축현황 과 현황LOD 구축현황 과 현황
LOD 구축현황 과 현황sbchae
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kistiglorykim
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용구중억 (한국기초과학지원연구원)
 
DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
오라클 DB 아키텍처와 튜닝
오라클 DB 아키텍처와 튜닝오라클 DB 아키텍처와 튜닝
오라클 DB 아키텍처와 튜닝철민 권
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Dataymchu88
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Dataymchu88
 
Ankus 제품소개서
Ankus 제품소개서Ankus 제품소개서
Ankus 제품소개서onycom1
 

Similar to 데이터의 이해 (20)

고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터
 
디지털 인문학 데이터베이스 개론
디지털 인문학 데이터베이스 개론디지털 인문학 데이터베이스 개론
디지털 인문학 데이터베이스 개론
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구 빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구
 
181215 MS SQL로 알아보는 데이터베이스
181215 MS SQL로 알아보는 데이터베이스181215 MS SQL로 알아보는 데이터베이스
181215 MS SQL로 알아보는 데이터베이스
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
2016년 인문정보학 Sql세미나 1/3
2016년 인문정보학 Sql세미나 1/32016년 인문정보학 Sql세미나 1/3
2016년 인문정보학 Sql세미나 1/3
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
LOD 구축현황 과 현황
LOD 구축현황 과 현황LOD 구축현황 과 현황
LOD 구축현황 과 현황
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti
 
OKM_cover Story 3-2_박종명
OKM_cover Story 3-2_박종명OKM_cover Story 3-2_박종명
OKM_cover Story 3-2_박종명
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
 
DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001DLAB Big Data Issue Report 001
DLAB Big Data Issue Report 001
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
오라클 DB 아키텍처와 튜닝
오라클 DB 아키텍처와 튜닝오라클 DB 아키텍처와 튜닝
오라클 DB 아키텍처와 튜닝
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Data
 
Pharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked DataPharmaceutical Industry and Linked Data
Pharmaceutical Industry and Linked Data
 
Ankus 제품소개서
Ankus 제품소개서Ankus 제품소개서
Ankus 제품소개서
 

데이터의 이해

  • 2. 1강. 데이터의 이해 2강. 빅데이터의 이해 3강. 빅데이터 처리기술의 이해 4강. 분산 데이터 저장 기술 5강. 하둡 에코시스템 이란 6강. 가상화 플랫폼 INDEX 7강. 하둡 8강. 아파치 스파크1 9강. 아파치 스파크2 10강. 데이터분석 방법론 11강. 4차산업혁명과 빅데이터 12강. 빅데이터와 인공지능 빅데이터 플랫폼
  • 3. CONTENTS 01 02 03 04 데이터의 이해 데이터 마이닝이란 무엇인가
  • 4. 데이터의 이해 • 자료(資料, data, 데이터)는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로 된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다. DATA 01 https://ko.wikipedia.org/wiki/자료
  • 5. 데이터를 통해 무엇을 할 것인가? 데이터의 이해 01
  • 6. DATA D Information I Knowledge K Wision W 동일한 물건이 A마트에서는 100원에 B마트에서는 200원에 판매한다는 데이터 수집 A마트에 있는 물건이 더 저렴하다는 정보를 얻음 상대적으로 저렴한 A 마트에서 물건을 구입 해야겠다는 정보를 활용한 지식 획득 다른 물건도 A마트가 저렴할 것이라는 판단 에 이르게됨 데이터 정보 지식 지혜 데이터의 이해 01
  • 7. 데이터의 이해 구분 정성적 데이터 정량적 데이터 형태 비정형 데이터 정형ㆍ반정형 데이터 특징 객체 하나에 함의된 정보를 갖고 있다. 속성이 모여 객체를 이룬다. 구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐 저장 형태 파일, 웹 데이터베이스, 스프레드시트 소스위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 DBMS) 01
  • 8. • 정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터와 파일, 그리고 지정된 행과 열에 의해 데이터의 속 성이 구별되는 스프레드시트 형태로 존재 • 관계형 데이터베이스 시스템의 정형 데이터를 비정형 데이터와 비교할 때 가장 큰 차이점은 이 러한 데이터의 스키마(데이터 구조) 존재 여부 정형 데이터(Structured Data) www.dbguide.net/ 데이터의 이해 01
  • 9. • 반정형 데이터는 데이터 내부에 정형데이터의 스키마에 해당되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장됨 • 반정형 데이터의 경우 데이터 내부에 데이터 구 조에 대한 메터 정보를 포함하고 있음 • 비정형 데이터는 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있음 정형 데이터(Semi-Structred Data) 데이터의 이해 www.dbguide.net/ 01
  • 10. • 비정형 데이터는 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있는 형태 • 언어 분석이 가능한 텍스트 데이터나 이미지, 동 영상 같은 멀티미디어 데이터가 대표적인 형태 • 데이터의 스키마가 존재하지 않기 때문에 관계형 데이터베이스에 저장할 수 없고 특별한 형태의 저장소 필요 비정형 데이터 (Unstructured-Data) 데이터의 이해 www.dbguide.net/ 01
  • 12. 데이터베이스의 이해 DBMS (Database Management System) 을 통해서 데이터베이스의 구축 및 사용자와 데이터베이스 간의 소통 수단으로 데이터 정의, 조작, 제어하는데 사용되는 언어를 의미합니다. 데이터베이스 언어의 종류로는 그 역할에 따라 데이터베이스 정의어(DDL), 조작어(DML), 제어어(DCL), 트랜젝션 제어어(TCL) 로 나눌 수 있습니다. 데이터베이스 언어 DDL DML DCL TCL 01
  • 13. 데이터베이스의 이해 DDL (Data Definition Language) 데이터베이스를 구축하거나 수정하는데 사용되며 데이터베이스의 구조와 데이터의 형식, 접근방식을 정의하는 언어입니다. DDL은 번역된 결과가 Data Dictionary 라는 데이터 사전 파일에 저장이 됩니다. 명령어로는 CREATE, ALTER, DROP, RENAME, TRUNCATE 가 있습니다. DML (Data Manipulation Language) 사용자 DBMS와 응용프로그램 간의 interface를 제공하며 사용자가 데이터를 직접 처리할 수 있게 하는 명령어로 데이터베이스의 Sub Language 역할을 합니다. 명령어로는 SELECT, INSERT, UPDATE, DELETE 가 있습니다. DCL (Data Control Language) 데이터베이스에 접근하고 객체들을 사용하도록 권한을 주고 회수하는 명령어입니다. 주된 명령어로는 GRANT, REVOKE 가 있습니다. TCL (Transaction Control Language) 논리적인 단위의 작업(트랜잭션) 을 묶어서 제어하는 명령어로 COMMIT, ROLLBACK, SAVEPOINT 가 있습니다. 01
  • 15. “대량의 데이터집합으로부터 유용한 정보를 추출하는 것” (Han et al 2001) “데이터 마이닝이란 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이 용해서 대량의 데이터를 탐색하고 분석하는 과정” (Berry and Linoff, 1997) “데이터 마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이요해서 데이터 저장소에 저 장된 대량의 데이터를 조사함으로 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정” (Gartner Group, 2004) 데이터 마이닝의 정의 데이터 마이닝의 이해 02
  • 17. 데이터 마이닝의 기법 데이터 마이닝 적용 기법 설명 분류(Classification) 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것 추정(Estimation) 주어진 입력 데이터를 사용하여 알려지지 않은 연속된 변수의 값을 추정함 예측(Prediction) 데이터를 통해 가설을 세우고 이를 통해 사건을 미리 헤아려 짐작함 연관분석(Association) 각 집단의 특성을 파악하여 관계를 분석하고 이를 통해 ‘조건-결과’식으로 표현함 군집(Clustering) 객체에 대해 관측된 여러 개의 변수 값 들로부터 몇개의 그룹으로 집단화 하는 것 기술 (Description) 데이터가 가지고 있는 의미를 단순화함 데이터 마이닝의 이해 02