데이터의 이해

데이터의 이해
빅데이터 플랫폼 제1강

1강. 데이터의 이해
2강. 빅데이터의 이해
3강. 빅데이터 처리기술의 이해
4강. 분산 데이터 저장 기술
5강. 하둡 에코시스템 이란
6강. 가상화 플랫폼
INDEX
7강. 하둡
8강. 아파치 스파크1
9강. 아파치 스파크2
10강. 데이터분석 방법론
11강. 4차산업혁명과 빅데이터
12강. 빅데이터와 인공지능
빅데이터 플랫폼

CONTENTS
01 02 03 04
데이터의 이해 데이터 마이닝이란
무엇인가

데이터의 이해
• 자료(資料, data, 데이터)는 문자, 숫자, 소리,
그림, 영상, 단어 등의 형태로 된 의미 단위이다.
보통 연구나 조사 등의 바탕이 되는 재료를
말하며, 자료를 의미있게 정리하면 정보가 된다.
DATA
01
https://ko.wikipedia.org/wiki/자료

데이터를 통해
무엇을 할 것인가?
데이터의 이해
01

DATA
D
Information
I
Knowledge
K
Wision
W
동일한 물건이 A마트에서는
100원에 B마트에서는
200원에 판매한다는 데이터
수집
A마트에 있는 물건이
더 저렴하다는 정보를
얻음
상대적으로 저렴한 A
마트에서 물건을 구입
해야겠다는 정보를
활용한 지식 획득
다른 물건도 A마트가
저렴할 것이라는 판단
에 이르게됨
데이터 정보 지식 지혜
데이터의 이해
01

데이터의 이해
구분 정성적 데이터 정량적 데이터
형태 비정형 데이터 정형ㆍ반정형 데이터
특징 객체 하나에 함의된 정보를 갖고 있다. 속성이 모여 객체를 이룬다.
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장 형태 파일, 웹 데이터베이스, 스프레드시트
소스위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 DBMS)
01

• 정형 데이터는 관계형 데이터베이스 시스템의
테이블과 같이 고정된 컬럼에 저장되는 데이터와
파일, 그리고 지정된 행과 열에 의해 데이터의 속
성이 구별되는 스프레드시트 형태로 존재
• 관계형 데이터베이스 시스템의 정형 데이터를
비정형 데이터와 비교할 때 가장 큰 차이점은 이
러한 데이터의 스키마(데이터 구조) 존재 여부
정형 데이터(Structured Data)
www.dbguide.net/
데이터의 이해
01

• 반정형 데이터는 데이터 내부에 정형데이터의
스키마에 해당되는 메타데이터를 갖고 있으며,
일반적으로 파일 형태로 저장됨
• 반정형 데이터의 경우 데이터 내부에 데이터 구
조에 대한 메터 정보를 포함하고 있음
• 비정형 데이터는 내부에 있는 규칙성을 파악해
데이터를 파싱할 수 있음
정형 데이터(Semi-Structred Data)
데이터의 이해
www.dbguide.net/
01

• 비정형 데이터는 데이터 세트가 아닌 하나의
데이터가 수집 데이터로 객체화되어 있는 형태
• 언어 분석이 가능한 텍스트 데이터나 이미지, 동
영상 같은 멀티미디어 데이터가 대표적인 형태
• 데이터의 스키마가 존재하지 않기 때문에 관계형
데이터베이스에 저장할 수 없고 특별한 형태의
저장소 필요
비정형 데이터 (Unstructured-Data)
데이터의 이해
www.dbguide.net/
01

데이터의 이해
01
https://ko.wikipedia.org/wiki/데이터베이스

데이터베이스의 이해
DBMS (Database Management System) 을 통해서 데이터베이스의 구축 및 사용자와 데이터베이스 간의 소통 수단으로
데이터 정의, 조작, 제어하는데 사용되는 언어를 의미합니다.
데이터베이스 언어의 종류로는 그 역할에 따라 데이터베이스 정의어(DDL), 조작어(DML), 제어어(DCL), 트랜젝션 제어어(TCL)
로 나눌 수 있습니다.
데이터베이스 언어
DDL DML DCL TCL
01

데이터베이스의 이해
DDL (Data Definition Language)
데이터베이스를 구축하거나 수정하는데 사용되며 데이터베이스의 구조와 데이터의 형식, 접근방식을 정의하는
언어입니다. DDL은 번역된 결과가 Data Dictionary 라는 데이터 사전 파일에 저장이 됩니다.
명령어로는 CREATE, ALTER, DROP, RENAME, TRUNCATE 가 있습니다.
DML (Data Manipulation Language)
사용자 DBMS와 응용프로그램 간의 interface를 제공하며 사용자가 데이터를 직접 처리할 수 있게 하는 명령어로
데이터베이스의 Sub Language 역할을 합니다.
명령어로는 SELECT, INSERT, UPDATE, DELETE 가 있습니다.
DCL (Data Control Language)
데이터베이스에 접근하고 객체들을 사용하도록 권한을 주고 회수하는 명령어입니다.
주된 명령어로는 GRANT, REVOKE 가 있습니다.
TCL (Transaction Control Language)
논리적인 단위의 작업(트랜잭션) 을 묶어서 제어하는 명령어로 COMMIT, ROLLBACK, SAVEPOINT 가 있습니다.
01

데이터 마이닝의 이해
Data + Mining
02

“대량의 데이터집합으로부터 유용한 정보를 추출하는 것”
(Han et al 2001)
“데이터 마이닝이란 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이
용해서 대량의 데이터를 탐색하고 분석하는 과정” (Berry and Linoff, 1997)
“데이터 마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이요해서 데이터 저장소에 저
장된 대량의 데이터를 조사함으로 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정”
(Gartner Group, 2004)
데이터 마이닝의 정의
02

02

데이터 마이닝의 기법
데이터 마이닝 적용 기법 설명
분류(Classification) 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것
추정(Estimation) 주어진 입력 데이터를 사용하여 알려지지 않은 연속된 변수의 값을 추정함
예측(Prediction) 데이터를 통해 가설을 세우고 이를 통해 사건을 미리 헤아려 짐작함
연관분석(Association) 각 집단의 특성을 파악하여 관계를 분석하고 이를 통해 ‘조건-결과’식으로 표현함
군집(Clustering) 객체에 대해 관측된 여러 개의 변수 값 들로부터 몇개의 그룹으로 집단화 하는 것
기술 (Description) 데이터가 가지고 있는 의미를 단순화함
02

데이터의 이해

Recommended

Recommended

More Related Content

Similar to 데이터의 이해

Similar to 데이터의 이해 (20)

데이터의 이해