첫 강의는 빅데이터를 들어가기에 앞서 “데이터가 무엇인가”에 대해서 알아보고 다음으로 빅데이터는 무엇인가에 대해서 배우고 이어서 빅데이터를 처리하는 기술에는 무엇이 있는지 알아보겠습니다.
빅데이터는 기존의 데이터 시스템으로는 다룰 수 없는 큰 데이터이기 때문에 빅데이터를 처리하기 위해서는 새로운 기술이 필요합니다.
이러한 데이터 처리기술은 무엇이 있는가를 4,5강에 이어서 배워보도록 하겠습니다.
6강에서는 가상화에 대해서 간단히 알아보고 최근 많은 분야에서 사용되고 있는 도커를 설치해서 하둡과 스파크 솔루션을 설치하는 방법을 배워보도록 하겠습니다.
10강에서는 데이터 분석을 하는데 어떤 방법으로 해야하는가에 대한 방법론을 소개해드리겠습니다.
11, 12강에서는 최근 많이 들어보셨을 4차 산업혁명, 인공지능에 대해서 살펴보고 이런 것이 빅데이터와 어떤 관계가 있는가를 알아보겠습니다.
2. 1강. 데이터의 이해
2강. 빅데이터의 이해
3강. 빅데이터 처리기술의 이해
4강. 분산 데이터 저장 기술
5강. 하둡 에코시스템 이란
6강. 가상화 플랫폼
INDEX
7강. 하둡
8강. 아파치 스파크1
9강. 아파치 스파크2
10강. 데이터분석 방법론
11강. 4차산업혁명과 빅데이터
12강. 빅데이터와 인공지능
빅데이터 플랫폼
4. 데이터의 이해
• 자료(資料, data, 데이터)는 문자, 숫자, 소리,
그림, 영상, 단어 등의 형태로 된 의미 단위이다.
보통 연구나 조사 등의 바탕이 되는 재료를
말하며, 자료를 의미있게 정리하면 정보가 된다.
DATA
01
https://ko.wikipedia.org/wiki/자료
7. 데이터의 이해
구분 정성적 데이터 정량적 데이터
형태 비정형 데이터 정형ㆍ반정형 데이터
특징 객체 하나에 함의된 정보를 갖고 있다. 속성이 모여 객체를 이룬다.
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장 형태 파일, 웹 데이터베이스, 스프레드시트
소스위치 외부 시스템(주로 소셜 데이터) 내부 시스템(주로 DBMS)
01
8. • 정형 데이터는 관계형 데이터베이스 시스템의
테이블과 같이 고정된 컬럼에 저장되는 데이터와
파일, 그리고 지정된 행과 열에 의해 데이터의 속
성이 구별되는 스프레드시트 형태로 존재
• 관계형 데이터베이스 시스템의 정형 데이터를
비정형 데이터와 비교할 때 가장 큰 차이점은 이
러한 데이터의 스키마(데이터 구조) 존재 여부
정형 데이터(Structured Data)
www.dbguide.net/
데이터의 이해
01
9. • 반정형 데이터는 데이터 내부에 정형데이터의
스키마에 해당되는 메타데이터를 갖고 있으며,
일반적으로 파일 형태로 저장됨
• 반정형 데이터의 경우 데이터 내부에 데이터 구
조에 대한 메터 정보를 포함하고 있음
• 비정형 데이터는 내부에 있는 규칙성을 파악해
데이터를 파싱할 수 있음
정형 데이터(Semi-Structred Data)
데이터의 이해
www.dbguide.net/
01
10. • 비정형 데이터는 데이터 세트가 아닌 하나의
데이터가 수집 데이터로 객체화되어 있는 형태
• 언어 분석이 가능한 텍스트 데이터나 이미지, 동
영상 같은 멀티미디어 데이터가 대표적인 형태
• 데이터의 스키마가 존재하지 않기 때문에 관계형
데이터베이스에 저장할 수 없고 특별한 형태의
저장소 필요
비정형 데이터 (Unstructured-Data)
데이터의 이해
www.dbguide.net/
01
12. 데이터베이스의 이해
DBMS (Database Management System) 을 통해서 데이터베이스의 구축 및 사용자와 데이터베이스 간의 소통 수단으로
데이터 정의, 조작, 제어하는데 사용되는 언어를 의미합니다.
데이터베이스 언어의 종류로는 그 역할에 따라 데이터베이스 정의어(DDL), 조작어(DML), 제어어(DCL), 트랜젝션 제어어(TCL)
로 나눌 수 있습니다.
데이터베이스 언어
DDL DML DCL TCL
01
13. 데이터베이스의 이해
DDL (Data Definition Language)
데이터베이스를 구축하거나 수정하는데 사용되며 데이터베이스의 구조와 데이터의 형식, 접근방식을 정의하는
언어입니다. DDL은 번역된 결과가 Data Dictionary 라는 데이터 사전 파일에 저장이 됩니다.
명령어로는 CREATE, ALTER, DROP, RENAME, TRUNCATE 가 있습니다.
DML (Data Manipulation Language)
사용자 DBMS와 응용프로그램 간의 interface를 제공하며 사용자가 데이터를 직접 처리할 수 있게 하는 명령어로
데이터베이스의 Sub Language 역할을 합니다.
명령어로는 SELECT, INSERT, UPDATE, DELETE 가 있습니다.
DCL (Data Control Language)
데이터베이스에 접근하고 객체들을 사용하도록 권한을 주고 회수하는 명령어입니다.
주된 명령어로는 GRANT, REVOKE 가 있습니다.
TCL (Transaction Control Language)
논리적인 단위의 작업(트랜잭션) 을 묶어서 제어하는 명령어로 COMMIT, ROLLBACK, SAVEPOINT 가 있습니다.
01
15. “대량의 데이터집합으로부터 유용한 정보를 추출하는 것”
(Han et al 2001)
“데이터 마이닝이란 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이
용해서 대량의 데이터를 탐색하고 분석하는 과정” (Berry and Linoff, 1997)
“데이터 마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이요해서 데이터 저장소에 저
장된 대량의 데이터를 조사함으로 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정”
(Gartner Group, 2004)
데이터 마이닝의 정의
데이터 마이닝의 이해
02
17. 데이터 마이닝의 기법
데이터 마이닝 적용 기법 설명
분류(Classification) 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것
추정(Estimation) 주어진 입력 데이터를 사용하여 알려지지 않은 연속된 변수의 값을 추정함
예측(Prediction) 데이터를 통해 가설을 세우고 이를 통해 사건을 미리 헤아려 짐작함
연관분석(Association) 각 집단의 특성을 파악하여 관계를 분석하고 이를 통해 ‘조건-결과’식으로 표현함
군집(Clustering) 객체에 대해 관측된 여러 개의 변수 값 들로부터 몇개의 그룹으로 집단화 하는 것
기술 (Description) 데이터가 가지고 있는 의미를 단순화함
데이터 마이닝의 이해
02