3. 01 빅데이터의 등장
1 | 14
• 인터넷이 확산되면서 정형화된 데이터와 비정형화된 데이터가 무수히 발생
하면서 정보 홍수개념이 등장 → 빅데이터 개념으로 이어짐
• 스마트폰과 같은 디지털 기기의 보급과 소셜 네트워크 서비스(SNS)의 부
상으로 엄청난 양의 데이터가 생산됨
• 빅데이터가 차세대 이슈로 떠오르는 이유
1분 동안 인터넷에서 생성되는 데이터의 양
- 정보 통신 기술의 주도권이 데이터로 이동
- 공간·시간·관계·세상 등을 담은 빅데이터
- 빅데이터는 미래 경쟁력과 가치 창출의 원천
4. 02 빅데이터의 개념
2 | 14
• 업무 수행 방식에 초점을 맞춘 정의
[IDC 2010년 4월]
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의
빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
• 데이터의 규모에 초점을 맞춘 정의
[맥킨지 2011년 5월]
기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는
데이터
5. 02 빅데이터의 개념
3 | 14
[빅데이터의 데이터 종류]
• 정형(Structured)
- 고정된 필드에 저장된 데이터(관계형 DB 및 스프레드시트)
• 반정형(Semi-Structured)
- 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는
데이터(XML 및 HTML 텍스트)
• 비정형(Unstructured)
- 고정된 필드에 저장되어 있지 않은 데이터(이미지/동영상/음성데이터)
8. 04 빅데이터의 기술
6 | 14
[빅데이터 분석 기술]
• 데이터 마이닝(Data Mining)
• 텍스트 마이닝(Text Mining)
• 오피니언 마이닝(Opinion Mining)
• 소셜 네트워크 분석(Social Network Analytics)
• 클러스터 분석(Cluster Analysis)
9. 04 빅데이터의 기술
7 | 14
[데이터 마이닝(Data Mining)]
• 대용량의 데이터에서 유용한 정보를 추출하는 것
• 다양한 통계적 기법, 수학적 기법과 인공지능을 활용한 패턴인식 기술 등을 이용
하여 데이터 속에서 유의미한 관계, 규칙 패턴 등에 대한 규칙을 발견하는 것
10. 04 빅데이터의 기술
8 | 14
[텍스트 마이닝(Text Mining)]
• 텍스트 데이터에 대하여 자연어 처리 기술을 적용하여 유용한 정보를 추출, 가
공하는 것을 목적으로 하는 기술
• 다른 정보(언어)와의 연결, 개념들의 연결망을 파악하여 카테고리를 찾아내거나
의미를 찾아냄
• 문제점
- 자연어에 영향을 많이 받음
자연어 : 한국어, 일본어, 독일어, 영어 등 사람이 쓰는 말
- 자연어 중 한국어는 어순이 명확하지 않아 아직 분석이 어려움
11. 04 빅데이터의 기술
9 | 14
[오피니언 마이닝(Opinion Mining)]
• 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도 판별 기술
• 활용 : 특정 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응, 입소문 분석
[소셜 네트워크 분석(Social Network Analytics)]
• 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을
측정하여, 소셜 네트워크 상에서 입소문의 중심이나 허브 역할을 하는 사용자를
찾는 데 주로 활용됨
12. 04 빅데이터의 기술
10 | 14
[클러스터 분석(Cluster Analysis)]
• 데이터 간의 유사도를 정의하고 각 데이터
간의 거리를 구하여 서로의 거리가 가까운
것부터 순서대로 합쳐가는 기술
• 활용 : 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을
규명하는 통계기법으로 명확한 기준이 존재하지 않거나 밝혀지지 않은 상태에서
다양한 특성을 지닌 대상을 집단으로 분류
13. 04 빅데이터의 기술
11 | 14
[빅데이터 처리 기술]
• Hadoop
• R
• NoSQL(Not-Only/No SQL)
14. 04 빅데이터의 기술
12 | 14
[Hadoop]
• 분산시스템 상에서 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈
소스 프레임워크
• 분산 파일 시스템인 HDFS에 데이터를 저장하고, 분산 처리 시스템인 맵리
듀스를 이용해 데이터를 처리
• 현재 정형/비정형 빅 데이터 분석에 가장 선호되는 솔루션
HDFS : Hadoop Distributed File System
15. 04 빅데이터의 기술
13 | 14
[R]
• 통계계산 및 시각화를 위한 언어 및 개발환경 제공
• R 언어와 개발환경을 통해 기본적인 통계기법부터 모델링, 최신 데이터 마이
닝 기법까지 구현/개선이 가능
• 결과는 그래프 등으로 시각화가 가능하며, Java나 C, Python 등의 다른
프로그래밍 언어와 연결도 용이함
16. 04 빅데이터의 기술
[NoSQL(Not-Only/No SQL)]
• 비관계형 데이터베이스
• 테이블 스키마 고정 X / 테이블 간 조인 연산 지원 X
• 분산가능성에 중점을 두어 일관성과 유효성 보장X
• 대규모의 유연한 데이터 처리를 위해서는 NoSQL이 적합하지만, 안정성이
중요한 시스템에서는 관계형 DB를 권장함
• 대표적인 NoSQL : Cassandra, Hbase, MongDB
14 | 14