SlideShare a Scribd company logo
1 of 5
Download to read offline
Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. In the
Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
초보자를 위한 빅데이터 이해하기:
빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)
	
  
Issue 001
April 8, 2014
DLAB Co., LTD. | 1128 HK-Tower 7F Guro-dong, Guro-gu, Seoul 152-779 KOREA | +82-2-3453-8124 | admin@dlab.kr | www.dlab.co.kr	
  
초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)
Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the
Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.	
  
2
최근 열리는 각종 세미나 및 컨퍼런스에서 빠지지 않는 단어가
빅데이터입니다. IT 관련 업무 관계자라면 익숙하게 접했을 단어이며
이미 대다수 기업과 공공기관에서는 빅데이터의 개념적인 이해와
가능성을 염두에 두고 있으며 해외 사례를 중심으로 빅데이터를 어떻게
도입할 것인가를 고민하고 있는 상황입니다.
기하급수적으로 증가하고 있는 대용량의 데이터를 처리하는
빅데이터 분석을 이해하기에 앞서 최근 몇 년간 빅데이터와 관련된 저널,
뉴스, 논문 등 해외는 물론 국내에서도 빅데이터에 대한 자료가 방대하게
쏟아지고 있는 상황입니다. 물론, IT 전문가들과 오랫동안 데이터를
만지던 통계전문가 및 데이터 분석가들은 빅데이터를 비교적 쉽게 이해할
수 있지만 대부분 빅데이터에 관심이 있는 비전문가들과 일반인을 위해
눈높이를 맞춘 자료를 찾아보기 어려운 실정입니다.
그럼, 이제 빅데이터가 무엇인지 그리고 어디서부터 시작해야 하는지 누구나 쉽게 이해할 수 있도록 <초보자를 위한
빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들>을 시작하려 합니다. 본 편은 기초적인 데이터의 개념과 종류에
대한 이해를 돕고자 만들어졌습니다.
빅데이터 관련 자료들을 살펴봤다면 3V, 4V 또는 비정형
데이터와 정형 데이터와 같은 자주 언급되는 단어들을 접했을 가능성이
있으며 조금 전문적인 자료를 살펴봤다면 하둡 (Hadoop), 카산드라
(Cassandra), 몽고 DB (Mongo DB), 알 (R), 데이터 마이닝 (Data Mining),
비주얼 마이닝 (Visual Mining), 텍스트 마이닝 (Text Mining), 소셜
고객관계 관리 (Social CRM), 경영정보학 (Business Intelligence), 자연어
처리 (Natural Language Processing)를 비롯해 차마 모두 열거하기 어려울
정도로 많은 용어와 메트칼프의 법칙과 같은 전문적인 이론들을 접하게
됩니다.
이러한 다양한 이론에 대한 이해와 분석역량을 보유하고 있는 전문가를 데이터 과학자 (Data Scientist)라고 통칭해서
부르기도 하지만 비전문가의 입장에서 모든 지식을 섭렵하고 이해하기에는 무척 복잡할 뿐 아니라 무엇부터 이해해야 좋을지
감을 잡기도 상당히 난해한 것이 사실입니다. 그렇기에 빅데이터와 함께 언급되는 수많은 정보를 단번에 이해하려고
하기보다는 일반적으로 흔히 말하는 데이터 (Data)에 대한 속성과 이해가 앞서야 합니다.
데이터란 숫자, 영상, 단어의 형태로 된 의미의 단위를 뜻합니다. 이러한 의미를 가진 Datum (데이터의 단수)이 여러
개의 집합체를 이루어 Data 를 형성하게 되면 자료가 되며 이런 다양한 자료를 바탕으로 의미 있는 가치가 형성되면 정보
(Information)라고 부르게 됩니다. 예를 들어 -10 이라는 숫자만 봐서는 아무런 의미도 부여할 수 없지만, 날씨가 -10 이라면
추운 온도를 뜻하는 의미를 형성하게 됩니다. 더 나아가서 오늘 날씨가 -10 이라면 오늘은 매우 추우니 야외 외출을 삼가거나
외투를 두껍게 입어야 좋겠다는 식의 정보를 형성하게 됩니다.
데이터의 기본적인 형태를 살펴보자면 기본적으로 질적 자료 (Qualitative Data)와 양적 자료 (Quantitative Data)로 나뉘게
되며 다시 양적 자료는 이산형 자료 (Discrete Data)와 연속형 자료 (Continuous Data)로 나뉘게 됩니다. 조금 복잡할 수 있지만
간단하게 설명을 하자면 질적 자료는 숫자가 아닌 자료이며 양적자료는 숫자로 되어있는 자료라고 풀이할 수 있습니다.
빅데이터는 무엇이며 도대체 어디서 부터 시작해야 하는가?
빅데이터가 아닌 데이터를 먼저 이해하자
데이터의 기본 형태와 종류: 질적자료 vs 양적자료
초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)
Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the
Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.	
  
3
예를들어 “오늘 날씨는 춥다” 라는 정보는 수치화 시킬 수 없는 질적 자료의
영역에 해당하며, “오늘의 날씨는 -10°C”이라는 정보에서 -10 은 숫자로
되어있는 양적 자료라고 할 수 있습니다.
그리고 이산형 자료와 연속형 자료를 구분하는 가장 쉬운 방법은 한개
두개, 한명 두명, 한병 두병 등 숫자를 세어서 나오는 자료 (Counted Data)를
이산형 자료라 설명할 수 있으며 연속형 자료는 체중, 온도, 길이, 등 측정된
자료 (Measured) 라고 설명할 수 있습니다. 즉, -10°C 이라는 예문은 양적
자료이지만 더욱 자세히 설명하자면 연속형 자료라는 사실을 알 수 있습니다.
빅데이터와 관련된 자료들을
살펴보면 가장 많이 나오는 표현 중에 정형
데이터 (Structured Data)와 비정형 데이터
(Unstructured Data)라는 표현이 매우 많이
나옵니다. 정형 데이터는 잘 정리되어
분석하기 쉽고 단순한 형태로 되어있는
데이터를 정형 데이터라고 구분하고 비정형
데이터의 경우 잘 정리가 안 되어있으며 분석하기 힘들고 복잡한 형태로 되어있는 형태라고 이해를 할 수 있습니다. 흔히,
표현하는 데이터웨어하우스 (Data Warehouse)에 기록하고 저장된 데이터를 정형 데이터라고 할 수 있으며 정형 데이터 이외의
모든 복잡하고 다양한 형태의 데이터를 비정형 데이터라고 통칭합니다.
예를 들어 기업 또는 기관에서 저장하고 있는 고객 정보와 매출 정보 그리고 주문 정보와 직원 정보 등 전통적으로
오랫동안 축적되고 관리하는 데이터를 정형 데이터로 볼 수 있으며 지금 이 순간에도 폭발적으로 증가하고 있으며 소셜
데이터와 디지털 매체와 온라인 서비스의 급증으로 증가된 음성, 영상, 이미지 등의 다양하고 복잡한 형태의 데이터를
대표적인 비정형 데이터로 구분할 수 있습니다.
최근 수년간 스마트폰의 보급률 증가와 함께 일상생활 속에서 사람들이 만들어내는 다양하고 복잡한 형태의 디지털
정보 (다양한 비정형 데이터)가 폭발적으로 증가함과 동시에 이를 저장 및 분석 처리할 수 있는 하드웨어 인프라와 분석
기법들이 소개되면서 빅데이터가 주목받게 되었다고 설명할 수 있습니다.
출처에 따른 구분 방법으로는 내부 데이터 (Internal Data)
그리고 외부 데이터 (External Data)로 분류하기도 합니다.
예를들어 내부 데이터는 기업이 보유하고 있는 영업 데이터와
고객 데이터 그리고 거래 정보 또는 매출 기록에 해당하는 기업이
보유하고 있는 다양한 정보를 통칭하는 개념으로 외부로
데이터가 공개되기를 꺼리며 상당한 수준의 보안이 요구되는
데이터를 뜻합니다.
외부 데이터는 내부 데이터의 반대 개념으로 인터넷에서
접할 수 있는 소셜 데이터와 온라인 뉴스 및 블로그 등과 같은
데이터를 대표적인 내부 데이터라고 할 수 있습니다. 빅데이터
분석을 시작한 업체들 대부분이 인터넷에서 공개된 소셜
데이터를 활용한 사례들을 쉽게 찾아 볼 수 있는 이유는 가장 많은 양의 데이터를 가장 빠르고 쉽게 활용할 수 있는 환경적인
요인이 크게 작용 되었다고 할 수 있습니다. 최근 대한민국 정부 3.0 의 정책 방향은 공공 기관에서 보유하고 있는 교통, 의료,
환경 정보 등 엄청난 양의 공공 데이터를 적극적으로 공개하고 빅데이터 분석을 통한 공공의 편익과 이익을 증진 시킬 수 있는
모델을 구축하고 신사업을 창출시키는데 의미를 두고 있습니다.
데이터의 형태에 따른 구분: 정형 데이터 vs 비정형 데이터
데이터의 출처에 따른 구분: 내부 데이터 vs 외부 데이터
초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)
Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the
Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.	
  
4
각종 언론과 뉴스에서는 빅데이터를 마치 홍수처럼 쏟아지는 모든
데이터를 분석할 수 있는 새로운 개념으로 소개하고 있습니다. 빅데이터에
대한 잘못된 오해와 환상으로 무작정 방대한 데이터를 수집하는데 모든
역량을 쏟는 기업과 비즈니스 관계자들이 있는 것도 사실입니다.
하지만 데이터의 크기와 상관없이 무엇인가를 분석하기 위해서는 구체적인
계획과 분석 시나리오를 가지고 접근해야 불필요한 시간과 비용을 단축 시킬
수 있으며 자칫 정보과다 (Information Overload)로 인한 딜레마에 빠질 수
있습니다.
그렇기에 빅데이터를 이해하기에 앞서 아무리 작은 양의 데이터라도 각
데이터가 제공하는 정보와 의미를 파악하고 다양한 관점에서 데이터를 관찰할
수 있는 역량이 매우 중요합니다.
이번에는 빅데이터의 기초가 되는 데이터의 형태와 종류 그리고 분류 기준을 설명해 보았습니다. 다음에도 누구나
빅데이터에 관해 늘 궁금했던 내용들을 쉽게 알려드리도록 하겠습니다.
Spicy Thinker
Contact Info: tspark@dlab.kr
Kakao Talk: spicythinker
Twitter: spicythinker
캘리포니아 주립대학교에서 비즈니스 마케팅을 전공했습니다.
현재 DLAB 에서 마케팅과 비즈니스 컨설팅을 담당하고 있습니다.
주로 빅데이터 분석 플랫폼 활용방안 및 사업화 제안을 하고 있습니다.
About Author
데이터를 바라보는 시각
The End
초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)
Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the
Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.	
  
5
데이터엔지니어스랩(DLAB)은 데이터를 기반으로 한 모든 애프리케이션 개발과 서비스를 제공하며, 특히 CRM/ BI/
Advanced Analytics 등 다양한 분야의 IT 컨설팅과 솔루션 개발을 주 업무로 하고 있습니다.
최근 주요사업 분야로는 빅데이터 분석 시스템 (Social Media Analytics [SMA] LG CNS 와 공동개발)과 각종 대용량
데이터 수집과 분석 그리고 시각화 서비스를 다년간 제공하고 있으며 에너지 모니터링 시스템 (Photovoltaic Monitoring,
Smart Grid Monitoring)등의 각종 사업을 수행하고 있습니다.
안 광종 대표이사
수석 컨설턴트 겸 Technology Leader
Drexel University 경영학 석사 (1997)
Drexel University 정보공학 석사 (2002)
Suntek Systems, Inc. R&D 이사 (1998 – 2005)
Contact Info: admin@dlab.kr
Twitter: kwangahn
디랩은 세계최고의 Intelligence Solutions 조직을 목표로 하며, Intelligence for Everyone 을 모토로 모든 사람이 보다 쉽게
정보를 저장하고 활용할 수 있도록 기업솔루션에서 개인의 정보관리/ 의사결정지원 솔루션을 제공하고자 합니다.
E2P2C = Efficiency + Effectiveness + People + Process + Communication 입니다.
효율과 효과를 강조하면서 동시에 프로젝트를 수행하는 사람들을 Process 와 Communication 으로 지원하는 그립입니다. 	
  
About DLAB

More Related Content

What's hot

지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)Myungjin Lee
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview chanyoonkim
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5Taejoon Yoo
 
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용Taejoon Yoo
 
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사Taejoon Yoo
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
마인즈랩 유태준 투이Y세미나_20150622
마인즈랩 유태준 투이Y세미나_20150622마인즈랩 유태준 투이Y세미나_20150622
마인즈랩 유태준 투이Y세미나_20150622Taejoon Yoo
 
[week7] 데이터읽어주는남자
[week7] 데이터읽어주는남자[week7] 데이터읽어주는남자
[week7] 데이터읽어주는남자neuroassociates
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능Myungjin Lee
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업jrim Choi
 
데이터 시각화 그리고 과학
데이터 시각화 그리고 과학데이터 시각화 그리고 과학
데이터 시각화 그리고 과학Hanyang University
 

What's hot (13)

지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
 
[FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview [FAST CAMPUS] 1강 data science overview
[FAST CAMPUS] 1강 data science overview
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5
 
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
 
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
마인즈랩 유태준 투이Y세미나_20150622
마인즈랩 유태준 투이Y세미나_20150622마인즈랩 유태준 투이Y세미나_20150622
마인즈랩 유태준 투이Y세미나_20150622
 
[week7] 데이터읽어주는남자
[week7] 데이터읽어주는남자[week7] 데이터읽어주는남자
[week7] 데이터읽어주는남자
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
데이터 시각화 그리고 과학
데이터 시각화 그리고 과학데이터 시각화 그리고 과학
데이터 시각화 그리고 과학
 

Viewers also liked

테스트 케이스와 SW 품질
테스트 케이스와 SW 품질테스트 케이스와 SW 품질
테스트 케이스와 SW 품질도형 임
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략Seungbyung Chae
 
마인즈랩 사업소개 20151031_v1.0
마인즈랩 사업소개 20151031_v1.0마인즈랩 사업소개 20151031_v1.0
마인즈랩 사업소개 20151031_v1.0Taejoon Yoo
 
Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1Donghan Kim
 
20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표
20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표
20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표Taejoon Yoo
 
[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVER[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVERNAVER D2
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거도형 임
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)Wonjin Lee
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.Yongho Ha
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자Yongho Ha
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
 
기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기Terry Taewoong Um
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 

Viewers also liked (19)

테스트 케이스와 SW 품질
테스트 케이스와 SW 품질테스트 케이스와 SW 품질
테스트 케이스와 SW 품질
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
 
마인즈랩 사업소개 20151031_v1.0
마인즈랩 사업소개 20151031_v1.0마인즈랩 사업소개 20151031_v1.0
마인즈랩 사업소개 20151031_v1.0
 
Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1Ai(인공지능) & ML(머신러닝) 101 Part1
Ai(인공지능) & ML(머신러닝) 101 Part1
 
20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표
20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표
20160203_마인즈랩_딥러닝세미나_07 머신러닝 기반 고객 이탈 분석 유태준대표
 
[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVER[2A4]DeepLearningAtNAVER
[2A4]DeepLearningAtNAVER
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기기계학습(Machine learning) 입문하기
기계학습(Machine learning) 입문하기
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 

Similar to DLAB Big Data Issue Report 001

Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안메가트렌드랩 megatrendlab
 
특허전쟁 승리 위한 R&d 전략
특허전쟁 승리 위한 R&d 전략특허전쟁 승리 위한 R&d 전략
특허전쟁 승리 위한 R&d 전략atelier t*h
 
[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색
[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색
[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색Creative Commons Korea
 
빅데이터, 멀리보고 가볍게 시작하라.
빅데이터, 멀리보고 가볍게 시작하라.빅데이터, 멀리보고 가볍게 시작하라.
빅데이터, 멀리보고 가볍게 시작하라.Gruter
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesDataya Nolja
 
(개정) 알면 알수록 어려운 서비스 기획 뽀개기!
(개정) 알면 알수록 어려운 서비스 기획 뽀개기!(개정) 알면 알수록 어려운 서비스 기획 뽀개기!
(개정) 알면 알수록 어려운 서비스 기획 뽀개기!YOO SE KYUN
 
알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022YOO SE KYUN
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가r-kor
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1Kangwook Lee
 
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들PAP (Product Analytics Playground)
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향atelier t*h
 
이중 데이터 전략 (Two-track data strategy)
이중 데이터 전략 (Two-track data strategy)이중 데이터 전략 (Two-track data strategy)
이중 데이터 전략 (Two-track data strategy)Hosung Lee
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20KYOYOON JUNG
 
2016 국가정보화백서(국문 )-빅데이터 part-2016-12
2016 국가정보화백서(국문 )-빅데이터 part-2016-122016 국가정보화백서(국문 )-빅데이터 part-2016-12
2016 국가정보화백서(국문 )-빅데이터 part-2016-12Donghan Kim
 
Deep dive 2015_predict_1219
Deep dive 2015_predict_1219Deep dive 2015_predict_1219
Deep dive 2015_predict_1219Tommy Lee
 
전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수Devgear
 
꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부
꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부
꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부neuroassociates
 

Similar to DLAB Big Data Issue Report 001 (20)

Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
 
특허전쟁 승리 위한 R&d 전략
특허전쟁 승리 위한 R&d 전략특허전쟁 승리 위한 R&d 전략
특허전쟁 승리 위한 R&d 전략
 
[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색
[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색
[과학기술 오픈 데이터 활용캠프] 3조(마인드공공이) - 마인드맵 검색
 
빅데이터, 멀리보고 가볍게 시작하라.
빅데이터, 멀리보고 가볍게 시작하라.빅데이터, 멀리보고 가볍게 시작하라.
빅데이터, 멀리보고 가볍게 시작하라.
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global Cases
 
(개정) 알면 알수록 어려운 서비스 기획 뽀개기!
(개정) 알면 알수록 어려운 서비스 기획 뽀개기!(개정) 알면 알수록 어려운 서비스 기획 뽀개기!
(개정) 알면 알수록 어려운 서비스 기획 뽀개기!
 
알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1
 
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
[팝콘 시즌1] 윤석진 : 조직의 데이터 드리븐 문화를 위해 극복해야하는 문제들
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
이중 데이터 전략 (Two-track data strategy)
이중 데이터 전략 (Two-track data strategy)이중 데이터 전략 (Two-track data strategy)
이중 데이터 전략 (Two-track data strategy)
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20
 
2016 국가정보화백서(국문 )-빅데이터 part-2016-12
2016 국가정보화백서(국문 )-빅데이터 part-2016-122016 국가정보화백서(국문 )-빅데이터 part-2016-12
2016 국가정보화백서(국문 )-빅데이터 part-2016-12
 
Deep dive 2015_predict_1219
Deep dive 2015_predict_1219Deep dive 2015_predict_1219
Deep dive 2015_predict_1219
 
전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수
 
꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부
꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부
꿈꾸는 데이터 디자이너 시즌2 교육 설명회 2부
 

DLAB Big Data Issue Report 001

  • 1. Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. In the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.                                                                                   초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류)   Issue 001 April 8, 2014 DLAB Co., LTD. | 1128 HK-Tower 7F Guro-dong, Guro-gu, Seoul 152-779 KOREA | +82-2-3453-8124 | admin@dlab.kr | www.dlab.co.kr  
  • 2. 초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류) Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.   2 최근 열리는 각종 세미나 및 컨퍼런스에서 빠지지 않는 단어가 빅데이터입니다. IT 관련 업무 관계자라면 익숙하게 접했을 단어이며 이미 대다수 기업과 공공기관에서는 빅데이터의 개념적인 이해와 가능성을 염두에 두고 있으며 해외 사례를 중심으로 빅데이터를 어떻게 도입할 것인가를 고민하고 있는 상황입니다. 기하급수적으로 증가하고 있는 대용량의 데이터를 처리하는 빅데이터 분석을 이해하기에 앞서 최근 몇 년간 빅데이터와 관련된 저널, 뉴스, 논문 등 해외는 물론 국내에서도 빅데이터에 대한 자료가 방대하게 쏟아지고 있는 상황입니다. 물론, IT 전문가들과 오랫동안 데이터를 만지던 통계전문가 및 데이터 분석가들은 빅데이터를 비교적 쉽게 이해할 수 있지만 대부분 빅데이터에 관심이 있는 비전문가들과 일반인을 위해 눈높이를 맞춘 자료를 찾아보기 어려운 실정입니다. 그럼, 이제 빅데이터가 무엇인지 그리고 어디서부터 시작해야 하는지 누구나 쉽게 이해할 수 있도록 <초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들>을 시작하려 합니다. 본 편은 기초적인 데이터의 개념과 종류에 대한 이해를 돕고자 만들어졌습니다. 빅데이터 관련 자료들을 살펴봤다면 3V, 4V 또는 비정형 데이터와 정형 데이터와 같은 자주 언급되는 단어들을 접했을 가능성이 있으며 조금 전문적인 자료를 살펴봤다면 하둡 (Hadoop), 카산드라 (Cassandra), 몽고 DB (Mongo DB), 알 (R), 데이터 마이닝 (Data Mining), 비주얼 마이닝 (Visual Mining), 텍스트 마이닝 (Text Mining), 소셜 고객관계 관리 (Social CRM), 경영정보학 (Business Intelligence), 자연어 처리 (Natural Language Processing)를 비롯해 차마 모두 열거하기 어려울 정도로 많은 용어와 메트칼프의 법칙과 같은 전문적인 이론들을 접하게 됩니다. 이러한 다양한 이론에 대한 이해와 분석역량을 보유하고 있는 전문가를 데이터 과학자 (Data Scientist)라고 통칭해서 부르기도 하지만 비전문가의 입장에서 모든 지식을 섭렵하고 이해하기에는 무척 복잡할 뿐 아니라 무엇부터 이해해야 좋을지 감을 잡기도 상당히 난해한 것이 사실입니다. 그렇기에 빅데이터와 함께 언급되는 수많은 정보를 단번에 이해하려고 하기보다는 일반적으로 흔히 말하는 데이터 (Data)에 대한 속성과 이해가 앞서야 합니다. 데이터란 숫자, 영상, 단어의 형태로 된 의미의 단위를 뜻합니다. 이러한 의미를 가진 Datum (데이터의 단수)이 여러 개의 집합체를 이루어 Data 를 형성하게 되면 자료가 되며 이런 다양한 자료를 바탕으로 의미 있는 가치가 형성되면 정보 (Information)라고 부르게 됩니다. 예를 들어 -10 이라는 숫자만 봐서는 아무런 의미도 부여할 수 없지만, 날씨가 -10 이라면 추운 온도를 뜻하는 의미를 형성하게 됩니다. 더 나아가서 오늘 날씨가 -10 이라면 오늘은 매우 추우니 야외 외출을 삼가거나 외투를 두껍게 입어야 좋겠다는 식의 정보를 형성하게 됩니다. 데이터의 기본적인 형태를 살펴보자면 기본적으로 질적 자료 (Qualitative Data)와 양적 자료 (Quantitative Data)로 나뉘게 되며 다시 양적 자료는 이산형 자료 (Discrete Data)와 연속형 자료 (Continuous Data)로 나뉘게 됩니다. 조금 복잡할 수 있지만 간단하게 설명을 하자면 질적 자료는 숫자가 아닌 자료이며 양적자료는 숫자로 되어있는 자료라고 풀이할 수 있습니다. 빅데이터는 무엇이며 도대체 어디서 부터 시작해야 하는가? 빅데이터가 아닌 데이터를 먼저 이해하자 데이터의 기본 형태와 종류: 질적자료 vs 양적자료
  • 3. 초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류) Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.   3 예를들어 “오늘 날씨는 춥다” 라는 정보는 수치화 시킬 수 없는 질적 자료의 영역에 해당하며, “오늘의 날씨는 -10°C”이라는 정보에서 -10 은 숫자로 되어있는 양적 자료라고 할 수 있습니다. 그리고 이산형 자료와 연속형 자료를 구분하는 가장 쉬운 방법은 한개 두개, 한명 두명, 한병 두병 등 숫자를 세어서 나오는 자료 (Counted Data)를 이산형 자료라 설명할 수 있으며 연속형 자료는 체중, 온도, 길이, 등 측정된 자료 (Measured) 라고 설명할 수 있습니다. 즉, -10°C 이라는 예문은 양적 자료이지만 더욱 자세히 설명하자면 연속형 자료라는 사실을 알 수 있습니다. 빅데이터와 관련된 자료들을 살펴보면 가장 많이 나오는 표현 중에 정형 데이터 (Structured Data)와 비정형 데이터 (Unstructured Data)라는 표현이 매우 많이 나옵니다. 정형 데이터는 잘 정리되어 분석하기 쉽고 단순한 형태로 되어있는 데이터를 정형 데이터라고 구분하고 비정형 데이터의 경우 잘 정리가 안 되어있으며 분석하기 힘들고 복잡한 형태로 되어있는 형태라고 이해를 할 수 있습니다. 흔히, 표현하는 데이터웨어하우스 (Data Warehouse)에 기록하고 저장된 데이터를 정형 데이터라고 할 수 있으며 정형 데이터 이외의 모든 복잡하고 다양한 형태의 데이터를 비정형 데이터라고 통칭합니다. 예를 들어 기업 또는 기관에서 저장하고 있는 고객 정보와 매출 정보 그리고 주문 정보와 직원 정보 등 전통적으로 오랫동안 축적되고 관리하는 데이터를 정형 데이터로 볼 수 있으며 지금 이 순간에도 폭발적으로 증가하고 있으며 소셜 데이터와 디지털 매체와 온라인 서비스의 급증으로 증가된 음성, 영상, 이미지 등의 다양하고 복잡한 형태의 데이터를 대표적인 비정형 데이터로 구분할 수 있습니다. 최근 수년간 스마트폰의 보급률 증가와 함께 일상생활 속에서 사람들이 만들어내는 다양하고 복잡한 형태의 디지털 정보 (다양한 비정형 데이터)가 폭발적으로 증가함과 동시에 이를 저장 및 분석 처리할 수 있는 하드웨어 인프라와 분석 기법들이 소개되면서 빅데이터가 주목받게 되었다고 설명할 수 있습니다. 출처에 따른 구분 방법으로는 내부 데이터 (Internal Data) 그리고 외부 데이터 (External Data)로 분류하기도 합니다. 예를들어 내부 데이터는 기업이 보유하고 있는 영업 데이터와 고객 데이터 그리고 거래 정보 또는 매출 기록에 해당하는 기업이 보유하고 있는 다양한 정보를 통칭하는 개념으로 외부로 데이터가 공개되기를 꺼리며 상당한 수준의 보안이 요구되는 데이터를 뜻합니다. 외부 데이터는 내부 데이터의 반대 개념으로 인터넷에서 접할 수 있는 소셜 데이터와 온라인 뉴스 및 블로그 등과 같은 데이터를 대표적인 내부 데이터라고 할 수 있습니다. 빅데이터 분석을 시작한 업체들 대부분이 인터넷에서 공개된 소셜 데이터를 활용한 사례들을 쉽게 찾아 볼 수 있는 이유는 가장 많은 양의 데이터를 가장 빠르고 쉽게 활용할 수 있는 환경적인 요인이 크게 작용 되었다고 할 수 있습니다. 최근 대한민국 정부 3.0 의 정책 방향은 공공 기관에서 보유하고 있는 교통, 의료, 환경 정보 등 엄청난 양의 공공 데이터를 적극적으로 공개하고 빅데이터 분석을 통한 공공의 편익과 이익을 증진 시킬 수 있는 모델을 구축하고 신사업을 창출시키는데 의미를 두고 있습니다. 데이터의 형태에 따른 구분: 정형 데이터 vs 비정형 데이터 데이터의 출처에 따른 구분: 내부 데이터 vs 외부 데이터
  • 4. 초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류) Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.   4 각종 언론과 뉴스에서는 빅데이터를 마치 홍수처럼 쏟아지는 모든 데이터를 분석할 수 있는 새로운 개념으로 소개하고 있습니다. 빅데이터에 대한 잘못된 오해와 환상으로 무작정 방대한 데이터를 수집하는데 모든 역량을 쏟는 기업과 비즈니스 관계자들이 있는 것도 사실입니다. 하지만 데이터의 크기와 상관없이 무엇인가를 분석하기 위해서는 구체적인 계획과 분석 시나리오를 가지고 접근해야 불필요한 시간과 비용을 단축 시킬 수 있으며 자칫 정보과다 (Information Overload)로 인한 딜레마에 빠질 수 있습니다. 그렇기에 빅데이터를 이해하기에 앞서 아무리 작은 양의 데이터라도 각 데이터가 제공하는 정보와 의미를 파악하고 다양한 관점에서 데이터를 관찰할 수 있는 역량이 매우 중요합니다. 이번에는 빅데이터의 기초가 되는 데이터의 형태와 종류 그리고 분류 기준을 설명해 보았습니다. 다음에도 누구나 빅데이터에 관해 늘 궁금했던 내용들을 쉽게 알려드리도록 하겠습니다. Spicy Thinker Contact Info: tspark@dlab.kr Kakao Talk: spicythinker Twitter: spicythinker 캘리포니아 주립대학교에서 비즈니스 마케팅을 전공했습니다. 현재 DLAB 에서 마케팅과 비즈니스 컨설팅을 담당하고 있습니다. 주로 빅데이터 분석 플랫폼 활용방안 및 사업화 제안을 하고 있습니다. About Author 데이터를 바라보는 시각 The End
  • 5. 초보자를 위한 빅데이터 이해하기: 빅데이터에 관해 늘 궁금했던 것들 (데이터의 개념과 종류) Copyright © 2014. All Rights Reserved. DLAB logo is trademark or registered trademark of Data Engineers Lab Co., Ltd. in the Republic of Korea and other countries. Any reproduction of this document in part or in whole is strictly prohibited.   5 데이터엔지니어스랩(DLAB)은 데이터를 기반으로 한 모든 애프리케이션 개발과 서비스를 제공하며, 특히 CRM/ BI/ Advanced Analytics 등 다양한 분야의 IT 컨설팅과 솔루션 개발을 주 업무로 하고 있습니다. 최근 주요사업 분야로는 빅데이터 분석 시스템 (Social Media Analytics [SMA] LG CNS 와 공동개발)과 각종 대용량 데이터 수집과 분석 그리고 시각화 서비스를 다년간 제공하고 있으며 에너지 모니터링 시스템 (Photovoltaic Monitoring, Smart Grid Monitoring)등의 각종 사업을 수행하고 있습니다. 안 광종 대표이사 수석 컨설턴트 겸 Technology Leader Drexel University 경영학 석사 (1997) Drexel University 정보공학 석사 (2002) Suntek Systems, Inc. R&D 이사 (1998 – 2005) Contact Info: admin@dlab.kr Twitter: kwangahn 디랩은 세계최고의 Intelligence Solutions 조직을 목표로 하며, Intelligence for Everyone 을 모토로 모든 사람이 보다 쉽게 정보를 저장하고 활용할 수 있도록 기업솔루션에서 개인의 정보관리/ 의사결정지원 솔루션을 제공하고자 합니다. E2P2C = Efficiency + Effectiveness + People + Process + Communication 입니다. 효율과 효과를 강조하면서 동시에 프로젝트를 수행하는 사람들을 Process 와 Communication 으로 지원하는 그립입니다.   About DLAB