16. Big Data! 넌 뭐니?
Gartner(2011.1, ‘Big Data Analytics’)
– 빠른 의사결정이 상대적으로 덜 요구된다.
• 대용량 데이터에 기반한 분석 위주로, 장기적/전략적 접근 필요
– 처리 Processing 복잡도가 높다.
• 다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로 인해 처
리 복잡도가 매우 높으며, 이를 해결하기 위해 분산 처리 기술이 필요
– 처리할 데이터양이 방대하다.
• 클릭스트림 데이터를 예로 들면, 고객 정보수집 및 분석을 장기간에 걸쳐 수
행해야 하므로 기존 방법과 비교해 처리해야 할 데이터양 방대
– 비정형 데이터의 비중이 높다.
• 소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그, 통신
CDR 로그 등 비정형 데이터 파일의 비중이 매우 높음(처리의 복잡성 증대)
– 처리/분석 유연성이 높다
• 잘 정의된 데이터 모델/상관관계/절차 등이 없어, 기존 데이터 처리방법에
비해 처리/분석의 유연성이 높은 편, 새롭고 다양한 처리방법의 수용을 위해,
유연성이 기본적으로 보장돼야 함
– 동시 처리량(Throughput)이 낮다.
• 대용량 및 복잡한 처리 특징, 동시에 처리가 필요한 데이터양은 적음
• (준)실시간 처리가 보장되어야 하는 데이터 분석에는 적합하지 않음
29. Big Data 관련 핵심 기술들
핵심 기술 1: 클라우드 컴퓨팅(3/3)
– 데이터의 상당 부분이 클라우드에서 생산되고 유통
• 2020년 생산되는 데이터 중 클라우드 내에 있는 비율: 5/35 Zettabyte
(14.3%)
• 2020년 생산되는 데이터 중 클라우드로 유통되는 비율: 12/35 Zettabyte
(34.3%)
– 클라우드 컴퓨팅 기술 – Big data
Enabler
• Hadoop과 MapReduce는 거대
데이타를 개별 클러스터에 분산, 저
장하고 보관
• 노드에서 병렬 처리함으로써 고속
처리, 저비용화 달성
43. 마무리
빅 데이터 확산에 따른 도전과 기회
– 새로운 가치와 수익 창출원으로 기대를 모으고 있으나, ‘빅 브라더’
에 대한 우려와 전문인력 부족 등 해결해야 할 많은 도전과제도 상존
– 데이터 축적량이 양적 거대함을 질적 유용함으로 전환할 시기 임박
– New BM으로서 Big data 서비스 발굴: Big Data와 플랫폼 통합
– BigData는 하나의 솔루션으로 해결할 수 없으며 요구사항, Data의 성
격 등에 따라 다양한 솔루션으로 조합되어야 함
– 오픈소스 중심의 소프트웨어 스택을 구축, 운영이 절실(기술력을 갖추
어야 함)
→ 빅 데이터의 핵심은 데이터의 비즈니스화(막대한 양의 1차 데이
터가 아닌 가공된 2차 데이터가 진정한 의미의 빅 데이터)