빅데이터 처리기술의 이해

빅데이터 처리기술의 의해
빅데이터 플랫폼 제3강

CONTENTS
01 02 03 04
빅데이터 처리시스템의
이해
빅데이터 처리시스템의
설계 원칙

빅데이터 처리시스템의 이해
대용량의 데이터를 분산 병렬 처리하고 관리하는 시스템
• 데이터의 유형에 따라 실시간(Real-Time) 처리나 배치(Batch)
처리를 가능하도록 하는 프레임워크
• 대량 데이터의 수집, 관리, 유통, 분석을 처리하는 일련의 분산
병렬 처리 프레임워크
빅데이터 처리시스템이란
01

프레임워크(Framework)의 정의
• 컴퓨터 프로그래밍에서, 소프트웨어 프레임워크(software framework)는
복잡한 문제를 해결하거나 서술하는 데 사용되는 기본 개념 구조를 의미
ko.wikipedia.org
01

https://doi.org/10.1016/j.epsr.2017.06.006
빅데이터 처리 프레임워크
01

구분 기존의 데이터처리 방식 빅데이터 처리방식
데이터 트래픽 테라바이트 수준
• 페타바이트 수준(최소 100 테라바이트 이상)
• 장기 간의 정보수집 및 분석
• 방대한 데이터 처리량
데이터 유형 정형 데이터 중심
• 비정형 데이터의 비중이 높음(SNS 데이터, 로그파일, 클릭
스트림 데이터, 콜센터 로그, 통신 로그 등)
• 처리의 복잡성 증대
프로세스 및 기술
• 단순한 프로세스 및 기술
• 정형화된 처리/분석 과정
• 원인/결과 규명 중심
• 다양한 데이터 소스 및 복잡한 로직 처리
• 데이터 처리 복잡도가 높아 분산처리기술 필요
• 새롭고 다양한 처리방법 개발 필요(정의된 데이터 모델/ 상
관관계/절차 등이 없음)
• 상관관계 규명 중심
• Hadoop, R, NoSQL 등 개방형 소프트웨어
정보통신정책연구원, 빅데이터 동향 및 정책 시사점
01

빅데이터 처리시스템의 설계 원칙
대량의 데이터 처리 실시간 데이터 처리
저비용 고효율 시스템 결함 허용 시스템
빅데이터
처리시스템
빅데이터 3V 특성에 맞는 새로운 형태의 빅데이터 처리 프레임워크 필요
02

대량의 데이터를 처리하기 위한 분산 데이터 저장 기술
네트워크를 기반으로 대규모 클러스터 시스템을 구축하여 대용량의 저장 공간과 빠른 데이터 처리를 지원
분산 파일 시스템의 특징
• 서버의 고장을 염두해 두고 이러한 상태에서도 시스템이
정상적으로 수행할 수 있어야 한다.
• 파일에 대한 쓰기 연산은 주로 순차적으로 데이터를 추가
하는 것이며 파일에 대한 갱신은 드물게 이뤄진다.
• 응답 지연시간 보다 높은 처리율이 더 중요하다.
02

결함 허용 시스템
시스템의 결함 발생 가능성을 인정하고 장애 발생시 안정적으로 시스
템을 운영할 수 있는 시스템 구축
빅데이터 처리시스템은 많은 노드의 네트워크로 구성되어 있기 때문
에 일부 노드의 장애가 전체 시스템에 영향을 미치지 않도록 시스템을
구성해야 함
고장 대응체계, 대체 시스템 등 필요
02

하둡(Hadoop)의 결함허용 전략
클러스터 내의 노드가 수행 중에 장애로 서비스가 중단되거나 정상적인 수행이 실패하는 경우 대응 전략
자동으로 작업을 재수행(Restart)함
다른 노드에 작업(Job)을 할당
02

실시간 데이터 분석 사용자 패턴 파악 의사결정 반영
실시간 데이터 처리
대용량 데이터를 실시간으로 처리하면서 통합 분석할 수 있도록 하는 기술
02

저비용 고효율 시스템
02

기존에 구축되고 운영 중인 시스템과 연계
빅데이터 시스템은 기존에 구축된 시스템과의 연계를 통해 데이터의 수집 및 처리 할 수 있도록 해야함
소설네트워크, 시스템 로그,
텍스트, 동영상, 음성, 사진,
텍스트, 각종 센서 로그 등
다양한 종류의 데이터를
저장하고 처리하는 기술
기존에 구축된 시스템과
연계 필요
02

빅데이터 처리기술의 이해

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 빅데이터 처리기술의 이해

Similar to 빅데이터 처리기술의 이해 (20)

빅데이터 처리기술의 이해