빅데이터 처리시스템의 정의는 무엇이라고 할 수 있을까요?
간단히 정의하면 빅데이터 처리시스템은 “대량의 데이터를 분산 병렬 처리하고 관리하는 시스템” 이라고 할 수 있습니다.
여기서 중요한 것이 분산 병렬처리와 프레임워크 라는 말입니다.
먼저 프레임워크라는 말의 정의를 살펴보겠습니다.
빅데이터를 위한 프레임워크는 단일 소프트웨어가 아니라 복잡한 문제를 해결하는 소프트웨어 구조의 개념입니다.
이 프레임워크 안에는 각각의 단일 기능을 수행하는 별도의 소프트웨어들이 존재하며 이 소프트웨어들은 유기적으로 데이터를 수집하고 저장하고 관리합니다.
빅데이터는 3V라는 특징이 있다는 것에 대해서 설명해 드렸습니다.
3V는 – Volume, Variety, Velocity 라고 말씀드렸던것 기억하실겁니다.
이러한 특징을 가진 데이터를 처리하는 시스템을 빅데이터처리시스템이라고 합니다. 그렇다면 이런 시스템은 어떤 특징이 있을까요?
대량의 데이터를 처리할 수 있는 것은 당연한 조건이죠. 그러기 위해서 사용하는 시스템이 분산파일시스템입니다.
빅데이터 처리시스템의 정의는 무엇이라고 할 수 있을까요?
간단히 정의하면 빅데이터 처리시스템은 “대량의 데이터를 분산 병렬 처리하고 관리하는 시스템” 이라고 할 수 있습니다.
여기서 중요한 것이 분산 병렬처리와 프레임워크 라는 말입니다.
먼저 프레임워크라는 말의 정의를 살펴보겠습니다.
빅데이터를 위한 프레임워크는 단일 소프트웨어가 아니라 복잡한 문제를 해결하는 소프트웨어 구조의 개념입니다.
이 프레임워크 안에는 각각의 단일 기능을 수행하는 별도의 소프트웨어들이 존재하며 이 소프트웨어들은 유기적으로 데이터를 수집하고 저장하고 관리합니다.
빅데이터는 3V라는 특징이 있다는 것에 대해서 설명해 드렸습니다.
3V는 – Volume, Variety, Velocity 라고 말씀드렸던것 기억하실겁니다.
이러한 특징을 가진 데이터를 처리하는 시스템을 빅데이터처리시스템이라고 합니다. 그렇다면 이런 시스템은 어떤 특징이 있을까요?
대량의 데이터를 처리할 수 있는 것은 당연한 조건이죠. 그러기 위해서 사용하는 시스템이 분산파일시스템입니다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
(주)베스트텍시스템 2015년 회사소개서
빅데이터 플랫폼 구축 의 모든 것을 제안합니다. (주)베스트텍시스템은 엔터프라이즈 스토리지 Thecus(씨커스) 한국 공식 수입원으로써 빅데데이터 솔루션인 마이크로소프트 MS Azure와 비즈플래시, 올플래시 스토리지 카미나리오, 레노버, HP, 후지쯔 정식 파트너입니다.
최신 자료 보기 : http://bestts.co.kr
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
6. 기업은이런요구사항이있었습니다
클라우드 서버를 활용하여 개발할 수 없는 빅데이터
소프트웨어가 있다. 이의 개발이 가능한 독립적인 서
버 환경을 달라.
01
02
03
우리 기업은 대용량 스토리지(100TB)와 고속 처리 하
드웨어(SSD, GPU 등) 인프라가 필요하다.
우리 장비는 다른 기업과는 별개의 스위치를 독립적
으로 할당해 달라. ABRC 관리자조차도 우리 서버에
는 접근하지 못하게 해달라.
7. 센터 인프라 현황
서버 구축
인공지능-빅데이터연구센터 구축
구 분 1차년도 2차년도 3차년도 4차년도 합계
기업 지원용
서버
25대 41대 14대 5대 85대
교육용 서버 10대 - - - 10대
소재지: 세종대학교 학술정보원 7층
면적: 360m2
9. 서버구축현황
시설 및 장비명 규격 수량 용도 구축년도
GPU서버(Type3)
Intel Xeon E5-2630 v4, 2.2GHz(10core)×1CPU, Memory: 128GB, HDD: 4TB×1개,
SSD: 512GB MLC SSD, NVIDIA TESLA P100
2대 기업지원 2017년 9월
GPU서버(Type4)
Intel Xeon E5-2630 v4, 2.2GHz(10core)×1CPU, Memory: 64GB, HDD: 4TB×1개,
SSD: 512GB MLC SSD, NVIDIA TESLA P4
3대 기업지원 2017년 9월
SSD서버
Intel Xeon E5-2680 v4, 2.4GHz(14core)×2CPU, Memory: 256GB, HDD: 2TB×8개,
SSD: 1TB×10개
4대 기업지원 2017년 2월
GPU서버(Type1)
Intel Xeon E5-1680 v4, 3.4GHz(8core)×1CPU, Memory: 64GB, HDD: 2TB×2개,
SSD: 256GB, NVIDIA GTX Titan X, NVIDIA GTX 1080
4대 기업지원 2017년 2월
GPU서버(Type2)
Intel Xeon E5-2630 v4, 2.2GHz(10core)×2CPU, Memory: 64GB, SSD: 256GB,
NVIDIA GTX Titan X, NVIDIA GTX 1080, Supporting up to 20GPUs
1대 기업지원 2017년 2월
데이터서버(Type6) Intel Xeon E5-2609 v4, 1.7GHz(8core)×2CPU, Memory: 64GB, HDD: 2TB×4개 5대 기업지원 2017년 2월
데이터서버(Type4) Intel Xeon E5-2697 v3, 2.6GHz(14core)×2CPU, Memory: 768GB, HDD: 4TB×16개 1대 기업지원 2016년 2월
데이터서버(Type5)
Intel Xeon E5-2680 v3, 2.5.GHz(12core)×2CPU, Memory: 256GB, HDD:
2TB×16개
3대 기업지원 2016년 2월
테스트서버 Intel Xeon E5-2620 v3, 2.4GHz(6core)×1CPU, Memory: 8GB, HDD: 1TB 2대 기업지원 2016년 2월
데이터서버(Type2) Intel Xeon E5-2630 v3, 2.4GHz(8core)×2CPU, Memory: 128GB, HDD: 1TB×8개 10대 기업지원 2016년 1월
데이터서버(Type3) Intel Xeon E5-2630 v3, 2.4GHz(8core)×2CPU, Memory: 64GB, HDD: 1TB×4개 25대 기업지원 2016년 1월
교육용서버 Intel Xeon 4 Core E3-1220v3 3.1GHz×1CPU, Memory: 8GB, HDD: 1TB 10대 교육 2015년 4월
벤치마킹테스트서버1 Intel Xeon E5-2640 v3, 2.6GHz(8Core)×2CPU, Memory: 128GB, HDD: 1TB×4개 2대 기업지원 2015년 4월
벤치마킹테스트서버2 Intel Xeon E5-2609 v3, 1.9GHz(6Core)×2CPU, Memory: 64GB, HDD: 1TB×4개 1대 기업지원 2015년 4월
10. 서버구축현황
시설 및 장비명 규격 수량 용도 구축년도
벤치마킹테스트서버3 Intel Xeon E5-2609 v2, 2.5GHz(4Core)×2CPU, Memory: 64GB, HDD: 1TB×4개 1대 기업지원 2015년 4월
빅데이터분석용
저가형 서버
Intel Xeon E5-2609 v2, 2.5GHz(4Core)×2CPU, Memory: 64GB, HDD: HDD:
1TB×4개
8대 기업지원 2015년 4월
웹서버 Intel Xeon E5-2650 v2, 2.6GHz(8core)×1CPU, Memory: 8GB, HDD: 3TB×2개 1대 홍보 2014년 12월
수집서버 Intel Xeon E5-2650 v2, 2.6GHz(8core)×1CPU, Memory: 32GB, HDD: 3TB×8개 1대 기업지원 2014년 12월
네임서버 Intel Xeon E5-2650 v2, 2.6GHz(8core)×2CPU, Memory: 128GB, HDD: 3TB×8개 2대 기업지원 2014년 12월
데이터서버(Type1) Intel Xeon E5-2650 v2, 2.6GHz(8core)×2CPU, Memory: 128GB, HDD: 3TB×8개 6대 기업지원 2014년 12월
관리서버 Intel Xeon E5-2650 v2, 2.6GHz(8core)×1CPU, Memory: 32GB, HDD: 3TB×12개 1대 운영 2014년 12월
DB서버 Intel Xeon E5-2650 v2, 2.6GHz(8core)×2CPU, Memory: 128GB, HDD: 3TB×8개 1대 운영 2014년 12월
시험검증서버 Intel Xeon E5-2650 v2, 2.6GHz(8core)×2CPU, Memory: 128GB, HDD: 3TB×8개 1대 기업지원 2014년 12월
총계
기업 지원용 서버 85대
교육용 서버 10대
11. 센터장비지원단계별목표
4차
년도
지원서버수: 85대
지원기업수: 25개
장비가동률: 90%
3차
년도
지원서버수: 80대
지원기업수: 19개
장비가동률: 88.0%
2차
년도
지원서버수: 66대
지원기업수: 18개
장비가동률: 90.5%
1차
년도
지원서버수: 14대
지원기업수: 2개
장비가동률: 82.8%
인프라구축
지원
성장•확대
안정화
12. 기업맞춤형장비지원
가상서버와 물리서버의 장점을 혼합한
사용자 맞춤형 하이브리드 구성
고객 전용 프라이빗 클라우드
혹은 서버 가상화 환경 구성
물리서버의 안정적이며 높은 성능을
활용한 구성
SDX(Software Defined Everything)
환경 구성
13. 국내IDC센터vs.AWSvs.ABRC
서버지원형태 서버지원형태 세부분류 국내 IDC 센터
아마존 웹 서비스 (AWS
)
ABRC
기업 맞춤형
빅데이터
플랫폼 구축 지원
고사양 서버 지원 △ △ ○
기업 맞춤형 빅데이터 플랫폼 구성 ⅹ ⅹ ○
빅데이터 플랫폼 전문인력 지원 ⅹ △ ○
물리적 서버 지원 ○ ⅹ ○
클라우드 형태의 빅데이터 테스트 환경 지원 ⅹ ○ ○
빅데이터 퍼포먼스 서포팅 서비스 ⅹ ⅹ ○
17. 장비인프라지원서비스
• 서버 6대 임대
• 기업의 클라우드 솔루션을 이용하여 가상화 환경 구축
• 가상머신을 이용한 빅데이터 교육 플랫폼 구축
• 교육 진도에 맞춰 개인별 가상머신과 빅데이터 플랫폼을 생성하고 삭제할 수 있음
Cluster Group
VirtualizationVirtual
Machine
Group
Virtual
Machine
19. 장비인프라지원서비스
Internet
ANY IP
Web Service
SRC IP
IDC Service
DDoS DDoS
WEB F/W
L2스위치 L2스위치 L2스위치 L2스위치
L3스위치 L3스위치
L2스위치
사무실 네트워크
Sub F/W
Main F/W Main F/W
L3스위치L3스위치
Subnet3Subnet2Subnet1
• 서버 17대 임대
• CPU: 216 Core
• Memory: 2,432GB
• HDD: 105TB
• SSD: PCIe SSD 25TB
• GPU: NVIDIA Titan X
• Subnet 분리를 통한 별도 네트워크
구성을 통해 외부 기업 접근 불가
• 임대 서버에 대한 접근 권한 기업
관리로 관리자조차 접근 불가
20. 추진 현황
빅데이터산업진흥
센터 설립
유성준 센터장
빅데이터산업진흥센터 개소식
Http://abrc.or.kr
빅데이터 서버 임대
빅데이터 기술 컨설팅 인공지능-빅데이터연구센터
명칭 변경
22. 장비지원현황(2017년)
2017년도 장비 가동률: 86.1% 지원 기업 수: 20개 기업
7
12
11
12
13
9
16 16 16
18
85 86
69
75
100 100
86 86 86 86
0
2
4
6
8
10
12
14
16
18
20
0
10
20
30
40
50
60
70
80
90
100
1월 2월 3월 4월 5월 6월 7월 8월 9월 10월
장비가동률과 장비 지원 기업 수
23. 대용량데이터장비개발지원
KVM 하이퍼바이저의 입출력
성능 검증 진행
테스트 환경
‒ 메모리 크기에 따른 성능
‒ 파일 크기에 따른 성능
‒ 캐시 모드에 따른 성능
‒ 가상머신 대수에 따른 성능
효율적인 IDC 자원 관리와 최적화된 성능으로 기업이 만족할 수 있는 인프라 구
축을 위해 클라우드 핵심인 가상화 기술 도입을 검증함
가상머신 대수에 따른 성능 결과
24. 대용량데이터장비개발지원
virt-manager를 통한 자원 사용 현황
가상머신의 자원 사용률을 실시간으로
확인이 가능 함
KVM 기반의 로그 수집기 개발
휘발성인 virt-manager의 사용률을 수
집하여 과거 이력으로 저장함
이를 통해 가상머신의 사용률에 대한
통계와 예측이 가능함
25. 대용량데이터장비테스트서비스제공
기업에서 수집하는 막대한 양의 빅데이터를 관리하고 머신러닝과 데이터마이닝
을 지원하기 위해 빅데이터 분야의 다양한 플랫폼을 구축하고 이를 검증함
호튼웍스 데이터 플랫폼을 통한
빅데이터 처리 환경 구축
지원 서비스
‒ Hadoop, Spark, Hive, Pig,
Sqoop, HBase …
‒ GUI 환경의 웹 콘솔 제공
‒ 실시간 자원 모니터링