2. 1. Big Data 의의
2. 정보화를 넘어 Big Data 시대 도래
3. Big Data 계층
4. 한국 산업의 당면 과제
5. 현황과 이슈(기술, 인력, 주체별 역할)
2
Software Research Lab 2
3. 1. Big Data 의의
각종 센서, 모바일 인터넷과 소셜미디어 등의 등장 데이터가 경제적 자산이 되는 “Big Data”
Big Data 의미 : 기존의 관리 및 분석 체계로 감당하기 어려운 막대한 데이터를 Big Data라고 지칭
<Big Data의 데이터 종류 및 구성>
정형 고정된 필드에 저장된 데이터, 관계형 데이터 사무
데이터 베이스 및 스프레드시트 등을 칭함 정보
데이더, 텍스트 분석이 가능한 텍스트 문서 이메일
비정형
콘텐츠
데이터 및 이미지/동영상/음성 데이터 등을 칭함
SNS
메타데이터나 스키마 등으로 표현할 수 있는
반정형 XML,
데이터, 사물정보나 현상을 RFID나 센서로 데
데이터 HTML
이터 수십하여 정보화
공공부문, 산업(서비스), 개인 등의 데이터가 축적되면서 천문학적인 규모의 데이터가 형성
o 100억개(2010년) → 7조개(2020년)
※ 2010년: 100억개의 모바일 인터넷 기기
※ 2017년: 세계 70억 인구가 7조개의 무선단말로 연결된 IoT 시대
o 800EB(2010년) → 35ZB(2020년)
※ 2010~2015: 모바일 트래픽 6300% 증가 (비디오 트래픽 66%이상)
※ SNS : 연간 47% 성장, 2012년/10억명
※ 의료영상/유전자정보 지식의료
Software Research Lab 3
4. 2. 정보화를 넘어 Big Data 시대 도래
기업의 IT 활용 단계는 ‘제1의 벽’을 넘어 ‘제2의 벽’에 도전
제 1의 벽 (Cost) 제 2의 벽 (Profit)
전자화/자동화는 전자화/자동화로 축적된 데이터로
되어 있는가? 비즈니스 인사이트를 도출하는가?
* 출처: 노무라총합연구소
지식기반 경제를 넘어서 대용량 지식정보를 바탕으로 빠르게 분석하고, 예측하는 ‘Big Data’ 산
업으로 진입
포스코의 6시그마 정책 SAS 코리아 협력
- 철강 생산 전 과정 각종 데이터 분석, 0.001초 단위
- 런던금속거래소(LME)의 가격 실시간 분석 구매 타이밍 결정
- 불량률 감소: 15.9%(‘04) 6시그마(100만개당 3.4개) 목표
과학을 연구를 위한 수단으로 Big Data를 분석하여 원리 발굴 및 문제 해결을 시도하는 데이터
탐구 과학 시대로 진입 신약개발, 유전자 분석 등
Software Research Lab 4
5. 3. Big Data 계층
빅데이터 기반 응용 및 서비스
다양한 데이터 처리 및 알고리듬
데이터 분석 및 예측력이 경쟁력
대용량의 분석하는 두뇌
통계처리분석/모델링예측, R/Mahout 등
속도보다 확장성이 더욱 중요함
대용량의 데이터를 처리하는 체력
클라우드/패브릭 컴퓨팅, 하둡/맵리듀스 등
확장성에서 실시간성으로 경쟁력 이동
Software Research Lab 5
6. 종합해보면
Volume(규모)가 방대하고
Variety(종류)가 다양하며, 여러 종류 데이터가 융합되고
Velocity(속도): 수집-처리-분석/예측을 Just-in-time에 해결하는 데이터 처리 기술
테라바이트 수준 데이터
수십 페타/엑사/제타 수준
Volume 규모가 분석품질을 좌우
구조화된 DB
정형/비정형 모든
데이터 스트림
Big Data
Variety 3V
배치분석 적시성
Always running 파이프라인
Velocity
Software Research Lab 6
7. 4. 한국 산업의 당면과제
중국 경제의 부상
창의형 기업의 시장 도약 GDP 2위 국가로 부상(2010년 2분기)
* 세계 10위 기업 중 2개사가 중국 기업
(중국석유(4위), 이동(6위), 시가총액 기준)
산업 에코시스템 미흡 제조업 기반 기기 성능 경쟁 IT제품 매출은 26% 성장(10.10월)
*IT매출중 SW는 ’01년 6%’10년 18%(중국MIIT)
제조업 기반의 대기업 성장 인간 중심 창의형 산업 전환
국내의 중국 수출 의존도는
벤처/중소 기업 기반 미약 GE, MS, AT&T(07년)에서 52% 수준(산업연구원, 금융위기이후)
Apple, MS, Google(10년)로
해외 글로벌 기업들의 합종 * Apple이 2위로 부상(ICT로는 1위)
연횡 증가
* Google TV는 부문별 기업과 연계
2011년 2분기 영업이익률
글로벌 기업들의 생태계 구 (중국 수출 의존도)
축 선도 지위 강화
• 아이폰 도매가격 $179중 한국이 13% 점유
Software Research Lab 7
8. 4. 한국 산업의 당면과제 : 우리가 집중할 분야는?
• 공공성(사회파급효과), 경제성, 기술성장
의료·건강 • 의료 데이터의 폐쇄성 문제
• 공공성 , 경제성 (간접경제), 기술성장
공공·정부
• 공공, 정부 데이터 개방 필요
• 공공성 , 경제성, 기술성장, 개인생활
정보통신 • 모바일 환경 데이터 보유한 TelCo 중심
• 공공성 , 경제성, 기술성장
도소매업 • 기존의 BI(Business Intelligence) 글로벌 기업 잠식
• 공공성 , 경제성, 기술성장
제조업 • 전과정(원자재사후관리까지)을 분석 대상으로 확장
• 공공성 , 경제성, 과학분야기술성장
과학분야 • 데이터 인텐시브 컴퓨팅, 도메인 기술 종속성 큼
Software Research Lab 8
9. 4. Big Data 현황과 이슈 (플랫폼 전쟁)
또 다른 플랫폼 전쟁의 시작 대응이 필요한 시점
Software Research Lab 9
10. 4. Big Data 현황과 이슈 (미래를 준비하는 인력)
Data Scientist/Analyst/Engineer : `19년 미국은 14~19만명 전문가, 150만명 관련 인력 필요
Software Research Lab 10
11. 5. Big Data 현황과 이슈 (주체별 역할)
정부 – 기관과 협력체계를 구축하고 이를 바탕으로 핵심 기술
개발 및 상용화 건강한 생태계 조성
Software Research Lab 11
12. 1. Big Data 기술 동향
2. 주요 기업 동향
3. 사례: IBM Watson
4. Big Data & Open Source
12
Software Research Lab 12
13. 1. Big Data 기술 동향
맥킨지는 비즈니스 지형을 바꿀 10가지 기술 트랜드 중 하나로 Big Data 선정
Big Data를 수집, 저장하고 이를 토대로 새로운 정보를 찾아내는 것이 경제성장을 위한 중요한
가치창출 효과를 가져 온다고 분석
특히, 하둡, 데이터 가상화, 비즈니스 인텔리전스 기술은 빅데이터 핵심 기술임
* 하둡: 대용량 정형/비정형 저장, 분석을 위한 분산 컴퓨팅 프레임워크 (Apache오픈소스 프로젝트)
* 데이터 가상화: 다양한 데이터 소스 대상으로 단일 데이터 접근/실행 서비스를 제공하는 데이터 서비스 계층
* 비즈니스 인텔리전스: 기업의 신속, 정확한 의사 결정을 지원하는 데이터 수집,저장,분석의 응용 기술 총칭
* 출처: Gartner(2011) “Hype Cycle for Emerging Technologies, 2011”
Software Research Lab 13
14. 2. 주요 기업 동향
글로벌 기업들은 Big Data 시장을 선점하고 주도권을 잡기 위해 데이터 분석 중심으로 조직을 개
편하고 역량 강화 및 기술 개발
<해외 IT기업들의 Big Data 준비현황>
복합이벤트 데이터
회사명 스토리지 DW 하둡 특징
처리 처리/분석
• Smarter Planet 구상 (09.2)
XIV Netezza InfoSphere InfoSphere SPSS
• SPSS 인수 (09,7)
Storage Twin Fin BigInsights Streams Cognos 10 Netezza 인수 (10.9)
• SUN 인수 (10.01)
Sun ZFS Exadata DB
- Oracle CEP - • BigData Appliance 출시
Storage Machine (12.02)
SAS High-
Isilon, Greenplum Greenplum
- Performanc • Greenplum 인수 (09.07)
Atmos Database HD
e Analytics
Vertica
Hadoop 전
3PAR Analytics - Autonomy • Vertica 인수 (11.02)
용 PC 서버
System
Software Research Lab 14
15. 3. 사례: IBM Watson
빅데이터와 지능화 디지털 인텔리전스 사례 (Watson)
빅데이터 산업의 승자는 더 많은 데이터로 더 많은 지능을 도출하는 자
IBM Watson: ①고성능 컴퓨팅, ②빅데이터 분석, ③인공지능
3초 이내에 정답을 찾기위해 2억 페이지(1천만권의 책)의 데이터를 분석
Watson 시티은행 취직(`12.3. 개인신용평가)
Watson 웰포인트(민간의료보험사) 취직(`11.9. 환자별 맞춤치료법 컨설팅)
Software Research Lab 15
16. 4. Big Data & Open Source
소프트웨어 공급자 4단계
STAGE 1 • “The money is in the HW, not the SW”
STAGE 2 • “Actually, the money is in the SW”
• “The money is not in the SW, but it is
STAGE 3 differentiating”
• “SW in not even differentiating, the value
STAGE 4 is the DATA”`
Open Source is not the growth,
Open Source enables DATA which enables growth (money)
Software Research Lab 16
17. 1. 향후 기술 발전 방향
2. Big Data 미래를 준비하는 기술
3. 핵심 기술 개발 현황
17
Software Research Lab 17
19. 2. Big Data 미래를 준비하는 기술
Big Data로 촉발되는 SW/컴퓨팅 기술의 패러다임 변화가 시작
Software Research Lab 19
20. 3. 핵심 기술개발현황 : 빅데이터 실시간 인텔리젼스 처리 플랫폼 -1
빅데이터로부터 실시간으로 인사이트를 발굴하기 위한 공통 플랫폼 제공
스마트 에너지 그리드 스마트 워터 관리 내 손 안의 비서 홈랜드 시큐리티
에너지 절감 수자원 시스템 관리 결혼기념일
이벤트 준비해줘.
네, 당일로
…
계획할까요?
지능형 서비스 실현
빅데이터 분석 플랫폼
다중 소스 스트림 대규모 인타임
데이터 데이터 고도
정보 저장 정보 처리
수집 전처리 지능 발굴
관리 분석
…
인터넷/
디바이스 센서 데이터 공공 데이터
소셜 미디어
Software Research Lab 20
21. 빅데이터 실시간 인텔리젼스 처리 플랫폼의 차별성 -2
핵심요소 현재 미래
데이터 정형화된 소스로부터 미지의 가치를 찾기 위해 다양한 소스로부
수집 사전 정의된 데이터만 수집 터 정형/비정형 데이터 수집
데이터 데이터 수집 동시에 필터링, 특징 추출 등
수집된 데이터를 모두 저장
전처리 데이터 전처리후 용도에 맞게 저장
정보 저장 대규모 정보 저장 및 관리로 인한 고확장성 지원 빅데이터 저장 관리로
관리 서비스 성능 저하 익스트림 스케일 서비스 지원
정보 처리 대규모 정보의 일괄 처리, 분석으로 실시간 처리, 점진적 분석으로 적시 활용 및
분석 적시 활용 및 데이터 소스별 분석 이종 데이터 소스 융합 분석 지원
패턴 위주의 정보 분석 및 의미 기반의 정보 분석 및
지능 발굴
정형 데이터 위주의 지식화 융합 비정형 데이터 지식화로 지능 고도화
Software Research Lab 21
22. 빅데이터 실시간 인텔리젼스 처리 플랫폼 구성도 - 3
빅데이터 실시간 인텔리젼스 처리 플랫폼
빅데이터 고급 분석 공통 SW
②
의사결정 ⑤데이터
이 기계학습 및 그래프
지원 예측
시뮬레이션 및
마이닝 및
고 종 통계 분석 마이닝 시각화
분석 OLAP
가 데 데
용 이 이
성 터 빅데이터 인타임 분산 처리 SW 터
/
/ 융
대규모 스트림 빅데이터 MapReduce 통합데이터 시
고 합 스
연속 처리 점진적 처리 배치 처리 인타임 처리
신 인 템
뢰 프 보
성 라 빅데이터 저장 관리 SW 안
S 분산
W 디스크 ④인메모리
③분산파일 비정형 데이터
기반 분산
시스템 데이터 웨어하우스
RDBMS DBMS
스토어
①고성능 컴퓨팅 시스템
Software Research Lab 22
23. 3. 핵심 기술개발 현황 : 유전체 분석용 슈퍼컴퓨팅 기술 -1
유전체(인간 및 미생물) 및 단백질 구조 분석을 위한 Peta급 슈퍼컴퓨팅
(초당 1015번의 연산)이 가능한 성능가속 HW 및 SW 기술
→ 활용분야: 건강검진, 단백질 구조분석
* 일인당 최소 분석 데이터량 : 900 GByte (출처: 삼성 SDS, 2010)
* 일인당 최소 분석 컴퓨팅량 : 15 TFs x Hour
신산업(新産業) 고속도로 1 PF 1 PF
800TF
500TF 500TF
400TF 성능 가속 시스템 SW 바이오 응용 SW기술
200TF
이종 자원 관리 SW
GPGPU+MIC 기반 바이오 응용SW 기술
100TF 시스템 통합 실행환경 관리 SW
계산 성능 가속기 입출력 성능 가속기
GPGPU+MIC기반 SSD+MAID기반
계산 성능 가속 장치 입출력 성능 가속 장치
바이오, 3D/입체 첨단기계 기상/
생명공학 영상콘텐츠 설계/분석 환경
+ +
Software Research Lab 23
24. 3. 핵심 기술개발현황 : 유전체 분석용 슈퍼컴퓨팅 기술 - 2
유전체 분석에 특화된 Peta급 고성능 컴퓨팅 시스템 기반 기술 확보
계산성능가속기(256 Gbps급 시스템 네트워크 기술),
성능가속시스템SW(바이오 워크플로우 인지형 이종자원 관리 기술),
입출력성능가속기(40대 서버로 1백만 IOPS 입출력 성능 기술) IPR 확보
Petaflops 컴퓨팅 인프라 활용으로 바이오 신산업 경쟁력 제고
- 부가가치유발효과: ‘10년 4조 2천억원 → ‘15년 8조 7천억원
(자료: 한국은행 2008년 산업연관분석표를 바탕으로 생산/부가가치 유발계수 산출)
신약개발, 개인맞춤형 의료를 통해 국민의 건강, 복지, 등 국민 생활 수준 향상
지경부 GICC (Genome Information Computing Center) 구축 참여
* 2013년, 5개 범부처 게놈분석시스템 마련 ( ‘11, 12, 예비타당성조사 1차 통과 )
산업에 미치는 파급효과
• 물리적 충돌시험에 따른 비용 부담을
• 생명과학, 줄기세포, 유전자(DNA) 등을 HPC가 대체함으로써 비용절감 및 다양
분석하여 신약 개발 질병 관련 유전 한 실험이 가능함 산업경쟁력 확보
자, 비만, 암 등의 원인을 밝히는데 활용
* 멕킨지 보고서 2009년 생산비용 12% 감소
* 다국적 제약기업, 세계 시장의 40%점유
•물리, 재료, 전자 등을 횡적으로 연결함 •영화, TV 영상산업에 활용 되어 HD급
으로써 새로운 기술 영역 구축 에너지, 3D제작(400TF) PC 20만 대급 제작이
환경오염 제거 등에 활용 가능함 영상산업 발전에 기여
Software Research Lab 24
25. 3. 핵심 기술개발현황 : 이종데이터 융합인프라 기술 - 1
빅데이터 분석을 위해 다양한 데이터 저장소에 저장된 정형, 비정형 데이
터를 접근 및 수집할 수 있는 이기종 데이터 접근 기술
→ 서로 다른 데이터를 통합/활용하기 위한 단일 데이터 접근 계층 제공
사례 관리 고급분석 실시간 분석 비즈니스 분석
SQL, WebQL, REST, SOAP, RSS, …
빅데이타 가상화 계층
가상 뷰 가상 뷰
가상 뷰
가상 뷰 가상 뷰 가상 뷰 가상 뷰
매핑 매핑 매핑 매핑 매핑
…
국가기관 DB 기업 DB 스프레드시트 SNS 이메일 문서파일 멀티미디어 데이터
이미지/동영상
Database XML, Excel Web 페이지 SNS /email/docs
정형 반정형 비정형
Software Research Lab 25
26. 3. 핵심 기술개발 현황 : 이종데이터 융합인프라 기술 - 2
전세계 대규모 데이터 통합 및 접근 SW 시장규모는 2010년 36.9억 달러에
서 2015년 57.9억 달러로 증가 예상(IDC, 2011)
공공∙민간의 지식 개방, 공유 확대를 위한 빅데이터 활용 공통 기술 확보
→ 데이터 마트 활성화로 빅데이터 활용성 증대 및 창조적 응용 분야 창출
공공데이터
과학데이터
이기종 데이터 이동 S 실행
W 엔진
융합 인프라 계층
고급 분석공동
SW
s
c
y
l
n
A
t
a
D
g
i
B
인타임 분산 빅데이터 저 장
WS
리
처
렬
병 관리 SW
Cloud
t
a
D
t
m
e
g
n
a
M
g
n
i
s
e
c
o
r
P
&
이동 S 실행
W 엔진
고급 분석공동SW
s
c
y
l
n
A
t
a
D
g
i
B
이동 S 실행
W 엔진
인타임 분산 빅데이터 저장
고급 분석공동
SW W
S
리
처
렬
병 관리 SW
s
c
y
l
n
A
t
a
D
g
i
B
t
a
D
인타임 분산 빅데이터 저 장
W
S
리
처
렬
병 관리 SW
t
m
e
g
n
a
M
t
a
D
민간데이터
g
n
i
s
e
c
o
r
P
&
t
m
e
g
n
a
M
g
n
i
s
e
c
o
r
P
&
온디맨드 질의실행엔진
기업데이터
고급 분석 공동 SW
BigData
Analytics
Data 인타임 분산 빅데이터 저장
M n g en
a a em t 병렬처리 SW 관리 SW
& Pr
oces i g
sn
Software Research Lab 26
27. 3. 핵심 기술개발 현황 : 대용량 분산 파일 시스템 기술 - 1
인터넷 서비스, 소셜 네트워크 서비스, 클라우드 서비스 등에서 생산되는
빅 데이터를 효율적인 비용으로 무한 저장할 수 있는 scale-out 스토리
지 SW 기술
→ 저장공간의 무한 확장성 및 고속 데이터 입출력 성능 제공
Software Research Lab 27
28. 대용량 분산 파일 시스템 기술 -2
빅 데이터 시대에 요구되는 스토리지 시스템의 대용량 및 고성능 입출력
성능 이슈를 기술적으로 해소
→ 스케일 아웃 스토리지 파일 시스템(GLORY-FS) 기술
빅 데이터 시장에서 서버 성장율(27.3%)/SW 성장율(34.2%)을 압도하는
스토리지 성장율(61.4%) 전망(IDC, 2011)
→ 빅 데이터 시장에서 비용 효과적인 최고 수준 스토리지 SW 기술 제공
국내 클라우드컴퓨팅 서비스에 널리 활용되는 분산 파일시스템 기술을
확장하여, 향후 다양한 빅데이터 관련 서비스군으로 급속 확산 전망
→ GLORY-FS기반 국내 클라우드 구축
Software Research Lab 28
29. 3. 핵심 기술개발 현황 : 인메모리 분산 DBMS 기술 - 1
이종 메모리 계층(휘발성 메모리, 비휘발성 메모리)을 통합 활용, 고성능
및 고확장성을 제공하는 인메모리 데이터 저장/관리 기술
→ 익스트림 트랜잭션 처리 및 운영 DB 기반 실시간 분석 환경 제공
(제조) 실시간 (금융) 실시간 (공공) 실시간
생산/유통 관리 고객 관리 /위험 관리 스마트 그리드 관리
Extreme
Online
Transaction
Analysis
Software Research Lab 29
30. 인메모리 분산 DBMS 기술 - 2
실시간 데이터 분석 환경 제공 및 차세대 메모리기반 컴퓨팅 기술 확보
메모리 DB 저장 공간 한계 메모리 DB 확장성 제공
운영 DB와 분석용 DB 운영 OLTP/OLAP 통합 운영
실시간 데이터 분석 한계 실시간 데이터 분석 제공
차세대 메모리기반 분산 DBMS
고성능
메모리기반 대용량
DBMS Flash
디스크기반
(OLTP용) 주기적 DBMS
데이터
(OLAP용)
이전
Software Research Lab 30
31. 3. 핵심 기술개발현황 : 소셜웹 이슈 탐지 모니터링 및 예측 기술 - 1
소셜웹 콘텐츠로부터 이슈를 탐지/모니터링하여, 이슈의 향후 전개과정
에 대한 예측 모형을 제시하는 기술
→ 전문가 의사결정 지원을 위한 Data-driven ‘Insight’ 제공
이슈 탐지 기반 예측분석 시스템
(기업) 겔럭시S2의 이슈 탐지 이슈 이슈
향후 판매추이는? 및 모니터링 예측분석 질의응답
(공공) 셧다운제에 (회귀분석+시계열분석+패턴기반
대한 여론의 향후 +기계학습기반 예측분석 모델)
추이는?
Software Research Lab 31
32. 소셜웹 이슈 탐지 모니터링 기술 - 2
2016년 전 세계 관련기술 시장규모는 215,650억원(연평균 성장률 21.9%)이
예상되는 고부가가치 시장
소셜 빅데이터 분석을 통한 빠르고 효과적인 기업 및 공공의 의사결정 지원
글로벌 경쟁 시대에서 자동화된 이슈 분석 및 예측 기술은 기존 전문가 집단
에 의한 고비용, 저효율 수작업 위주 작업을 대체
Software Research Lab 32
33. 맺음말: 감사합니다.
세상을 바꾸는 소프트웨어
Software Research Lab 33