SlideShare a Scribd company logo
ICT사업본부장 정수화
shjeong@iworks.kr
Hadoop 기반 빅데이터 이해
빅데이타 개념
• 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측
• 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수
집, 저장, 검색, 분석, 시각화등 어렵다.
• 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범
위를 초과하는 규모의 데이타
빅데이타 출현 배경
• 비정형 데이터 급증
- 문자, 음성, GPS, 영상, 인터넷 SNS,
• 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩,
비콘 ,
• 멀티미디어 콘텐츠 사용 관련 정보
• 각종 센서로 부터 데이터 수집, 저장 – IoT
• 정보의 바다 정보의 홍수
빅데이타 특성 – 3V
• Volume( 데이터 량)
• Variety( 다양성)
• Velocity (빠른 생성, 빠른 처리)
Value
새로운 가치 창조
빅데이타 가치
빅데이타 활용
구글 Trend
빅데이타 분석시스템 – 시스템 개념도
하둡 - Hadoop
• 목적 - 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴
퓨팅의 성능과 효율 향상
• 구성
- HDFS (Hadoop Distributed File System)
- Map Reduce(분산 처리프로그래밍)
HDFS - 하둡파일시스템
• 클러스터 환경에서 대용량 데이터를 분산해서 안정적
으로 저장하는 프레임워크
• 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬
• 덩어리를 복제하여 전체 클러스터에 분산 저장
• 일부 노드 장애는 서비스에 영향을 주지 않음
HDFS
• 수백GB – 수 TB 지원
• Write Once Read Many 파일 시스템
- 한번 작성되면 바뀔 필요없는 경우
- Append 만 가능
• 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
MapReduce
• 하둡 분산파일시스템에 저장된 분산데이타를 클러스
터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하
는 프레임워크
• 함수형 프로그램에서 일반적으로 사용하는 Map과
Reduce라는 함수 기반으로 구성
• 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
Map/Reduce 예시 – word count
시각화
• 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로
써 그 패턴을 인지하게 만드는 것이다.
• 통계/분석의 가장 중요한 부분.
1. 데이터의 특성을 쉽게 파악( vs 통계량 )
2. 결과 레포트에 활용
-> 독립된 학문/기술 분야로 발전
• 근거 : 사람은 탁월한 패턴 인식 능력이 있음.
• 데이터 패턴 파악의 도구, 분석을 돕는 역할
-> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머
/오락성
빅데이타 처리 과정
빅데이타 활용 - 공공
• 목적 : 과학적 정책 의사결정
• 스마트 시티
• 서울시 지하철 승객 분포 – 가장 복잡한 지하철,..
• 성남시 도서관 자료 분석
• 해운대구 쓰레기 무단 투기
• 서울시 심야버스 분석
• 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원
• 관광객 정보 분석 – 축제기간 유입인구 분석
• 유동인구 분석으로 상권 분석
• 범죄예방 – 20대 여성인구 시간대별 분석
빅데이타 활용 – 유통, 제조, 금융,.
• 목적 : 비용절감, 수익 창출
• 아마존 – 고객의 구매이력 데이터 분석
• 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션
• 넷플릭스 – 개인화된 VOD 서비스
• 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거
• 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성
향상
• 금융 - FDS, 주가 예측, 보험상품 개발, 보험수익계산,
정리
• ICBM – IoT, Cloud, Bigdata, Mobile
• 성장 분야
• 데이터 축적이 기본
• 사업 구상에서 closing까지 오랜 기간 소요(2-3년)
• 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력
• 소규모 IT인력 openstack으로 Bigdata 분석은 무리
ICT사업본부장 정수화
shjeong@iworks.kr
Thank you!

More Related Content

What's hot

스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
AWSKRUG - AWS한국사용자모임
 
아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)
아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)
아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)
Amazon Web Services Korea
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Seongyun Byeon
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
Yongho Ha
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
AWSKRUG - AWS한국사용자모임
 
[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)
Donghyeon Kim
 
Data Warehousing Trends, Best Practices, and Future Outlook
Data Warehousing Trends, Best Practices, and Future OutlookData Warehousing Trends, Best Practices, and Future Outlook
Data Warehousing Trends, Best Practices, and Future Outlook
James Serra
 
Big Data Trends
Big Data TrendsBig Data Trends
Big Data Trends
Collabor8now Ltd
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
DaeMyung Kang
 
[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림
NAVER D2
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Taejun Kim
 
MMCF: Multimodal Collaborative Filtering for Automatic Playlist Conitnuation
MMCF: Multimodal Collaborative Filtering for Automatic Playlist ConitnuationMMCF: Multimodal Collaborative Filtering for Automatic Playlist Conitnuation
MMCF: Multimodal Collaborative Filtering for Automatic Playlist Conitnuation
Hojin Yang
 
Introduction to Neo4j
Introduction to Neo4jIntroduction to Neo4j
Introduction to Neo4j
Neo4j
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
PAP (Product Analytics Playground)
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
Bokyung Choi
 
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
PAP (Product Analytics Playground)
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기
NAVER D2
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
Bokyung Choi
 
Data Mining: Data processing
Data Mining: Data processingData Mining: Data processing
Data Mining: Data processing
DataminingTools Inc
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
PAP (Product Analytics Playground)
 

What's hot (20)

스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
 
아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)
아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)
아마존의 딥러닝 기술 활용 사례 - 윤석찬 (AWS 테크니컬 에반젤리스트)
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)
 
Data Warehousing Trends, Best Practices, and Future Outlook
Data Warehousing Trends, Best Practices, and Future OutlookData Warehousing Trends, Best Practices, and Future Outlook
Data Warehousing Trends, Best Practices, and Future Outlook
 
Big Data Trends
Big Data TrendsBig Data Trends
Big Data Trends
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림
 
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기Spark & Zeppelin을 활용한 머신러닝 실전 적용기
Spark & Zeppelin을 활용한 머신러닝 실전 적용기
 
MMCF: Multimodal Collaborative Filtering for Automatic Playlist Conitnuation
MMCF: Multimodal Collaborative Filtering for Automatic Playlist ConitnuationMMCF: Multimodal Collaborative Filtering for Automatic Playlist Conitnuation
MMCF: Multimodal Collaborative Filtering for Automatic Playlist Conitnuation
 
Introduction to Neo4j
Introduction to Neo4jIntroduction to Neo4j
Introduction to Neo4j
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
 
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
Data Mining: Data processing
Data Mining: Data processingData Mining: Data processing
Data Mining: Data processing
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
 

Similar to Hadoop 기반 빅데이터 이해

[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
K data
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Myungjin Lee
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획
Han Woo PARK
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영
datasciencekorea
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
iron han
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
Myunggoon Choi
 
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
doo rip choi
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712
Sunghun Bae
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
eungjin cho
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
K data
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
Core.Today
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
SuHyun Jeon
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
Hosung Lee
 
빅데이터
빅데이터빅데이터
빅데이터
1jungeee
 
국내외 공간빅데이터 정책 및 기술동향
국내외 공간빅데이터 정책 및 기술동향국내외 공간빅데이터 정책 및 기술동향
국내외 공간빅데이터 정책 및 기술동향
메가트렌드랩 megatrendlab
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력
현주 유
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
Open Cyber University of Korea
 
공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략
메가트렌드랩 megatrendlab
 
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Seul Koo
 

Similar to Hadoop 기반 빅데이터 이해 (20)

[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
빅데이터
빅데이터빅데이터
빅데이터
 
국내외 공간빅데이터 정책 및 기술동향
국내외 공간빅데이터 정책 및 기술동향국내외 공간빅데이터 정책 및 기술동향
국내외 공간빅데이터 정책 및 기술동향
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략
 
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
 

More from 아이웍스 | iWorks Inc.

아이웍스 회사소개서(3.5.2)-20180406
아이웍스 회사소개서(3.5.2)-20180406아이웍스 회사소개서(3.5.2)-20180406
아이웍스 회사소개서(3.5.2)-20180406
아이웍스 | iWorks Inc.
 
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
아이웍스 | iWorks Inc.
 
Smart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. SolutionSmart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. Solution
아이웍스 | iWorks Inc.
 
How to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 ServerHow to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 Server
아이웍스 | iWorks Inc.
 
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
아이웍스 | iWorks Inc.
 
iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여
아이웍스 | iWorks Inc.
 

More from 아이웍스 | iWorks Inc. (6)

아이웍스 회사소개서(3.5.2)-20180406
아이웍스 회사소개서(3.5.2)-20180406아이웍스 회사소개서(3.5.2)-20180406
아이웍스 회사소개서(3.5.2)-20180406
 
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
 
Smart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. SolutionSmart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. Solution
 
How to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 ServerHow to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 Server
 
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
 
iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여
 

Hadoop 기반 빅데이터 이해

  • 2. 빅데이타 개념 • 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측 • 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수 집, 저장, 검색, 분석, 시각화등 어렵다. • 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범 위를 초과하는 규모의 데이타
  • 3. 빅데이타 출현 배경 • 비정형 데이터 급증 - 문자, 음성, GPS, 영상, 인터넷 SNS, • 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩, 비콘 , • 멀티미디어 콘텐츠 사용 관련 정보 • 각종 센서로 부터 데이터 수집, 저장 – IoT • 정보의 바다 정보의 홍수
  • 4. 빅데이타 특성 – 3V • Volume( 데이터 량) • Variety( 다양성) • Velocity (빠른 생성, 빠른 처리) Value 새로운 가치 창조
  • 8. 빅데이타 분석시스템 – 시스템 개념도
  • 9. 하둡 - Hadoop • 목적 - 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴 퓨팅의 성능과 효율 향상 • 구성 - HDFS (Hadoop Distributed File System) - Map Reduce(분산 처리프로그래밍)
  • 10. HDFS - 하둡파일시스템 • 클러스터 환경에서 대용량 데이터를 분산해서 안정적 으로 저장하는 프레임워크 • 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬 • 덩어리를 복제하여 전체 클러스터에 분산 저장 • 일부 노드 장애는 서비스에 영향을 주지 않음
  • 11. HDFS • 수백GB – 수 TB 지원 • Write Once Read Many 파일 시스템 - 한번 작성되면 바뀔 필요없는 경우 - Append 만 가능 • 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
  • 12. MapReduce • 하둡 분산파일시스템에 저장된 분산데이타를 클러스 터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하 는 프레임워크 • 함수형 프로그램에서 일반적으로 사용하는 Map과 Reduce라는 함수 기반으로 구성 • 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
  • 13. Map/Reduce 예시 – word count
  • 14.
  • 15. 시각화 • 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로 써 그 패턴을 인지하게 만드는 것이다. • 통계/분석의 가장 중요한 부분. 1. 데이터의 특성을 쉽게 파악( vs 통계량 ) 2. 결과 레포트에 활용 -> 독립된 학문/기술 분야로 발전 • 근거 : 사람은 탁월한 패턴 인식 능력이 있음. • 데이터 패턴 파악의 도구, 분석을 돕는 역할 -> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머 /오락성
  • 17.
  • 18. 빅데이타 활용 - 공공 • 목적 : 과학적 정책 의사결정 • 스마트 시티 • 서울시 지하철 승객 분포 – 가장 복잡한 지하철,.. • 성남시 도서관 자료 분석 • 해운대구 쓰레기 무단 투기 • 서울시 심야버스 분석 • 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원 • 관광객 정보 분석 – 축제기간 유입인구 분석 • 유동인구 분석으로 상권 분석 • 범죄예방 – 20대 여성인구 시간대별 분석
  • 19. 빅데이타 활용 – 유통, 제조, 금융,. • 목적 : 비용절감, 수익 창출 • 아마존 – 고객의 구매이력 데이터 분석 • 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션 • 넷플릭스 – 개인화된 VOD 서비스 • 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거 • 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성 향상 • 금융 - FDS, 주가 예측, 보험상품 개발, 보험수익계산,
  • 20. 정리 • ICBM – IoT, Cloud, Bigdata, Mobile • 성장 분야 • 데이터 축적이 기본 • 사업 구상에서 closing까지 오랜 기간 소요(2-3년) • 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력 • 소규모 IT인력 openstack으로 Bigdata 분석은 무리