SlideShare a Scribd company logo
1 of 15
Bigdata &
Data Mininig & R … ??
Seongwan, Son
-요약본-
Bigdata & R … ??
BigData의 특징
5 V (Volume, Variety, Velocity, Variability, Veracity)
- Volume ?? - Big Data = 많은 데이터
- Variety ?? - 다양한 데이터 = 계량화, 구조화하기 어려운 데이터(SNS, Youtube, google 서칭…?)
- Velocity ?? - 많은 양의 데이터 에서 원하는 결과를 빨리 뽑아내야한다.
- Variability ?? - 데이터가 변동이 많다!!
- Veracity ?? – 수집된 데이터, 분석한 결과가 정당하고 원하는것이여야 한다.!!
생각해보면 BigData 용어 그래도 이해를 하면될것같다…. 정말 크고 많고 다양한 데이터!
Bigdata 사용 사례
• United Kingdom 사용사례
• National Institute for Health and Care Excellence(NICE), 영국 보건기구에서 처방된 약들간의 상관관계를 통해서
앞으로의 환자에게 주어질 약을 제안하는 프로젝트를 했다..(2015년에.. 하지만 자료를 못 찾겠다)
• 아래의 그림은 논문에서 분석한 빅데이터 분석 자료 이다.
* 출처는 Wikipedia 및Survey on Big Data Using Data Mining 논문
<bigData 마이닝 플랫폼>
<작업한 데이터>
Bigdata 사용사례
• 스포츠 분야에서도 당연히 사용된다.
• 대표적인 예로 영화 MoneyBall이 있다. (https://goo.gl/5Ghp0w)
• Moneyball은 스카우트의 영입 1순위의 선수, 인기많은 선수를를
영입하지만 실패에 따른 후 통계, 데이터 중심으로 선수를 운영한다는
영화이다.
• Mets이사 인 ‘PAUL Depodesta’ 를 모티브로 된 Jonah Hill은
다음과 같은 말을 했다.
“Subjectivity ruled the day in evaluating players,” he said.
“We had a completely new set of metrics
that bore no resemblance to anything you’d seen.
We didn’t solve baseball. But we reduced the inefficiency of our decision making.”
• PAUL Depodesta는 BigData의 중요한 포인트!를 말했다..
But we reduced the inefficiency of our decision making.
• 이 말을 쉽게 의역하면 “100%정확한 데이터가 아니라 그럴거 같다… 라는 데이터를 뽑는것!” 이라 할 수 있다.
Data Mininig
• 그러면 Bigdata 를 어떻게 우리가 사용할 수 있을까??
• 해답은 DataMinig 을 활용하는것이다….
• DataMinig은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나
패턴을 찾아 내는 것
• 이것을 KDD(Knowledge Discovery in Databases)로 부르기도 한다.
• 그럼 Data Mining, KDD 의 기법을 살펴보자.
* 출처는 Wikipedia
Data Mininig 을 위한 Process
• 기본 5단계 혹은 간단히 하여 3단계로 요약할 수 있다.
• 여기서 나오는 3단계를 살펴보면 다음과 같다.
Selection
Pro-procsessing
Transformation
Data Mining
Interpretation/Evalution
simplified
Pro-procsessing
Data Mining
results validation.
Data Mininig 의 3단계란?
• Pre-Selection(선별작업) 단계
• 데이터 마이닝 알고리즘이 사용되기전에, 작업되며 대상이되는 데이터들은 패턴들을 포함할 정도로 충분한 양이어야
한다.
Pre-Selection 을 통해서 불필요하거나, 관련없는 데이터는 최종적으로 제거가 될것이다.
• Data Mining의 작업순서 단계
• Anomaly detection (Outlier/change/deviation detection) – 비정상 데이터를 기록
• Association rule learning (Dependency modeling) - 변수들간의 관계 파악
• Clustering – 데이터의 구조, 그룹을 발견하는 작업
• Classification – 새로운 데이터에 적용하기 위한 알려진 구조를 일반화시키는 작업
• Regression – 가장 작은 에러를 발생하는 데이터를 모델링하는 작업
• Summarization – 시각화, 일반화, 데이터 셋을 표현하는 요약.
Data Mininig 의 3단계란?
• Result validation(결과 검증) 단계
• 데이터 마이닝을 통해 좋은 데이터가 나오거나 잘못된 데이터가 나올수 있다.
• 이러한 데이터 마이닝 특징 때문에 적절하지 않은 통계 데이터 방식을 사용하거나 수많은 이론들을 검토하고,
조사하는 경우가 생기기도 한다.
• 이러한 데이터 마이닝에서 가장 흔한 문제인 Overfitting 이라는 것이 발생할 수 있다.
• Overfitting 이란? Over + fitting, 즉 과도하게(Over) 맞춘다(fitting). 라는 뜻이다. 이것을 흔히 과적합 이라고도 부른다.
즉 데이터 마이닝 하기 위한 자료들(Testing Data Set)에 너무 맞춰어져 있어 새로운 데이터에 대해 잘못된 결과를
도출하지 못하는 현상이다. 이러한 방법을 해결하기 위해 Artificail neural networks, Evergybased Model, Support
Vector Machine 등이 있다.
Data Mininig, KDD 기법
• 보통 6가지의 기법, 분류로 나눈다.
• 분류(Classification): 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론하는 방법
• 군집화(Clustering): 구체적인 특성을 공유하는 군집을 찾는 방법.
군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다 .
• 연관성(Association): 동시에 발생한 사건간의 관계를 정의하는 방법.
• 연속성(Sequencing): 특정 기간 동안에 발생하는 관계를 규명한다.
기간의 특성을 제외하면 연관성 분석과 유사하다 (예: 슈퍼마켓과 금융상품 사용에 대한 반복 방문)
• 예측(Forecasting): 대용량 데이터집합내의 패턴을 기반으로 미래를 예측하는 방법.
Data Mining Algorithm
• 아래의 그림 순서대로 요건에 맞춰 따라가면 적합한 방식이 나온다.
* 출처는 사진에
Data Mining Algorithm
• 좀 더 이해하기 쉬운 자료도 첨부한다.
* 출처는 사진에
R과 BigData 관계??
• R은 수치 분석, 기계학습에 적합한 도구이다. 또한 사용하기에 쉬우며 다양한 데이터
집합, 도구, 소프트웨어 패키지를 제공한다.
• 또한 확장성이 뛰어나며, 다양한 통계 함수, 그래픽 기능을 제공한다. 더군다나 무료이다.
• 하지만….
• 메모리 관리, 속도, 보안과 같은 기능이 부족하다.
• 그러면 Matlab, SAS, SPSS, Excel과의 어떤 차이가 있을까?
R과 BigData 관계??
* 출처는 Brenocon(https://goo.gl/m9Z6P1)
• 특징으로는 R은 OpenSource이지만 나머지는 Open Source가 아니다.
• Matlab, Excel ,SAS등은 사용할려면 비용이 지불해야 하는 문제가 발생한다.
• SAS등이 멀티 스레드를 지원하는등 다양한 장점이 있지만 자세한 설명은 생략한다.
Name Advantages Disadvantages
Open
source?
Typical users
R
Library support;
visualization
Steep learning curve Yes
Finance;
Statistics
Matlab
Elegant matrix support;
visualization
Expensive; incomplete
statistics support
No Engineering
Excel Easy; visual; flexible Large datasets No Business
SAS Large datasets
Expensive; outdated
programming language
No
Business;
Government
Stata Easy statistical analysis No Science
SPSS Like Stata but more expensive and worse
R programming language
• R은 R Foundation for Statistical Computing 에서 제공하는 통계, 그래픽을 위한
소프트웨어 개발 툴이자, 프로그래밍 언어이다.
• R 소프트웨어는 C, Fortran, R로 작성되었고, R, Python(RPy), Perl등의 언어를 통해 사용
가능하다.
* 출처는 wikipedia.org
기본 설명은 여기까지..

More Related Content

What's hot

데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스Lee Seungeun
 
데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008Myung-Hoe Huh
 
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질K data
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.Byounghee Kim
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례ABRC_DATA
 
장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트Dennis Lee
 
Bigdata analysis team 5
Bigdata analysis team 5Bigdata analysis team 5
Bigdata analysis team 5fhshsjxj
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장eungjin cho
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업jrim Choi
 
[코세나, kosena] 산업부문별 인공지능 활용제안 가이드
[코세나, kosena] 산업부문별 인공지능 활용제안 가이드[코세나, kosena] 산업부문별 인공지능 활용제안 가이드
[코세나, kosena] 산업부문별 인공지능 활용제안 가이드kosena
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 

What's hot (16)

데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008데이터 사이언티스트 키노트 Pt 20141008
데이터 사이언티스트 키노트 Pt 20141008
 
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
 
Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해Hadoop 기반 빅데이터 이해
Hadoop 기반 빅데이터 이해
 
장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트
 
Bigdata analysis team 5
Bigdata analysis team 5Bigdata analysis team 5
Bigdata analysis team 5
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
[코세나, kosena] 산업부문별 인공지능 활용제안 가이드
[코세나, kosena] 산업부문별 인공지능 활용제안 가이드[코세나, kosena] 산업부문별 인공지능 활용제안 가이드
[코세나, kosena] 산업부문별 인공지능 활용제안 가이드
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 

Viewers also liked

Design patterns - Proxy & Composite
Design patterns - Proxy & CompositeDesign patterns - Proxy & Composite
Design patterns - Proxy & CompositeSarath C
 
Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)
Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)
Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)Jason Kalawe
 
Chad
ChadChad
ChadFAO
 
Antichi parte1 formaz_lim2011
Antichi parte1 formaz_lim2011Antichi parte1 formaz_lim2011
Antichi parte1 formaz_lim2011Laura Antichi
 
Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...
Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...
Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...Outsource Strategies International
 
Anesthesiology and Otolaryngology
Anesthesiology and OtolaryngologyAnesthesiology and Otolaryngology
Anesthesiology and OtolaryngologySpringer
 
Il piano del risparmio energetico dell'Università di Torino
Il piano del risparmio energetico dell'Università di TorinoIl piano del risparmio energetico dell'Università di Torino
Il piano del risparmio energetico dell'Università di TorinoCSI Piemonte
 
Methods of signal processing for adaptive antenna arrays
Methods of signal processing for adaptive antenna arraysMethods of signal processing for adaptive antenna arrays
Methods of signal processing for adaptive antenna arraysSpringer
 
Come l'ICT sta cambiando il mondo dell'energia
Come l'ICT sta cambiando il mondo dell'energiaCome l'ICT sta cambiando il mondo dell'energia
Come l'ICT sta cambiando il mondo dell'energiaCSI Piemonte
 
Lantichi lim coaching Primo incontro - Presentazione 1
Lantichi lim coaching Primo incontro - Presentazione 1Lantichi lim coaching Primo incontro - Presentazione 1
Lantichi lim coaching Primo incontro - Presentazione 1Laura Antichi
 
wBuyBuy紹介 Var.1
wBuyBuy紹介 Var.1wBuyBuy紹介 Var.1
wBuyBuy紹介 Var.1SSQQB Inc.
 
Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016
Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016
Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016LibreCon
 
Justice Organisationnelle
Justice OrganisationnelleJustice Organisationnelle
Justice OrganisationnelleRicardo Ruiz
 
Esercitazione di infografica presso Istituto Europeo di Design (IED)
Esercitazione di infografica presso Istituto Europeo di Design (IED)Esercitazione di infografica presso Istituto Europeo di Design (IED)
Esercitazione di infografica presso Istituto Europeo di Design (IED)tommasobovo
 
Progettazione didattica, Learning Objects e Piattaforme (parte1)
Progettazione didattica, Learning Objects e Piattaforme (parte1)Progettazione didattica, Learning Objects e Piattaforme (parte1)
Progettazione didattica, Learning Objects e Piattaforme (parte1)Gianni Vercelli
 
Giotto uomo del suo tempo
Giotto uomo del suo tempoGiotto uomo del suo tempo
Giotto uomo del suo tempoValentina Meli
 

Viewers also liked (20)

AE Foyer: Embrace your customer get digital (handouts 18052015)
AE Foyer: Embrace your customer get digital (handouts 18052015)AE Foyer: Embrace your customer get digital (handouts 18052015)
AE Foyer: Embrace your customer get digital (handouts 18052015)
 
Design patterns - Proxy & Composite
Design patterns - Proxy & CompositeDesign patterns - Proxy & Composite
Design patterns - Proxy & Composite
 
Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)
Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)
Patternlab: Atomic Design & Living Styleguides (Refresh Hilo)
 
Marqeed collez img
Marqeed collez imgMarqeed collez img
Marqeed collez img
 
Chad
ChadChad
Chad
 
Antichi parte1 formaz_lim2011
Antichi parte1 formaz_lim2011Antichi parte1 formaz_lim2011
Antichi parte1 formaz_lim2011
 
Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...
Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...
Insurance Eligibility Verification – A Critical Component of Revenue Cycle Ma...
 
Anesthesiology and Otolaryngology
Anesthesiology and OtolaryngologyAnesthesiology and Otolaryngology
Anesthesiology and Otolaryngology
 
Il piano del risparmio energetico dell'Università di Torino
Il piano del risparmio energetico dell'Università di TorinoIl piano del risparmio energetico dell'Università di Torino
Il piano del risparmio energetico dell'Università di Torino
 
Methods of signal processing for adaptive antenna arrays
Methods of signal processing for adaptive antenna arraysMethods of signal processing for adaptive antenna arrays
Methods of signal processing for adaptive antenna arrays
 
Come l'ICT sta cambiando il mondo dell'energia
Come l'ICT sta cambiando il mondo dell'energiaCome l'ICT sta cambiando il mondo dell'energia
Come l'ICT sta cambiando il mondo dell'energia
 
Lantichi lim coaching Primo incontro - Presentazione 1
Lantichi lim coaching Primo incontro - Presentazione 1Lantichi lim coaching Primo incontro - Presentazione 1
Lantichi lim coaching Primo incontro - Presentazione 1
 
Raffaello
RaffaelloRaffaello
Raffaello
 
wBuyBuy紹介 Var.1
wBuyBuy紹介 Var.1wBuyBuy紹介 Var.1
wBuyBuy紹介 Var.1
 
Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016
Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016
Privacy shield, la nueva realidad en la industria 4.0 - LibreCon 2016
 
Justice Organisationnelle
Justice OrganisationnelleJustice Organisationnelle
Justice Organisationnelle
 
Esercitazione di infografica presso Istituto Europeo di Design (IED)
Esercitazione di infografica presso Istituto Europeo di Design (IED)Esercitazione di infografica presso Istituto Europeo di Design (IED)
Esercitazione di infografica presso Istituto Europeo di Design (IED)
 
Progettazione didattica, Learning Objects e Piattaforme (parte1)
Progettazione didattica, Learning Objects e Piattaforme (parte1)Progettazione didattica, Learning Objects e Piattaforme (parte1)
Progettazione didattica, Learning Objects e Piattaforme (parte1)
 
Bernini e borromini
Bernini e borrominiBernini e borromini
Bernini e borromini
 
Giotto uomo del suo tempo
Giotto uomo del suo tempoGiotto uomo del suo tempo
Giotto uomo del suo tempo
 

Similar to Bigdate & R programming

빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰JeongHeon Lee
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰JeongHeon Lee
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석Kwang Woo NAM
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04Suntae Kim
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례Core.Today
 
빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf효근 윤
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구Newsjelly
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화sunhee kim
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf효근 윤
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)Dongheon Lee
 
데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터BizSpring Inc.
 

Similar to Bigdate & R programming (20)

빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
빅데이터
빅데이터빅데이터
빅데이터
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 
빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터
 

Bigdate & R programming

  • 1. Bigdata & Data Mininig & R … ?? Seongwan, Son -요약본-
  • 2. Bigdata & R … ?? BigData의 특징 5 V (Volume, Variety, Velocity, Variability, Veracity) - Volume ?? - Big Data = 많은 데이터 - Variety ?? - 다양한 데이터 = 계량화, 구조화하기 어려운 데이터(SNS, Youtube, google 서칭…?) - Velocity ?? - 많은 양의 데이터 에서 원하는 결과를 빨리 뽑아내야한다. - Variability ?? - 데이터가 변동이 많다!! - Veracity ?? – 수집된 데이터, 분석한 결과가 정당하고 원하는것이여야 한다.!! 생각해보면 BigData 용어 그래도 이해를 하면될것같다…. 정말 크고 많고 다양한 데이터!
  • 3. Bigdata 사용 사례 • United Kingdom 사용사례 • National Institute for Health and Care Excellence(NICE), 영국 보건기구에서 처방된 약들간의 상관관계를 통해서 앞으로의 환자에게 주어질 약을 제안하는 프로젝트를 했다..(2015년에.. 하지만 자료를 못 찾겠다) • 아래의 그림은 논문에서 분석한 빅데이터 분석 자료 이다. * 출처는 Wikipedia 및Survey on Big Data Using Data Mining 논문 <bigData 마이닝 플랫폼> <작업한 데이터>
  • 4. Bigdata 사용사례 • 스포츠 분야에서도 당연히 사용된다. • 대표적인 예로 영화 MoneyBall이 있다. (https://goo.gl/5Ghp0w) • Moneyball은 스카우트의 영입 1순위의 선수, 인기많은 선수를를 영입하지만 실패에 따른 후 통계, 데이터 중심으로 선수를 운영한다는 영화이다. • Mets이사 인 ‘PAUL Depodesta’ 를 모티브로 된 Jonah Hill은 다음과 같은 말을 했다. “Subjectivity ruled the day in evaluating players,” he said. “We had a completely new set of metrics that bore no resemblance to anything you’d seen. We didn’t solve baseball. But we reduced the inefficiency of our decision making.” • PAUL Depodesta는 BigData의 중요한 포인트!를 말했다.. But we reduced the inefficiency of our decision making. • 이 말을 쉽게 의역하면 “100%정확한 데이터가 아니라 그럴거 같다… 라는 데이터를 뽑는것!” 이라 할 수 있다.
  • 5. Data Mininig • 그러면 Bigdata 를 어떻게 우리가 사용할 수 있을까?? • 해답은 DataMinig 을 활용하는것이다…. • DataMinig은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것 • 이것을 KDD(Knowledge Discovery in Databases)로 부르기도 한다. • 그럼 Data Mining, KDD 의 기법을 살펴보자. * 출처는 Wikipedia
  • 6. Data Mininig 을 위한 Process • 기본 5단계 혹은 간단히 하여 3단계로 요약할 수 있다. • 여기서 나오는 3단계를 살펴보면 다음과 같다. Selection Pro-procsessing Transformation Data Mining Interpretation/Evalution simplified Pro-procsessing Data Mining results validation.
  • 7. Data Mininig 의 3단계란? • Pre-Selection(선별작업) 단계 • 데이터 마이닝 알고리즘이 사용되기전에, 작업되며 대상이되는 데이터들은 패턴들을 포함할 정도로 충분한 양이어야 한다. Pre-Selection 을 통해서 불필요하거나, 관련없는 데이터는 최종적으로 제거가 될것이다. • Data Mining의 작업순서 단계 • Anomaly detection (Outlier/change/deviation detection) – 비정상 데이터를 기록 • Association rule learning (Dependency modeling) - 변수들간의 관계 파악 • Clustering – 데이터의 구조, 그룹을 발견하는 작업 • Classification – 새로운 데이터에 적용하기 위한 알려진 구조를 일반화시키는 작업 • Regression – 가장 작은 에러를 발생하는 데이터를 모델링하는 작업 • Summarization – 시각화, 일반화, 데이터 셋을 표현하는 요약.
  • 8. Data Mininig 의 3단계란? • Result validation(결과 검증) 단계 • 데이터 마이닝을 통해 좋은 데이터가 나오거나 잘못된 데이터가 나올수 있다. • 이러한 데이터 마이닝 특징 때문에 적절하지 않은 통계 데이터 방식을 사용하거나 수많은 이론들을 검토하고, 조사하는 경우가 생기기도 한다. • 이러한 데이터 마이닝에서 가장 흔한 문제인 Overfitting 이라는 것이 발생할 수 있다. • Overfitting 이란? Over + fitting, 즉 과도하게(Over) 맞춘다(fitting). 라는 뜻이다. 이것을 흔히 과적합 이라고도 부른다. 즉 데이터 마이닝 하기 위한 자료들(Testing Data Set)에 너무 맞춰어져 있어 새로운 데이터에 대해 잘못된 결과를 도출하지 못하는 현상이다. 이러한 방법을 해결하기 위해 Artificail neural networks, Evergybased Model, Support Vector Machine 등이 있다.
  • 9. Data Mininig, KDD 기법 • 보통 6가지의 기법, 분류로 나눈다. • 분류(Classification): 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론하는 방법 • 군집화(Clustering): 구체적인 특성을 공유하는 군집을 찾는 방법. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다 . • 연관성(Association): 동시에 발생한 사건간의 관계를 정의하는 방법. • 연속성(Sequencing): 특정 기간 동안에 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사하다 (예: 슈퍼마켓과 금융상품 사용에 대한 반복 방문) • 예측(Forecasting): 대용량 데이터집합내의 패턴을 기반으로 미래를 예측하는 방법.
  • 10. Data Mining Algorithm • 아래의 그림 순서대로 요건에 맞춰 따라가면 적합한 방식이 나온다. * 출처는 사진에
  • 11. Data Mining Algorithm • 좀 더 이해하기 쉬운 자료도 첨부한다. * 출처는 사진에
  • 12. R과 BigData 관계?? • R은 수치 분석, 기계학습에 적합한 도구이다. 또한 사용하기에 쉬우며 다양한 데이터 집합, 도구, 소프트웨어 패키지를 제공한다. • 또한 확장성이 뛰어나며, 다양한 통계 함수, 그래픽 기능을 제공한다. 더군다나 무료이다. • 하지만…. • 메모리 관리, 속도, 보안과 같은 기능이 부족하다. • 그러면 Matlab, SAS, SPSS, Excel과의 어떤 차이가 있을까?
  • 13. R과 BigData 관계?? * 출처는 Brenocon(https://goo.gl/m9Z6P1) • 특징으로는 R은 OpenSource이지만 나머지는 Open Source가 아니다. • Matlab, Excel ,SAS등은 사용할려면 비용이 지불해야 하는 문제가 발생한다. • SAS등이 멀티 스레드를 지원하는등 다양한 장점이 있지만 자세한 설명은 생략한다. Name Advantages Disadvantages Open source? Typical users R Library support; visualization Steep learning curve Yes Finance; Statistics Matlab Elegant matrix support; visualization Expensive; incomplete statistics support No Engineering Excel Easy; visual; flexible Large datasets No Business SAS Large datasets Expensive; outdated programming language No Business; Government Stata Easy statistical analysis No Science SPSS Like Stata but more expensive and worse
  • 14. R programming language • R은 R Foundation for Statistical Computing 에서 제공하는 통계, 그래픽을 위한 소프트웨어 개발 툴이자, 프로그래밍 언어이다. • R 소프트웨어는 C, Fortran, R로 작성되었고, R, Python(RPy), Perl등의 언어를 통해 사용 가능하다. * 출처는 wikipedia.org