SlideShare a Scribd company logo
1 of 24
Download to read offline
Copyright (c) Digitalship Corp. All rights reserved.
중소기업형 인공지능/빅데이터 기술 심포지엄
2018.08.31
이우성
wooslee@digitalship.co.kr
데이터 전처리 기법 및 도구 소개
INDEX 데이터 전처리란?
데이터 전처리 기법
D.Prep 소개
시연
1.
2.
3.
4.
1. 데이터 전처리란?
• 데이터 전처리는 분석 및 처리에 적합한 형식으로 데이터를 조작하는 것을 의미함
60% ~ 80%
이미지출처 : http://www.datapreparator.com/what_is_data_preparation.html
많은 다른 업무를 포함하고
완전히 자동화 될 수 없는 과정
1. 데이터 전처리란? > 데이터 중요성
출처 : http://www.fntoday.co.kr/news/articlePrint.html?idxno=167146 출처 : http://news.mt.co.kr/mtview.php?no=2018060514530725344
1. 데이터 전처리란? > 데이터 중요성
• GIGO(Garbage In Garbage Out)
이미지 출처 : http://www.nkkhoo.com/2012/12/09/garbage-in-garbage-out/
※자료의 정합성과 가치에 따라서 결과가 다르다
2. 데이터 전처리 기법
이미지 출처 : https://cloudera2017.wordpress.com/2017/09/02/1182/
 데이터 정제
결측값을 채우거나 이상치를 제거하는 과정을
통해 데이터의 신뢰도를 높이는 작업
 데이터 통합
다수의 정제된 데이터를 통합하여 표현하는 작업
 데이터 변환
데이터 마이닝의 효율을 높이기 위한 변환 및 변형
 데이터 정리
데이터 크기를 축소하지만 동일한 분석결과를
만드는 작업
2. 데이터 전처리 기법 > 데이터 정제
• 레코드 집합, 테이블 또는 데이터베이스에서 손상되거나 부정확 한 레코드
를 검색 및 수정 (또는 제거)하는 프로세스
• 모순점 포착
1. 데이터 입력에서 사람의 실수로 발생
2. 데이터 표현의 모순
3. 일치하지 않는 코드의 사용
4. 원래의 의도와 다른 목적으로 사용
• 메타데이터 확인
1. 데이터 타입과 속성은 무엇인가?
2. 값의 범위는 어떻게 되는가?
3. 속성의 표준편차는 무엇인가?
4. 데이터 이상치 및 결측 값은 무엇인가?
2. 데이터 전처리 기법 > 정제 사례
데이터 오류
(이상값)
데이터 오류(날짜오류)
데이터
결측값
이상값/결측값 처리 방안
- 단순 삭제
- 다른 값으로 대체
2. 데이터 전처리 기법 > 데이터 통합 / 축소
• 여러 소스의 데이터를 통합하는 프로세스
• 데이터 통합 작업 :
1. 데이터 통합
2. 스키마 통합
3. 개체 식별 문제
4. 데이터 값 충돌 감지 및 해결
5. 데이터 통합에서 중복 처리
6. 데이터 통계
2. 데이터 전처리 기법 > 통합 사례
- 품목 / 제원 – 제원, 도해도…
- 수리부속 – 청구, 수불…
- 정비 – 정비이력, 작업관리…
- 품목 / 제원 데이터 셋
- 수리부속 데이터 셋
- 정비 데이터 셋
ETL 툴 활용
2. 데이터 전처리 기법 > 변환
• 데이터 변환은 하나의 형식이나 구조에서 다른 형식이나 구조 로 데이터를
변환하는 프로세스
• 데이터 변환 :
1. 데이터에서 노이즈 제거
2. 새로운 속성 추가
3. 데이터에 요약 작업 또는 집계 작업
4. 데이터 정규화
2. 데이터 전처리 기법 > 변환 사례
데이터 전처리 툴(변환 및 추가)
데이터 베이스 관리 도구(조회)
DBeaver
2. 데이터 전처리 기법 > Mistakes
구분
3. D.Prep 소개
3. 도구소개 > D.Prep Architecture
3. 도구소개 > D.Prep 메인화면
• 메인화면
3. 도구소개 > D.Prep 메인화면
• 메인화면 > 데이터 조회
3. 도구소개 > D.Prep 제안 기능
3. 도구소개 > D.Prep 데이터 검색
3. 도구소개 > D.Prep 컬럼 변환
Semantic Data Type
Customizing 가능
3. 도구소개 > D.Prep 데이터 정리
3. 도구소개 > D.Prep 단계별 처리
4. 시연
Thank you

More Related Content

What's hot

서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인Jae Young Park
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best PracticesBokyung Choi
 
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)Myungjin Lee
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정Seongyun Byeon
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트JeongMin Kwon
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석Seonggwan Lee
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기AWSKRUG - AWS한국사용자모임
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화BOAZ Bigdata
 
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?Juhong Park
 
Future of Data Engineering
Future of Data EngineeringFuture of Data Engineering
Future of Data EngineeringC4Media
 
구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공정재 전
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
Data Lake Overview
Data Lake OverviewData Lake Overview
Data Lake OverviewJames Serra
 

What's hot (20)

서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화
 
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
 
Future of Data Engineering
Future of Data EngineeringFuture of Data Engineering
Future of Data Engineering
 
구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
Data Lake Overview
Data Lake OverviewData Lake Overview
Data Lake Overview
 

Similar to [중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구

데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)Eun Yu
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰JeongHeon Lee
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰JeongHeon Lee
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기Amazon Web Services Korea
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질K data
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준NAVER D2
 
[Gastudy.net] Google analytics platform principles
[Gastudy.net] Google analytics platform principles[Gastudy.net] Google analytics platform principles
[Gastudy.net] Google analytics platform principlesSeHeung Oh
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPikdata Inc.
 
Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Pikdata Inc.
 
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이 데이터정제와품질검증을위한mdm 시스템의기능과역할
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이  데이터정제와품질검증을위한mdm 시스템의기능과역할[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이  데이터정제와품질검증을위한mdm 시스템의기능과역할
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이 데이터정제와품질검증을위한mdm 시스템의기능과역할K data
 
빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117Han Woo PARK
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 NextByunghwa Yoon
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가r-kor
 
전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수Devgear
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
 

Similar to [중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구 (20)

데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
빅데이터 분야를 위한 이미지 마이닝 기술동향 및 산업 동향 고찰
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
 
[Gastudy.net] Google analytics platform principles
[Gastudy.net] Google analytics platform principles[Gastudy.net] Google analytics platform principles
[Gastudy.net] Google analytics platform principles
 
Predictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryxPredictive analytics를 위한 alteryx
Predictive analytics를 위한 alteryx
 
Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩Datawarehouse를 이용한 데이터 블렌딩
Datawarehouse를 이용한 데이터 블렌딩
 
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이 데이터정제와품질검증을위한mdm 시스템의기능과역할
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이  데이터정제와품질검증을위한mdm 시스템의기능과역할[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이  데이터정제와품질검증을위한mdm 시스템의기능과역할
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이 데이터정제와품질검증을위한mdm 시스템의기능과역할
 
빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
2018 제4회 도시빅데이터 세미나: 멜론의 셀프 서비스 분석 환경과 Next
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
 
전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수전사 데이터 관리 반드시 피해야 할 7가지 실수
전사 데이터 관리 반드시 피해야 할 7가지 실수
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 

More from ABRC_DATA

[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4ABRC_DATA
 
[2018 Bigdata win-win conference] 5
[2018 Bigdata win-win conference]  5[2018 Bigdata win-win conference]  5
[2018 Bigdata win-win conference] 5ABRC_DATA
 
[2018 Bigdata win-win conference] 3
[2018 Bigdata win-win conference] 3[2018 Bigdata win-win conference] 3
[2018 Bigdata win-win conference] 3ABRC_DATA
 
[2018 Bigdata win-win conference] 2
[2018 Bigdata win-win conference] 2[2018 Bigdata win-win conference] 2
[2018 Bigdata win-win conference] 2ABRC_DATA
 
[2018 Bigdata win win conference] 1
[2018 Bigdata win win conference] 1[2018 Bigdata win win conference] 1
[2018 Bigdata win win conference] 1ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템 [중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템 ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템 [중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템 ABRC_DATA
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안
[중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안 [중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안
[중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안 ABRC_DATA
 
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략ABRC_DATA
 
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제ABRC_DATA
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼ABRC_DATA
 
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측ABRC_DATA
 
빅데이터 윈윈 컨퍼런스-장비지원 사례연구
빅데이터 윈윈 컨퍼런스-장비지원 사례연구빅데이터 윈윈 컨퍼런스-장비지원 사례연구
빅데이터 윈윈 컨퍼런스-장비지원 사례연구ABRC_DATA
 
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발ABRC_DATA
 
인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집ABRC_DATA
 
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례 빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례 ABRC_DATA
 
빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료ABRC_DATA
 

More from ABRC_DATA (20)

[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4[2018 Bigdata win-win conference] 4
[2018 Bigdata win-win conference] 4
 
[2018 Bigdata win-win conference] 5
[2018 Bigdata win-win conference]  5[2018 Bigdata win-win conference]  5
[2018 Bigdata win-win conference] 5
 
[2018 Bigdata win-win conference] 3
[2018 Bigdata win-win conference] 3[2018 Bigdata win-win conference] 3
[2018 Bigdata win-win conference] 3
 
[2018 Bigdata win-win conference] 2
[2018 Bigdata win-win conference] 2[2018 Bigdata win-win conference] 2
[2018 Bigdata win-win conference] 2
 
[2018 Bigdata win win conference] 1
[2018 Bigdata win win conference] 1[2018 Bigdata win win conference] 1
[2018 Bigdata win win conference] 1
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 온라인 고객 리뷰 빅데이터 신뢰도,방향성 분석 시스템
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
[중소기업형 인공지능/빅데이터 기술 심포지엄] 대용량 거래데이터 분석을 위한 서버인프라 활용 사례
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템 [중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 머신러닝 기반 군 전력장비 수리부속/장비수요 예측시스템
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] LSTM기반 가스 배관 안전도 예측 시스템
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템 [중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템
[중소기업형 인공지능/빅데이터 기술 심포지엄] 워드벡터를 활용한 관광지 리뷰 분석시스템
 
[중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안
[중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안 [중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안
[중소기업형 인공지능/빅데이터 기술 심포지엄] 국내 인공지능-빅데이터 산업의 문제점 및 해결방안
 
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
빅데이터 윈윈 컨퍼런스-빅데이터생태계 확산전략
 
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
빅데이터 윈윈 컨퍼런스-데이터수집 및 정제
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
 
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
 
빅데이터 윈윈 컨퍼런스-장비지원 사례연구
빅데이터 윈윈 컨퍼런스-장비지원 사례연구빅데이터 윈윈 컨퍼런스-장비지원 사례연구
빅데이터 윈윈 컨퍼런스-장비지원 사례연구
 
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
빅데이터 윈윈 컨퍼런스_빅데이터 기반 지능형 도시가스 배관 위험 예측 기술 개발
 
인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집인공지능-빅데이터연구센터[ABRC] 산학협력사례집
인공지능-빅데이터연구센터[ABRC] 산학협력사례집
 
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례 빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
빅데이터윈윈 컨퍼런스_대용량 데이터 분석 시스템 구축사례
 
빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료빅데이터윈윈 컨퍼런스_데이터시각화자료
빅데이터윈윈 컨퍼런스_데이터시각화자료
 

[중소기업형 인공지능/빅데이터 기술 심포지엄] 데이터 전처리 기법 및 도구

  • 1. Copyright (c) Digitalship Corp. All rights reserved. 중소기업형 인공지능/빅데이터 기술 심포지엄 2018.08.31 이우성 wooslee@digitalship.co.kr 데이터 전처리 기법 및 도구 소개
  • 2. INDEX 데이터 전처리란? 데이터 전처리 기법 D.Prep 소개 시연 1. 2. 3. 4.
  • 3. 1. 데이터 전처리란? • 데이터 전처리는 분석 및 처리에 적합한 형식으로 데이터를 조작하는 것을 의미함 60% ~ 80% 이미지출처 : http://www.datapreparator.com/what_is_data_preparation.html 많은 다른 업무를 포함하고 완전히 자동화 될 수 없는 과정
  • 4. 1. 데이터 전처리란? > 데이터 중요성 출처 : http://www.fntoday.co.kr/news/articlePrint.html?idxno=167146 출처 : http://news.mt.co.kr/mtview.php?no=2018060514530725344
  • 5. 1. 데이터 전처리란? > 데이터 중요성 • GIGO(Garbage In Garbage Out) 이미지 출처 : http://www.nkkhoo.com/2012/12/09/garbage-in-garbage-out/ ※자료의 정합성과 가치에 따라서 결과가 다르다
  • 6. 2. 데이터 전처리 기법 이미지 출처 : https://cloudera2017.wordpress.com/2017/09/02/1182/  데이터 정제 결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업  데이터 통합 다수의 정제된 데이터를 통합하여 표현하는 작업  데이터 변환 데이터 마이닝의 효율을 높이기 위한 변환 및 변형  데이터 정리 데이터 크기를 축소하지만 동일한 분석결과를 만드는 작업
  • 7. 2. 데이터 전처리 기법 > 데이터 정제 • 레코드 집합, 테이블 또는 데이터베이스에서 손상되거나 부정확 한 레코드 를 검색 및 수정 (또는 제거)하는 프로세스 • 모순점 포착 1. 데이터 입력에서 사람의 실수로 발생 2. 데이터 표현의 모순 3. 일치하지 않는 코드의 사용 4. 원래의 의도와 다른 목적으로 사용 • 메타데이터 확인 1. 데이터 타입과 속성은 무엇인가? 2. 값의 범위는 어떻게 되는가? 3. 속성의 표준편차는 무엇인가? 4. 데이터 이상치 및 결측 값은 무엇인가?
  • 8. 2. 데이터 전처리 기법 > 정제 사례 데이터 오류 (이상값) 데이터 오류(날짜오류) 데이터 결측값 이상값/결측값 처리 방안 - 단순 삭제 - 다른 값으로 대체
  • 9. 2. 데이터 전처리 기법 > 데이터 통합 / 축소 • 여러 소스의 데이터를 통합하는 프로세스 • 데이터 통합 작업 : 1. 데이터 통합 2. 스키마 통합 3. 개체 식별 문제 4. 데이터 값 충돌 감지 및 해결 5. 데이터 통합에서 중복 처리 6. 데이터 통계
  • 10. 2. 데이터 전처리 기법 > 통합 사례 - 품목 / 제원 – 제원, 도해도… - 수리부속 – 청구, 수불… - 정비 – 정비이력, 작업관리… - 품목 / 제원 데이터 셋 - 수리부속 데이터 셋 - 정비 데이터 셋 ETL 툴 활용
  • 11. 2. 데이터 전처리 기법 > 변환 • 데이터 변환은 하나의 형식이나 구조에서 다른 형식이나 구조 로 데이터를 변환하는 프로세스 • 데이터 변환 : 1. 데이터에서 노이즈 제거 2. 새로운 속성 추가 3. 데이터에 요약 작업 또는 집계 작업 4. 데이터 정규화
  • 12. 2. 데이터 전처리 기법 > 변환 사례 데이터 전처리 툴(변환 및 추가) 데이터 베이스 관리 도구(조회) DBeaver
  • 13. 2. 데이터 전처리 기법 > Mistakes 구분
  • 15. 3. 도구소개 > D.Prep Architecture
  • 16. 3. 도구소개 > D.Prep 메인화면 • 메인화면
  • 17. 3. 도구소개 > D.Prep 메인화면 • 메인화면 > 데이터 조회
  • 18. 3. 도구소개 > D.Prep 제안 기능
  • 19. 3. 도구소개 > D.Prep 데이터 검색
  • 20. 3. 도구소개 > D.Prep 컬럼 변환 Semantic Data Type Customizing 가능
  • 21. 3. 도구소개 > D.Prep 데이터 정리
  • 22. 3. 도구소개 > D.Prep 단계별 처리