3. 1. 데이터 전처리란?
• 데이터 전처리는 분석 및 처리에 적합한 형식으로 데이터를 조작하는 것을 의미함
60% ~ 80%
이미지출처 : http://www.datapreparator.com/what_is_data_preparation.html
많은 다른 업무를 포함하고
완전히 자동화 될 수 없는 과정
4. 1. 데이터 전처리란? > 데이터 중요성
출처 : http://www.fntoday.co.kr/news/articlePrint.html?idxno=167146 출처 : http://news.mt.co.kr/mtview.php?no=2018060514530725344
5. 1. 데이터 전처리란? > 데이터 중요성
• GIGO(Garbage In Garbage Out)
이미지 출처 : http://www.nkkhoo.com/2012/12/09/garbage-in-garbage-out/
※자료의 정합성과 가치에 따라서 결과가 다르다
6. 2. 데이터 전처리 기법
이미지 출처 : https://cloudera2017.wordpress.com/2017/09/02/1182/
데이터 정제
결측값을 채우거나 이상치를 제거하는 과정을
통해 데이터의 신뢰도를 높이는 작업
데이터 통합
다수의 정제된 데이터를 통합하여 표현하는 작업
데이터 변환
데이터 마이닝의 효율을 높이기 위한 변환 및 변형
데이터 정리
데이터 크기를 축소하지만 동일한 분석결과를
만드는 작업
7. 2. 데이터 전처리 기법 > 데이터 정제
• 레코드 집합, 테이블 또는 데이터베이스에서 손상되거나 부정확 한 레코드
를 검색 및 수정 (또는 제거)하는 프로세스
• 모순점 포착
1. 데이터 입력에서 사람의 실수로 발생
2. 데이터 표현의 모순
3. 일치하지 않는 코드의 사용
4. 원래의 의도와 다른 목적으로 사용
• 메타데이터 확인
1. 데이터 타입과 속성은 무엇인가?
2. 값의 범위는 어떻게 되는가?
3. 속성의 표준편차는 무엇인가?
4. 데이터 이상치 및 결측 값은 무엇인가?
8. 2. 데이터 전처리 기법 > 정제 사례
데이터 오류
(이상값)
데이터 오류(날짜오류)
데이터
결측값
이상값/결측값 처리 방안
- 단순 삭제
- 다른 값으로 대체
9. 2. 데이터 전처리 기법 > 데이터 통합 / 축소
• 여러 소스의 데이터를 통합하는 프로세스
• 데이터 통합 작업 :
1. 데이터 통합
2. 스키마 통합
3. 개체 식별 문제
4. 데이터 값 충돌 감지 및 해결
5. 데이터 통합에서 중복 처리
6. 데이터 통계
10. 2. 데이터 전처리 기법 > 통합 사례
- 품목 / 제원 – 제원, 도해도…
- 수리부속 – 청구, 수불…
- 정비 – 정비이력, 작업관리…
- 품목 / 제원 데이터 셋
- 수리부속 데이터 셋
- 정비 데이터 셋
ETL 툴 활용
11. 2. 데이터 전처리 기법 > 변환
• 데이터 변환은 하나의 형식이나 구조에서 다른 형식이나 구조 로 데이터를
변환하는 프로세스
• 데이터 변환 :
1. 데이터에서 노이즈 제거
2. 새로운 속성 추가
3. 데이터에 요약 작업 또는 집계 작업
4. 데이터 정규화
12. 2. 데이터 전처리 기법 > 변환 사례
데이터 전처리 툴(변환 및 추가)
데이터 베이스 관리 도구(조회)
DBeaver