SlideShare a Scribd company logo
1 of 21
Download to read offline
빅데이터 품질향상을 위한
머신러닝 적용 자동화 도구
위세아이텍 황덕열
빅데이터
품질 지표
및
평가 방법
빅데이터 품질
평가 도구
✓ 한국데이터진흥원
『데이터품질관리 성숙 모형』
기술표준 제정·배포,
데이터품질인증 제도 실시
✓ 행정안전부 『공공기관의 데이터베이스
품질 관리 지침』 배포
✓ 국내 5개 솔루션 기업이 대표적으로
데이터품질관리 도구를 개발·판매
✓ 금융·공공분야 대규모 사이트
위주로 도입
✓ 정형데이터와 데이터거버넌스
구축에 초점
개선분석측정정의
• 전문가 개입 • RDB만 지원
• SQL 기반
• 담당자 수작업
데이터품질
관리
LifeCycle
현황 문제점
심사 영역 심사 항목 심사 내용
도 메 인
번호 번호 관련 데이터의 패턴 및 체크비트 심사
금액 금액 관련 데이터의 허용범위 심사
명칭 명칭 관련 데이터의 패턴 심사
수량 수량 관련 데이터의 허용범위 심사
분류 분류 관련 데이터의 표준정의 값 심사
날짜 날짜 관련 데이터의 허용범위 및 유효값 심사
비율 비율(%) 관련 데이터의 허용범위 심사
내용 내용 관련 데이터의 적용언어 패턴 심사
코드 코드 관련 데이터의 코드값 심사
키(key) 키(key) 관련 데이터의 참조무결성 심사
공통 데이터 표준 준수여부 심사
업 무 규 칙 업무규칙 데이터의 업무규칙 준수여부 심사
인증 등급 평가 기준
Platinum Class 정합률 99.97% / 5.0 시그마 이상
Gold Class 정합률 97.70% / 3.5 시그마 이상
Silver Class 정합률 95.51% / 3.2 시그마 이상
구분 진단항목 설 명
유효성
여부 ‘여부’ 데이터(○○유무 등) 유효 값 오류 진단
날짜 날짜 형식의 ‘날짜’ 데이터 유효 값 오류 진단
코드 ‘코드’ 데이터 유효 값 오류 진단
번호 규칙이 있는 ‘번호’ 데이터 유효 값 오류 진단
정합성 참조값 관계를 갖는 데이터 사이의 일관성(참조무결성) 오류 진단
수준 평가 기준
1등급 오류율 0.01% 미만
2등급 오류율 0.1% 미만
3등급 오류율 0.5% 미만
4등급 오류율 1.0% 미만
5등급 오류율 1.0% 이상
평가영역 평가지표
평가구분
총괄지표(4개) 운영지표(5개)
계획영역(20점)
데이터 품질관리 기반(5점) ✔
데이터 품질관리 역량(5점) ✔
데이터 표준관리 체계(10점) ✔
구축영역(35점)
데이터 표준 적용 확산(15점) ✔
데이터 구조 안정화(15점) ✔
데이터 연계체계 정비(5점) ✔
운영영역(35점)
데이터 품질진단 및 개선(15점) ✔
오류 데이터 관리(20점) ✔
활용영역(10점) 데이터 활용성 제고(10점) ✔
ExamplesforBigDataQualityAssessment
Spain,China,UNECE,Italy
Accuracy
Completeness
Consistency
Credibility
Currentness
Accessibility
Compliance
Confidentiality
Efficiency
Precision
Traceability
Understandability
Availability
Portability
Recoverability
Others
Inherent
SystemDependent
QualityofData-ISO8000,25012,191XX
Quality Characteristic Structure of BDQ characteristics
Credibility
Accuracy
Completeness
Consistency
Impact factor of BDQ
Data Value
Structure
Standard
Maturity
(Organization,
Process, System)
Confidentiality Confidentiality
Clarity Clarity
Availability
Availability
Structural
standardization
Accessibility
Structural
standardization
manageability manageability
Currentness
Non Value
Common & Mandatory
Characteristics
빅데이터 특성 고려
(개인정보, 비정형, 외부데이터, 산업별 특수성 등)
Future BDQ
Current BDQ
Credibility
1
2
3
4
5
6
7
8
9
10
11
12
Derived Characteristics
(날짜, 코드) 데이터 규칙 적용
날짜
코드
4/32, 20170300
성별코드 : M, F, Z, 0
문서, 비정형
산업별
업무규칙 관리
축적/피드백
• 텍스트 전처리
• 사전 기반 분석
• 자연어 기반 분석
• 기계학습 기반 분석(분류, 군집화)
정상값
(수치) 이상값 탐지 : 아웃라이어
몸무게 130kg
몸무게 130kg
연령 4살
➢ 단일 항목 탐지
이상값
이상값
➢ 상관관계 복수 항목 탐지
몸무게 300kg
(텍스트) 오류, 중복 탐지
Text Data Clustering
인공지능 알고리즘
전처리
진단
개선
평가
학습
데이터
모델 학습
도메인자동
판별 모델신규 데이터
학습데이터
학습
데이터
통계/마이닝 기법 Supervised
Learning
이상값탐지
모델신규 데이터
➢ 단변량 탐지
➢ 다변량 탐지 ➢ 사용자정의
➢ 데이터 매칭
➢ 데이터 중복
임상정보(Un-Labeled Data)
이상값탐지
임상정보 정상값 범위(Label)
결과 비교 및 알고리즘 검증
- 정확도
- 정밀도
- 재현율
학습 및 단변량,
다변량 이상값 예측
나이
이상치
맥박(회/분) 혈압(mmHb) 호흡수(회/분)
12개월 이하
50회 이하
300회 이상
수축기 200 이상
이완기 20 이하
20회 이하
200회 이상
6세 이하 수축기 200 이상
이완기 30 이하
10회 이하
200회 이상
12세 이하
5회 이하
200회 이상12세 이상
수축기 200 이상
이완기 40 이하
항목 구간 건수 정확도
맥박 전체 4,465,380 94.22%
이완기혈압
1세이하 164,311 96.09%
2~12세 224,522 98.18%
12세이상 3,956,934 99.25%
소계 4,345,767 99.08%
수축기혈압
1세이하 164,387 99.01%
2~12세 225,010 95.32%
12이상 3,968,259 98.92%
소계 4,357,656 98.74%
호흡수
1세이하 183,070 98.85%
2~6세이하 164,999 88.42%
6세이상 3,830,633 85.51%
소계 4,178,702 86.21%
단변량합계 12,882,125 94.79%
정확도(Accuracy) = (a + d) / (a + b + c + d)
정밀도(Precision) = a / (a + d)
재현율(Recall) = a / (a + b)
F1 Score = 2PR / (P + R)
항목 정밀도 재현율 F1-Score
맥박 99.20% 94.93% 97.02%
이완기 혈압 99.76% 99.31% 99.53%
수축기혈압 100.00% 98.74% 99.36%
호흡수 99.98% 86.21% 92.59%
단변량 합계 99.91% 94.85% 97.32%
구분 구간 건수 정확도 정밀도 재현율 F1-Score
다변량
(맥박, 혈압, 호흡)
1세이하 115,057 98.39% 99.50% 98.87% 99.19%
2~6세 119,735 98.31% 99.44% 98.86% 99.15%
7~12세 55,298 98.41% 99.58% 98.81% 99.20%
12세이상 3,399,713 93.73% 98.61% 94.98% 96.77%
다변량 합계 3,689,803 94.10% 98.69% 95.29% 96.96%
테이블 데이터 분석건수
진단검사결과
텍스트결과
(소변검사)
86,908건
검사결과 추천 검사결과 추천
LT.YELLOW
LT.YELLOW
Dark bloody
Dark bloody
LT. YELLOW Dark Bloody
Yellow
Yellow
LT. RED LT. RED
YELLOW DK. BROWN
DK. BROWN
Dark Yellow
Dark Yellow
DK.BROWN
DK. YELLOW DK. Brown
Dark yellow Dark brown
BROWN
BROWN
Dark Brown
Brown DK. RED DK. RED
Orange
Orange
LT. ORANGE LT. ORANGE
ORANGE Cloudy Cloudy
BLOODY
BLOODY
Green
Green
Bloody GREEN
BLoody Colorless Colorless
Straw Straw Other Other
Amber
Amber
Hazy Hazy
AMBER Mixed Bloody Mixed Bloody
Red
Red
Clear Clear
RED BLACK BLACK
DK. ORANGE
DK. ORANGE
Unable Unable
DK.ORANGE
질의응답
감사합니다.

More Related Content

Similar to (주)위세아이텍 빅데이터 품질 향상을 위한 머신러닝 적용 자동화도구

[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질K data
 
품질관리 기본교육자료 #
품질관리 기본교육자료 #품질관리 기본교육자료 #
품질관리 기본교육자료 #Woongseok Yun
 

Similar to (주)위세아이텍 빅데이터 품질 향상을 위한 머신러닝 적용 자동화도구 (20)

대덕GDS (004130) 알고리즘 기업분석 보고서
대덕GDS (004130) 알고리즘 기업분석 보고서대덕GDS (004130) 알고리즘 기업분석 보고서
대덕GDS (004130) 알고리즘 기업분석 보고서
 
메가스터디 (072870) 프리미엄 기업분석 보고서 Plus
메가스터디 (072870) 프리미엄 기업분석 보고서 Plus메가스터디 (072870) 프리미엄 기업분석 보고서 Plus
메가스터디 (072870) 프리미엄 기업분석 보고서 Plus
 
하이쎌 (066980) 알고리즘 기업분석 보고서 Plus
하이쎌 (066980) 알고리즘 기업분석 보고서 Plus하이쎌 (066980) 알고리즘 기업분석 보고서 Plus
하이쎌 (066980) 알고리즘 기업분석 보고서 Plus
 
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
[2016 데이터 그랜드 컨퍼런스] 5 4(보안,품질). 비투엔 4차산업혁명의성공 데이터품질
 
안랩 (053800) 알고리즘 기업분석 보고서 Plus
안랩 (053800) 알고리즘 기업분석 보고서 Plus안랩 (053800) 알고리즘 기업분석 보고서 Plus
안랩 (053800) 알고리즘 기업분석 보고서 Plus
 
삼성물산 (028260) 알고리즘 기업분석 보고서
삼성물산 (028260) 알고리즘 기업분석 보고서삼성물산 (028260) 알고리즘 기업분석 보고서
삼성물산 (028260) 알고리즘 기업분석 보고서
 
메디톡스 (086900) 알고리즘 기업분석 보고서 Plus
메디톡스 (086900) 알고리즘 기업분석 보고서 Plus메디톡스 (086900) 알고리즘 기업분석 보고서 Plus
메디톡스 (086900) 알고리즘 기업분석 보고서 Plus
 
한국알콜 (017890) 알고리즘 기업분석 보고서 Plus
한국알콜 (017890) 알고리즘 기업분석 보고서 Plus한국알콜 (017890) 알고리즘 기업분석 보고서 Plus
한국알콜 (017890) 알고리즘 기업분석 보고서 Plus
 
삼립식품 (005610) 알고리즘 기업분석 보고서 Plus
삼립식품 (005610) 알고리즘 기업분석 보고서 Plus삼립식품 (005610) 알고리즘 기업분석 보고서 Plus
삼립식품 (005610) 알고리즘 기업분석 보고서 Plus
 
신송홀딩스 (006880) 알고리즘 기업분석 보고서
신송홀딩스 (006880) 알고리즘 기업분석 보고서신송홀딩스 (006880) 알고리즘 기업분석 보고서
신송홀딩스 (006880) 알고리즘 기업분석 보고서
 
품질관리 기본교육자료 #
품질관리 기본교육자료 #품질관리 기본교육자료 #
품질관리 기본교육자료 #
 
한국알콜 (017890) 알고리즘 기업분석 보고서
한국알콜 (017890) 알고리즘 기업분석 보고서한국알콜 (017890) 알고리즘 기업분석 보고서
한국알콜 (017890) 알고리즘 기업분석 보고서
 
슈넬생명과학 (003060) 알고리즘 기업분석 보고서 Plus
슈넬생명과학 (003060) 알고리즘 기업분석 보고서 Plus슈넬생명과학 (003060) 알고리즘 기업분석 보고서 Plus
슈넬생명과학 (003060) 알고리즘 기업분석 보고서 Plus
 
락앤락 (115390) 알고리즘 기업분석 보고서 Plus
락앤락 (115390) 알고리즘 기업분석 보고서 Plus락앤락 (115390) 알고리즘 기업분석 보고서 Plus
락앤락 (115390) 알고리즘 기업분석 보고서 Plus
 
SH에너지화학 (002360) 알고리즘 기업분석 보고서 TF
SH에너지화학 (002360) 알고리즘 기업분석 보고서 TFSH에너지화학 (002360) 알고리즘 기업분석 보고서 TF
SH에너지화학 (002360) 알고리즘 기업분석 보고서 TF
 
한미약품(128940)알고리즘기업분석보고서
한미약품(128940)알고리즘기업분석보고서한미약품(128940)알고리즘기업분석보고서
한미약품(128940)알고리즘기업분석보고서
 
녹십자셀 (031390) 알고리즘 기업분석 보고서 Plus
녹십자셀 (031390) 알고리즘 기업분석 보고서 Plus녹십자셀 (031390) 알고리즘 기업분석 보고서 Plus
녹십자셀 (031390) 알고리즘 기업분석 보고서 Plus
 
신송홀딩스(006880)알고리즘기업분석보고서plus
신송홀딩스(006880)알고리즘기업분석보고서plus신송홀딩스(006880)알고리즘기업분석보고서plus
신송홀딩스(006880)알고리즘기업분석보고서plus
 
대한제분(001130)알고리즘기업분석보고서plus
대한제분(001130)알고리즘기업분석보고서plus대한제분(001130)알고리즘기업분석보고서plus
대한제분(001130)알고리즘기업분석보고서plus
 
키이스트 (054780) 알고리즘 기업분석 보고서 Plus
키이스트 (054780) 알고리즘 기업분석 보고서 Plus키이스트 (054780) 알고리즘 기업분석 보고서 Plus
키이스트 (054780) 알고리즘 기업분석 보고서 Plus
 

More from wiseitech

(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 (주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 wiseitech
 
(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비
(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비
(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비wiseitech
 
(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼
(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼
(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼wiseitech
 
사업소개 클라우드 (중)
사업소개  클라우드 (중)사업소개  클라우드 (중)
사업소개 클라우드 (중)wiseitech
 
사업소개 클라우드 (영)
사업소개  클라우드 (영)사업소개  클라우드 (영)
사업소개 클라우드 (영)wiseitech
 
사업소개 공공정보 개방 (중)
사업소개  공공정보 개방 (중)사업소개  공공정보 개방 (중)
사업소개 공공정보 개방 (중)wiseitech
 
사업소개 공공정보 개방 (영)
사업소개  공공정보 개방 (영)사업소개  공공정보 개방 (영)
사업소개 공공정보 개방 (영)wiseitech
 
사업소개 데이터 거버넌스 (중)
사업소개  데이터 거버넌스 (중)사업소개  데이터 거버넌스 (중)
사업소개 데이터 거버넌스 (중)wiseitech
 
사업소개 데이터 거버넌스 (영)
사업소개  데이터 거버넌스 (영)사업소개  데이터 거버넌스 (영)
사업소개 데이터 거버넌스 (영)wiseitech
 
사업소개 기계학습(중)
사업소개  기계학습(중)사업소개  기계학습(중)
사업소개 기계학습(중)wiseitech
 
사업소개 기계학습(영)
사업소개  기계학습(영)사업소개  기계학습(영)
사업소개 기계학습(영)wiseitech
 
사업소개 빅데이터 분석과 활용(영)
사업소개  빅데이터 분석과 활용(영)사업소개  빅데이터 분석과 활용(영)
사업소개 빅데이터 분석과 활용(영)wiseitech
 
사업소개 빅데이터 분석과 활용(중)
사업소개  빅데이터 분석과 활용(중)사업소개  빅데이터 분석과 활용(중)
사업소개 빅데이터 분석과 활용(중)wiseitech
 
사업소개) 데이터 거버넌스
사업소개) 데이터 거버넌스사업소개) 데이터 거버넌스
사업소개) 데이터 거버넌스wiseitech
 
홈페이지 개편 클라우드
홈페이지 개편 클라우드홈페이지 개편 클라우드
홈페이지 개편 클라우드wiseitech
 
홈페이지 개편 빅데이터 분석과 활용
홈페이지 개편 빅데이터 분석과 활용홈페이지 개편 빅데이터 분석과 활용
홈페이지 개편 빅데이터 분석과 활용wiseitech
 
홈페이지 개편 머신러닝
홈페이지 개편 머신러닝홈페이지 개편 머신러닝
홈페이지 개편 머신러닝wiseitech
 
사업분야 공공정보개방
사업분야 공공정보개방사업분야 공공정보개방
사업분야 공공정보개방wiseitech
 
제품소개 Wise Advisor
제품소개 Wise Advisor제품소개 Wise Advisor
제품소개 Wise Advisorwiseitech
 
제품소개 Wise 3.0
제품소개 Wise 3.0제품소개 Wise 3.0
제품소개 Wise 3.0wiseitech
 

More from wiseitech (20)

(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색 (주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
(주)위세아이텍 - 비지도 학습을 적용한 유사 금형설계도면 검색
 
(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비
(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비
(주)위세아이텍 -인더스트리 4.0과 스마트 예측정비
 
(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼
(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼
(주)위세아이텍 - 피처 엔지니어링 기반의 머신러닝 플랫폼
 
사업소개 클라우드 (중)
사업소개  클라우드 (중)사업소개  클라우드 (중)
사업소개 클라우드 (중)
 
사업소개 클라우드 (영)
사업소개  클라우드 (영)사업소개  클라우드 (영)
사업소개 클라우드 (영)
 
사업소개 공공정보 개방 (중)
사업소개  공공정보 개방 (중)사업소개  공공정보 개방 (중)
사업소개 공공정보 개방 (중)
 
사업소개 공공정보 개방 (영)
사업소개  공공정보 개방 (영)사업소개  공공정보 개방 (영)
사업소개 공공정보 개방 (영)
 
사업소개 데이터 거버넌스 (중)
사업소개  데이터 거버넌스 (중)사업소개  데이터 거버넌스 (중)
사업소개 데이터 거버넌스 (중)
 
사업소개 데이터 거버넌스 (영)
사업소개  데이터 거버넌스 (영)사업소개  데이터 거버넌스 (영)
사업소개 데이터 거버넌스 (영)
 
사업소개 기계학습(중)
사업소개  기계학습(중)사업소개  기계학습(중)
사업소개 기계학습(중)
 
사업소개 기계학습(영)
사업소개  기계학습(영)사업소개  기계학습(영)
사업소개 기계학습(영)
 
사업소개 빅데이터 분석과 활용(영)
사업소개  빅데이터 분석과 활용(영)사업소개  빅데이터 분석과 활용(영)
사업소개 빅데이터 분석과 활용(영)
 
사업소개 빅데이터 분석과 활용(중)
사업소개  빅데이터 분석과 활용(중)사업소개  빅데이터 분석과 활용(중)
사업소개 빅데이터 분석과 활용(중)
 
사업소개) 데이터 거버넌스
사업소개) 데이터 거버넌스사업소개) 데이터 거버넌스
사업소개) 데이터 거버넌스
 
홈페이지 개편 클라우드
홈페이지 개편 클라우드홈페이지 개편 클라우드
홈페이지 개편 클라우드
 
홈페이지 개편 빅데이터 분석과 활용
홈페이지 개편 빅데이터 분석과 활용홈페이지 개편 빅데이터 분석과 활용
홈페이지 개편 빅데이터 분석과 활용
 
홈페이지 개편 머신러닝
홈페이지 개편 머신러닝홈페이지 개편 머신러닝
홈페이지 개편 머신러닝
 
사업분야 공공정보개방
사업분야 공공정보개방사업분야 공공정보개방
사업분야 공공정보개방
 
제품소개 Wise Advisor
제품소개 Wise Advisor제품소개 Wise Advisor
제품소개 Wise Advisor
 
제품소개 Wise 3.0
제품소개 Wise 3.0제품소개 Wise 3.0
제품소개 Wise 3.0
 

(주)위세아이텍 빅데이터 품질 향상을 위한 머신러닝 적용 자동화도구

  • 1. 빅데이터 품질향상을 위한 머신러닝 적용 자동화 도구 위세아이텍 황덕열
  • 2.
  • 3. 빅데이터 품질 지표 및 평가 방법 빅데이터 품질 평가 도구 ✓ 한국데이터진흥원 『데이터품질관리 성숙 모형』 기술표준 제정·배포, 데이터품질인증 제도 실시 ✓ 행정안전부 『공공기관의 데이터베이스 품질 관리 지침』 배포 ✓ 국내 5개 솔루션 기업이 대표적으로 데이터품질관리 도구를 개발·판매 ✓ 금융·공공분야 대규모 사이트 위주로 도입 ✓ 정형데이터와 데이터거버넌스 구축에 초점 개선분석측정정의 • 전문가 개입 • RDB만 지원 • SQL 기반 • 담당자 수작업 데이터품질 관리 LifeCycle 현황 문제점
  • 4. 심사 영역 심사 항목 심사 내용 도 메 인 번호 번호 관련 데이터의 패턴 및 체크비트 심사 금액 금액 관련 데이터의 허용범위 심사 명칭 명칭 관련 데이터의 패턴 심사 수량 수량 관련 데이터의 허용범위 심사 분류 분류 관련 데이터의 표준정의 값 심사 날짜 날짜 관련 데이터의 허용범위 및 유효값 심사 비율 비율(%) 관련 데이터의 허용범위 심사 내용 내용 관련 데이터의 적용언어 패턴 심사 코드 코드 관련 데이터의 코드값 심사 키(key) 키(key) 관련 데이터의 참조무결성 심사 공통 데이터 표준 준수여부 심사 업 무 규 칙 업무규칙 데이터의 업무규칙 준수여부 심사 인증 등급 평가 기준 Platinum Class 정합률 99.97% / 5.0 시그마 이상 Gold Class 정합률 97.70% / 3.5 시그마 이상 Silver Class 정합률 95.51% / 3.2 시그마 이상
  • 5. 구분 진단항목 설 명 유효성 여부 ‘여부’ 데이터(○○유무 등) 유효 값 오류 진단 날짜 날짜 형식의 ‘날짜’ 데이터 유효 값 오류 진단 코드 ‘코드’ 데이터 유효 값 오류 진단 번호 규칙이 있는 ‘번호’ 데이터 유효 값 오류 진단 정합성 참조값 관계를 갖는 데이터 사이의 일관성(참조무결성) 오류 진단 수준 평가 기준 1등급 오류율 0.01% 미만 2등급 오류율 0.1% 미만 3등급 오류율 0.5% 미만 4등급 오류율 1.0% 미만 5등급 오류율 1.0% 이상 평가영역 평가지표 평가구분 총괄지표(4개) 운영지표(5개) 계획영역(20점) 데이터 품질관리 기반(5점) ✔ 데이터 품질관리 역량(5점) ✔ 데이터 표준관리 체계(10점) ✔ 구축영역(35점) 데이터 표준 적용 확산(15점) ✔ 데이터 구조 안정화(15점) ✔ 데이터 연계체계 정비(5점) ✔ 운영영역(35점) 데이터 품질진단 및 개선(15점) ✔ 오류 데이터 관리(20점) ✔ 활용영역(10점) 데이터 활용성 제고(10점) ✔
  • 6. ExamplesforBigDataQualityAssessment Spain,China,UNECE,Italy Accuracy Completeness Consistency Credibility Currentness Accessibility Compliance Confidentiality Efficiency Precision Traceability Understandability Availability Portability Recoverability Others Inherent SystemDependent QualityofData-ISO8000,25012,191XX Quality Characteristic Structure of BDQ characteristics Credibility Accuracy Completeness Consistency Impact factor of BDQ Data Value Structure Standard Maturity (Organization, Process, System) Confidentiality Confidentiality Clarity Clarity Availability Availability Structural standardization Accessibility Structural standardization manageability manageability Currentness Non Value Common & Mandatory Characteristics 빅데이터 특성 고려 (개인정보, 비정형, 외부데이터, 산업별 특수성 등) Future BDQ Current BDQ Credibility 1 2 3 4 5 6 7 8 9 10 11 12 Derived Characteristics
  • 7. (날짜, 코드) 데이터 규칙 적용 날짜 코드 4/32, 20170300 성별코드 : M, F, Z, 0 문서, 비정형 산업별 업무규칙 관리 축적/피드백 • 텍스트 전처리 • 사전 기반 분석 • 자연어 기반 분석 • 기계학습 기반 분석(분류, 군집화) 정상값 (수치) 이상값 탐지 : 아웃라이어 몸무게 130kg 몸무게 130kg 연령 4살 ➢ 단일 항목 탐지 이상값 이상값 ➢ 상관관계 복수 항목 탐지 몸무게 300kg (텍스트) 오류, 중복 탐지 Text Data Clustering 인공지능 알고리즘 전처리 진단 개선 평가
  • 8.
  • 10.
  • 12. ➢ 단변량 탐지 ➢ 다변량 탐지 ➢ 사용자정의 ➢ 데이터 매칭 ➢ 데이터 중복
  • 13. 임상정보(Un-Labeled Data) 이상값탐지 임상정보 정상값 범위(Label) 결과 비교 및 알고리즘 검증 - 정확도 - 정밀도 - 재현율 학습 및 단변량, 다변량 이상값 예측 나이 이상치 맥박(회/분) 혈압(mmHb) 호흡수(회/분) 12개월 이하 50회 이하 300회 이상 수축기 200 이상 이완기 20 이하 20회 이하 200회 이상 6세 이하 수축기 200 이상 이완기 30 이하 10회 이하 200회 이상 12세 이하 5회 이하 200회 이상12세 이상 수축기 200 이상 이완기 40 이하
  • 14.
  • 15. 항목 구간 건수 정확도 맥박 전체 4,465,380 94.22% 이완기혈압 1세이하 164,311 96.09% 2~12세 224,522 98.18% 12세이상 3,956,934 99.25% 소계 4,345,767 99.08% 수축기혈압 1세이하 164,387 99.01% 2~12세 225,010 95.32% 12이상 3,968,259 98.92% 소계 4,357,656 98.74% 호흡수 1세이하 183,070 98.85% 2~6세이하 164,999 88.42% 6세이상 3,830,633 85.51% 소계 4,178,702 86.21% 단변량합계 12,882,125 94.79% 정확도(Accuracy) = (a + d) / (a + b + c + d) 정밀도(Precision) = a / (a + d) 재현율(Recall) = a / (a + b) F1 Score = 2PR / (P + R) 항목 정밀도 재현율 F1-Score 맥박 99.20% 94.93% 97.02% 이완기 혈압 99.76% 99.31% 99.53% 수축기혈압 100.00% 98.74% 99.36% 호흡수 99.98% 86.21% 92.59% 단변량 합계 99.91% 94.85% 97.32%
  • 16.
  • 17. 구분 구간 건수 정확도 정밀도 재현율 F1-Score 다변량 (맥박, 혈압, 호흡) 1세이하 115,057 98.39% 99.50% 98.87% 99.19% 2~6세 119,735 98.31% 99.44% 98.86% 99.15% 7~12세 55,298 98.41% 99.58% 98.81% 99.20% 12세이상 3,399,713 93.73% 98.61% 94.98% 96.77% 다변량 합계 3,689,803 94.10% 98.69% 95.29% 96.96%
  • 18.
  • 19. 테이블 데이터 분석건수 진단검사결과 텍스트결과 (소변검사) 86,908건 검사결과 추천 검사결과 추천 LT.YELLOW LT.YELLOW Dark bloody Dark bloody LT. YELLOW Dark Bloody Yellow Yellow LT. RED LT. RED YELLOW DK. BROWN DK. BROWN Dark Yellow Dark Yellow DK.BROWN DK. YELLOW DK. Brown Dark yellow Dark brown BROWN BROWN Dark Brown Brown DK. RED DK. RED Orange Orange LT. ORANGE LT. ORANGE ORANGE Cloudy Cloudy BLOODY BLOODY Green Green Bloody GREEN BLoody Colorless Colorless Straw Straw Other Other Amber Amber Hazy Hazy AMBER Mixed Bloody Mixed Bloody Red Red Clear Clear RED BLACK BLACK DK. ORANGE DK. ORANGE Unable Unable DK.ORANGE
  • 20.