3. 빅데이터
품질 지표
및
평가 방법
빅데이터 품질
평가 도구
✓ 한국데이터진흥원
『데이터품질관리 성숙 모형』
기술표준 제정·배포,
데이터품질인증 제도 실시
✓ 행정안전부 『공공기관의 데이터베이스
품질 관리 지침』 배포
✓ 국내 5개 솔루션 기업이 대표적으로
데이터품질관리 도구를 개발·판매
✓ 금융·공공분야 대규모 사이트
위주로 도입
✓ 정형데이터와 데이터거버넌스
구축에 초점
개선분석측정정의
• 전문가 개입 • RDB만 지원
• SQL 기반
• 담당자 수작업
데이터품질
관리
LifeCycle
현황 문제점
4. 심사 영역 심사 항목 심사 내용
도 메 인
번호 번호 관련 데이터의 패턴 및 체크비트 심사
금액 금액 관련 데이터의 허용범위 심사
명칭 명칭 관련 데이터의 패턴 심사
수량 수량 관련 데이터의 허용범위 심사
분류 분류 관련 데이터의 표준정의 값 심사
날짜 날짜 관련 데이터의 허용범위 및 유효값 심사
비율 비율(%) 관련 데이터의 허용범위 심사
내용 내용 관련 데이터의 적용언어 패턴 심사
코드 코드 관련 데이터의 코드값 심사
키(key) 키(key) 관련 데이터의 참조무결성 심사
공통 데이터 표준 준수여부 심사
업 무 규 칙 업무규칙 데이터의 업무규칙 준수여부 심사
인증 등급 평가 기준
Platinum Class 정합률 99.97% / 5.0 시그마 이상
Gold Class 정합률 97.70% / 3.5 시그마 이상
Silver Class 정합률 95.51% / 3.2 시그마 이상
5. 구분 진단항목 설 명
유효성
여부 ‘여부’ 데이터(○○유무 등) 유효 값 오류 진단
날짜 날짜 형식의 ‘날짜’ 데이터 유효 값 오류 진단
코드 ‘코드’ 데이터 유효 값 오류 진단
번호 규칙이 있는 ‘번호’ 데이터 유효 값 오류 진단
정합성 참조값 관계를 갖는 데이터 사이의 일관성(참조무결성) 오류 진단
수준 평가 기준
1등급 오류율 0.01% 미만
2등급 오류율 0.1% 미만
3등급 오류율 0.5% 미만
4등급 오류율 1.0% 미만
5등급 오류율 1.0% 이상
평가영역 평가지표
평가구분
총괄지표(4개) 운영지표(5개)
계획영역(20점)
데이터 품질관리 기반(5점) ✔
데이터 품질관리 역량(5점) ✔
데이터 표준관리 체계(10점) ✔
구축영역(35점)
데이터 표준 적용 확산(15점) ✔
데이터 구조 안정화(15점) ✔
데이터 연계체계 정비(5점) ✔
운영영역(35점)
데이터 품질진단 및 개선(15점) ✔
오류 데이터 관리(20점) ✔
활용영역(10점) 데이터 활용성 제고(10점) ✔
7. (날짜, 코드) 데이터 규칙 적용
날짜
코드
4/32, 20170300
성별코드 : M, F, Z, 0
문서, 비정형
산업별
업무규칙 관리
축적/피드백
• 텍스트 전처리
• 사전 기반 분석
• 자연어 기반 분석
• 기계학습 기반 분석(분류, 군집화)
정상값
(수치) 이상값 탐지 : 아웃라이어
몸무게 130kg
몸무게 130kg
연령 4살
➢ 단일 항목 탐지
이상값
이상값
➢ 상관관계 복수 항목 탐지
몸무게 300kg
(텍스트) 오류, 중복 탐지
Text Data Clustering
인공지능 알고리즘
전처리
진단
개선
평가
13. 임상정보(Un-Labeled Data)
이상값탐지
임상정보 정상값 범위(Label)
결과 비교 및 알고리즘 검증
- 정확도
- 정밀도
- 재현율
학습 및 단변량,
다변량 이상값 예측
나이
이상치
맥박(회/분) 혈압(mmHb) 호흡수(회/분)
12개월 이하
50회 이하
300회 이상
수축기 200 이상
이완기 20 이하
20회 이하
200회 이상
6세 이하 수축기 200 이상
이완기 30 이하
10회 이하
200회 이상
12세 이하
5회 이하
200회 이상12세 이상
수축기 200 이상
이완기 40 이하
14.
15. 항목 구간 건수 정확도
맥박 전체 4,465,380 94.22%
이완기혈압
1세이하 164,311 96.09%
2~12세 224,522 98.18%
12세이상 3,956,934 99.25%
소계 4,345,767 99.08%
수축기혈압
1세이하 164,387 99.01%
2~12세 225,010 95.32%
12이상 3,968,259 98.92%
소계 4,357,656 98.74%
호흡수
1세이하 183,070 98.85%
2~6세이하 164,999 88.42%
6세이상 3,830,633 85.51%
소계 4,178,702 86.21%
단변량합계 12,882,125 94.79%
정확도(Accuracy) = (a + d) / (a + b + c + d)
정밀도(Precision) = a / (a + d)
재현율(Recall) = a / (a + b)
F1 Score = 2PR / (P + R)
항목 정밀도 재현율 F1-Score
맥박 99.20% 94.93% 97.02%
이완기 혈압 99.76% 99.31% 99.53%
수축기혈압 100.00% 98.74% 99.36%
호흡수 99.98% 86.21% 92.59%
단변량 합계 99.91% 94.85% 97.32%
19. 테이블 데이터 분석건수
진단검사결과
텍스트결과
(소변검사)
86,908건
검사결과 추천 검사결과 추천
LT.YELLOW
LT.YELLOW
Dark bloody
Dark bloody
LT. YELLOW Dark Bloody
Yellow
Yellow
LT. RED LT. RED
YELLOW DK. BROWN
DK. BROWN
Dark Yellow
Dark Yellow
DK.BROWN
DK. YELLOW DK. Brown
Dark yellow Dark brown
BROWN
BROWN
Dark Brown
Brown DK. RED DK. RED
Orange
Orange
LT. ORANGE LT. ORANGE
ORANGE Cloudy Cloudy
BLOODY
BLOODY
Green
Green
Bloody GREEN
BLoody Colorless Colorless
Straw Straw Other Other
Amber
Amber
Hazy Hazy
AMBER Mixed Bloody Mixed Bloody
Red
Red
Clear Clear
RED BLACK BLACK
DK. ORANGE
DK. ORANGE
Unable Unable
DK.ORANGE