SlideShare a Scribd company logo
1. 기존 표준 분석 반영
2. 평가 모델 고도화
평가 모델 및 환경 구축
3
1. 머신러닝 파이프라인
2. 데이터 생성 방법
학습/평가 데이터 생성 및 구축
2
1. 사업 소개
2. 기존 사례
3. 법무부 요구사항
4. 기반환경 구축
사업 개요
1
1. 평가 시스템 구축
2. 결과 사례
평가 수행
4
AI 평가 모델
5
사업 개요
4
사업소개 - 안면인식의 필요성 (인천공항 법무부)
5
사업소개 - 안면인식의 필요성 (인천공항 법무부)
법무부의 고민 – 현재 NEC (일본) 제품을 사용 -> 국산화의 의지가 큼
한국 제품으로 교체하고 싶으나 NEC와 경쟁력 차이가 매우 큼.
한국 1위 업체, 전 세계 61위 / 127 (미국 국립 표준 기술연구소 FRVT)
단순한 이미지 위주 평가모델보다, 우리 상황에 적합한 평가 모델 필요
과기부 안면 인식 업체의 학습 데이터 제공으로 글로벌 경쟁력을 올리고 싶다.
학습 전후의 모델의 경쟁력을 객관화 하여 사전/사후 평가
평가 모델을 국내/국외 표준에 반영
궁극적인 목표 : 안면 인식 업체의 모델/솔루션의 고도화에 도움 (환경, 학습)
법무부 상황에 맞는 평가 모델을 개발/고도화하고 평가 시행.
과기부는 정량적 지표로 사업 성과를 측정, 평가 모델의 표준화 확립.
안면인식 시험 해외 사례 - NIST 미국 국립
표준 기술연구소 - FRVT
• 이미지 위주의 평가 분석
• C/C++ 언어만 지원 (DLL로 제출, 언어의
제약이 심함)
• GPU가 없는 제한된 환경에서 테스트
(임베디드 환경)
• 1:1(Verification)의 특정 조건에 통과해야
만, 1:N(Identification) 이후 테스트에
진입 가능
• 오랜 기간 수행하는 안정성 테스트 없음
• 이상행동 테스트 없음
• 영상 테스트는 존재하나 1분 내의 동영
상을 다 읽고 판별 (실시간성 부족)
FERET의 이미지 데이터 샘플
• 얼굴인식 분야에 평가 기법을 도입하는 프로토타입 수준(정확성) 평가
• 기준 이미지와 변화 별 이미지와의 매칭을 통한 성능 비교평가
• 평가 지표: 검증률(verification rate: 맞는 사람을 잘 받아들일 확률),
타인수락률(False Accept Rate: 타인을 수락하는 오류율) 등
• 안면인식 시스템의 상업적 이용 가능성 대한 기술적인 평가
• 평가항목은 FERET에서 발전하여 압축, 거리, 조명, 포즈, 해상도 등의 변화에
따른 성능을 실험
• 실제 상황에서 발생 가능한 정지 영상 시나리오로 잘 작동하는지 평가
• 대용량의 이미지 데이터베이스(121,589개의 얼굴영상)를 활용하여 매칭
비교 성능 평가를 수행하는 고 계산도 시험 수행 (242시간 동안 150억 번
비교 수행)
• 정지 영상 매체와 동영상 매체의 성능을 평가하는 매체 계산 시험 수행
• 전 시험 과정을 완전 자동화
6
시사점
FERET(FacE REcognition Technology) [1993년 ~ 1997년]
FRVT(Face Recognition Vendor Test) [2000년]
FRVT(Face Recognition Vendor Test) [2008년]
• 다양한 밴더들이 참가할 수 있게
표준화된 Restful API 인터페이스 제공
• 공항 상황에서 여권 인식을 잘 수행
하기 위한 최적화된 모델
• 인식률도 중요하나, 평균 5초, 최대
20초 안에 결과 출력 필수 됨
• 공항 상황에 최적화된 1:N (Identification) 인식 테스트 모델
• 인식률 이외에, 인식 성공, 실패 판단 시간 평균 5초, 최대 20초 이내
• 정확도 및 만족도를 체크하는 알고리즘 테스트 (다양한 이미지 셋)
• 이미지 셋의 구성 테스트 (모든 알고리즘에서 비슷하게 동작하는지)
• 인식하는데 걸리는 시간
• 만족도 (지원자가 Very Happy ~ Very Unhappy)
• 얼굴, 홍채 획득 실패와 시간
• 얼굴, 홍채 인식률 (밴더 정확률, MdTF 정확률 두 개를 뽑아 비교)
안면인식 시험 해외 사례 - 미국 국토안보부
MdTF (Maryland Test Facility)
시사점
배경
개발방법
평가지표
7
안면인식 시험 해외 사례 –영국정부 i-LDS
• 평가요소 및 성능 기준에 대한
사용자와 협의 필요
• 사용 환경을 고려한 평가항목 및
실험 데이터 구성 체계 필요
• 특정 업체에 유리하며 요구에 부합
하지 않은 평가항목을 제외하기 위
해 동종 업체들과의 협의 필요
(객관적이고 공정한 평가를 위해)
다중 카메라에 의한 식별추적 예시
시사점
배경
개발방법
평가지표
• 영국 경찰과 정부에서 지능형 보안 이벤트(이상행동 패턴) 검출
시스템에 대한 요구가 증가하였으나, 현존 시스템들에 대한
평가 신뢰성 부족 (2006년 사례)
• 카메라 기반 실외 지능형 보안 시스템의 일반적 신뢰성 평가 방안 검토
• 학교/기업과 정부/경찰 등의 소비자와 협의를 통해 개발
(수요자와 공급자 간의 협의를 통해 개발)
• 실제 상황을 반영하여 CCTV로 시나리오 별 데이터 집합 제작
• 이벤트 시나리오: 설정된 기간 동안 이벤트 검출 시 성공으로 간주,
다수 검출 시 검출 오류로 판단 (인식률에 의한 정확성)
• 다중 카메라 객체 추적: 추적 객체 영역과 인식된 객체 영역과의
거리 비교 (오차에 의한 정확성)
BFRWD5
법무부의 요구사항
• 8채널 동시 테스트
• 실시간 이상행동 감지 테스트
• 공항에 최적화된 테스트 환경
다중 카메라에 의한 식별추적 예시
시사점
배경
개발방법
평가지표
• 공항 상황에 최적화된 안면인식/ 이상행동 알고리즘 도출
• 낮은 해상도에서도 안면인식 알고리즘의 동작여부.
• 실시간으로 이상행동을 감지.
• 실시간 스트리밍으로 안면인식/ 이상행동을 판별해야 함.
• 8개의 채널을 1대의 GPU서버에서 처리
Nvidia Geforce RTX 2080,CPU 10 Core, 512GB
• 이미지 테스트 : 1:1, 1:N
• 동영상 안면인식 테스트 : 1:1, 1:N
• 동영상 이상행동 테스트 : 이상행동 4종 , 이상행동 4종 + 안면인식
BFRWD5
10
수행일정 - 예
랩 구성 및 환경 구축 데이터 학습 및 생성 테스트 반복적 수행
트랙 1,2 업체
이상행동 데이터 생성
누리꿈스퀘어 실증/검증 랩 오픈
이상행동 학습 공간 구성
이미지 기반 테스트
(학습 전)
이상행동
테스트(학습 전)
랩 구성 및 환경 구축 데이터 학습 및 생성 테스트 반복적 수행
학습환경 및
검증환경 구성
6월 9월 12월
인천공항
(법무부)
4월
이미지 기반 인식 테스트 반복적 수행
(학습 후)
5월 7월 8월
1만개 이상행동
데이터 생성 랩
랩
구성
1만 클립
동영상 데이터 생성
500개
이미지 생성
검증 데이터
가공
누리꿈스퀘어
실증/검증 랩
안면 인식 이미지
데이터 학습
이상행동 영상
데이터 학습 및 가공
이상행동 테스트 반복적 수행
(학습 후)
10월 11월
기반환경 구축
*조도 ⊙ : 형광등 6개 ON 기준, ◎ : 형광등 2개 ON
구분
조도(lx)
카메라 설치 높이(m)
①경계시작위치 ②중앙위치 ③경계끝위치
1:1 구역 ⊙: 350~400 ◎: 10~30 1.5
심사대기 구역
⊙: 650~750
◎: 350~400
⊙: 600~700
◎: 350~400
⊙: 700~750
◎: 350~400
2.6
무인심사 구역
⊙: 300~400
◎: 10~50
⊙: 300~400
◎: 30~50
⊙: 350~400
◎: 30~70
기반환경 구축
[심사대기 구역]
[유인심사대 구역]
기반환경 구축
[심사대기구역 CCTV 시야]
기반환경 구축
[심사대기구역 CCTV 시야]
[무인심사대 CCTV 시야]
학습 / 평가 데이터 생성및 구축
16
머신러닝 파이프라인
1억 1천만명 외국인 데이터
5000개의 이상행동 데이터
1천만명 외국인 데이터
5000개의 이상행동 검증 데이터
안면인식 이미지 구성 (19년도)
17
• 안면 인식 테스트를 위한 검증 데이터 구성
- 개인 당 최대 3종의 안면 인식 데이터 제공 예정 (여권사진, 게이트 통과 사진 , 자동 게이트 통과 사진)
- 제한된 사진에서 다양하게 폭 넓은 안면 데이터 구성
성인 남성과 여성 (20 ~ 39세), 중장년 남성과 여성 (40 ~ 75세), 유아, 청소년 남성과 여성 (0세 ~ 19세)
동일 인물의 과거 사진이 있다면 추적하여 시계열로 구성
• 안면 변화 요인 총 8개: 각도, 표정, 악세서리, 조명, 배경, 옷, 헤어스타일, 화장한 것을 최대한 찾아내서 검증 데이터 구성
각도(D)
정면
상
하
좌
우
좌상
우상
좌하
우하
표정(F)
무표정
찡그림
웃음
눈감음
악세서리(A)
모자
목베개
사탕(막대사탕)
마스크(턱밑)
안경
귀걸이
안경 + 모자
모자 + 사탕
조명
밝음
좌
우
역광
어두움
배경(B)
단색
혼합
옷(C)
단색
혼합
헤어스타일(H)
올림
내림
푼머리
묶은머리
화장(M)
일반
기초
[안면 데이터 변화 요인]
안면인식 평가 이미지 구성 (20년도)
18
•대륙별, 나이별등을 고려한 균등 분포로 평가 데이터 셋 구성
안면인식 평가 이미지 구성 (20년도)
19
• 325,090장에서 검증 데이터 셋 프로그램을 통해, 다음과 같이 평가 데이터 셋 추출
• 1:N 데이터 셋 (60,000장)
- 검증횟수는 총 5만번 테스트, 등록인 3만장, 검증인 (등록인과 동일하지만 다른 사진 3만장 + 비 등록인 2만장)
- 비 등록인 사진 2만장은 1:1 데이터 셋에서 재활용 가능하므로 사용 셋에서 제외
• 1:1 데이터 셋 (23,546장)
- 265,090장에서 1:1의 2만 5천회 테스트를 위해 23,546장 데이터 추출 (유니크하게 식별 가능한 사람)
Ex. A1, A2 (동일인 비교)
B1, C1 (비 동일인 비교)
A1, B1 (비 동일인 비교) – 단 B1, A1 테스트가 다시 되지 않도록 예외 처리하여 데이터 셋 구성
- 2만 5천회 테스트를 위해 A1 사진이 중복되어 다시 사용되는 것(위 예시 참고)처럼 꼭 5만장이 사용되지 않아도 됨
단위(장) 동남아 아시아 중동 유럽 북미 남미 아프리카 총계
10대 2,197 2,060 836 1,889 1,683 16 385 9,066
20대 2,512 2,419 2,302 2,314 2,366 1,045 2,349 15,307
30대 2,041 2,121 2,244 2,155 2,101 582 2,124 13,368
40대 2,011 2,090 2,053 2,127 2,159 397 1,987 12,824
50대 2,175 2,099 2,119 2,245 2,143 263 2,059 13,103
60대 2,087 2,082 2,105 2,122 2,005 138 1,287 11,826
70대이상 1,489 1,508 1,567 1,509 1,612 49 318 8,052
총계 14,512 14,379 13,226 14,361 14,069 2,490 10,509 83,546
[ 검증 데이터 셋 ]
이상행동 데이터 학습 데이터 생성
• 동영상에서 1:1, 1:N 식별
• 이상행동 요구사항
- 총 4종류의 이상행동 감지: 돌진, 역방향 이동, 사람이 물건을 장시간 놓고 사라지는 행위, 2인 감지
(단, 2인 감지 행위는 자동출입국심사구역에서만 발생)
- 복합 시나리오 : 돌진+방치, 돌진+돌진, 방치+방치 조합 등
- 이상 행동시 4채널 카메라에서 사용자를 추적하여 식별 필요 등
이상행동
종류
이벤트 시작기준 이벤트 종료기준
2인 감지
• 두 사람의 두 발이 완전하게 평가
영역 바닥에 들어온 순간
• 최소 한 사람의 두 발이 완전하
게 평가 영역에서 나가는 순간
돌진
• 객관적으로 뛰는 동작이 시작되
는 순간
• 객관적으로 뛰는 동작이 종료
되는 순간
역주행
• 몸이 바라보는 방향은 상관없이
이동 방향 성분에서 반대 방향 성
분이 있는 순간
• 역방향으로 이동 성분이 사라
지는 순간
장시간
물건 방치
• 신체에서 물건이 떨어지고 5초 지
난 순간
• 어느 누구든 신체 일부가 물체
에 닿는 순간
[이상행동 정의]
돌진
장시간 물건 방치
이상행동 데이터 학습 데이터/ 평가 데이터 구성
구분 전체 안면인식 1:1 안면인식 1:N 이상행동 안면인식 + 이상행동
개수 11,465 585 880 8,628 1,372
동영상 촬영 모델 연령별 비율
10대 20대 30대 40대 50대 합 계
11 39 43 13 11 117
9.4% 33.3% 36.7% 11.1% 9.4% 100%
동영상 촬영 모델 남녀 비율
남성 여성 합 계
69 48 117
59% 41% 100%
• 동영상 검증 데이터
- 이번 과제의 정확성 및 시스템 안정성 평가를 위한 평가 항목별 동영상 데이터 생성 개수는 11,465개이다. 동영상 촬영
모델은 연령별로 10대부터 50대까지, 남성과 여성의 6:4 비율로 구성함. 거리 및 각도, 시선은 배우 별로 최대한 동일하게
연출되도록 하였으며, 충분한 설명과 1인당 약 3시간 이상의 영상 촬영을 통해 목적에 맞는 데이터 생성함
이상행동 데이터 학습 데이터/ 평가 데이터 구성
- 이상행동 검증용으로 만든 10,000개의 영상 중 실증업체에게 학습 데이터 용으로 총 5,000건의 영상 데이터를 전달함.
실증기업들은 주어진 데이터를 활용해 각 평가모델의 고도화 학습을 진행함.
구 분 검증 내용 촬영구역 촬영지역 학습용 데이터(라벨링O) 학습용 데이터(라벨링X)
이상행동 감지
돌진
심사대기 용인 280 1,120
유인심사 용인 10 40
무인심사 상암 10 40
물건방치
심사대기 용인 280 1,120
유인심사 용인 14 66
무인심사 상암 14 66
역방향
유인심사 용인 20 90
무인심사 상암 20 90
2인감지
유인심사 용인 20 90
무인심사 상암 20 90
복합(돌진+방치) 심사대기 용인 160 608
복합(돌진+역방향)
유인심사 용인 10 30
무인심사 상암 10 30
안면인식+이상행동 감지
돌진
심사대기 용인 32 128
유인심사 용인 6 20
무인심사 상암 6 20
물건방치
심사대기 용인 32 128
유인심사 용인 6 20
무인심사 상암 6 20
역방향
유인심사 용인 6 20
무인심사 상암 6 20
2인감지
유인심사 용인 6 20
무인심사 상암 6 20
복합(돌진+방치) 심사대기 용인 16 96
복합(돌진+역방향)
유인심사 용인 2 4
무인심사 상암 2 4
Total 1,000 4,000
평가 모델 및 환경 구축
기존 표준 분석 반영
[ FRVT ]
평가
유형
설명
FRVT
1:1
얼굴 인식 알고리즘 평가 및 몇 가지 다른 데이터 세트에서
FNMR (False Non-Match Rate)로 측정 된 최고 1 : 1 성능의
알고리즘 평가
FRVT
1:N
FRVT 1:1에서 비자 사진 , 범죄자 사진 인식율이 높은 업체만
심사 참여 가능, 다수의 아이덴티티가 등록 된 갤러리를 검색
하는 일 대 N 얼굴 인식 알고리즘의 정확도와 속도 향상 측정
FRVT
MoRPH
얼굴 탐지 알고리즘의 지속적인 평가
프로토 타입 얼굴 탐지 기술에 대한 지속적인 독립적 테스트를 제공
1. 스틸 사진의 얼굴 모핑 (모핑 / 블렌드 된 얼굴)을 감지하
는 알고리즘 기능
2. 모핑에 대한 얼굴 인식 알고리즘 저항
FRVT
Quality
Assesment
얼굴 이미지 품질 평가
단일 이미지에서 품질 스칼라의 알고리즘 출력을 평가
Face In
Video
Evaluation
실시간 스트리밍이 아닌 1분 내외의 녹화한 비디오를 입력으
로 주고 1분동안 다 읽은 후 결과를 반환 (영상에 1사람, 여러
사람, 사람이 없을 수도 있음)
DB에 등록된 사람중에 유사도가 높은 순으로 여러 후보와 해
당하는 유사도를 출력
평가
유형
설명
이미지
획득
시스템
평가
ㅇ RESTful API (HTTP) 로 통신
ㅇ 평가 항목
- Failure to Acquire Rate
- 이미지 획득 시간: 평균 10 초 이내 충족
- True Identification Rate:
보유한 여러 매칭 알고리즘 수행후 95 % 이상 식별해 내는가?
- 획득한 이미지가 여러 매칭 알고리즘에서 일관성 있게 동작 하는가
- 사용자들이 평가 반영
매칭
알고리
즘 평가
ㅇ RESTful API HTTP 서버 기능이 있는 docker container를 제공
ㅇ 이미지를입력으로받아이미지성질을분석해저장한템플릿출력
ㅇ 평가 항목
- True Identification Rate 와 False Matching Rate 비율
1:10,000, 1:100,000, 1:1,000,000
- 충족 조건: FMR 1:10,000에서 정확도 95% 이상
- 각각 이미지 획득 시스템으로부터 얻어진 이미지를 사
용하여 측정
- 이미지 획득 시스템에 민감하지 않게 잘 작동 하는가
- 인식을 성공하든, 실패하든 최대 20초, 평균 5초 이내 수행
[ MdTF ]
평가 모델 고도화
• 평가 모델 요구사항
- 파일이 아닌 ‘실시간‘ 기반 알고리즘 검증
- 8개의 채널을 각각 독립적으로 병렬처리
- 자동 검증구역(무인, 유인, 심사대기구역 등) 탐지
구분 작년 올해
입력 영상 수
- 동기화된 4개 영상 처리
- 영상이 동기화 되어있기 때문에 1번 영상에서명확하게보이지
않는얼굴등을2번 또는 3번 영상을 이용해 상호 보완하여
올바르게 식별, 추적
- 동기화되지 않은 8개 영상 처리
- 영상이 동기화 되지 않기 때문에 상호 보완 없이 식별, 추적
- 1:N이나 이상행동 모두 한 각도에서만 바라보기 때문에 특정
카메라에서 부족한 정보를 보완할 방법이 없음
동영상 1:N
값의 반환
- 동기화된 4개 영상을 비교 해석하여 1개의 답 산출
- 1개의 답을 EMR, NMR, FPR, IT로 검증
- 알고리즘은 실제 영상에 등장한 사람에대한시간대범위중‘단
한번’누가 언제 나타났는지 예측
- 동기화되지 않은 8개 영상을 각각 해석하여 8개의 답 산출
- 각8개의답을Recall,Precision으로검증
- 알고리즘은 실제 영상에 등장한 사람의시간대범위중‘누가
언제부터언제까지’영상에 등장했는지 예측
- 인식 시간은 Recall에 포함
이상행동
영상 종류 판단
- 4개 영상에 대한 정보 제공
Ex. 4개의 영상 송출 과정에서 각각의 영상이 테스트베드 중 어느
위치에 설치된 카메라인지 정보 제공 (즉, 영상 마다 감지해야하는
이상 행동 종류를 알려줌)
- 8개 영상에 대한 정보 미제공
Ex. 8개 영상 송출 중 무인 및 유인 심사대, 심사대기구역 등이
무작위로 송출될 때, 알고리즘은 영상을 해석하여 유인심사대인지,
심사대기구역인지등을자동으로예측한 뒤 각각 영상에서
감지해야하는 이상행동의 종류를 스스로 판단하고 결과 값 산출
테스트베드 변화 - 테스트베드는 최대 10m x 4.5m 크기 - 테스트베드는 13.6m x 7m로 확장
[ 요구사항 기반 검증 지표 고도화 ]
평가 모델 – 안면인식 이미지
• 안면인식 시스템 성능평가 [이미지]
- 이미지 1:1 평가: 두 개의 이미지를 입력 받아 두 이미지가 같은 사람인지 다른 사람인지 판단
- 이미지 1:N 평가: 하나의 이미지를 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
거짓 부정 식별율 (FNIR)
(False Negative Identification Rate)
실제로 등록된 사람 중,
알고리즘이 비등록인으로 판단하거나 등록된 사람을 잘못 판단한 비율
거짓 긍정 식별율 (FPIR)
(FalsePositiveIdentificationRate)
실제로 등록되지 않은 사람 중,
알고리즘이 등록된 사람이라고 판단한 비율
평가 모델 – 안면인식 동영상
• 안면인식 시스템 성능평가 [동영상]
- 동영상 1:1 검증 : 하나의 여권 사진과 동영상에 등장하는 사람이 같은 사람인지 다른 사람인지 판단
- 동영상 1:N 검증: 하나의 동영상을 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
재현율 (Recall)
영상에서 실제로 사람이 등장한 ‘tight interval’ 범위 중,
알고리즘이 누구인지 맞춘 시간대 비율
정밀도 (Precision)
알고리즘이 예측한 사람의 등장 시간대 범위 중,
영상에서 실제로 사람이 등장한 ‘loose interval’ 범위에서 맞춘 시간대 비율
※ loose, tight interval은 다음장에서 설명
평가 모델 고도화 – 이상행동
[ 수행 구간 정의 ]
1s 2s 4s 5s
3s 6s
알고리즘이 예측한 ‘돌진'
이상행동 구간
넓은 정의 구간 (loose interval)
대상 정의
loose interval
모호한 시간대를 포함해서 넉넉하게 잡은 시간 구간
이 시간대 밖에서는 알고리즘이 무슨 수를 써도 맞게 감지할 수 없다고 판단
tight interval
모호한 시간대를 제외하고 확실하게 이상행동이 발생한다고 판단하는 시간 구간
이 시간대 안에서는 알고리즘이 맞게 감지해야 한다고 판단
재현율 (Recall) 1/2 = 0.5 정밀도 (Precision) 2/3 = 0.66
[ 모호한 구간 – 돌진 예시(언제부터 돌진인가?) ]
좁은 정의 구간 (tight interval)
평가 수행
평가 모델 시스템 구축
RTMP
• 테스트 베드의 평가 시스템 요구사항
- 참여업체에서 개발된 프로그램을 동시에 검증할 수 있도록 평가 시스템 구축
- 참여업체에서 개발된 프로그램 소스코드 보안 필요
- 환경을 고려한 시나리오 평가는 실시간으로 수행
• CCTV 사양
- Single RGB / IR, depth 등의 기능 비활성화 / IP 카메라 / 1920 x 1080 해상도(법무부에서 현재 사용하고 있는 해상도)
- 모델명: HIKVISION DS-2CD2025FWD-1.6mm (30fps, 52” 사각)
• 시스템 사양
- 동영상 : Intel Xeon E5-2640 v4 (10core) / 128GB (삼성전자 DDR4 32G PC4-21300 * 4) /GPU: GeForce RTX 2080 Ti 11GB 2개
- 이미지 : Intel i5-10201U 4Core / 16GB / Interl UHD Graphics 620 (맥미니)
[ 사진 검증 (안면인식) ] [ 동영상 검증 (안면인식 & 이상행동) ]
평가 수행 사전 준비
• 평가 검증 절차 / 테스트 인터페이스 설명회 (네크워크 환경, 평가 검증 절차 및 안내 공지)
• 클라우드에서 접속 가능하도록 인터페이스 오픈
• 사전 테스트 기간 제공
[ 테스트 인터페이스 설명회 ] [ 사전 테스트 ]
[ 테스트 시스템 클라우드 오픈] [ 개별 인터페이스 Swagger 오픈]
이미지 테스트 평가 수행
인천공항 법무부 외국인청 테스트 환경
• 학습 후 이미지 테스트
- 1:1, 1:N 이미지 테스트 수행
- 법무부의 이미지를 이용하여 평가를 진행하는 바, 법무부 내의 서버실에 환경을 구축하여 진행
NO 일정 기업
1 11월 02일 ~ 11월 06일 A,B,C,D
2 11월 09일 ~ 11월 13일 E,F,G,H
평가 일정 공지
실증기업 알고
리즘 제출 및 봉
인
평가 환경 구축
평가 작업 계획
서 법무부에 제
출
실증기업 알고
리즘 동작 환경
구축
프로토콜 테스
트
평가 진행 평가 결과 추출
[학습 후 이미지 테스트 진행 흐름]
동영상 테스트 평가 수행
• 학습 후 동영상 테스트
- 알고리즘 설치 및 환경 구축
- 1:1 동영상 테스트 수행
- 1:N 동영상 테스트 수행
- 이상행동 감지 동영상 테스트 수행
- 이상행동 및 행위자 감지 동영상 테스트 수행
- 각 테스트 별 성능 평가 수행
일정 기업
11월 02일 ~ 11월 06일 A B C D
11월 09일 ~ 11월 13일 E F G H
평가 일정 공지
알고리즘
제출 및 봉인
평가
환경 구축
실증업체 알고리즘
환경 구축
평가 진행 평가 결과 추출
[학습 후 동영상 테스트 진행 흐름]
동영상 테스트 – 성능 / 자원사용량 측정
• 총 9개(트랙 1 : 8개, 트랙 2 : 1개) 실증기업에 대한 성능 테스트
구분 안면인식(1:1) 안면인식(1:N) 이상행동 이상행동 및 행위자
CPU 5~50% (평균: 16.4%) 40~100% (평균: 59.5%) 25~50% (평균: 43.6%) 30~75% (평균: 53.1%)
메모리 2~35% (평균: 10.0%) 2~15% (평균: 8.6%) 5~47% (평균: 17.5%) 5~13% (평균 10.1%)
디스크 특이사항 없음 특이사항 없음 특이사항 없음 특이사항 없음
네트워크 특이사항 없음 특이사항 없음 특이사항 없음 특이사항 없음
35
평가 수행후 결과 리포트 (이미지)
36
평가 수행후 결과 리포트 (이미지)
37
평가 수행후 결과 리포트 (동영상)
38
평가 수행후 결과 리포트 (동영상)
39
평가 수행후 결과 리포트 (동영상)
40
평가 수행후 결과 리포트 (동영상)
41
평가 수행후 결과 리포트 (동영상)
AI 평가 모델
AI 평가모델 수행 전략
43
• 품질평가 기반 개선 포인트
컨설팅
- AI 품질 확보 방안 자문
- AI 성능 개선 자문
- AI 데이터 품질 자문
• 테스트 방법 컨설팅
- AI 테스트 가이드
• AI 모델 테스트(성능)
- AI 성능 지표 도출 방안 자문
- AI 성능 지표 기반 품질 확보방안을 도
출하는 방법 자문
• 데이터 테스트
- AI 데이터 품질‧양‧수준 확보방안 자문
- 데이터 구성수준 자문
- AI 데이터 적합성 자문
• AI 시스템 테스트 & 기능 테스트 (인수
테스트)
측정지표
테스트 베이시스
• AI 성능지표
• 데이터 품질 지표
• 시스템 품질지표
• 모델 개발 산출물
- 학습/테스트 데이터 구성도
• AI프로파일
• 시스템 개발 산출물
◎ AI 모델성능/데이터 테스트〮컨설팅 내용 - 테스트를 지원하며 AI 성능 지표/개선 및 데이터 품질 컨설팅 수행
◎ 기업의 니즈(설문결과 + 대상기업의 요구)를 테스트와 컨설팅을 수행하고 추진할 때 반영함.
• AI 활용성 개선 컨설팅
AI 테스트 수행 방안
ü 측정 지표를 통해 측정하며 신뢰 할 수 있는 측정값을 얻기 위해 다음 사항을 고려
1) AI 프로파일
2) AI 테스트 데이터 세트
3) AI 모델 측정지표(AI 모델별 측정지표 or 손실함수)
4) 적절한 측정 횟수
AI 시스템 테스트 접근법
1) AI 모델 프로파일
4) 적절한 측정 횟수
3) AI 모델 측정지표
(AI 모델별 측정지표 or 손실함수)
2) AI 테스트 데이터 세트 측정 결과
AI 모델
AI 테스트시 주요 성능 지표
◎ 기계학습 태스크의 세분화 후 여기에 사용되는 성능지표를 정리해 제안요청서 상에 제시된 것을 포함하는
모든 성능지표를 파악에 컨설팅 대상기업이 사용하는 지표를 커버하고, 더 적합한 지표를 추천함
비전 자연어 그 외
세분화
성능
지표
분류
F-Beat
Precision
Recall
ROC
PR-Curve
AUC
객체 인식
mAP
BBox
F-Beta
IoU
Confidence
객체 분할
BELU
F-Beta
MAP
MAE
Hit-Rate
생성
Inception
Score
FID
MS-SSIM
추정
PCP
PCK
PDJ
MPJPE
AUC
문장 분류
F-Beta
Precision
Recall
ROC
PR-Curve
AUC
문장 생성
F-Beta
BLEU
CIDR
METEOR
ROUGE-L
감정 분석
Accuracy
Recall
Precision
F-Beta
PR-Curve
ROC
AUC
추천 시스템
의료
음성
AI 프로파일
46
고려 사항 내용
일반 • AI 모델/시스템 개요
사용
• 의도된 사용 시나리오는?
• 대상 사용자는?
• 이미 알고 있는 편향성은?
데이터 세트
• 데이터는 어떻게 수집했는가?
• 데이터에 어떤 전처리를 했는가?
• 알고 있는 데이터세트의 에러/노이즈/중복/데이터 누락은 무엇인가?
학습 및 성능
• 학습 알고리즘과 초매개변수는 어떤 것을 사용했는가?
• 선택한 성능 지표와 해당 성능 지표를 선택한 이유는?
테스팅
• 테스트 데이터세트의 규모, 출처, 내용은 무엇인가?
• 적대적 공격에 대한 강건성을 테스트 했는가?
※ 전체 프로파일은 별첨
◎ AI 프로파일은 모델의 이해를 위해 AI일반, AI사용, 데이터 세트, 학습 및 성능, 테스팅 분야의 질문으로 구성
◎ 각각의 고려사항에 대한 답변은 AI 테스팅의 베이시스가 됨
AI 성능 테스트의 어려움
47
적절한 성능 지표 선정부터..
성능을 잘 측정하기 위한 평가 데이터 셋 구성은..
평가 프로그램 구축
공인된 외부 인증서 발급의 어려움
어니컴 + STA 의 AI 테스팅 단계별 전략
48
구분 단계 산출물 객관성 확보 방안 품질 확보 방안
1
현황 진단 및
분석
현장 진단/분석 보고서
• 컨설팅 프레임워크 활용
• TMMai 활용
• 컨설팅 전문인력 참여
• 관련 전문가 및 과제 관
계자 리뷰 진행
2
제품 및 서비스
테스트
AI모델/데이터 테스트 계획서 • 입증된 AI 모델 프로파일링 기법 활용
• AI 모델 테스트 관련 국제 표준 활용
(ISO/IEC/IEEE29119-11)
• AI 데이터 품질 관련 국제표준 활용
(ISO/IEC 25012, 25024)
• 테스트 프로세스, 문서화, 기법 국제표준
활용 (ISO/IEC/IEEE29119-2, 3, 4)
• 소프트웨어 품질 특성/지표 국제표준 활
용 (ISO/IEC 25023)
• 관련 기술 전문가 및 경
험자가 컨설팅 진행 및
참여
• 관련 전문가 및 과제 관
계자 리뷰 진행
• 컨설팅 관리 시스템
(Redmine)을 활용한 공
유/소통
AI모델/데이터 테스트 설계서
테스트 결과 보고서
이슈 보고서
공인시험성적서
• 컨설팅에 참여하지 않는 제3자 공인시험
기관 진행
• ISO/IEC 25023 기반 AI 제품 시험
• 관련 기술 전문가 및 경
험자가 참여
• 정형화된 문서 적용
3 컨설팅 자문 수행
컨설팅 계획서
• 컨설팅 방법론 및 프레임워크 활용
• 컨설팅 전문인력 참여
• 컨설팅 관리 시스템을
활용한 공유/소통
• 관련 기술 전문가 참여
컨설팅 보고서
AI 모델/데이터 테스트 가이드
4
완료 및 결과
보고
종합 결과 보고서
• 표준적 프로젝트 관리 방법론의 과제수행
내용 준수(PM 전문가 리딩)
• 사업관리기관 및 외부 전문가 의견 적극
수용
• 총괄책임자의 지속적인
모니터링
• 의사소통관리(정기보
고)
인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화

More Related Content

What's hot

알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022
YOO SE KYUN
 
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
Dylan Ko
 
次世代KYCと自己主権型アイデンティティの動向
次世代KYCと自己主権型アイデンティティの動向次世代KYCと自己主権型アイデンティティの動向
次世代KYCと自己主権型アイデンティティの動向
Naohiro Fujie
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
Jeongsang Baek
 
第22回オープンデータトーク 地理データ形式のこれから
第22回オープンデータトーク 地理データ形式のこれから第22回オープンデータトーク 地理データ形式のこれから
第22回オープンデータトーク 地理データ形式のこれから
IWASAKI NOBUSUKE
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
AWSKRUG - AWS한국사용자모임
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
 
分散型IDと検証可能なアイデンティティ技術概要
分散型IDと検証可能なアイデンティティ技術概要分散型IDと検証可能なアイデンティティ技術概要
分散型IDと検証可能なアイデンティティ技術概要
Naohiro Fujie
 
놀자Go서비스사업계획서(by렉스킹스)
놀자Go서비스사업계획서(by렉스킹스)놀자Go서비스사업계획서(by렉스킹스)
놀자Go서비스사업계획서(by렉스킹스)
ByungHo Kang
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
Yongho Ha
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
Hyojun Jeon
 
組織におけるアイデンティティ管理の基本的な考え方
組織におけるアイデンティティ管理の基本的な考え方組織におけるアイデンティティ管理の基本的な考え方
組織におけるアイデンティティ管理の基本的な考え方
Naohiro Fujie
 
[NDC 발표] 모바일 게임데이터분석 및 실전 활용
[NDC 발표] 모바일 게임데이터분석 및 실전 활용[NDC 발표] 모바일 게임데이터분석 및 실전 활용
[NDC 발표] 모바일 게임데이터분석 및 실전 활용
Tapjoy X 5Rocks
 
社内のマニュアルをSphinxで作ってみた
社内のマニュアルをSphinxで作ってみた社内のマニュアルをSphinxで作ってみた
社内のマニュアルをSphinxで作ってみた
Iosif Takakura
 
NIST Face Recognition Vendor Test, FRVT
NIST Face Recognition Vendor Test, FRVTNIST Face Recognition Vendor Test, FRVT
NIST Face Recognition Vendor Test, FRVT
IMQA
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초
keunbong kwak
 
Power BI - 概要と 新しい機能など
Power BI - 概要と 新しい機能などPower BI - 概要と 新しい機能など
Power BI - 概要と 新しい機能など
Takeshi Kagata
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
Minwoo Kim
 
그로스 해킹 - Growth Hacking
그로스 해킹 - Growth Hacking그로스 해킹 - Growth Hacking
그로스 해킹 - Growth Hacking
Wooseok Seo
 
역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf
DeukJin Jeon
 

What's hot (20)

알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022알면 알수록 어려운 서비스 기획 뽀개기!_2022
알면 알수록 어려운 서비스 기획 뽀개기!_2022
 
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
 
次世代KYCと自己主権型アイデンティティの動向
次世代KYCと自己主権型アイデンティティの動向次世代KYCと自己主権型アイデンティティの動向
次世代KYCと自己主権型アイデンティティの動向
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
第22回オープンデータトーク 地理データ形式のこれから
第22回オープンデータトーク 地理データ形式のこれから第22回オープンデータトーク 地理データ形式のこれから
第22回オープンデータトーク 地理データ形式のこれから
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
分散型IDと検証可能なアイデンティティ技術概要
分散型IDと検証可能なアイデンティティ技術概要分散型IDと検証可能なアイデンティティ技術概要
分散型IDと検証可能なアイデンティティ技術概要
 
놀자Go서비스사업계획서(by렉스킹스)
놀자Go서비스사업계획서(by렉스킹스)놀자Go서비스사업계획서(by렉스킹스)
놀자Go서비스사업계획서(by렉스킹스)
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
組織におけるアイデンティティ管理の基本的な考え方
組織におけるアイデンティティ管理の基本的な考え方組織におけるアイデンティティ管理の基本的な考え方
組織におけるアイデンティティ管理の基本的な考え方
 
[NDC 발표] 모바일 게임데이터분석 및 실전 활용
[NDC 발표] 모바일 게임데이터분석 및 실전 활용[NDC 발표] 모바일 게임데이터분석 및 실전 활용
[NDC 발표] 모바일 게임데이터분석 및 실전 활용
 
社内のマニュアルをSphinxで作ってみた
社内のマニュアルをSphinxで作ってみた社内のマニュアルをSphinxで作ってみた
社内のマニュアルをSphinxで作ってみた
 
NIST Face Recognition Vendor Test, FRVT
NIST Face Recognition Vendor Test, FRVTNIST Face Recognition Vendor Test, FRVT
NIST Face Recognition Vendor Test, FRVT
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초
 
Power BI - 概要と 新しい機能など
Power BI - 概要と 新しい機能などPower BI - 概要と 新しい機能など
Power BI - 概要と 新しい機能など
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
그로스 해킹 - Growth Hacking
그로스 해킹 - Growth Hacking그로스 해킹 - Growth Hacking
그로스 해킹 - Growth Hacking
 
역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf역삼역, 이마트 AI_v최종.pdf
역삼역, 이마트 AI_v최종.pdf
 

Similar to 인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화

AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략
IMQA
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
NAVER D2
 
모바일 앱(App) 개발 테스트 솔루션 v20160415
모바일 앱(App) 개발 테스트 솔루션 v20160415모바일 앱(App) 개발 테스트 솔루션 v20160415
모바일 앱(App) 개발 테스트 솔루션 v20160415
SeungBeom Ha
 
DHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology RallyDHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology Rally
IMQA
 
Odin_CCTV based population counting platform
Odin_CCTV based population counting platformOdin_CCTV based population counting platform
Odin_CCTV based population counting platform
Sangwook Park
 
Chm솔루션 소개자료 모듈별소개
Chm솔루션 소개자료 모듈별소개Chm솔루션 소개자료 모듈별소개
Chm솔루션 소개자료 모듈별소개
시온시큐리티
 
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
Daehee Han
 
2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx
승형 이
 
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
Minji Kang
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review
LEE HOSEONG
 
[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection
Metatron
 
Io t에서의 소프트웨어단위테스트_접근사례
Io t에서의 소프트웨어단위테스트_접근사례Io t에서의 소프트웨어단위테스트_접근사례
Io t에서의 소프트웨어단위테스트_접근사례
SangIn Choung
 
지능형영상분석엔진이 내장된 smart CCTV (UDP.tech)
지능형영상분석엔진이 내장된  smart CCTV (UDP.tech)지능형영상분석엔진이 내장된  smart CCTV (UDP.tech)
지능형영상분석엔진이 내장된 smart CCTV (UDP.tech)
정열 이
 
모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템
모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템
모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템
SeungBeom Ha
 
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Jihwan Bang
 
딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템
딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템 딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템
딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템
OverDeep
 
Hics ir 11.1.0_slideshare_150920
Hics ir 11.1.0_slideshare_150920Hics ir 11.1.0_slideshare_150920
Hics ir 11.1.0_slideshare_150920
SeonOh Lee
 
웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우
IMQA
 
실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우 실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우
YoungSu Son
 
기보작 피피
기보작 피피기보작 피피
기보작 피피yoonyj
 

Similar to 인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화 (20)

AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략AI 파이프라인과 실전 테스팅 전략
AI 파이프라인과 실전 테스팅 전략
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
모바일 앱(App) 개발 테스트 솔루션 v20160415
모바일 앱(App) 개발 테스트 솔루션 v20160415모바일 앱(App) 개발 테스트 솔루션 v20160415
모바일 앱(App) 개발 테스트 솔루션 v20160415
 
DHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology RallyDHS S&T MDTF Biometric Technology Rally
DHS S&T MDTF Biometric Technology Rally
 
Odin_CCTV based population counting platform
Odin_CCTV based population counting platformOdin_CCTV based population counting platform
Odin_CCTV based population counting platform
 
Chm솔루션 소개자료 모듈별소개
Chm솔루션 소개자료 모듈별소개Chm솔루션 소개자료 모듈별소개
Chm솔루션 소개자료 모듈별소개
 
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
뉴럴웍스 이미지 인식 AI 암진단AI 대장암, 위암
 
2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx
 
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review
 
[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection[Metatron Discovery ex-pack] Anomaly Detection
[Metatron Discovery ex-pack] Anomaly Detection
 
Io t에서의 소프트웨어단위테스트_접근사례
Io t에서의 소프트웨어단위테스트_접근사례Io t에서의 소프트웨어단위테스트_접근사례
Io t에서의 소프트웨어단위테스트_접근사례
 
지능형영상분석엔진이 내장된 smart CCTV (UDP.tech)
지능형영상분석엔진이 내장된  smart CCTV (UDP.tech)지능형영상분석엔진이 내장된  smart CCTV (UDP.tech)
지능형영상분석엔진이 내장된 smart CCTV (UDP.tech)
 
모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템
모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템
모바일 앱(App) 개발 테스트 솔루션 - 인터링크시스템
 
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
 
딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템
딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템 딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템
딥러닝기반 어린이보호구역 불법 주〮정차 자동탐지 시스템
 
Hics ir 11.1.0_slideshare_150920
Hics ir 11.1.0_slideshare_150920Hics ir 11.1.0_slideshare_150920
Hics ir 11.1.0_slideshare_150920
 
웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우
 
실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우 실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우
 
기보작 피피
기보작 피피기보작 피피
기보작 피피
 

More from YoungSu Son

Fault Tolerance 패턴
Fault Tolerance 패턴 Fault Tolerance 패턴
Fault Tolerance 패턴
YoungSu Son
 
Clean Code, Software Architecture, Performance Tuning
Clean Code, Software Architecture, Performance TuningClean Code, Software Architecture, Performance Tuning
Clean Code, Software Architecture, Performance Tuning
YoungSu Son
 
Prototype 패턴 (심만섭)
Prototype 패턴 (심만섭) Prototype 패턴 (심만섭)
Prototype 패턴 (심만섭)
YoungSu Son
 
Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)
Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)
Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)
YoungSu Son
 
Singleton 패턴 (김진영 - EVA, 소마에 10기)
Singleton 패턴 (김진영 -  EVA, 소마에 10기) Singleton 패턴 (김진영 -  EVA, 소마에 10기)
Singleton 패턴 (김진영 - EVA, 소마에 10기)
YoungSu Son
 
생성 패턴 (강태우 - 소마에 10기)
생성 패턴 (강태우 - 소마에 10기) 생성 패턴 (강태우 - 소마에 10기)
생성 패턴 (강태우 - 소마에 10기)
YoungSu Son
 
초보 개발자/학생들을 위한 오픈소스 트랜드
초보 개발자/학생들을 위한 오픈소스 트랜드 초보 개발자/학생들을 위한 오픈소스 트랜드
초보 개발자/학생들을 위한 오픈소스 트랜드
YoungSu Son
 
DevOps 오픈소스 트랜드 (클라우드, 모바일 중심)
DevOps 오픈소스 트랜드 (클라우드, 모바일 중심) DevOps 오픈소스 트랜드 (클라우드, 모바일 중심)
DevOps 오픈소스 트랜드 (클라우드, 모바일 중심)
YoungSu Son
 
모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101)
모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101) 모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101)
모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101)
YoungSu Son
 
DevOps 시대가 요구하는 품질확보 방법
DevOps 시대가 요구하는 품질확보 방법 DevOps 시대가 요구하는 품질확보 방법
DevOps 시대가 요구하는 품질확보 방법
YoungSu Son
 
클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기
YoungSu Son
 
Android 성능 지표와 Oreo 의 개선사항
Android 성능 지표와  Oreo 의 개선사항 Android 성능 지표와  Oreo 의 개선사항
Android 성능 지표와 Oreo 의 개선사항
YoungSu Son
 
안드로이드 Oreo의 변화와 모바일 앱/플랫폼의 적합한 성능 측정 방법
안드로이드 Oreo의 변화와  모바일 앱/플랫폼의 적합한 성능 측정 방법안드로이드 Oreo의 변화와  모바일 앱/플랫폼의 적합한 성능 측정 방법
안드로이드 Oreo의 변화와 모바일 앱/플랫폼의 적합한 성능 측정 방법
YoungSu Son
 
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
YoungSu Son
 
SW 아키텍처 분석방법
SW 아키텍처 분석방법 SW 아키텍처 분석방법
SW 아키텍처 분석방법
YoungSu Son
 
[NEXT] Android Profiler 사용법
[NEXT] Android Profiler 사용법 [NEXT] Android Profiler 사용법
[NEXT] Android Profiler 사용법
YoungSu Son
 
Android Studio 개발 셋팅 + Genymotion
Android Studio 개발 셋팅 + GenymotionAndroid Studio 개발 셋팅 + Genymotion
Android Studio 개발 셋팅 + Genymotion
YoungSu Son
 
FullStack 개발자 만들기 과정 소개 (Android + MEAN Stack + Redis 다루기)
FullStack 개발자 만들기 과정 소개  (Android + MEAN Stack + Redis 다루기) FullStack 개발자 만들기 과정 소개  (Android + MEAN Stack + Redis 다루기)
FullStack 개발자 만들기 과정 소개 (Android + MEAN Stack + Redis 다루기)
YoungSu Son
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기
YoungSu Son
 
[NEXT] GCM을 이용한 게시글 자동 갱신
[NEXT] GCM을 이용한 게시글 자동 갱신[NEXT] GCM을 이용한 게시글 자동 갱신
[NEXT] GCM을 이용한 게시글 자동 갱신
YoungSu Son
 

More from YoungSu Son (20)

Fault Tolerance 패턴
Fault Tolerance 패턴 Fault Tolerance 패턴
Fault Tolerance 패턴
 
Clean Code, Software Architecture, Performance Tuning
Clean Code, Software Architecture, Performance TuningClean Code, Software Architecture, Performance Tuning
Clean Code, Software Architecture, Performance Tuning
 
Prototype 패턴 (심만섭)
Prototype 패턴 (심만섭) Prototype 패턴 (심만섭)
Prototype 패턴 (심만섭)
 
Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)
Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)
Chain of Responsibility (심수연 - 소프트웨어 마에스트로 10기)
 
Singleton 패턴 (김진영 - EVA, 소마에 10기)
Singleton 패턴 (김진영 -  EVA, 소마에 10기) Singleton 패턴 (김진영 -  EVA, 소마에 10기)
Singleton 패턴 (김진영 - EVA, 소마에 10기)
 
생성 패턴 (강태우 - 소마에 10기)
생성 패턴 (강태우 - 소마에 10기) 생성 패턴 (강태우 - 소마에 10기)
생성 패턴 (강태우 - 소마에 10기)
 
초보 개발자/학생들을 위한 오픈소스 트랜드
초보 개발자/학생들을 위한 오픈소스 트랜드 초보 개발자/학생들을 위한 오픈소스 트랜드
초보 개발자/학생들을 위한 오픈소스 트랜드
 
DevOps 오픈소스 트랜드 (클라우드, 모바일 중심)
DevOps 오픈소스 트랜드 (클라우드, 모바일 중심) DevOps 오픈소스 트랜드 (클라우드, 모바일 중심)
DevOps 오픈소스 트랜드 (클라우드, 모바일 중심)
 
모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101)
모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101) 모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101)
모바일 앱 성능 분석 방법 101 (Mobile Application Performance Analysis Methodology 101)
 
DevOps 시대가 요구하는 품질확보 방법
DevOps 시대가 요구하는 품질확보 방법 DevOps 시대가 요구하는 품질확보 방법
DevOps 시대가 요구하는 품질확보 방법
 
클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기
 
Android 성능 지표와 Oreo 의 개선사항
Android 성능 지표와  Oreo 의 개선사항 Android 성능 지표와  Oreo 의 개선사항
Android 성능 지표와 Oreo 의 개선사항
 
안드로이드 Oreo의 변화와 모바일 앱/플랫폼의 적합한 성능 측정 방법
안드로이드 Oreo의 변화와  모바일 앱/플랫폼의 적합한 성능 측정 방법안드로이드 Oreo의 변화와  모바일 앱/플랫폼의 적합한 성능 측정 방법
안드로이드 Oreo의 변화와 모바일 앱/플랫폼의 적합한 성능 측정 방법
 
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
 
SW 아키텍처 분석방법
SW 아키텍처 분석방법 SW 아키텍처 분석방법
SW 아키텍처 분석방법
 
[NEXT] Android Profiler 사용법
[NEXT] Android Profiler 사용법 [NEXT] Android Profiler 사용법
[NEXT] Android Profiler 사용법
 
Android Studio 개발 셋팅 + Genymotion
Android Studio 개발 셋팅 + GenymotionAndroid Studio 개발 셋팅 + Genymotion
Android Studio 개발 셋팅 + Genymotion
 
FullStack 개발자 만들기 과정 소개 (Android + MEAN Stack + Redis 다루기)
FullStack 개발자 만들기 과정 소개  (Android + MEAN Stack + Redis 다루기) FullStack 개발자 만들기 과정 소개  (Android + MEAN Stack + Redis 다루기)
FullStack 개발자 만들기 과정 소개 (Android + MEAN Stack + Redis 다루기)
 
[NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기 [NEXT] Flask 로 Restful API 서버 만들기
[NEXT] Flask 로 Restful API 서버 만들기
 
[NEXT] GCM을 이용한 게시글 자동 갱신
[NEXT] GCM을 이용한 게시글 자동 갱신[NEXT] GCM을 이용한 게시글 자동 갱신
[NEXT] GCM을 이용한 게시글 자동 갱신
 

인공지능 식별추적시스템 실증랩 구축및 운영 - 평가모델 고도화

  • 1.
  • 2. 1. 기존 표준 분석 반영 2. 평가 모델 고도화 평가 모델 및 환경 구축 3 1. 머신러닝 파이프라인 2. 데이터 생성 방법 학습/평가 데이터 생성 및 구축 2 1. 사업 소개 2. 기존 사례 3. 법무부 요구사항 4. 기반환경 구축 사업 개요 1 1. 평가 시스템 구축 2. 결과 사례 평가 수행 4 AI 평가 모델 5
  • 4. 4 사업소개 - 안면인식의 필요성 (인천공항 법무부)
  • 5. 5 사업소개 - 안면인식의 필요성 (인천공항 법무부) 법무부의 고민 – 현재 NEC (일본) 제품을 사용 -> 국산화의 의지가 큼 한국 제품으로 교체하고 싶으나 NEC와 경쟁력 차이가 매우 큼. 한국 1위 업체, 전 세계 61위 / 127 (미국 국립 표준 기술연구소 FRVT) 단순한 이미지 위주 평가모델보다, 우리 상황에 적합한 평가 모델 필요 과기부 안면 인식 업체의 학습 데이터 제공으로 글로벌 경쟁력을 올리고 싶다. 학습 전후의 모델의 경쟁력을 객관화 하여 사전/사후 평가 평가 모델을 국내/국외 표준에 반영 궁극적인 목표 : 안면 인식 업체의 모델/솔루션의 고도화에 도움 (환경, 학습) 법무부 상황에 맞는 평가 모델을 개발/고도화하고 평가 시행. 과기부는 정량적 지표로 사업 성과를 측정, 평가 모델의 표준화 확립.
  • 6. 안면인식 시험 해외 사례 - NIST 미국 국립 표준 기술연구소 - FRVT • 이미지 위주의 평가 분석 • C/C++ 언어만 지원 (DLL로 제출, 언어의 제약이 심함) • GPU가 없는 제한된 환경에서 테스트 (임베디드 환경) • 1:1(Verification)의 특정 조건에 통과해야 만, 1:N(Identification) 이후 테스트에 진입 가능 • 오랜 기간 수행하는 안정성 테스트 없음 • 이상행동 테스트 없음 • 영상 테스트는 존재하나 1분 내의 동영 상을 다 읽고 판별 (실시간성 부족) FERET의 이미지 데이터 샘플 • 얼굴인식 분야에 평가 기법을 도입하는 프로토타입 수준(정확성) 평가 • 기준 이미지와 변화 별 이미지와의 매칭을 통한 성능 비교평가 • 평가 지표: 검증률(verification rate: 맞는 사람을 잘 받아들일 확률), 타인수락률(False Accept Rate: 타인을 수락하는 오류율) 등 • 안면인식 시스템의 상업적 이용 가능성 대한 기술적인 평가 • 평가항목은 FERET에서 발전하여 압축, 거리, 조명, 포즈, 해상도 등의 변화에 따른 성능을 실험 • 실제 상황에서 발생 가능한 정지 영상 시나리오로 잘 작동하는지 평가 • 대용량의 이미지 데이터베이스(121,589개의 얼굴영상)를 활용하여 매칭 비교 성능 평가를 수행하는 고 계산도 시험 수행 (242시간 동안 150억 번 비교 수행) • 정지 영상 매체와 동영상 매체의 성능을 평가하는 매체 계산 시험 수행 • 전 시험 과정을 완전 자동화 6 시사점 FERET(FacE REcognition Technology) [1993년 ~ 1997년] FRVT(Face Recognition Vendor Test) [2000년] FRVT(Face Recognition Vendor Test) [2008년]
  • 7. • 다양한 밴더들이 참가할 수 있게 표준화된 Restful API 인터페이스 제공 • 공항 상황에서 여권 인식을 잘 수행 하기 위한 최적화된 모델 • 인식률도 중요하나, 평균 5초, 최대 20초 안에 결과 출력 필수 됨 • 공항 상황에 최적화된 1:N (Identification) 인식 테스트 모델 • 인식률 이외에, 인식 성공, 실패 판단 시간 평균 5초, 최대 20초 이내 • 정확도 및 만족도를 체크하는 알고리즘 테스트 (다양한 이미지 셋) • 이미지 셋의 구성 테스트 (모든 알고리즘에서 비슷하게 동작하는지) • 인식하는데 걸리는 시간 • 만족도 (지원자가 Very Happy ~ Very Unhappy) • 얼굴, 홍채 획득 실패와 시간 • 얼굴, 홍채 인식률 (밴더 정확률, MdTF 정확률 두 개를 뽑아 비교) 안면인식 시험 해외 사례 - 미국 국토안보부 MdTF (Maryland Test Facility) 시사점 배경 개발방법 평가지표 7
  • 8. 안면인식 시험 해외 사례 –영국정부 i-LDS • 평가요소 및 성능 기준에 대한 사용자와 협의 필요 • 사용 환경을 고려한 평가항목 및 실험 데이터 구성 체계 필요 • 특정 업체에 유리하며 요구에 부합 하지 않은 평가항목을 제외하기 위 해 동종 업체들과의 협의 필요 (객관적이고 공정한 평가를 위해) 다중 카메라에 의한 식별추적 예시 시사점 배경 개발방법 평가지표 • 영국 경찰과 정부에서 지능형 보안 이벤트(이상행동 패턴) 검출 시스템에 대한 요구가 증가하였으나, 현존 시스템들에 대한 평가 신뢰성 부족 (2006년 사례) • 카메라 기반 실외 지능형 보안 시스템의 일반적 신뢰성 평가 방안 검토 • 학교/기업과 정부/경찰 등의 소비자와 협의를 통해 개발 (수요자와 공급자 간의 협의를 통해 개발) • 실제 상황을 반영하여 CCTV로 시나리오 별 데이터 집합 제작 • 이벤트 시나리오: 설정된 기간 동안 이벤트 검출 시 성공으로 간주, 다수 검출 시 검출 오류로 판단 (인식률에 의한 정확성) • 다중 카메라 객체 추적: 추적 객체 영역과 인식된 객체 영역과의 거리 비교 (오차에 의한 정확성) BFRWD5
  • 9. 법무부의 요구사항 • 8채널 동시 테스트 • 실시간 이상행동 감지 테스트 • 공항에 최적화된 테스트 환경 다중 카메라에 의한 식별추적 예시 시사점 배경 개발방법 평가지표 • 공항 상황에 최적화된 안면인식/ 이상행동 알고리즘 도출 • 낮은 해상도에서도 안면인식 알고리즘의 동작여부. • 실시간으로 이상행동을 감지. • 실시간 스트리밍으로 안면인식/ 이상행동을 판별해야 함. • 8개의 채널을 1대의 GPU서버에서 처리 Nvidia Geforce RTX 2080,CPU 10 Core, 512GB • 이미지 테스트 : 1:1, 1:N • 동영상 안면인식 테스트 : 1:1, 1:N • 동영상 이상행동 테스트 : 이상행동 4종 , 이상행동 4종 + 안면인식 BFRWD5
  • 10. 10 수행일정 - 예 랩 구성 및 환경 구축 데이터 학습 및 생성 테스트 반복적 수행 트랙 1,2 업체 이상행동 데이터 생성 누리꿈스퀘어 실증/검증 랩 오픈 이상행동 학습 공간 구성 이미지 기반 테스트 (학습 전) 이상행동 테스트(학습 전) 랩 구성 및 환경 구축 데이터 학습 및 생성 테스트 반복적 수행 학습환경 및 검증환경 구성 6월 9월 12월 인천공항 (법무부) 4월 이미지 기반 인식 테스트 반복적 수행 (학습 후) 5월 7월 8월 1만개 이상행동 데이터 생성 랩 랩 구성 1만 클립 동영상 데이터 생성 500개 이미지 생성 검증 데이터 가공 누리꿈스퀘어 실증/검증 랩 안면 인식 이미지 데이터 학습 이상행동 영상 데이터 학습 및 가공 이상행동 테스트 반복적 수행 (학습 후) 10월 11월
  • 11. 기반환경 구축 *조도 ⊙ : 형광등 6개 ON 기준, ◎ : 형광등 2개 ON 구분 조도(lx) 카메라 설치 높이(m) ①경계시작위치 ②중앙위치 ③경계끝위치 1:1 구역 ⊙: 350~400 ◎: 10~30 1.5 심사대기 구역 ⊙: 650~750 ◎: 350~400 ⊙: 600~700 ◎: 350~400 ⊙: 700~750 ◎: 350~400 2.6 무인심사 구역 ⊙: 300~400 ◎: 10~50 ⊙: 300~400 ◎: 30~50 ⊙: 350~400 ◎: 30~70
  • 14. 기반환경 구축 [심사대기구역 CCTV 시야] [무인심사대 CCTV 시야]
  • 15. 학습 / 평가 데이터 생성및 구축
  • 16. 16 머신러닝 파이프라인 1억 1천만명 외국인 데이터 5000개의 이상행동 데이터 1천만명 외국인 데이터 5000개의 이상행동 검증 데이터
  • 17. 안면인식 이미지 구성 (19년도) 17 • 안면 인식 테스트를 위한 검증 데이터 구성 - 개인 당 최대 3종의 안면 인식 데이터 제공 예정 (여권사진, 게이트 통과 사진 , 자동 게이트 통과 사진) - 제한된 사진에서 다양하게 폭 넓은 안면 데이터 구성 성인 남성과 여성 (20 ~ 39세), 중장년 남성과 여성 (40 ~ 75세), 유아, 청소년 남성과 여성 (0세 ~ 19세) 동일 인물의 과거 사진이 있다면 추적하여 시계열로 구성 • 안면 변화 요인 총 8개: 각도, 표정, 악세서리, 조명, 배경, 옷, 헤어스타일, 화장한 것을 최대한 찾아내서 검증 데이터 구성 각도(D) 정면 상 하 좌 우 좌상 우상 좌하 우하 표정(F) 무표정 찡그림 웃음 눈감음 악세서리(A) 모자 목베개 사탕(막대사탕) 마스크(턱밑) 안경 귀걸이 안경 + 모자 모자 + 사탕 조명 밝음 좌 우 역광 어두움 배경(B) 단색 혼합 옷(C) 단색 혼합 헤어스타일(H) 올림 내림 푼머리 묶은머리 화장(M) 일반 기초 [안면 데이터 변화 요인]
  • 18. 안면인식 평가 이미지 구성 (20년도) 18 •대륙별, 나이별등을 고려한 균등 분포로 평가 데이터 셋 구성
  • 19. 안면인식 평가 이미지 구성 (20년도) 19 • 325,090장에서 검증 데이터 셋 프로그램을 통해, 다음과 같이 평가 데이터 셋 추출 • 1:N 데이터 셋 (60,000장) - 검증횟수는 총 5만번 테스트, 등록인 3만장, 검증인 (등록인과 동일하지만 다른 사진 3만장 + 비 등록인 2만장) - 비 등록인 사진 2만장은 1:1 데이터 셋에서 재활용 가능하므로 사용 셋에서 제외 • 1:1 데이터 셋 (23,546장) - 265,090장에서 1:1의 2만 5천회 테스트를 위해 23,546장 데이터 추출 (유니크하게 식별 가능한 사람) Ex. A1, A2 (동일인 비교) B1, C1 (비 동일인 비교) A1, B1 (비 동일인 비교) – 단 B1, A1 테스트가 다시 되지 않도록 예외 처리하여 데이터 셋 구성 - 2만 5천회 테스트를 위해 A1 사진이 중복되어 다시 사용되는 것(위 예시 참고)처럼 꼭 5만장이 사용되지 않아도 됨 단위(장) 동남아 아시아 중동 유럽 북미 남미 아프리카 총계 10대 2,197 2,060 836 1,889 1,683 16 385 9,066 20대 2,512 2,419 2,302 2,314 2,366 1,045 2,349 15,307 30대 2,041 2,121 2,244 2,155 2,101 582 2,124 13,368 40대 2,011 2,090 2,053 2,127 2,159 397 1,987 12,824 50대 2,175 2,099 2,119 2,245 2,143 263 2,059 13,103 60대 2,087 2,082 2,105 2,122 2,005 138 1,287 11,826 70대이상 1,489 1,508 1,567 1,509 1,612 49 318 8,052 총계 14,512 14,379 13,226 14,361 14,069 2,490 10,509 83,546 [ 검증 데이터 셋 ]
  • 20. 이상행동 데이터 학습 데이터 생성 • 동영상에서 1:1, 1:N 식별 • 이상행동 요구사항 - 총 4종류의 이상행동 감지: 돌진, 역방향 이동, 사람이 물건을 장시간 놓고 사라지는 행위, 2인 감지 (단, 2인 감지 행위는 자동출입국심사구역에서만 발생) - 복합 시나리오 : 돌진+방치, 돌진+돌진, 방치+방치 조합 등 - 이상 행동시 4채널 카메라에서 사용자를 추적하여 식별 필요 등 이상행동 종류 이벤트 시작기준 이벤트 종료기준 2인 감지 • 두 사람의 두 발이 완전하게 평가 영역 바닥에 들어온 순간 • 최소 한 사람의 두 발이 완전하 게 평가 영역에서 나가는 순간 돌진 • 객관적으로 뛰는 동작이 시작되 는 순간 • 객관적으로 뛰는 동작이 종료 되는 순간 역주행 • 몸이 바라보는 방향은 상관없이 이동 방향 성분에서 반대 방향 성 분이 있는 순간 • 역방향으로 이동 성분이 사라 지는 순간 장시간 물건 방치 • 신체에서 물건이 떨어지고 5초 지 난 순간 • 어느 누구든 신체 일부가 물체 에 닿는 순간 [이상행동 정의] 돌진 장시간 물건 방치
  • 21. 이상행동 데이터 학습 데이터/ 평가 데이터 구성 구분 전체 안면인식 1:1 안면인식 1:N 이상행동 안면인식 + 이상행동 개수 11,465 585 880 8,628 1,372 동영상 촬영 모델 연령별 비율 10대 20대 30대 40대 50대 합 계 11 39 43 13 11 117 9.4% 33.3% 36.7% 11.1% 9.4% 100% 동영상 촬영 모델 남녀 비율 남성 여성 합 계 69 48 117 59% 41% 100% • 동영상 검증 데이터 - 이번 과제의 정확성 및 시스템 안정성 평가를 위한 평가 항목별 동영상 데이터 생성 개수는 11,465개이다. 동영상 촬영 모델은 연령별로 10대부터 50대까지, 남성과 여성의 6:4 비율로 구성함. 거리 및 각도, 시선은 배우 별로 최대한 동일하게 연출되도록 하였으며, 충분한 설명과 1인당 약 3시간 이상의 영상 촬영을 통해 목적에 맞는 데이터 생성함
  • 22. 이상행동 데이터 학습 데이터/ 평가 데이터 구성 - 이상행동 검증용으로 만든 10,000개의 영상 중 실증업체에게 학습 데이터 용으로 총 5,000건의 영상 데이터를 전달함. 실증기업들은 주어진 데이터를 활용해 각 평가모델의 고도화 학습을 진행함. 구 분 검증 내용 촬영구역 촬영지역 학습용 데이터(라벨링O) 학습용 데이터(라벨링X) 이상행동 감지 돌진 심사대기 용인 280 1,120 유인심사 용인 10 40 무인심사 상암 10 40 물건방치 심사대기 용인 280 1,120 유인심사 용인 14 66 무인심사 상암 14 66 역방향 유인심사 용인 20 90 무인심사 상암 20 90 2인감지 유인심사 용인 20 90 무인심사 상암 20 90 복합(돌진+방치) 심사대기 용인 160 608 복합(돌진+역방향) 유인심사 용인 10 30 무인심사 상암 10 30 안면인식+이상행동 감지 돌진 심사대기 용인 32 128 유인심사 용인 6 20 무인심사 상암 6 20 물건방치 심사대기 용인 32 128 유인심사 용인 6 20 무인심사 상암 6 20 역방향 유인심사 용인 6 20 무인심사 상암 6 20 2인감지 유인심사 용인 6 20 무인심사 상암 6 20 복합(돌진+방치) 심사대기 용인 16 96 복합(돌진+역방향) 유인심사 용인 2 4 무인심사 상암 2 4 Total 1,000 4,000
  • 23. 평가 모델 및 환경 구축
  • 24. 기존 표준 분석 반영 [ FRVT ] 평가 유형 설명 FRVT 1:1 얼굴 인식 알고리즘 평가 및 몇 가지 다른 데이터 세트에서 FNMR (False Non-Match Rate)로 측정 된 최고 1 : 1 성능의 알고리즘 평가 FRVT 1:N FRVT 1:1에서 비자 사진 , 범죄자 사진 인식율이 높은 업체만 심사 참여 가능, 다수의 아이덴티티가 등록 된 갤러리를 검색 하는 일 대 N 얼굴 인식 알고리즘의 정확도와 속도 향상 측정 FRVT MoRPH 얼굴 탐지 알고리즘의 지속적인 평가 프로토 타입 얼굴 탐지 기술에 대한 지속적인 독립적 테스트를 제공 1. 스틸 사진의 얼굴 모핑 (모핑 / 블렌드 된 얼굴)을 감지하 는 알고리즘 기능 2. 모핑에 대한 얼굴 인식 알고리즘 저항 FRVT Quality Assesment 얼굴 이미지 품질 평가 단일 이미지에서 품질 스칼라의 알고리즘 출력을 평가 Face In Video Evaluation 실시간 스트리밍이 아닌 1분 내외의 녹화한 비디오를 입력으 로 주고 1분동안 다 읽은 후 결과를 반환 (영상에 1사람, 여러 사람, 사람이 없을 수도 있음) DB에 등록된 사람중에 유사도가 높은 순으로 여러 후보와 해 당하는 유사도를 출력 평가 유형 설명 이미지 획득 시스템 평가 ㅇ RESTful API (HTTP) 로 통신 ㅇ 평가 항목 - Failure to Acquire Rate - 이미지 획득 시간: 평균 10 초 이내 충족 - True Identification Rate: 보유한 여러 매칭 알고리즘 수행후 95 % 이상 식별해 내는가? - 획득한 이미지가 여러 매칭 알고리즘에서 일관성 있게 동작 하는가 - 사용자들이 평가 반영 매칭 알고리 즘 평가 ㅇ RESTful API HTTP 서버 기능이 있는 docker container를 제공 ㅇ 이미지를입력으로받아이미지성질을분석해저장한템플릿출력 ㅇ 평가 항목 - True Identification Rate 와 False Matching Rate 비율 1:10,000, 1:100,000, 1:1,000,000 - 충족 조건: FMR 1:10,000에서 정확도 95% 이상 - 각각 이미지 획득 시스템으로부터 얻어진 이미지를 사 용하여 측정 - 이미지 획득 시스템에 민감하지 않게 잘 작동 하는가 - 인식을 성공하든, 실패하든 최대 20초, 평균 5초 이내 수행 [ MdTF ]
  • 25. 평가 모델 고도화 • 평가 모델 요구사항 - 파일이 아닌 ‘실시간‘ 기반 알고리즘 검증 - 8개의 채널을 각각 독립적으로 병렬처리 - 자동 검증구역(무인, 유인, 심사대기구역 등) 탐지 구분 작년 올해 입력 영상 수 - 동기화된 4개 영상 처리 - 영상이 동기화 되어있기 때문에 1번 영상에서명확하게보이지 않는얼굴등을2번 또는 3번 영상을 이용해 상호 보완하여 올바르게 식별, 추적 - 동기화되지 않은 8개 영상 처리 - 영상이 동기화 되지 않기 때문에 상호 보완 없이 식별, 추적 - 1:N이나 이상행동 모두 한 각도에서만 바라보기 때문에 특정 카메라에서 부족한 정보를 보완할 방법이 없음 동영상 1:N 값의 반환 - 동기화된 4개 영상을 비교 해석하여 1개의 답 산출 - 1개의 답을 EMR, NMR, FPR, IT로 검증 - 알고리즘은 실제 영상에 등장한 사람에대한시간대범위중‘단 한번’누가 언제 나타났는지 예측 - 동기화되지 않은 8개 영상을 각각 해석하여 8개의 답 산출 - 각8개의답을Recall,Precision으로검증 - 알고리즘은 실제 영상에 등장한 사람의시간대범위중‘누가 언제부터언제까지’영상에 등장했는지 예측 - 인식 시간은 Recall에 포함 이상행동 영상 종류 판단 - 4개 영상에 대한 정보 제공 Ex. 4개의 영상 송출 과정에서 각각의 영상이 테스트베드 중 어느 위치에 설치된 카메라인지 정보 제공 (즉, 영상 마다 감지해야하는 이상 행동 종류를 알려줌) - 8개 영상에 대한 정보 미제공 Ex. 8개 영상 송출 중 무인 및 유인 심사대, 심사대기구역 등이 무작위로 송출될 때, 알고리즘은 영상을 해석하여 유인심사대인지, 심사대기구역인지등을자동으로예측한 뒤 각각 영상에서 감지해야하는 이상행동의 종류를 스스로 판단하고 결과 값 산출 테스트베드 변화 - 테스트베드는 최대 10m x 4.5m 크기 - 테스트베드는 13.6m x 7m로 확장 [ 요구사항 기반 검증 지표 고도화 ]
  • 26. 평가 모델 – 안면인식 이미지 • 안면인식 시스템 성능평가 [이미지] - 이미지 1:1 평가: 두 개의 이미지를 입력 받아 두 이미지가 같은 사람인지 다른 사람인지 판단 - 이미지 1:N 평가: 하나의 이미지를 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단 대상 평가지표 평가척도 평가방법 1-1 매칭 정확성 거짓 거부율 (FRR) (False Rejection Rate) 실제로 같은 사람인 경우 중, 알고리즘이 다른 사람이라고 판단한 비율 거짓 수락율 (FAR) (False Acceptance Rate) 실제로 다른 사람인 경우 중, 알고리즘이 같은 사람이라고 판단한 비율 1-N 매칭 정확성 거짓 부정 식별율 (FNIR) (False Negative Identification Rate) 실제로 등록된 사람 중, 알고리즘이 비등록인으로 판단하거나 등록된 사람을 잘못 판단한 비율 거짓 긍정 식별율 (FPIR) (FalsePositiveIdentificationRate) 실제로 등록되지 않은 사람 중, 알고리즘이 등록된 사람이라고 판단한 비율
  • 27. 평가 모델 – 안면인식 동영상 • 안면인식 시스템 성능평가 [동영상] - 동영상 1:1 검증 : 하나의 여권 사진과 동영상에 등장하는 사람이 같은 사람인지 다른 사람인지 판단 - 동영상 1:N 검증: 하나의 동영상을 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단 대상 평가지표 평가척도 평가방법 1-1 매칭 정확성 거짓 거부율 (FRR) (False Rejection Rate) 실제로 같은 사람인 경우 중, 알고리즘이 다른 사람이라고 판단한 비율 거짓 수락율 (FAR) (False Acceptance Rate) 실제로 다른 사람인 경우 중, 알고리즘이 같은 사람이라고 판단한 비율 1-N 매칭 정확성 재현율 (Recall) 영상에서 실제로 사람이 등장한 ‘tight interval’ 범위 중, 알고리즘이 누구인지 맞춘 시간대 비율 정밀도 (Precision) 알고리즘이 예측한 사람의 등장 시간대 범위 중, 영상에서 실제로 사람이 등장한 ‘loose interval’ 범위에서 맞춘 시간대 비율 ※ loose, tight interval은 다음장에서 설명
  • 28. 평가 모델 고도화 – 이상행동 [ 수행 구간 정의 ] 1s 2s 4s 5s 3s 6s 알고리즘이 예측한 ‘돌진' 이상행동 구간 넓은 정의 구간 (loose interval) 대상 정의 loose interval 모호한 시간대를 포함해서 넉넉하게 잡은 시간 구간 이 시간대 밖에서는 알고리즘이 무슨 수를 써도 맞게 감지할 수 없다고 판단 tight interval 모호한 시간대를 제외하고 확실하게 이상행동이 발생한다고 판단하는 시간 구간 이 시간대 안에서는 알고리즘이 맞게 감지해야 한다고 판단 재현율 (Recall) 1/2 = 0.5 정밀도 (Precision) 2/3 = 0.66 [ 모호한 구간 – 돌진 예시(언제부터 돌진인가?) ] 좁은 정의 구간 (tight interval)
  • 30. 평가 모델 시스템 구축 RTMP • 테스트 베드의 평가 시스템 요구사항 - 참여업체에서 개발된 프로그램을 동시에 검증할 수 있도록 평가 시스템 구축 - 참여업체에서 개발된 프로그램 소스코드 보안 필요 - 환경을 고려한 시나리오 평가는 실시간으로 수행 • CCTV 사양 - Single RGB / IR, depth 등의 기능 비활성화 / IP 카메라 / 1920 x 1080 해상도(법무부에서 현재 사용하고 있는 해상도) - 모델명: HIKVISION DS-2CD2025FWD-1.6mm (30fps, 52” 사각) • 시스템 사양 - 동영상 : Intel Xeon E5-2640 v4 (10core) / 128GB (삼성전자 DDR4 32G PC4-21300 * 4) /GPU: GeForce RTX 2080 Ti 11GB 2개 - 이미지 : Intel i5-10201U 4Core / 16GB / Interl UHD Graphics 620 (맥미니) [ 사진 검증 (안면인식) ] [ 동영상 검증 (안면인식 & 이상행동) ]
  • 31. 평가 수행 사전 준비 • 평가 검증 절차 / 테스트 인터페이스 설명회 (네크워크 환경, 평가 검증 절차 및 안내 공지) • 클라우드에서 접속 가능하도록 인터페이스 오픈 • 사전 테스트 기간 제공 [ 테스트 인터페이스 설명회 ] [ 사전 테스트 ] [ 테스트 시스템 클라우드 오픈] [ 개별 인터페이스 Swagger 오픈]
  • 32. 이미지 테스트 평가 수행 인천공항 법무부 외국인청 테스트 환경 • 학습 후 이미지 테스트 - 1:1, 1:N 이미지 테스트 수행 - 법무부의 이미지를 이용하여 평가를 진행하는 바, 법무부 내의 서버실에 환경을 구축하여 진행 NO 일정 기업 1 11월 02일 ~ 11월 06일 A,B,C,D 2 11월 09일 ~ 11월 13일 E,F,G,H 평가 일정 공지 실증기업 알고 리즘 제출 및 봉 인 평가 환경 구축 평가 작업 계획 서 법무부에 제 출 실증기업 알고 리즘 동작 환경 구축 프로토콜 테스 트 평가 진행 평가 결과 추출 [학습 후 이미지 테스트 진행 흐름]
  • 33. 동영상 테스트 평가 수행 • 학습 후 동영상 테스트 - 알고리즘 설치 및 환경 구축 - 1:1 동영상 테스트 수행 - 1:N 동영상 테스트 수행 - 이상행동 감지 동영상 테스트 수행 - 이상행동 및 행위자 감지 동영상 테스트 수행 - 각 테스트 별 성능 평가 수행 일정 기업 11월 02일 ~ 11월 06일 A B C D 11월 09일 ~ 11월 13일 E F G H 평가 일정 공지 알고리즘 제출 및 봉인 평가 환경 구축 실증업체 알고리즘 환경 구축 평가 진행 평가 결과 추출 [학습 후 동영상 테스트 진행 흐름]
  • 34. 동영상 테스트 – 성능 / 자원사용량 측정 • 총 9개(트랙 1 : 8개, 트랙 2 : 1개) 실증기업에 대한 성능 테스트 구분 안면인식(1:1) 안면인식(1:N) 이상행동 이상행동 및 행위자 CPU 5~50% (평균: 16.4%) 40~100% (평균: 59.5%) 25~50% (평균: 43.6%) 30~75% (평균: 53.1%) 메모리 2~35% (평균: 10.0%) 2~15% (평균: 8.6%) 5~47% (평균: 17.5%) 5~13% (평균 10.1%) 디스크 특이사항 없음 특이사항 없음 특이사항 없음 특이사항 없음 네트워크 특이사항 없음 특이사항 없음 특이사항 없음 특이사항 없음
  • 35. 35 평가 수행후 결과 리포트 (이미지)
  • 36. 36 평가 수행후 결과 리포트 (이미지)
  • 37. 37 평가 수행후 결과 리포트 (동영상)
  • 38. 38 평가 수행후 결과 리포트 (동영상)
  • 39. 39 평가 수행후 결과 리포트 (동영상)
  • 40. 40 평가 수행후 결과 리포트 (동영상)
  • 41. 41 평가 수행후 결과 리포트 (동영상)
  • 43. AI 평가모델 수행 전략 43 • 품질평가 기반 개선 포인트 컨설팅 - AI 품질 확보 방안 자문 - AI 성능 개선 자문 - AI 데이터 품질 자문 • 테스트 방법 컨설팅 - AI 테스트 가이드 • AI 모델 테스트(성능) - AI 성능 지표 도출 방안 자문 - AI 성능 지표 기반 품질 확보방안을 도 출하는 방법 자문 • 데이터 테스트 - AI 데이터 품질‧양‧수준 확보방안 자문 - 데이터 구성수준 자문 - AI 데이터 적합성 자문 • AI 시스템 테스트 & 기능 테스트 (인수 테스트) 측정지표 테스트 베이시스 • AI 성능지표 • 데이터 품질 지표 • 시스템 품질지표 • 모델 개발 산출물 - 학습/테스트 데이터 구성도 • AI프로파일 • 시스템 개발 산출물 ◎ AI 모델성능/데이터 테스트〮컨설팅 내용 - 테스트를 지원하며 AI 성능 지표/개선 및 데이터 품질 컨설팅 수행 ◎ 기업의 니즈(설문결과 + 대상기업의 요구)를 테스트와 컨설팅을 수행하고 추진할 때 반영함. • AI 활용성 개선 컨설팅
  • 44. AI 테스트 수행 방안 ü 측정 지표를 통해 측정하며 신뢰 할 수 있는 측정값을 얻기 위해 다음 사항을 고려 1) AI 프로파일 2) AI 테스트 데이터 세트 3) AI 모델 측정지표(AI 모델별 측정지표 or 손실함수) 4) 적절한 측정 횟수 AI 시스템 테스트 접근법 1) AI 모델 프로파일 4) 적절한 측정 횟수 3) AI 모델 측정지표 (AI 모델별 측정지표 or 손실함수) 2) AI 테스트 데이터 세트 측정 결과 AI 모델
  • 45. AI 테스트시 주요 성능 지표 ◎ 기계학습 태스크의 세분화 후 여기에 사용되는 성능지표를 정리해 제안요청서 상에 제시된 것을 포함하는 모든 성능지표를 파악에 컨설팅 대상기업이 사용하는 지표를 커버하고, 더 적합한 지표를 추천함 비전 자연어 그 외 세분화 성능 지표 분류 F-Beat Precision Recall ROC PR-Curve AUC 객체 인식 mAP BBox F-Beta IoU Confidence 객체 분할 BELU F-Beta MAP MAE Hit-Rate 생성 Inception Score FID MS-SSIM 추정 PCP PCK PDJ MPJPE AUC 문장 분류 F-Beta Precision Recall ROC PR-Curve AUC 문장 생성 F-Beta BLEU CIDR METEOR ROUGE-L 감정 분석 Accuracy Recall Precision F-Beta PR-Curve ROC AUC 추천 시스템 의료 음성
  • 46. AI 프로파일 46 고려 사항 내용 일반 • AI 모델/시스템 개요 사용 • 의도된 사용 시나리오는? • 대상 사용자는? • 이미 알고 있는 편향성은? 데이터 세트 • 데이터는 어떻게 수집했는가? • 데이터에 어떤 전처리를 했는가? • 알고 있는 데이터세트의 에러/노이즈/중복/데이터 누락은 무엇인가? 학습 및 성능 • 학습 알고리즘과 초매개변수는 어떤 것을 사용했는가? • 선택한 성능 지표와 해당 성능 지표를 선택한 이유는? 테스팅 • 테스트 데이터세트의 규모, 출처, 내용은 무엇인가? • 적대적 공격에 대한 강건성을 테스트 했는가? ※ 전체 프로파일은 별첨 ◎ AI 프로파일은 모델의 이해를 위해 AI일반, AI사용, 데이터 세트, 학습 및 성능, 테스팅 분야의 질문으로 구성 ◎ 각각의 고려사항에 대한 답변은 AI 테스팅의 베이시스가 됨
  • 47. AI 성능 테스트의 어려움 47 적절한 성능 지표 선정부터.. 성능을 잘 측정하기 위한 평가 데이터 셋 구성은.. 평가 프로그램 구축 공인된 외부 인증서 발급의 어려움
  • 48. 어니컴 + STA 의 AI 테스팅 단계별 전략 48 구분 단계 산출물 객관성 확보 방안 품질 확보 방안 1 현황 진단 및 분석 현장 진단/분석 보고서 • 컨설팅 프레임워크 활용 • TMMai 활용 • 컨설팅 전문인력 참여 • 관련 전문가 및 과제 관 계자 리뷰 진행 2 제품 및 서비스 테스트 AI모델/데이터 테스트 계획서 • 입증된 AI 모델 프로파일링 기법 활용 • AI 모델 테스트 관련 국제 표준 활용 (ISO/IEC/IEEE29119-11) • AI 데이터 품질 관련 국제표준 활용 (ISO/IEC 25012, 25024) • 테스트 프로세스, 문서화, 기법 국제표준 활용 (ISO/IEC/IEEE29119-2, 3, 4) • 소프트웨어 품질 특성/지표 국제표준 활 용 (ISO/IEC 25023) • 관련 기술 전문가 및 경 험자가 컨설팅 진행 및 참여 • 관련 전문가 및 과제 관 계자 리뷰 진행 • 컨설팅 관리 시스템 (Redmine)을 활용한 공 유/소통 AI모델/데이터 테스트 설계서 테스트 결과 보고서 이슈 보고서 공인시험성적서 • 컨설팅에 참여하지 않는 제3자 공인시험 기관 진행 • ISO/IEC 25023 기반 AI 제품 시험 • 관련 기술 전문가 및 경 험자가 참여 • 정형화된 문서 적용 3 컨설팅 자문 수행 컨설팅 계획서 • 컨설팅 방법론 및 프레임워크 활용 • 컨설팅 전문인력 참여 • 컨설팅 관리 시스템을 활용한 공유/소통 • 관련 기술 전문가 참여 컨설팅 보고서 AI 모델/데이터 테스트 가이드 4 완료 및 결과 보고 종합 결과 보고서 • 표준적 프로젝트 관리 방법론의 과제수행 내용 준수(PM 전문가 리딩) • 사업관리기관 및 외부 전문가 의견 적극 수용 • 총괄책임자의 지속적인 모니터링 • 의사소통관리(정기보 고)