인공지능 식별추적시스템 성능 검증 평가 사례

1. 기존 표준 분석 반영
2. 평가 모델 고도화
평가 모델 및 환경 구축
3
1. 머신러닝 파이프라인
2. 데이터 생성 방법
학습/평가 데이터 생성 및 구축
2
1. 사업 소개
2. 기존 사례
3. 법무부 요구사항
4. 기반환경 구축
사업 개요
1
1. 평가 시스템 구축
2. 결과 사례
평가 수행
4
AI 평가 모델
5

4
사업소개 - 안면인식의 필요성 (인천공항 법무부)

5
사업소개 - 안면인식의 필요성 (인천공항 법무부)
법무부의 고민 – 현재 NEC (일본) 제품을 사용 -> 국산화의 의지가 큼
한국 제품으로 교체하고 싶으나 NEC와 경쟁력 차이가 매우 큼.
한국 1위 업체, 전 세계 61위 / 127 (미국 국립 표준 기술연구소 FRVT)
단순한 이미지 위주 평가모델보다, 우리 상황에 적합한 평가 모델 필요
과기부 안면 인식 업체의 학습 데이터 제공으로 글로벌 경쟁력을 올리고 싶다.
학습 전후의 모델의 경쟁력을 객관화 하여 사전/사후 평가
평가 모델을 국내/국외 표준에 반영
궁극적인 목표 : 안면 인식 업체의 모델/솔루션의 고도화에 도움 (환경, 학습)
법무부 상황에 맞는 평가 모델을 개발/고도화하고 평가 시행.
과기부는 정량적 지표로 사업 성과를 측정, 평가 모델의 표준화 확립.

안면인식 시험 해외 사례 - NIST 미국 국립
표준 기술연구소 - FRVT
• 이미지 위주의 평가 분석
• C/C++ 언어만 지원 (DLL로 제출, 언어의
제약이 심함)
• GPU가 없는 제한된 환경에서 테스트
(임베디드 환경)
• 1:1(Verification)의 특정 조건에 통과해야
만, 1:N(Identification) 이후 테스트에
진입 가능
• 오랜 기간 수행하는 안정성 테스트 없음
• 이상행동 테스트 없음
• 영상 테스트는 존재하나 1분 내의 동영
상을 다 읽고 판별 (실시간성 부족)
FERET의 이미지 데이터 샘플
• 얼굴인식 분야에 평가 기법을 도입하는 프로토타입 수준(정확성) 평가
• 기준 이미지와 변화 별 이미지와의 매칭을 통한 성능 비교평가
• 평가 지표: 검증률(verification rate: 맞는 사람을 잘 받아들일 확률),
타인수락률(False Accept Rate: 타인을 수락하는 오류율) 등
• 안면인식 시스템의 상업적 이용 가능성 대한 기술적인 평가
• 평가항목은 FERET에서 발전하여 압축, 거리, 조명, 포즈, 해상도 등의 변화에
따른 성능을 실험
• 실제 상황에서 발생 가능한 정지 영상 시나리오로 잘 작동하는지 평가
• 대용량의 이미지 데이터베이스(121,589개의 얼굴영상)를 활용하여 매칭
비교 성능 평가를 수행하는 고 계산도 시험 수행 (242시간 동안 150억 번
비교 수행)
• 정지 영상 매체와 동영상 매체의 성능을 평가하는 매체 계산 시험 수행
• 전 시험 과정을 완전 자동화
6
시사점
FERET(FacE REcognition Technology) [1993년 ~ 1997년]
FRVT(Face Recognition Vendor Test) [2000년]
FRVT(Face Recognition Vendor Test) [2008년]

• 다양한 밴더들이 참가할 수 있게
표준화된 Restful API 인터페이스 제공
• 공항 상황에서 여권 인식을 잘 수행
하기 위한 최적화된 모델
• 인식률도 중요하나, 평균 5초, 최대
20초 안에 결과 출력 필수 됨
• 공항 상황에 최적화된 1:N (Identification) 인식 테스트 모델
• 인식률 이외에, 인식 성공, 실패 판단 시간 평균 5초, 최대 20초 이내
• 정확도 및 만족도를 체크하는 알고리즘 테스트 (다양한 이미지 셋)
• 이미지 셋의 구성 테스트 (모든 알고리즘에서 비슷하게 동작하는지)
• 인식하는데 걸리는 시간
• 만족도 (지원자가 Very Happy ~ Very Unhappy)
• 얼굴, 홍채 획득 실패와 시간
• 얼굴, 홍채 인식률 (밴더 정확률, MdTF 정확률 두 개를 뽑아 비교)
안면인식 시험 해외 사례 - 미국 국토안보부
MdTF (Maryland Test Facility)
시사점
배경
개발방법
평가지표
7

안면인식 시험 해외 사례 –영국정부 i-LDS
• 평가요소 및 성능 기준에 대한
사용자와 협의 필요
• 사용 환경을 고려한 평가항목 및
실험 데이터 구성 체계 필요
• 특정 업체에 유리하며 요구에 부합
하지 않은 평가항목을 제외하기 위
해 동종 업체들과의 협의 필요
(객관적이고 공정한 평가를 위해)
다중 카메라에 의한 식별추적 예시
시사점
배경
개발방법
평가지표
• 영국 경찰과 정부에서 지능형 보안 이벤트(이상행동 패턴) 검출
시스템에 대한 요구가 증가하였으나, 현존 시스템들에 대한
평가 신뢰성 부족 (2006년 사례)
• 카메라 기반 실외 지능형 보안 시스템의 일반적 신뢰성 평가 방안 검토
• 학교/기업과 정부/경찰 등의 소비자와 협의를 통해 개발
(수요자와 공급자 간의 협의를 통해 개발)
• 실제 상황을 반영하여 CCTV로 시나리오 별 데이터 집합 제작
• 이벤트 시나리오: 설정된 기간 동안 이벤트 검출 시 성공으로 간주,
다수 검출 시 검출 오류로 판단 (인식률에 의한 정확성)
• 다중 카메라 객체 추적: 추적 객체 영역과 인식된 객체 영역과의
거리 비교 (오차에 의한 정확성)
BFRWD5

법무부의 요구사항
• 8채널 동시 테스트
• 실시간 이상행동 감지 테스트
• 공항에 최적화된 테스트 환경
다중 카메라에 의한 식별추적 예시
시사점
배경
개발방법
평가지표
• 공항 상황에 최적화된 안면인식/ 이상행동 알고리즘 도출
• 낮은 해상도에서도 안면인식 알고리즘의 동작여부.
• 실시간으로 이상행동을 감지.
• 실시간 스트리밍으로 안면인식/ 이상행동을 판별해야 함.
• 8개의 채널을 1대의 GPU서버에서 처리
Nvidia Geforce RTX 2080,CPU 10 Core, 512GB
• 이미지 테스트 : 1:1, 1:N
• 동영상 안면인식 테스트 : 1:1, 1:N
• 동영상 이상행동 테스트 : 이상행동 4종 , 이상행동 4종 + 안면인식
BFRWD5

10
수행일정 - 예
랩 구성 및 환경 구축 데이터 학습 및 생성 테스트 반복적 수행
트랙 1,2 업체
이상행동 데이터 생성
누리꿈스퀘어 실증/검증 랩 오픈
이상행동 학습 공간 구성
이미지 기반 테스트
(학습 전)
이상행동
테스트(학습 전)
랩 구성 및 환경 구축 데이터 학습 및 생성 테스트 반복적 수행
학습환경 및
검증환경 구성
6월 9월 12월
인천공항
(법무부)
4월
이미지 기반 인식 테스트 반복적 수행
(학습 후)
5월 7월 8월
1만개 이상행동
데이터 생성 랩
랩
구성
1만 클립
동영상 데이터 생성
500개
이미지 생성
검증 데이터
가공
누리꿈스퀘어
실증/검증 랩
안면 인식 이미지
데이터 학습
이상행동 영상
데이터 학습 및 가공
이상행동 테스트 반복적 수행
(학습 후)
10월 11월

기반환경 구축
*조도 ⊙ : 형광등 6개 ON 기준, ◎ : 형광등 2개 ON
구분
조도(lx)
카메라 설치 높이(m)
①경계시작위치 ②중앙위치 ③경계끝위치
1:1 구역 ⊙: 350~400 ◎: 10~30 1.5
심사대기 구역
⊙: 650~750
◎: 350~400
⊙: 600~700
◎: 350~400
⊙: 700~750
◎: 350~400
2.6
무인심사 구역
⊙: 300~400
◎: 10~50
⊙: 300~400
◎: 30~50
⊙: 350~400
◎: 30~70

기반환경 구축
[심사대기 구역]
[유인심사대 구역]

기반환경 구축
[심사대기구역 CCTV 시야]

기반환경 구축
[심사대기구역 CCTV 시야]
[무인심사대 CCTV 시야]

학습 / 평가 데이터 생성및 구축

16
머신러닝 파이프라인
1억 1천만명 외국인 데이터
5000개의 이상행동 데이터
1천만명 외국인 데이터
5000개의 이상행동 검증 데이터

안면인식 이미지 구성 (19년도)
17
• 안면 인식 테스트를 위한 검증 데이터 구성
- 개인 당 최대 3종의 안면 인식 데이터 제공 예정 (여권사진, 게이트 통과 사진 , 자동 게이트 통과 사진)
- 제한된 사진에서 다양하게 폭 넓은 안면 데이터 구성
성인 남성과 여성 (20 ~ 39세), 중장년 남성과 여성 (40 ~ 75세), 유아, 청소년 남성과 여성 (0세 ~ 19세)
동일 인물의 과거 사진이 있다면 추적하여 시계열로 구성
• 안면 변화 요인 총 8개: 각도, 표정, 악세서리, 조명, 배경, 옷, 헤어스타일, 화장한 것을 최대한 찾아내서 검증 데이터 구성
각도(D)
정면
상
하
좌
우
좌상
우상
좌하
우하
표정(F)
무표정
찡그림
웃음
눈감음
악세서리(A)
모자
목베개
사탕(막대사탕)
마스크(턱밑)
안경
귀걸이
안경 + 모자
모자 + 사탕
조명
밝음
좌
우
역광
어두움
배경(B)
단색
혼합
옷(C)
단색
혼합
헤어스타일(H)
올림
내림
푼머리
묶은머리
화장(M)
일반
기초
[안면 데이터 변화 요인]

안면인식 평가 이미지 구성 (20년도)
18
•대륙별, 나이별등을 고려한 균등 분포로 평가 데이터 셋 구성

안면인식 평가 이미지 구성 (20년도)
19
• 325,090장에서 검증 데이터 셋 프로그램을 통해, 다음과 같이 평가 데이터 셋 추출
• 1:N 데이터 셋 (60,000장)
- 검증횟수는 총 5만번 테스트, 등록인 3만장, 검증인 (등록인과 동일하지만 다른 사진 3만장 + 비 등록인 2만장)
- 비 등록인 사진 2만장은 1:1 데이터 셋에서 재활용 가능하므로 사용 셋에서 제외
• 1:1 데이터 셋 (23,546장)
- 265,090장에서 1:1의 2만 5천회 테스트를 위해 23,546장 데이터 추출 (유니크하게 식별 가능한 사람)
Ex. A1, A2 (동일인 비교)
B1, C1 (비 동일인 비교)
A1, B1 (비 동일인 비교) – 단 B1, A1 테스트가 다시 되지 않도록 예외 처리하여 데이터 셋 구성
- 2만 5천회 테스트를 위해 A1 사진이 중복되어 다시 사용되는 것(위 예시 참고)처럼 꼭 5만장이 사용되지 않아도 됨
단위(장) 동남아 아시아 중동 유럽 북미 남미 아프리카 총계
10대 2,197 2,060 836 1,889 1,683 16 385 9,066
20대 2,512 2,419 2,302 2,314 2,366 1,045 2,349 15,307
30대 2,041 2,121 2,244 2,155 2,101 582 2,124 13,368
40대 2,011 2,090 2,053 2,127 2,159 397 1,987 12,824
50대 2,175 2,099 2,119 2,245 2,143 263 2,059 13,103
60대 2,087 2,082 2,105 2,122 2,005 138 1,287 11,826
70대이상 1,489 1,508 1,567 1,509 1,612 49 318 8,052
총계 14,512 14,379 13,226 14,361 14,069 2,490 10,509 83,546
[ 검증 데이터 셋 ]

이상행동 데이터 학습 데이터 생성
• 동영상에서 1:1, 1:N 식별
• 이상행동 요구사항
- 총 4종류의 이상행동 감지: 돌진, 역방향 이동, 사람이 물건을 장시간 놓고 사라지는 행위, 2인 감지
(단, 2인 감지 행위는 자동출입국심사구역에서만 발생)
- 복합 시나리오 : 돌진+방치, 돌진+돌진, 방치+방치 조합 등
- 이상 행동시 4채널 카메라에서 사용자를 추적하여 식별 필요 등
이상행동
종류
이벤트 시작기준 이벤트 종료기준
2인 감지
• 두 사람의 두 발이 완전하게 평가
영역 바닥에 들어온 순간
• 최소 한 사람의 두 발이 완전하
게 평가 영역에서 나가는 순간
돌진
• 객관적으로 뛰는 동작이 시작되
는 순간
• 객관적으로 뛰는 동작이 종료
되는 순간
역주행
• 몸이 바라보는 방향은 상관없이
이동 방향 성분에서 반대 방향 성
분이 있는 순간
• 역방향으로 이동 성분이 사라
지는 순간
장시간
물건 방치
• 신체에서 물건이 떨어지고 5초 지
난 순간
• 어느 누구든 신체 일부가 물체
에 닿는 순간
[이상행동 정의]
돌진
장시간 물건 방치

이상행동 데이터 학습 데이터/ 평가 데이터 구성
구분 전체 안면인식 1:1 안면인식 1:N 이상행동 안면인식 + 이상행동
개수 11,465 585 880 8,628 1,372
동영상 촬영 모델 연령별 비율
10대 20대 30대 40대 50대 합 계
11 39 43 13 11 117
9.4% 33.3% 36.7% 11.1% 9.4% 100%
동영상 촬영 모델 남녀 비율
남성 여성 합 계
69 48 117
59% 41% 100%
• 동영상 검증 데이터
- 이번 과제의 정확성 및 시스템 안정성 평가를 위한 평가 항목별 동영상 데이터 생성 개수는 11,465개이다. 동영상 촬영
모델은 연령별로 10대부터 50대까지, 남성과 여성의 6:4 비율로 구성함. 거리 및 각도, 시선은 배우 별로 최대한 동일하게
연출되도록 하였으며, 충분한 설명과 1인당 약 3시간 이상의 영상 촬영을 통해 목적에 맞는 데이터 생성함

이상행동 데이터 학습 데이터/ 평가 데이터 구성
- 이상행동 검증용으로 만든 10,000개의 영상 중 실증업체에게 학습 데이터 용으로 총 5,000건의 영상 데이터를 전달함.
실증기업들은 주어진 데이터를 활용해 각 평가모델의 고도화 학습을 진행함.
구 분 검증 내용 촬영구역 촬영지역 학습용 데이터(라벨링O) 학습용 데이터(라벨링X)
이상행동 감지
돌진
심사대기 용인 280 1,120
유인심사 용인 10 40
무인심사 상암 10 40
물건방치
심사대기 용인 280 1,120
역방향
2인감지
복합(돌진+방치) 심사대기 용인 160 608
복합(돌진+역방향)
안면인식+이상행동 감지
돌진
심사대기 용인 32 128
물건방치
심사대기 용인 32 128
역방향
2인감지
복합(돌진+방치) 심사대기 용인 16 96
복합(돌진+역방향)
Total 1,000 4,000

평가 모델 및 환경 구축

기존 표준 분석 반영
[ FRVT ]
평가
유형
설명
FRVT
1:1
얼굴 인식 알고리즘 평가 및 몇 가지 다른 데이터 세트에서
FNMR (False Non-Match Rate)로 측정 된 최고 1 : 1 성능의
알고리즘 평가
FRVT
1:N
FRVT 1:1에서 비자 사진 , 범죄자 사진 인식율이 높은 업체만
심사 참여 가능, 다수의 아이덴티티가 등록 된 갤러리를 검색
하는 일 대 N 얼굴 인식 알고리즘의 정확도와 속도 향상 측정
FRVT
MoRPH
얼굴 탐지 알고리즘의 지속적인 평가
프로토 타입 얼굴 탐지 기술에 대한 지속적인 독립적 테스트를 제공
1. 스틸 사진의 얼굴 모핑 (모핑 / 블렌드 된 얼굴)을 감지하
는 알고리즘 기능
2. 모핑에 대한 얼굴 인식 알고리즘 저항
FRVT
Quality
Assesment
얼굴 이미지 품질 평가
단일 이미지에서 품질 스칼라의 알고리즘 출력을 평가
Face In
Video
Evaluation
실시간 스트리밍이 아닌 1분 내외의 녹화한 비디오를 입력으
로 주고 1분동안 다 읽은 후 결과를 반환 (영상에 1사람, 여러
사람, 사람이 없을 수도 있음)
DB에 등록된 사람중에 유사도가 높은 순으로 여러 후보와 해
당하는 유사도를 출력
평가
유형
설명
이미지
획득
시스템
평가
ㅇ RESTful API (HTTP) 로 통신
ㅇ 평가 항목
- Failure to Acquire Rate
- 이미지 획득 시간: 평균 10 초 이내 충족
- True Identification Rate:
보유한 여러 매칭 알고리즘 수행후 95 % 이상 식별해 내는가?
- 획득한 이미지가 여러 매칭 알고리즘에서 일관성 있게 동작 하는가
- 사용자들이 평가 반영
매칭
알고리
즘 평가
ㅇ RESTful API HTTP 서버 기능이 있는 docker container를 제공
ㅇ 이미지를입력으로받아이미지성질을분석해저장한템플릿출력
ㅇ 평가 항목
- True Identification Rate 와 False Matching Rate 비율
1:10,000, 1:100,000, 1:1,000,000
- 충족 조건: FMR 1:10,000에서 정확도 95% 이상
- 각각 이미지 획득 시스템으로부터 얻어진 이미지를 사
용하여 측정
- 이미지 획득 시스템에 민감하지 않게 잘 작동 하는가
- 인식을 성공하든, 실패하든 최대 20초, 평균 5초 이내 수행
[ MdTF ]

평가 모델 고도화
• 평가 모델 요구사항
- 파일이 아닌 ‘실시간‘ 기반 알고리즘 검증
- 8개의 채널을 각각 독립적으로 병렬처리
- 자동 검증구역(무인, 유인, 심사대기구역 등) 탐지
구분 작년 올해
입력 영상 수
- 동기화된 4개 영상 처리
- 영상이 동기화 되어있기 때문에 1번 영상에서명확하게보이지
않는얼굴등을2번 또는 3번 영상을 이용해 상호 보완하여
올바르게 식별, 추적
- 동기화되지 않은 8개 영상 처리
- 영상이 동기화 되지 않기 때문에 상호 보완 없이 식별, 추적
- 1:N이나 이상행동 모두 한 각도에서만 바라보기 때문에 특정
카메라에서 부족한 정보를 보완할 방법이 없음
동영상 1:N
값의 반환
- 동기화된 4개 영상을 비교 해석하여 1개의 답 산출
- 1개의 답을 EMR, NMR, FPR, IT로 검증
- 알고리즘은 실제 영상에 등장한 사람에대한시간대범위중‘단
한번’누가 언제 나타났는지 예측
- 동기화되지 않은 8개 영상을 각각 해석하여 8개의 답 산출
- 각8개의답을Recall,Precision으로검증
- 알고리즘은 실제 영상에 등장한 사람의시간대범위중‘누가
언제부터언제까지’영상에 등장했는지 예측
- 인식 시간은 Recall에 포함
이상행동
영상 종류 판단
- 4개 영상에 대한 정보 제공
Ex. 4개의 영상 송출 과정에서 각각의 영상이 테스트베드 중 어느
위치에 설치된 카메라인지 정보 제공 (즉, 영상 마다 감지해야하는
이상 행동 종류를 알려줌)
- 8개 영상에 대한 정보 미제공
Ex. 8개 영상 송출 중 무인 및 유인 심사대, 심사대기구역 등이
무작위로 송출될 때, 알고리즘은 영상을 해석하여 유인심사대인지,
심사대기구역인지등을자동으로예측한 뒤 각각 영상에서
감지해야하는 이상행동의 종류를 스스로 판단하고 결과 값 산출
테스트베드 변화 - 테스트베드는 최대 10m x 4.5m 크기 - 테스트베드는 13.6m x 7m로 확장
[ 요구사항 기반 검증 지표 고도화 ]

평가 모델 – 안면인식 이미지
• 안면인식 시스템 성능평가 [이미지]
- 이미지 1:1 평가: 두 개의 이미지를 입력 받아 두 이미지가 같은 사람인지 다른 사람인지 판단
- 이미지 1:N 평가: 하나의 이미지를 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
거짓 부정 식별율 (FNIR)
(False Negative Identification Rate)
실제로 등록된 사람 중,
알고리즘이 비등록인으로 판단하거나 등록된 사람을 잘못 판단한 비율
거짓 긍정 식별율 (FPIR)
(FalsePositiveIdentificationRate)
실제로 등록되지 않은 사람 중,
알고리즘이 등록된 사람이라고 판단한 비율

평가 모델 – 안면인식 동영상
• 안면인식 시스템 성능평가 [동영상]
- 동영상 1:1 검증 : 하나의 여권 사진과 동영상에 등장하는 사람이 같은 사람인지 다른 사람인지 판단
- 동영상 1:N 검증: 하나의 동영상을 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
재현율 (Recall)
영상에서 실제로 사람이 등장한 ‘tight interval’ 범위 중,
알고리즘이 누구인지 맞춘 시간대 비율
정밀도 (Precision)
알고리즘이 예측한 사람의 등장 시간대 범위 중,
영상에서 실제로 사람이 등장한 ‘loose interval’ 범위에서 맞춘 시간대 비율
※ loose, tight interval은 다음장에서 설명

평가 모델 고도화 – 이상행동
[ 수행 구간 정의 ]
1s 2s 4s 5s
3s 6s
알고리즘이 예측한 ‘돌진＇
이상행동 구간
넓은 정의 구간 (loose interval)
대상 정의
loose interval
모호한 시간대를 포함해서 넉넉하게 잡은 시간 구간
이 시간대 밖에서는 알고리즘이 무슨 수를 써도 맞게 감지할 수 없다고 판단
tight interval
모호한 시간대를 제외하고 확실하게 이상행동이 발생한다고 판단하는 시간 구간
이 시간대 안에서는 알고리즘이 맞게 감지해야 한다고 판단
재현율 (Recall) 1/2 = 0.5 정밀도 (Precision) 2/3 = 0.66
[ 모호한 구간 – 돌진 예시(언제부터 돌진인가?) ]
좁은 정의 구간 (tight interval)

평가 모델 시스템 구축
RTMP
• 테스트 베드의 평가 시스템 요구사항
- 참여업체에서 개발된 프로그램을 동시에 검증할 수 있도록 평가 시스템 구축
- 참여업체에서 개발된 프로그램 소스코드 보안 필요
- 환경을 고려한 시나리오 평가는 실시간으로 수행
• CCTV 사양
- Single RGB / IR, depth 등의 기능 비활성화 / IP 카메라 / 1920 x 1080 해상도(법무부에서 현재 사용하고 있는 해상도)
- 모델명: HIKVISION DS-2CD2025FWD-1.6mm (30fps, 52” 사각)
• 시스템 사양
- 동영상 : Intel Xeon E5-2640 v4 (10core) / 128GB (삼성전자 DDR4 32G PC4-21300 * 4) /GPU: GeForce RTX 2080 Ti 11GB 2개
- 이미지 : Intel i5-10201U 4Core / 16GB / Interl UHD Graphics 620 (맥미니)
[ 사진 검증 (안면인식) ] [ 동영상 검증 (안면인식 & 이상행동) ]

평가 수행 사전 준비
• 평가 검증 절차 / 테스트 인터페이스 설명회 (네크워크 환경, 평가 검증 절차 및 안내 공지)
• 클라우드에서 접속 가능하도록 인터페이스 오픈
• 사전 테스트 기간 제공
[ 테스트 인터페이스 설명회 ] [ 사전 테스트 ]
[ 테스트 시스템 클라우드 오픈] [ 개별 인터페이스 Swagger 오픈]

이미지 테스트 평가 수행
인천공항 법무부 외국인청 테스트 환경
• 학습 후 이미지 테스트
- 1:1, 1:N 이미지 테스트 수행
- 법무부의 이미지를 이용하여 평가를 진행하는 바, 법무부 내의 서버실에 환경을 구축하여 진행
NO 일정 기업
1 11월 02일 ~ 11월 06일 A,B,C,D
2 11월 09일 ~ 11월 13일 E,F,G,H
평가 일정 공지
실증기업 알고
리즘 제출 및 봉
인
평가 환경 구축
평가 작업 계획
서 법무부에 제
출
실증기업 알고
리즘 동작 환경
구축
프로토콜 테스
트
평가 진행 평가 결과 추출
[학습 후 이미지 테스트 진행 흐름]

동영상 테스트 평가 수행
• 학습 후 동영상 테스트
- 알고리즘 설치 및 환경 구축
- 1:1 동영상 테스트 수행
- 1:N 동영상 테스트 수행
- 이상행동 감지 동영상 테스트 수행
- 이상행동 및 행위자 감지 동영상 테스트 수행
- 각 테스트 별 성능 평가 수행
일정 기업
11월 02일 ~ 11월 06일 A B C D
11월 09일 ~ 11월 13일 E F G H
평가 일정 공지
알고리즘
제출 및 봉인
평가
환경 구축
실증업체 알고리즘
환경 구축
평가 진행 평가 결과 추출
[학습 후 동영상 테스트 진행 흐름]

동영상 테스트 – 성능 / 자원사용량 측정
• 총 9개(트랙 1 : 8개, 트랙 2 : 1개) 실증기업에 대한 성능 테스트
구분 안면인식(1:1) 안면인식(1:N) 이상행동 이상행동 및 행위자
CPU 5~50% (평균: 16.4%) 40~100% (평균: 59.5%) 25~50% (평균: 43.6%) 30~75% (평균: 53.1%)
메모리 2~35% (평균: 10.0%) 2~15% (평균: 8.6%) 5~47% (평균: 17.5%) 5~13% (평균 10.1%)
디스크 특이사항 없음 특이사항 없음 특이사항 없음 특이사항 없음
네트워크 특이사항 없음 특이사항 없음 특이사항 없음 특이사항 없음

35
평가 수행후 결과 리포트 (이미지)

36
평가 수행후 결과 리포트 (이미지)

37
평가 수행후 결과 리포트 (동영상)

38

39

40

41

AI 평가모델 수행 전략
43
• 품질평가 기반 개선 포인트
컨설팅
- AI 품질 확보 방안 자문
- AI 성능 개선 자문
- AI 데이터 품질 자문
• 테스트 방법 컨설팅
- AI 테스트 가이드
• AI 모델 테스트(성능)
- AI 성능 지표 도출 방안 자문
- AI 성능 지표 기반 품질 확보방안을 도
출하는 방법 자문
• 데이터 테스트
- AI 데이터 품질‧양‧수준 확보방안 자문
- 데이터 구성수준 자문
- AI 데이터 적합성 자문
• AI 시스템 테스트 & 기능 테스트 (인수
테스트)
측정지표
테스트 베이시스
• AI 성능지표
• 데이터 품질 지표
• 시스템 품질지표
• 모델 개발 산출물
- 학습/테스트 데이터 구성도
• AI프로파일
• 시스템 개발 산출물
◎ AI 모델성능/데이터 테스트〮컨설팅 내용 - 테스트를 지원하며 AI 성능 지표/개선 및 데이터 품질 컨설팅 수행
◎ 기업의 니즈(설문결과 + 대상기업의 요구)를 테스트와 컨설팅을 수행하고 추진할 때 반영함.
• AI 활용성 개선 컨설팅

AI 테스트 수행 방안
ü 측정 지표를 통해 측정하며 신뢰 할 수 있는 측정값을 얻기 위해 다음 사항을 고려
1) AI 프로파일
2) AI 테스트 데이터 세트
3) AI 모델 측정지표(AI 모델별 측정지표 or 손실함수)
4) 적절한 측정 횟수
AI 시스템 테스트 접근법
1) AI 모델 프로파일
4) 적절한 측정 횟수
3) AI 모델 측정지표
(AI 모델별 측정지표 or 손실함수)
2) AI 테스트 데이터 세트 측정 결과
AI 모델

AI 테스트시 주요 성능 지표
◎ 기계학습 태스크의 세분화 후 여기에 사용되는 성능지표를 정리해 제안요청서 상에 제시된 것을 포함하는
모든 성능지표를 파악에 컨설팅 대상기업이 사용하는 지표를 커버하고, 더 적합한 지표를 추천함
비전 자연어 그 외
세분화
성능
지표
분류
F-Beat
Precision
Recall
ROC
PR-Curve
AUC
객체 인식
mAP
BBox
F-Beta
IoU
Confidence
객체 분할
BELU
F-Beta
MAP
MAE
Hit-Rate
생성
Inception
Score
FID
MS-SSIM
추정
PCP
PCK
PDJ
MPJPE
AUC
문장 분류
F-Beta
Precision
Recall
ROC
PR-Curve
AUC
문장 생성
F-Beta
BLEU
CIDR
METEOR
ROUGE-L
감정 분석
Accuracy
Recall
Precision
F-Beta
PR-Curve
ROC
AUC
추천 시스템
의료
음성

AI 프로파일
46
고려 사항 내용
일반 • AI 모델/시스템 개요
사용
• 의도된 사용 시나리오는?
• 대상 사용자는?
• 이미 알고 있는 편향성은?
데이터 세트
• 데이터는 어떻게 수집했는가?
• 데이터에 어떤 전처리를 했는가?
• 알고 있는 데이터세트의 에러/노이즈/중복/데이터 누락은 무엇인가?
학습 및 성능
• 학습 알고리즘과 초매개변수는 어떤 것을 사용했는가?
• 선택한 성능 지표와 해당 성능 지표를 선택한 이유는?
테스팅
• 테스트 데이터세트의 규모, 출처, 내용은 무엇인가?
• 적대적 공격에 대한 강건성을 테스트 했는가?
※ 전체 프로파일은 별첨
◎ AI 프로파일은 모델의 이해를 위해 AI일반, AI사용, 데이터 세트, 학습 및 성능, 테스팅 분야의 질문으로 구성
◎ 각각의 고려사항에 대한 답변은 AI 테스팅의 베이시스가 됨

AI 성능 테스트의 어려움
47
적절한 성능 지표 선정부터..
성능을 잘 측정하기 위한 평가 데이터 셋 구성은..
평가 프로그램 구축
공인된 외부 인증서 발급의 어려움

어니컴 + STA 의 AI 테스팅 단계별 전략
48
구분 단계 산출물 객관성 확보 방안 품질 확보 방안
1
현황 진단 및
분석
현장 진단/분석 보고서
• 컨설팅 프레임워크 활용
• TMMai 활용
• 컨설팅 전문인력 참여
• 관련 전문가 및 과제 관
계자 리뷰 진행
2
제품 및 서비스
테스트
AI모델/데이터 테스트 계획서 • 입증된 AI 모델 프로파일링 기법 활용
• AI 모델 테스트 관련 국제 표준 활용
(ISO/IEC/IEEE29119-11)
• AI 데이터 품질 관련 국제표준 활용
(ISO/IEC 25012, 25024)
• 테스트 프로세스, 문서화, 기법 국제표준
활용 (ISO/IEC/IEEE29119-2, 3, 4)
• 소프트웨어 품질 특성/지표 국제표준 활
용 (ISO/IEC 25023)
• 관련 기술 전문가 및 경
험자가 컨설팅 진행 및
참여
• 관련 전문가 및 과제 관
계자 리뷰 진행
• 컨설팅 관리 시스템
(Redmine)을 활용한 공
유/소통
AI모델/데이터 테스트 설계서
테스트 결과 보고서
이슈 보고서
공인시험성적서
• 컨설팅에 참여하지 않는 제3자 공인시험
기관 진행
• ISO/IEC 25023 기반 AI 제품 시험
• 관련 기술 전문가 및 경
험자가 참여
• 정형화된 문서 적용
3 컨설팅 자문 수행
컨설팅 계획서
• 컨설팅 방법론 및 프레임워크 활용
• 컨설팅 전문인력 참여
• 컨설팅 관리 시스템을
활용한 공유/소통
• 관련 기술 전문가 참여
컨설팅 보고서
AI 모델/데이터 테스트 가이드
4
완료 및 결과
보고
종합 결과 보고서
• 표준적 프로젝트 관리 방법론의 과제수행
내용 준수(PM 전문가 리딩)
• 사업관리기관 및 외부 전문가 의견 적극
수용
• 총괄책임자의 지속적인
모니터링
• 의사소통관리(정기보
고)

인공지능 식별추적시스템 성능 검증 평가 사례

인공지능 식별추적시스템 성능 검증 평가 사례

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 인공지능 식별추적시스템 성능 검증 평가 사례

Similar to 인공지능 식별추적시스템 성능 검증 평가 사례 (20)

More from IMQA

More from IMQA (8)

인공지능 식별추적시스템 성능 검증 평가 사례