This document discusses issues related to artificial intelligence and implications for public policy. It outlines several areas of concern regarding AI research and development, usage, and potential for disruption. It then evaluates three potential policy solutions: regulation, standard-setting, and public policy/funding. The conclusion states that advanced AI is inevitable and the focus should be on minimizing risks through guidelines, public support of development, and incentives for positive uses of AI through international collaboration.
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven SecurityKorea University
이 슬라이드는 2018 NetSec-KR 에 발표된 자료로, 2017년에 개최한 제 1회 "정보보호 R&D 데이터 챌린지" (http://datachallenge.kr/) 에 대해 상세한 설명을 하고, AI와 Machine Learning 을 정보보안에 접목하여 Data-Driven Security 를 연구하고자 하는 분들께 도움이 되고자, 본 자료를 작성하였습니다.
This document discusses issues related to artificial intelligence and implications for public policy. It outlines several areas of concern regarding AI research and development, usage, and potential for disruption. It then evaluates three potential policy solutions: regulation, standard-setting, and public policy/funding. The conclusion states that advanced AI is inevitable and the focus should be on minimizing risks through guidelines, public support of development, and incentives for positive uses of AI through international collaboration.
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven SecurityKorea University
이 슬라이드는 2018 NetSec-KR 에 발표된 자료로, 2017년에 개최한 제 1회 "정보보호 R&D 데이터 챌린지" (http://datachallenge.kr/) 에 대해 상세한 설명을 하고, AI와 Machine Learning 을 정보보안에 접목하여 Data-Driven Security 를 연구하고자 하는 분들께 도움이 되고자, 본 자료를 작성하였습니다.
오컴 Clip IT 세미나 1회차 "머신러닝과 인공지능의 현재와 미래"
1. 인공지능과 머신러닝
- 영화 및 애니메이션에 나타나는 친화적 인공지능과 적대적 인공지능, 그리고 감성적 인공지능
- 강한 인공지능과 약한 인공지능의 차이
- 인공지능과 머신러닝의 관계
2. 딥러닝과 강화학습
- 인공지능의 중요 열쇠이자 머신러닝의 세부 이론인 딥러닝과 강화학습에 대한 개괄 소개
3. 인공지능에 대한 우리의 자세
- 과연 인공지능은 완벽한가?
- 과연 인공지능은 인간 전문가를 대체할 수 있을까?
- 데이터의 중요성
○ 개요
* Frequency별 금융 상품 소개 (크래프트 프로젝트 소개)
- Ultra low frequency : 자산배분문제 (3달 ~ 6달)
- low frequency : 로보어드바이저 (2달~3달)
- median frequency : 펀드, ETF (1달~2달)
- high frequency : 주문집행, 마켓메이킹 (일단위 밑)
○ 문제점 정의
- 금융데이터로 딥러닝을 할 경우 왜 학습이 안 되는가?
> 문제점 1 : Feature 종류 대비 짧은 Sequence 길이
> 문제점 2 : Feature 자체의 노이즈
> 문제점 3 : 문제점 1, 2로 인한 오버피팅 문제
- 레몬마켓
> 위 문제점들로 인해, 1) 퀀트 only 2) 퀀트 + 딥러닝 3) 잘못된 딥러닝이 대부분임.
> 이런 문제로 기존 로보어드바이저는 AI라는 이름을 달고 나오지만 실제로는 AI가 아닌 경우도 있고, 딥러닝을 쓰지만 성과가 나쁜 경우가 대다수임. 이런 문제로 금융 + 딥러닝 업체들에 대한 레몬마켓 현상이 발생.
○ 크래프트 해결책 (직관에 대한 최적화)
- (문제점1) Feature 종류 대비 짧은 Sequence를 어떻게 해결할 것인가?
> GAN등의 방법으로 Sequence를 연장할 수도 있지만 GAN 데이터가 시계열 데이터의 패턴을 완벽하게 반영하지 않으면 데이터 생성의 의미가 없으면, 금융데이터는 시계열 간의 관계도 매우 중요함. 따라서 부적절
> 직관적으로 퀀트들은 이런 문제를 해결하기 위해 경제적 함의점을 가지는 퀀트모델들을 만듦. (간단한 팩터모델들 소개)
> 우리는 퀀트모델들에 대한 직관적 사고 방식을 모사하는 딥러닝 모형을 설계. (팩터 모델, 자산배분모델 등에서 매우 잘 작동함을 확인)
- (문제점2) Feature 자체의 노이즈를 어떻게 해결할 것인가?
> stacked CNN AutoEncoder 기반의 노이즈 제거기술. 모듈로 확장가능성 존재
> (노이즈 제거가 잘 되는 자료 첨부, 이로 인한 학습 효과 증대)
- (문제점3) 그럼에도 발생하는 오버피팅 문제를 어떻게 해결할 것인가?
> Asynchronous Multi Network Learning Framework 소개.
> Beam search와 유사하게 각 프로세서 개별적으로 초기화된 네트워크를 가지고 학습을 진행. validation data로 검증 후 적자생존 방식으로 오버피팅 발생가능성 최소화
오컴 Clip IT 세미나 1회차 "머신러닝과 인공지능의 현재와 미래"
1. 인공지능과 머신러닝
- 영화 및 애니메이션에 나타나는 친화적 인공지능과 적대적 인공지능, 그리고 감성적 인공지능
- 강한 인공지능과 약한 인공지능의 차이
- 인공지능과 머신러닝의 관계
2. 딥러닝과 강화학습
- 인공지능의 중요 열쇠이자 머신러닝의 세부 이론인 딥러닝과 강화학습에 대한 개괄 소개
3. 인공지능에 대한 우리의 자세
- 과연 인공지능은 완벽한가?
- 과연 인공지능은 인간 전문가를 대체할 수 있을까?
- 데이터의 중요성
○ 개요
* Frequency별 금융 상품 소개 (크래프트 프로젝트 소개)
- Ultra low frequency : 자산배분문제 (3달 ~ 6달)
- low frequency : 로보어드바이저 (2달~3달)
- median frequency : 펀드, ETF (1달~2달)
- high frequency : 주문집행, 마켓메이킹 (일단위 밑)
○ 문제점 정의
- 금융데이터로 딥러닝을 할 경우 왜 학습이 안 되는가?
> 문제점 1 : Feature 종류 대비 짧은 Sequence 길이
> 문제점 2 : Feature 자체의 노이즈
> 문제점 3 : 문제점 1, 2로 인한 오버피팅 문제
- 레몬마켓
> 위 문제점들로 인해, 1) 퀀트 only 2) 퀀트 + 딥러닝 3) 잘못된 딥러닝이 대부분임.
> 이런 문제로 기존 로보어드바이저는 AI라는 이름을 달고 나오지만 실제로는 AI가 아닌 경우도 있고, 딥러닝을 쓰지만 성과가 나쁜 경우가 대다수임. 이런 문제로 금융 + 딥러닝 업체들에 대한 레몬마켓 현상이 발생.
○ 크래프트 해결책 (직관에 대한 최적화)
- (문제점1) Feature 종류 대비 짧은 Sequence를 어떻게 해결할 것인가?
> GAN등의 방법으로 Sequence를 연장할 수도 있지만 GAN 데이터가 시계열 데이터의 패턴을 완벽하게 반영하지 않으면 데이터 생성의 의미가 없으면, 금융데이터는 시계열 간의 관계도 매우 중요함. 따라서 부적절
> 직관적으로 퀀트들은 이런 문제를 해결하기 위해 경제적 함의점을 가지는 퀀트모델들을 만듦. (간단한 팩터모델들 소개)
> 우리는 퀀트모델들에 대한 직관적 사고 방식을 모사하는 딥러닝 모형을 설계. (팩터 모델, 자산배분모델 등에서 매우 잘 작동함을 확인)
- (문제점2) Feature 자체의 노이즈를 어떻게 해결할 것인가?
> stacked CNN AutoEncoder 기반의 노이즈 제거기술. 모듈로 확장가능성 존재
> (노이즈 제거가 잘 되는 자료 첨부, 이로 인한 학습 효과 증대)
- (문제점3) 그럼에도 발생하는 오버피팅 문제를 어떻게 해결할 것인가?
> Asynchronous Multi Network Learning Framework 소개.
> Beam search와 유사하게 각 프로세서 개별적으로 초기화된 네트워크를 가지고 학습을 진행. validation data로 검증 후 적자생존 방식으로 오버피팅 발생가능성 최소화
5. AI SAFETY
▶5가지 Safety issues
• Avoiding Negative Side Effects
• Avoiding Reward Hacking
• Scalable Oversight
• Safe Exploration
• Robustness to Distributional Shift
<Concrete Problems in AI Safety, 2016>
6. EXECUTIVE OFFICE OF
THE PRESIDENT…
▶ AI Safety Engineering
• verification and validation
• how to build a safety case for a technology
• how to manage risk
• how to communicate with stakeholders
about risk
☞ Recommendation 19:
AI professionals, safety professionals, and their
professional societies should work together to
continue progress toward a mature field of AI
safety engineering
13. MODEL EXTRACTION
ATTACK
▶ML
▶MLaaS ( Machine Learning As a Service)
모델(f)X, y (문제,답)
training X (문제)
y (답)
Bob
[Florian Tramer,et.al, Stealing Machine Learning Models via Prediction APIs , Usenix’16]
14. MODEL EXTRACTION
ATTACK
▶제공된 모델 f 에 가까운 f^ 만들기
▶공격 목적
• 유료서비스 모델 탈취
• Inversion attack (학습데이터 추출하기) 에 활용
• Evasion attack에 활용
[Florian Tramer,et.al, Stealing Machine Learning Models via Prediction APIs , Usenix’16]
15. ▶ 기존 방법 : Membership Queries
• 각 데이터가 어느 class에 속하는지 질의?
• 수많은 query를 반복하면 학습데이터를 얻어 모델링을 새로 할 수 있음
▶ 최근 방법 : Confidence value의 활용
• ML produces prediction + confidence
• Confidence value -> Regression parameter estimation
• 적은 수의 Query 로도 model extraction이 가능
MODEL EXTRACTION
ATTACK
16. ▶Performance
• 100% 흉내 내는데 소요된 쿼리# 및 시간
• Decision Tree 재구성 ( using incomplete queries)
MODEL EXTRACTION
ATTACK
[Florian Tramer,et.al, Stealing Machine Learning Models via Prediction APIs , Usenix’16]
17. CM: AD HOC ..
▶Confidence Level 제공하지 않기
▶Differential Privacy
▶Ensemble methods
18. INVERSION ATTACK
▶모델에 query를 하여 Training data를 재현해냄
[Matt Fredrikson,et.al, Model Inversion Attacks that Exploit Confidence Information CCS’15]
모델(f)
Queries
y, confidence value
<extracted face> <training data>
19. INVERSION ATTACK
▶Nominal feature estimate
• 다른 feature들과 y 를 알 때, 알지 못하는 feature x_1을
model로 부터 알아내는 방법
- feature x_1 : sensitive information
☞ 알고 싶은 feature의 모든 값을 시험하여 y prediction
error가 가장 작은 값을 선택
▶CM
• Rounding confidence
21. ATTACK ON DATA SANITIZING
▶ 비정형 데이터 sanitizing
• Medical records (PII)
• Images/Video (faces)
• 주로 named entity recognition (머신러닝기반)
☞ 미탐 오류 => 프라이버시 침해
▶ 공격자는 자동화된 도구로 미탐되어 제거되지 않은 PII를 찾음
• 공개된 sanitized data에서 PII를 찾도록 training
▶ CM : 공격자의 행위를 모사
• Greedy Sanitize
26. HE ON MEDICAL DATA
▶ DNA Analysis Based on HE
• Calculation of edit distance between 2 DNA Sequence (string oper.)
- DNA 길이 : 10,000
- Time/length : 7.6ms
• 단순한 vector similarity 계산
• 유방암 질병패널 선택을 위한 바이오마커 검색 (search)
- 100K DNA - 6.8s
• 간단한 모델 계산 (calculation)
- 심장병에 걸릴 확률 계산 : 암호화된 features ( age, bp, chol, ht, wt )로 아래 공식 계산
y =
𝑒 𝑥
𝑒 𝑥+1
, 𝑥 = 0.072 ∙ 𝑎𝑔𝑒 + 0.013 ∙ 𝑏𝑝 + 0.008 ∙ 𝑐ℎ𝑜𝑙 − 0.053 ∙ ℎ𝑡 = 0.021 ∙ 𝑤𝑡
- 1분 이내
28. ISSUE AND FUTURE WORK
▶ AI Safety
• 이슈들
☞ Issues on Medical applications of AI
▶ Adversarial AI threatens data security & privacy
• Evasion attack
• Model extraction attack
• Inversion attack
• Attack on data sanitizing
☞ Attack Scenario on Medical applications of AI
▶ Privacy Techniques
• Differential privacy
• Homomorphic encryption
• Privacy preserving ML
☞ Machine Learning (esp. Medical application), PM에 적용 시나리오
▶ Medical data application of Block chain