2018년 6월 24일 "백수들의 Conference"에서 발표한 개발자를 위한 (블로그) 글쓰기 intro입니다
좋은 글을 많이 보는 노하우 + 꾸준히 글을 작성하는 노하우에 대해 주로 이야기했습니다! (어떻게 글을 작성하는가는 없어요!)
피드백은 언제나 환영합니다 :)
2018년 6월 24일 "백수들의 Conference"에서 발표한 개발자를 위한 (블로그) 글쓰기 intro입니다
좋은 글을 많이 보는 노하우 + 꾸준히 글을 작성하는 노하우에 대해 주로 이야기했습니다! (어떻게 글을 작성하는가는 없어요!)
피드백은 언제나 환영합니다 :)
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
발표 영상 : https://goo.gl/jrKrvf
데모 영상 : https://youtu.be/exXD6wJLJ6s
Deep Q-Network, Double Q-learning, Dueling Network 등의 기술을 소개하며, hyperparameter, debugging, ensemble 등의 엔지니어링으로 성능을 끌어 올린 과정을 공유합니다.
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
발표자: 이활석 (Naver Clova)
발표일: 2017.11.
(현) NAVER Clova Vision
(현) TFKR 운영진
개요:
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨지고 있습니다.
특히 컴퓨터 비전 기술 분야에서는 지도학습에 해당하는 이미지 내에 존재하는 정보를 찾는 인식 기술에서,
비지도학습에 해당하는 특정 정보를 담는 이미지를 생성하는 기술인 생성 기술로 연구 동향이 바뀌어 가고 있습니다.
본 세미나에서는 생성 기술의 두 축을 담당하고 있는 VAE(variational autoencoder)와 GAN(generative adversarial network) 동작 원리에 대해서 간략히 살펴 보고, 관련된 주요 논문들의 결과를 공유하고자 합니다.
딥러닝에 대한 지식이 없더라도 생성 모델을 학습할 수 있는 두 방법론인 VAE와 GAN의 개념에 대해 이해하고
그 기술 수준을 파악할 수 있도록 강의 내용을 구성하였습니다.
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
Deep Learning Into Advance - 1. Image, ConvNetHyojun Kim
[본 자료는 AB180 사내 스터디의 일환으로 제작되었습니다.]
딥러닝에 대한 기초적인 이해 및 적용 예시를 알아보고, 인사이트를 공유하기 위해 만들었습니다. 첫번째로 딥러닝이 이미지 프로세싱에 적용된 방식 및, Convolutional Neural Network (ConvNet)의 기초에 대해 다루었습니다.
* 본 스터디 자료는 Stanford 강좌인 CS231n (http://cs231n.stanford.edu)의 내용을 참고했습니다.
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
발표 영상 : https://goo.gl/jrKrvf
데모 영상 : https://youtu.be/exXD6wJLJ6s
Deep Q-Network, Double Q-learning, Dueling Network 등의 기술을 소개하며, hyperparameter, debugging, ensemble 등의 엔지니어링으로 성능을 끌어 올린 과정을 공유합니다.
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
발표자: 이활석 (Naver Clova)
발표일: 2017.11.
(현) NAVER Clova Vision
(현) TFKR 운영진
개요:
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨지고 있습니다.
특히 컴퓨터 비전 기술 분야에서는 지도학습에 해당하는 이미지 내에 존재하는 정보를 찾는 인식 기술에서,
비지도학습에 해당하는 특정 정보를 담는 이미지를 생성하는 기술인 생성 기술로 연구 동향이 바뀌어 가고 있습니다.
본 세미나에서는 생성 기술의 두 축을 담당하고 있는 VAE(variational autoencoder)와 GAN(generative adversarial network) 동작 원리에 대해서 간략히 살펴 보고, 관련된 주요 논문들의 결과를 공유하고자 합니다.
딥러닝에 대한 지식이 없더라도 생성 모델을 학습할 수 있는 두 방법론인 VAE와 GAN의 개념에 대해 이해하고
그 기술 수준을 파악할 수 있도록 강의 내용을 구성하였습니다.
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
Deep Learning Into Advance - 1. Image, ConvNetHyojun Kim
[본 자료는 AB180 사내 스터디의 일환으로 제작되었습니다.]
딥러닝에 대한 기초적인 이해 및 적용 예시를 알아보고, 인사이트를 공유하기 위해 만들었습니다. 첫번째로 딥러닝이 이미지 프로세싱에 적용된 방식 및, Convolutional Neural Network (ConvNet)의 기초에 대해 다루었습니다.
* 본 스터디 자료는 Stanford 강좌인 CS231n (http://cs231n.stanford.edu)의 내용을 참고했습니다.
지금까지 Super Resolution은 많은 방법들이 등장해왔다. 딥러닝이 영상처리 분야에서 눈에 띄는 성과를 보여주기 시작했고 이는 Super Resolution 문제에도 마찬가지로 적용됐다. 이번 발표에서는 1달 동안 3 가지 딥러닝 SR 모델을 구현한 경험담과 이를 통한 딥러닝 SR의 동향을 얘기하고자 한다. 딥러닝 SR이 기존의 SR을 어떻게 대체했는지 SRCNN을 소개로 시작하며 그 이후 딥러닝 SR의 발전과 현재 어디까지 왔는지 VDSR과 RDN을 통해 설명하겠다. 마지막으로 구현하면서 느낀 점들과 앞으로의 SR에 대한 생각을 얘기하려 한다.
디지털 카메라와 모바일 카메라가 널리 보급되면서 우리는 언제 어디서나 디지털 이미지를 촬영할 수 있게 되었고, 촬영한 디지털 이미지를 소셜 네트워크 서비스, 모바일 메신저 등 다양한 인터넷 서비스들을 이용하여 전송하거나 공유하며 살고 있다. 우리는 디지털 이미지를 볼 때 우리는 그것이 사실이라고 믿는 경향이 있지만 많은 디지털 이미지는 가짜이며 실제 일어나지 않은 장면을 담고 있다. 이러한 가짜 이미지는 가짜 뉴스, 보고서 조작 등 다양한 곳에서 악용되어 다양한 사회 문제를 야기시킨다. 가짜 이미지로 발생하는 여러 사회 문제를 예방하거나 해결하기 위해 많은 연구자들은 이미지의 조작을 탐지하는 기술을 제안하였지만 기존의 이미지 조작 탐지 기술은 제한적인 특정 이미지 환경에서만 작동하기 때문에 실제 이미지 유통 환경에서 사용하기가 거의 불가능한 실정이다. 본 발표에서는 약 2년동안 이미지 조작 탐지 서비스에서 의뢰된 다양한 실제 이미지들에 대해 소개한 뒤, 의뢰된 JPEG 이미지로부터 추출한 1120개의 quantization table을 이용해 생성한 데이터셋에 대해서 설명한다. 또한 single JPEG과 double JPEG을 구분할 수 있는 네트워크 구조를 제안한 뒤, 이를 이용하여 JPEG 이미지에서 발생하는 다양한 조작을 탐지하는 방법에 대해 소개한다.
Learning Less is More - 6D Camera Localization via 3D Surface RegressionBrian Younggun Cho
Learning Less is More - 6D Camera Localization via 3D Surface Regression
현재 Learning-based Visual Localization에서 SOTA 중 하나인 LessMore 논문의 발표자료
- 발표자료의 일부는 ECCV 2018, Visual Localization workshop에서 Eric Brachmann의 슬라이드를 참고하였습니다.
Our GOAL
해외에는 이런 데이터 경쟁 플랫폼이 있습니다. 한국에는 없죠. 국내 공공기관 또는 개별 기업들이 스팟성으로 불투명한 대회를 벗어나 지속적으로 대회를 운영하는 플랫폼이 있으면 좋겠다고 생각했습니다. 우리는 지금 Fintech 기업들과 함께 금융 데이터와 상금을 제공하며, 데이터 과학자 와 데이터 엔지니어링을 포함하는 데이터 대회를 운영합니다.
There are these data competition platforms overseas, but in Korea, Domestic public organizations or individual companies are out of the opaque temporary contest I wanted to have a platform that consistently runs the competition. We now provide financial data and cash prizes with Fintech companies, we run the Data Competition included in Data Engineer and Data Scientists.
1. 위성 이미지 객체 검출
{green669, sbson0621, rnans33, karma1002, ohhs}@koreatech.ac.kr
DICE Lab
KOREATECH
1
박주찬 손성빈 정준욱 오흥선이선훈
2. DICE Lab
• Deep Intelligence for Cognitive Environment (DICE) Lab
• in School of Computer Science and Engineering, KOREATECH
• Focus on deep intelligence systems by understanding various cognitive
environments based on language and vision technologies.
• https://sites.google.com/view/dice-lab/home
• Looking for self-motivated graduate students!
2
3. 목차
• Problem Definition
• Challenges in Aerial Object Detection
• The Approaches to Challenges
• Model
• Experiments
• Conclusion
3
5. Problem Definition
• 인공위성 영상의 선박 종류 인식 및 위치를 검출 알고리즘 개발
5
• Object Detection
• Classification
• Localization
• Horizontal bounding boxes
• Oriented bounding boxes
6. Problem Definition
• 인공위성 영상의 선박 종류 인식 및 위치를 검출 알고리즘 개발
6
• Object Detection
• Classification
• Localization
• Horizontal bounding boxes
• Oriented bounding boxes
7. Problem Definition – Object Detection
Classification
7
Cat ( x, y, w, h )
Object Detection
Classification + Localization(Horizontal bounding box)
Localization
Horizontal
bounding box
8. Problem Definition
• 인공위성 영상의 선박 종류 인식 및 위치를 검출 알고리즘 개발
8
• Object Detection
• Classification
• Localization
• Horizontal bounding boxes
• Oriented bounding boxes
13. Challenge 1
13
Dataset Classes Images
ILSVRC 2014 200 516,840
COCO2017 80 163,957
PASCAL VOC 2012 20 22,531
Aerial Data 4 2,676
<Aerial Data vs 일반 OD데이터 셋 비교>
데이터 수의 부족
14. Challenge 2
14
항공뷰의 특징
고 해상도 배경 및 물체의 복잡도
↕
Aerial image 해상도 : 3000 x 3000
일반 사진에 비해서 배경, 물체
의 복잡도가 높음
항공 이미지 일반 이미지
높은 해상도로 인해 원본 이미지를
바로 처리하기 어려움
데이터셋 평균 해상도
ImageNet 482 x 415
COCO 480 x 640
VOC2012 469 x 387
16. Class Images Ratio
Maritime vessels 12,018 67.3 %
Container 3,986 22.3 %
Oil tanker 1,807 10.2 %
Aircraft carrier 39 0.20 %
데이터의 불균형
Challenge 3
16
<Aerial Data Class 별 객체 수 비교>
18. Our Approaches
18
• 항공뷰의 특징
• 고해상도 처리 → Image patches
• 다양한 회전 각도 및 물체의 밀집 → RoI Transformer
• 데이터 수의 부족
→ Multi-scale augmentation
→ Appearance augmentation
• 데이터의 불균형
→ Data uncertainty approach
+ 데이터의 noise 및 model uncertainty에 강한 모델
→ Bayesian deep learning approach
19. Our Approaches
19
• 항공뷰의 특징
• 고해상도 처리 → Image patches
• 다양한 회전 각도 및 물체의 밀집 → RoI Transformer
• 데이터 수의 부족
→ Multi-scale augmentation
→ Appearance augmentation
• 데이터의 불균형
→ Data uncertainty approach
+ 데이터의 noise 및 model uncertainty에 강한 모델
→ Bayesian deep learning approach
20. Image Patches
20
1024
1024
3000 x 3000
0
0
• 하나의 3000 x 3000 이미지
→ 모델의 input size인 1024 x 1024 크기의 패치로 나눔, Stride : 512
→ 총 25장의 이미지 패치가 됨
21. Our Approaches
21
• 항공뷰의 특징
• 고해상도 처리 → Image patches
• 다양한 회전 각도 및 물체의 밀집 → RoI Transformer
• 데이터 수의 부족
→ Multi-scale augmentation
→ Appearance augmentation
• 데이터의 불균형
→ Data uncertainty approach
+ 데이터의 noise 및 model uncertainty에 강한 모델
→ Bayesian deep learning approach
23. Data Augmentation
23
• 형상 정보 변환
• Multi-scale augmentation
• 데이터 속성 변환 (Appearance augmentation)
• 색감 변환
• 안개 적용
• 밝기 변화
• 가우시안 블러링
24. Data Augmentation
• Multi-scale augmentation
• 학습데이터의 크기를 다양한 스케일로 학습시키는 것
• 장점
• 다양한 크기의 object에 강건한 모델을 만들 수 있음
• Ours
• Image patch를 1024 x 1024, 1500 x 1500, 3000 x 3000의 스케일로 생성
24
25. Data Augmentation
• Multi-scale augmentation
• Ex) 한 장의 3000 x 3000 크기의 이미지
-> 1024 x 1024 크기의 이미지 25장, stride : 512
25
1024
1024
3000 x 3000
0
0
26. Data Augmentation
• Multi-scale augmentation
• Ex) 한 장의 3000 x 3000 크기의 이미지
-> 1024 x 1024 크기의 이미지 25장, stride : 512
26
3000 x 3000
1536
1024
512
0
27. Data Augmentation
• Multi-scale augmentation
• Ex) 한 장의 3000 x 3000 크기의 이미지
-> 1500 x 1500 크기의 이미지 16장, stride : 700
27
3000 x 3000
1500
1500
0
0
28. Data Augmentation
• Multi-scale augmentation
• Ex) 한 장의 3000 x 3000 크기의 이미지
-> 1500 x 1500 크기의 이미지 16장, stride : 700
28
3000 x 3000
2200
1500
0
700
29. Data Augmentation
• Multi-scale augmentation
• Ex) 한 장의 3000 x 3000 크기의 이미지
-> 1024 x 1024 크기의 이미지 패치 25장, stride : 512
-> 1500 x 1500 크기의 이미지 패치 16장, stride : 700
-> 3000 x 3000 크기의 이미지 패치 1장
• 한 장당 총 42장의 이미지 패치가 만들어짐
• 총 학습 이미지의 개수 : 2,646 x 42 = 111,132장
• 학습 이미지 사이즈가 다양함
• 1024 x 1024 고정된 사이즈로 resize한 후, 모델의 input으로 들어가게 됨
29
30. Data Augmentation
30
• 형상 정보 변환
• Multi-scale augmentation
• 데이터 속성 변환(Appearance augmentation)
• 색감 변환
• 안개 적용
• 밝기 변화
• 가우시안 블러링
31. Data Augmentation
• Aerial 데이터 속성 분석
• 시간대(해의 위치 변화에 따른 조명 변화)
• 인공 위성의 성능(성능이 높을 수록 깨끗한 사진, 낮을 수록 blur한 사진)
• 안개, 구름
• 인공 위성이 받아들이는 전자기파 영역(적외선, 가시광선)
DICE Lab@KOREATECH 31
33. Data Augmentation
33
좌 : 원본 사진, 우 : Appearance augmentation 변환 이미지(비율에 맞게 sampling해서 뽑음)
Example 1
34. Data Augmentation
34
좌 : 원본 사진, 우 : Appearance augmentation 변환 이미지(비율에 맞게 sampling해서 뽑음)
Example 2
35. Our Approaches
35
• 항공뷰의 특징
• 고해상도 처리 → Image patches
• 다양한 회전 각도 및 물체의 밀집 → RoI Transformer
• 데이터 수의 부족
→ Multi-scale augmentation
→ Appearance augmentation
• 데이터의 불균형
→ Data uncertainty approach
+ 데이터의 noise 및 model uncertainty에 강한 모델
→ Bayesian deep learning approach
36. RoI Transformer
DICE Lab@KOREATECH 36
• HRoI(Horizontal Region of Interest)
• 버스의 방향에 상관없이 RoI를 잡
는 방식
• RRoI(Rotated Region of Interest)
• 버스의 방향을 고려하여 RoI 자체
를 rotate해서 잡음으로써 밀집한
이미지에 강건해짐
<HRoI vs RRoI [2]>
37. RoI Transformer
37Feature map
Anchor scale : 3
Anchor ratio : 1:1
Anchor angle : 0
Anchor scale : 3
Anchor ratio : 1:2
Anchor angle : 0
Anchor scale : 3
Anchor ratio : 1:1
Anchor angle :
𝜋
6
1
1
• Anchor란?
• RRoI를 선택하기 위해 필요한 후보
• RRoI를 계산하기 위해서는 Anchor를 구해야함
• Scale, Ratio, Angle이 존재
• Scale은 anchor의 크기를 조절
• Ratio는 anchor의 가로세로 비율을 조절
• Angle은 anchor의 각도를 조절
• Anchor의 개수를 구하는 공식
→ (num_scales × num_aspect_ratios × num_angles)[1,2,3,4]
38. RoI Transformer
• 기존 RRoI(Rotated Region of Interest)의 문제점
• Anchor의 개수를 구하는 공식
→ (num_scales × num_aspect_ratios × num_angles)[3,4,5,6]
• Anchor의 각도가 n배 세밀해진다면
• 연산량 n배 증가
• 메모리 n배 증가
• Proposal간의 match efficiency도 같이 떨어짐
38
39. RoI Transformer
• RoI transformer[2]
• Angle 자체를 추론함으로써 연산량을 극적으로 줄임
• anchor의 개수 = (num_scale * num_aspect_ratio * num_angles)
→ anchor의 개수 = (num_scale * num_aspect_ratio * 1)
• 표현 가능한 angle의 종류를 무한개로 늘림
• num_angles ∈ {
π
2
,
π
3
,
𝜋
4
, … ,
𝜋
𝑛
}, finite set
→ num_angles ∈ 𝑅 , infinite set
39
40. Our Approaches
40
• 항공뷰의 특징
• 고해상도 처리 → Image patches
• 다양한 회전 각도 및 물체의 밀집 → RoI Transformer
• 데이터 수의 부족
→ Multi-scale augmentation
→ Appearance augmentation
• 데이터의 불균형
→ Data uncertainty approach
+ 데이터의 noise 및 model uncertainty에 강한 모델
→ Bayesian deep learning approach
41. Data Uncertainty
41
<Balanced data vs Imbalanced data class feature space view[7]>
• Imbalanced Data의 문제점
• Balanced data 경우는 class
간의 경계선이 이상적임
• Imbalanced data는 class간
경계가 데이터가 부족한 쪽
으로 치우쳐짐(false positive
증가)
42. Data Uncertainty
42
<Regression and classification uncertainty with data frequency[7]>
• Imbalanced Data와 Uncertainty간의 상관관계
• 데이터의 수가 적을 수록 uncertainty가 증가
43. • Uncertainty 측정방법
• Aleatoric uncertainty, Epistemic uncertainty를 동시에 잡는 기법 사용 [7]
→ 기존 uncertainty 측정보다 향상된 기법
• Data imbalance 해결방법
• Category-level 해결[7]
43
Data Uncertainty
uncertainty를 측정하여 0.5 × 𝑢𝑛𝑐𝑒𝑟𝑡𝑎𝑖𝑛𝑡𝑦
만큼 rare class에 margin 을 부여함으로써
rare class 영역 회복
44. Our Approaches
44
• 항공뷰의 특징
• 고해상도 처리 → Image patches
• 다양한 회전 각도 및 물체의 밀집 → RoI Transformer
• 데이터 수의 부족
→ Multi-scale augmentation
→ Appearance augmentation
• 데이터의 불균형
→ Data uncertainty approach
+ 데이터의 noise 및 overfitting에 강한 모델
→ Bayesian deep learning approach
45. Bayesian deep learning inference[8]
DICE Lab@KOREATECH 45
y∗
~ p y∗
x∗
, X, Y y∗
= 𝑓(x∗
; 𝜃)
Bayesian deep learning 일반 deep learning
predict distribution predict point
• data의 noise를 처리하는 기법이 있음
• predict point를 추론하는 것이 아닌 predict distribution을 추론하기 때문에 model의 overfitting에 강함
46. 목차
• Problem Definition
• Challenges in Aerial Object Detection
• The Approaches to Challenges
• Model
• Experiments
• Conclusion
46
47. Overall Process
47
Image patches
3x1024x1024
I 𝑛
3x3000x3000
⋯
Output image
3x3000x3000
Model
patch 1
patch 2
patch N
𝒇 𝒎𝒆𝒓𝒈𝒆(
[patch 1,
…
patch N])
Box regression,
Classification
patch K
⋯
⋯
patch 1
patch 2
patch N
patch K
⋯
oil tanker
oil tanker
𝒇 𝒂𝒖𝒈 𝐼 𝑛
Augmentation Merge
48. Overall Process
48
Image patches
3x1024x1024
I 𝑛
3x3000x3000
⋯
Output image
3x3000x3000
Model
patch 1
patch 2
patch N
𝒇 𝒎𝒆𝒓𝒈𝒆(
[patch 1,
…
patch N])
Box regression,
Classification
patch K
⋯
⋯
patch 1
patch 2
patch N
patch K
⋯
oil tanker
oil tanker
𝒇 𝒂𝒖𝒈 𝐼 𝑛
Augmentation Merge
53. Result Analysis
53
Model Public mAP
ResNet50 + FPN 0.561
ResNet101 + FPN 0.608
ResNeXt101 + FPN 0.706
Model Public mAP
ResNeXt101 + FPN 0.706
ResNeXt101 + FPN+ BFN 0.734
ResNeXt101 + BiFPN[9]+ BFN 0.687
Backbone이 큰 모델일수록 성능 향상을 보임.
BFN 모듈을 추가했을 때 성능 향상을 보임
BiFPN[9] 모듈은 오히려 성능이 감소함.
54. Result Analysis
Model Appearance
Multi-scale
training
Uncertainty Public mAP Private mAP
ResNeXt101 + FPN+ BFN 0.762 -
ResNeXt101 + FPN+ BFN 0.812 -
ResNeXt101 + FPN+ BFN* 0.840 -
ResNeXt101 + FPN+ BFN* 0.849 0.824
Cascaded[10] ResNeXt101 + FPN+ BFN* 0.861 -
Cascaded[10] ResNeXt152 + FPN+ BFN* 0.838 -
54
* : multi-scale test 적용
Multi-scale test 적용 시 성능 향상을 보임
Bayesian model과 data imbalance 처리를 했을 시 성능 향상을 보임
Cascaded[10] ResNeXt101 + FPN+ BFN은 Public mAP는 높았으나 Private mAP는 오히려 떨어짐
Cascaded[10] ResNeXt152 + FPN+ BFN은 시간 부족으로 인해 완전한 성능을 내지 못함
55. Result Analysis
55
팀 이름(순위) 가채점 점수 최종 점수 점수 변위폭
DICE(1위) 0.849 0.825 -0.024
Top secret(2위) 0.844 0.815 -0.029
박태현_1579495977001(3위) 0.813 0.765 -0.048
상위 3개팀 중 모델 결과의 variance가 가장 낮음
➔ overfitting 및 noise에 강한 모델
58. Conclusion
• Challenges 해결 방법
• 항공뷰의 특징
➔ 이미지 패치로 나누는 것과 RoI Transformer을 통해 해결했음
• 데이터 수의 부족
➔ Multi-scale augmentation과 Appearance augmentation을 통해 해결했음
• 데이터의 불균형
➔uncertainty 측정을 통한 category별 margin을 줌을 통해 해결했음
• noise 및 overfitting에 강건한 모델
➔ Bayesian model을 통해 noise와 overfitting에 강건한 모델을 만듬
58
59. Further Discussion
• CBNet: A Novel Composite Backbone Network Architecture for Object
Detection[10]
59
• CBNet: Multiple backbone을 조합
• COCO object detection state-of-the-art model
(2020-04-09 기준)
• COCO dataset에서 기존 ResNeXt 보다 높은 성능
60. References
[1] https://commons.wikimedia.org/wiki/File:Aerial_photograph_of_a_cargo_ship.jpg
[2] Ding, J., Xue, N., Long, Y., Xia, G. S., & Lu, Q. (2019). Learning roi transformer for oriented object
detection in aerial images. Proceedings of the IEEE Computer Society Conference on Computer Vision and
Pattern Recognition, 2019-June, 2844–2853. https://doi.org/10.1109/CVPR.2019.00296
[3] Seyed Majid Azimi, Eleonora Vig, Reza Bahmanyar, Marco K¨orner, and Peter Reinartz. Towards multi-
class object detection in unconstrained remote sensing imagery. arXiv:1807.02700, 2018
[4] Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, and Xiangyang Xue. Arbitrary-
oriented scene text detection via rotation proposals. TMM, 2018. 4321, 4322, 4327, 4328
[5] Zenghui Zhang, Weiwei Guo, Shengnan Zhu, and Wenxian Yu. Toward arbitrary-oriented ship detection
with rotated region proposal and discrimination networks. IEEE Geosci. Remote Sensing Lett., (99):1–5,
2018. 4322, 4326
[6] Xue Yang, Hao Sun, Kun Fu, Jirui Yang, Xian Sun, Menglong Yan, and Zhi Guo. Automatic ship detection
in remotesensing images from google earth of complex scenes based on multiscale rotation dense feature
pyramid networks. Re-mote Sensing, 10(1):132, 2018. 4322, 4327
[7]Khan, S., Hayat, M., Zamir, S. W., Shen, J., & Shao, L. (2019). Striking the right balance with uncertainty.
Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2019-
June, 103–112. https://doi.org/10.1109/CVPR.2019.00019
60
61. References
[8] Yarin Gal. (2017). Uncertainty in Deep Learning. Phd Thesis, 1(1), 1–11.
https://doi.org/10.1371/journal.pcbi.1005062
[9] Tan, M., Pang, R., & Le, Q. V. (2019). EfficientDet: Scalable and Efficient Object Detection.
http://arxiv.org/abs/1911.09070
[10] Liu, Y., Wang, Y., Wang, S., Liang, T., Zhao, Q., Tang, Z., & Ling, H. (2019). CBNet: A Novel Composite
Backbone Network Architecture for Object Detection. http://arxiv.org/abs/1909.03625
61