SlideShare a Scribd company logo
1 of 41
Download to read offline
ICIP 2018 Review
SEOULTECH, CVLAB

Cho Sung Man
In this Presentation,
• ICIP ??

• 몇 가지 논문 리뷰

• 느낀점
ICIP ??
Image Processing & Computer Vision 분야에서 상위 8등에 랭크되어 있는 Conference !
(자료 출처 : Guide2Research.com ) (전체 Conference 기준 94등)
Look into ICIP
이제 진짜 Review !!
• 영상처리에서 전통적으로 사용되던 방식들에 대한 논문들도 많았지만, 딥러닝에 연관된
주제를 골라 들었음.

• 전반적인 주제들



- CNN Architecture 

- Action Recognition ( in Video Sequence )

- Re-Identification

- Object Recognition / Classification / Detection

- Object Tracking

- Image Enhancement ( derain, deblur, declipping)

- Codec

- Etc..
CNN Architecture 에서는 네트워크의 정확도를 향상시켰다는 논문 보다는, 아키텍쳐의
효율성을 증가시켜 속도를 개선시킨 논문이 많았음. 



Embedded / Mobile 환경을 타겟으로 한 딥러닝의 관심이 증대되고 있다는걸 알 수 있었음.
리뷰 논문 List
1. EFFNET

2. CAN DNNs LEARN TO LIPREAD FULL SENTENCES ?
3. OBJECT BOUDING BOX-CRITIC NETWORKS FOR
OCCLUSION-ROBUST OBJECT DETECTION IN ROAD
SCENE

4. OBJECT LOCALIZATION WITHOUT BOUNDING BOX
INFORMATION USING GENERATIVE ADVERSERIAL
REINFORCEMENT LEARNING

5. ACTION RECOGNITION: FIRST-AND SECOND-ORDER 3D
FEATURE IN BI-DIRECTIONAL ATTENTION NETWORK
자세한 논문리뷰의 개념이 아닌, 논문 소개형식의 리뷰로 진행예정.
1. EFFNET
이건, 다른 발표자료에 있던 내용이지만 Background가 잘 정리되어 있어서 첨부
MobileNet의 Depth-wise Convolution 개념과
ShuffleNet의 Point-wise Convolution 개념을 사용하였다. 

기존 ShuffleNet은 그룹 내에서의 Point-wise Convolution을 사용했지만,
이 논문에서는 그룹단위 Convolution을 사용하지는 않았다. (이유는 뒷장에서,)
이 결과가 가장 핵심이라고 생각된다.
[Residual Connection / Group convolution이 크기가 작은 네트워크에서는 정확도를 감소시킨다.]
Network들의 블록별로 계산량을 비교.
SOTA 성능을 거두진 못했지만, 의미있는 결과가 있다고 생각된다.
2. CAN DNNs LEARN TO
LIPREAD FULL SENTENCES ?
CNN + Seq2Seq 를 활용하여, 영상에서의 입모양을 보고 문장을 맞추는 주제를 다룬 논문이였다.
3. OBJECT BOUDING BOX-CRITIC NETWORKS
FOR OCCLUSION-ROBUST OBJECT DETECTION
IN ROAD SCENE
핵심 부분 !
• Object Detecion 분야에서 고질적인 문제였던 Occlusion에 대하여 다룬 논문 이였음.
• Occlusion에 대하여 판단하는 네트워크를 설계하였고, 이를 Faster R-CNN의 구조에

덧붙여서 기존 Faster R-CNN 보다 Occlusion에 강인한 네트워크를 구축하였음.

• GAN을 활용하여 단순 Pixel-wise Loss만으로 해결할 수 없는 Global한 특징을 이해
하려고 하였음.
4. OBJECT LOCALIZATION WITHOUT
BOUNDING BOX INFORMATION
USING GENERATIVE ADVERSERIAL
REINFORCEMENT LEARNING
강화학습을 사용하여 Bounding-Box 없이 Object 위치를 찾아내는 주제에 대한 내용 이였다.
5. ACTION RECOGNITION: 

FIRST-AND SECOND-ORDER 3D
FEATURE IN BI-DIRECTIONAL
ATTENTION NETWORK
• 기존 Action Recognition의 경우, 비디오를 학습시켜야 하기 때문에 파라미터가 너무
많아지는 문제점이 있음.

• 이 문제점을 해결하기 위하여, 몇 가지 특징 벡터를 정의하였음. 물체의 위치값을 알면 1차
미분과 2차미분을 활용하여 속도, 가속도를 얻을 수 있고 이 벡터를 활용하여 학습을 진행
하였음.

• Network Architecture는 C3D Network를 사용하였음.
그래서 느낌이 어땟냐구요??
• 임베디드나 모바일 환경에서의 딥러닝 네트워크를 설계하는 연구가
늘어나는 것을 보고.. 딥러닝이 이제 사업화 영역으로 많이 발전을
시작하려는 것 같다고 느꼈다.

• 통계를 확인해보진 않았지만, 체감상 1/4는 중국에서 낸 논문이였
다. 중국은 무서운 국가인 것 같다.

• 나도 공부 열..심..히… 하자 !!
마지막은 !
아름다운 그리스 사진으로 !
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW
ICIP 2018 REVIEW

More Related Content

Similar to ICIP 2018 REVIEW

스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝NAVER Engineering
 
Achieving human parity on visual question answering alicemind
Achieving human parity on visual question answering alicemindAchieving human parity on visual question answering alicemind
Achieving human parity on visual question answering alicemindtaeseon ryu
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)Ildoo Kim
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 
기계 학습의 현재와 미래
기계 학습의 현재와 미래기계 학습의 현재와 미래
기계 학습의 현재와 미래Joon Kim
 
180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pubJaewook. Kang
 
[PR12] PR-026: Notes for CVPR Machine Learning Sessions
[PR12] PR-026: Notes for CVPR Machine Learning Sessions[PR12] PR-026: Notes for CVPR Machine Learning Sessions
[PR12] PR-026: Notes for CVPR Machine Learning SessionsTaegyun Jeon
 
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_sparkNAVER D2
 
자바 직렬화 (Java serialization)
자바 직렬화 (Java serialization)자바 직렬화 (Java serialization)
자바 직렬화 (Java serialization)중선 곽
 
CS231n chap12_Visualization and Understand Summary
CS231n chap12_Visualization and Understand SummaryCS231n chap12_Visualization and Understand Summary
CS231n chap12_Visualization and Understand Summaryssuser491981
 
자바 네트워크 소녀 Netty 리뷰
자바 네트워크 소녀 Netty 리뷰자바 네트워크 소녀 Netty 리뷰
자바 네트워크 소녀 Netty 리뷰Woojin Joe
 
QlikView ppt
QlikView pptQlikView ppt
QlikView pptTomi Lee
 
[부스트캠프 Tech Talk] 배지연_Structure of Model and Task
[부스트캠프 Tech Talk] 배지연_Structure of Model and Task[부스트캠프 Tech Talk] 배지연_Structure of Model and Task
[부스트캠프 Tech Talk] 배지연_Structure of Model and TaskCONNECT FOUNDATION
 
Posco ai challenge with RSCNN
Posco ai challenge with RSCNNPosco ai challenge with RSCNN
Posco ai challenge with RSCNN용우 조
 
Ii.객체지향 1들어가기
Ii.객체지향 1들어가기Ii.객체지향 1들어가기
Ii.객체지향 1들어가기guest77f171ae
 
밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장Sunggon Song
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)Tae Young Lee
 

Similar to ICIP 2018 REVIEW (20)

스마트폰 위의 딥러닝
스마트폰 위의 딥러닝스마트폰 위의 딥러닝
스마트폰 위의 딥러닝
 
Achieving human parity on visual question answering alicemind
Achieving human parity on visual question answering alicemindAchieving human parity on visual question answering alicemind
Achieving human parity on visual question answering alicemind
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)Deep Object Detectors #1 (~2016.6)
Deep Object Detectors #1 (~2016.6)
 
AUTOML
AUTOMLAUTOML
AUTOML
 
Automl
AutomlAutoml
Automl
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 
기계 학습의 현재와 미래
기계 학습의 현재와 미래기계 학습의 현재와 미래
기계 학습의 현재와 미래
 
180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub180624 mobile visionnet_baeksucon_jwkang_pub
180624 mobile visionnet_baeksucon_jwkang_pub
 
[PR12] PR-026: Notes for CVPR Machine Learning Sessions
[PR12] PR-026: Notes for CVPR Machine Learning Sessions[PR12] PR-026: Notes for CVPR Machine Learning Sessions
[PR12] PR-026: Notes for CVPR Machine Learning Sessions
 
[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark[264] large scale deep-learning_on_spark
[264] large scale deep-learning_on_spark
 
자바 직렬화 (Java serialization)
자바 직렬화 (Java serialization)자바 직렬화 (Java serialization)
자바 직렬화 (Java serialization)
 
CS231n chap12_Visualization and Understand Summary
CS231n chap12_Visualization and Understand SummaryCS231n chap12_Visualization and Understand Summary
CS231n chap12_Visualization and Understand Summary
 
자바 네트워크 소녀 Netty 리뷰
자바 네트워크 소녀 Netty 리뷰자바 네트워크 소녀 Netty 리뷰
자바 네트워크 소녀 Netty 리뷰
 
QlikView ppt
QlikView pptQlikView ppt
QlikView ppt
 
[부스트캠프 Tech Talk] 배지연_Structure of Model and Task
[부스트캠프 Tech Talk] 배지연_Structure of Model and Task[부스트캠프 Tech Talk] 배지연_Structure of Model and Task
[부스트캠프 Tech Talk] 배지연_Structure of Model and Task
 
Posco ai challenge with RSCNN
Posco ai challenge with RSCNNPosco ai challenge with RSCNN
Posco ai challenge with RSCNN
 
Ii.객체지향 1들어가기
Ii.객체지향 1들어가기Ii.객체지향 1들어가기
Ii.객체지향 1들어가기
 
밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)
 

ICIP 2018 REVIEW

  • 1. ICIP 2018 Review SEOULTECH, CVLAB Cho Sung Man
  • 2. In this Presentation, • ICIP ?? • 몇 가지 논문 리뷰 • 느낀점
  • 4. Image Processing & Computer Vision 분야에서 상위 8등에 랭크되어 있는 Conference ! (자료 출처 : Guide2Research.com ) (전체 Conference 기준 94등)
  • 6.
  • 7.
  • 8.
  • 9.
  • 11. • 영상처리에서 전통적으로 사용되던 방식들에 대한 논문들도 많았지만, 딥러닝에 연관된 주제를 골라 들었음.
 • 전반적인 주제들
 
 - CNN Architecture 
 - Action Recognition ( in Video Sequence )
 - Re-Identification
 - Object Recognition / Classification / Detection
 - Object Tracking
 - Image Enhancement ( derain, deblur, declipping)
 - Codec
 - Etc.. CNN Architecture 에서는 네트워크의 정확도를 향상시켰다는 논문 보다는, 아키텍쳐의 효율성을 증가시켜 속도를 개선시킨 논문이 많았음. 
 
 Embedded / Mobile 환경을 타겟으로 한 딥러닝의 관심이 증대되고 있다는걸 알 수 있었음.
  • 12. 리뷰 논문 List 1. EFFNET
 2. CAN DNNs LEARN TO LIPREAD FULL SENTENCES ? 3. OBJECT BOUDING BOX-CRITIC NETWORKS FOR OCCLUSION-ROBUST OBJECT DETECTION IN ROAD SCENE
 4. OBJECT LOCALIZATION WITHOUT BOUNDING BOX INFORMATION USING GENERATIVE ADVERSERIAL REINFORCEMENT LEARNING
 5. ACTION RECOGNITION: FIRST-AND SECOND-ORDER 3D FEATURE IN BI-DIRECTIONAL ATTENTION NETWORK 자세한 논문리뷰의 개념이 아닌, 논문 소개형식의 리뷰로 진행예정.
  • 14. 이건, 다른 발표자료에 있던 내용이지만 Background가 잘 정리되어 있어서 첨부
  • 15.
  • 16. MobileNet의 Depth-wise Convolution 개념과 ShuffleNet의 Point-wise Convolution 개념을 사용하였다. 
 기존 ShuffleNet은 그룹 내에서의 Point-wise Convolution을 사용했지만, 이 논문에서는 그룹단위 Convolution을 사용하지는 않았다. (이유는 뒷장에서,)
  • 17. 이 결과가 가장 핵심이라고 생각된다. [Residual Connection / Group convolution이 크기가 작은 네트워크에서는 정확도를 감소시킨다.]
  • 19. SOTA 성능을 거두진 못했지만, 의미있는 결과가 있다고 생각된다.
  • 20. 2. CAN DNNs LEARN TO LIPREAD FULL SENTENCES ?
  • 21. CNN + Seq2Seq 를 활용하여, 영상에서의 입모양을 보고 문장을 맞추는 주제를 다룬 논문이였다.
  • 22. 3. OBJECT BOUDING BOX-CRITIC NETWORKS FOR OCCLUSION-ROBUST OBJECT DETECTION IN ROAD SCENE
  • 24. • Object Detecion 분야에서 고질적인 문제였던 Occlusion에 대하여 다룬 논문 이였음. • Occlusion에 대하여 판단하는 네트워크를 설계하였고, 이를 Faster R-CNN의 구조에
 덧붙여서 기존 Faster R-CNN 보다 Occlusion에 강인한 네트워크를 구축하였음.
 • GAN을 활용하여 단순 Pixel-wise Loss만으로 해결할 수 없는 Global한 특징을 이해 하려고 하였음.
  • 25. 4. OBJECT LOCALIZATION WITHOUT BOUNDING BOX INFORMATION USING GENERATIVE ADVERSERIAL REINFORCEMENT LEARNING
  • 26. 강화학습을 사용하여 Bounding-Box 없이 Object 위치를 찾아내는 주제에 대한 내용 이였다.
  • 27. 5. ACTION RECOGNITION: 
 FIRST-AND SECOND-ORDER 3D FEATURE IN BI-DIRECTIONAL ATTENTION NETWORK
  • 28.
  • 29. • 기존 Action Recognition의 경우, 비디오를 학습시켜야 하기 때문에 파라미터가 너무 많아지는 문제점이 있음.
 • 이 문제점을 해결하기 위하여, 몇 가지 특징 벡터를 정의하였음. 물체의 위치값을 알면 1차 미분과 2차미분을 활용하여 속도, 가속도를 얻을 수 있고 이 벡터를 활용하여 학습을 진행 하였음.
 • Network Architecture는 C3D Network를 사용하였음.
  • 31. • 임베디드나 모바일 환경에서의 딥러닝 네트워크를 설계하는 연구가 늘어나는 것을 보고.. 딥러닝이 이제 사업화 영역으로 많이 발전을 시작하려는 것 같다고 느꼈다. • 통계를 확인해보진 않았지만, 체감상 1/4는 중국에서 낸 논문이였 다. 중국은 무서운 국가인 것 같다. • 나도 공부 열..심..히… 하자 !!