The document discusses generative models and summarizes three popular types: PixelRNN/CNN, variational autoencoders (VAE), and generative adversarial networks (GAN). PixelRNN/CNN are fully visible belief networks that use a neural network to model the probability of each pixel given previous pixels to explicitly define the data distribution. VAEs are variational models that learn a latent representation to implicitly define the data distribution. GANs are implicit density models that train a generator and discriminator in an adversarial manner to generate samples from the data distribution.
A normalized gaussian wasserstein distance for tiny object detection 1taeseon ryu
오늘 소개해 드릴 논문은 Tiny Object, 즉 아주 작은 오브젝트를 디텍트 하기 위한 테스크라고 이해 하시면 될 것 같은대요, 대부분 많은 디텍션 모델들은, 작은 객체들에 대해서 디텍트 성능이 떨어지는 경향을 보입니다. 해당 논문은 이런 작은 객체를 찾지 못하는 원인을 대표적으로 디텍션 테스크에서 사용하는 메트릭인 IoU가 문제라고 지적을 합니다. 아주 작은 객체들에 대해서는, 한 픽셀 어긋나서 잡는것이 큰 오브젝트의 경우 IoU값이 크게 오차가 없지만, 작은 오브젝트의 경우 1,2픽셀이 움직인것이 매우 큰 오차가 생길수 있습니다. 이러한 메트릭 개선과 모델의 개선을 통하여 아주작은 오브젝트를 탐지해야 하는 테스크에서도 높은 성능향상을 가져왔습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 안종식님이 자세한 리뷰 도와주셨습니다.
The document discusses generative models and summarizes three popular types: PixelRNN/CNN, variational autoencoders (VAE), and generative adversarial networks (GAN). PixelRNN/CNN are fully visible belief networks that use a neural network to model the probability of each pixel given previous pixels to explicitly define the data distribution. VAEs are variational models that learn a latent representation to implicitly define the data distribution. GANs are implicit density models that train a generator and discriminator in an adversarial manner to generate samples from the data distribution.
A normalized gaussian wasserstein distance for tiny object detection 1taeseon ryu
오늘 소개해 드릴 논문은 Tiny Object, 즉 아주 작은 오브젝트를 디텍트 하기 위한 테스크라고 이해 하시면 될 것 같은대요, 대부분 많은 디텍션 모델들은, 작은 객체들에 대해서 디텍트 성능이 떨어지는 경향을 보입니다. 해당 논문은 이런 작은 객체를 찾지 못하는 원인을 대표적으로 디텍션 테스크에서 사용하는 메트릭인 IoU가 문제라고 지적을 합니다. 아주 작은 객체들에 대해서는, 한 픽셀 어긋나서 잡는것이 큰 오브젝트의 경우 IoU값이 크게 오차가 없지만, 작은 오브젝트의 경우 1,2픽셀이 움직인것이 매우 큰 오차가 생길수 있습니다. 이러한 메트릭 개선과 모델의 개선을 통하여 아주작은 오브젝트를 탐지해야 하는 테스크에서도 높은 성능향상을 가져왔습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 안종식님이 자세한 리뷰 도와주셨습니다.
Coursera Machine Learning by Andrew NG 강의를 들으면서, 궁금했던 내용을 중심으로 정리.
내가 궁금했던건, 데이터를 분류하는 Decision boundary를 만들때...
- 왜 가중치(W)와 decision boundary가 직교해야 하는지?
- margin은 어떻게 계산하는지?
- margin은 어떻게 최대화 할 수 있는지?
- 실제로 margin을 최대화 하는 과정의 수식은 어떤지?
- 비선형 decision boundary를 찾기 위해서 어떻게 kernel을 이용하는지?...
http://blog.naver.com/freepsw/221032379891
This document summarizes an example of using backpropagation in an artificial neural network for face recognition. The network has 30x32 pixel grayscale images as input, 3 hidden units, and 4 output units to classify the direction the face is facing. It achieves 90% accuracy on a test set after training on 260 images. Design choices discussed include using 1-of-n encoding for the output, initializing weights to 0 for interpretability, and using 3 hidden units for faster training despite little gain in accuracy from more units. The learned weights show sensitivity to face and body features as desired.
https://telecombcn-dl.github.io/dlai-2020/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
The document discusses Wasserstein GANs and improved training methods. It introduces Wasserstein GANs and discusses problems with training GANs using other distances like KL divergence. Wasserstein distance is defined and shown to be continuous and differentiable. The document outlines training Wasserstein GANs using Kantorovich-Rubinstein duality by having the discriminator produce 1-Lipschitz outputs. It then discusses problems with weight clipping and proposes an improved training method by constraining the discriminator's gradient norm to be less than or equal to 1.
Batch normalization is a technique introduced in 2015 by Google researchers to address issues like internal covariate shift and vanishing gradients. It works by normalizing the inputs to each unit to have zero mean and unit variance based on the statistics of the mini-batch. This helps the network train deeper models with higher learning rates and be less sensitive to initialization. Batch normalization is applied before the activation function of each layer during both training and inference.
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object DetectionDeep Learning JP
This paper proposes a new method called PV-RCNN for 3D object detection from point clouds. It introduces two key modules: 1) A voxel-to-keypoint scene encoding module that extracts feature vectors for keypoints by combining features from voxel CNNs and point networks. 2) A RoI grid pooling module that computes feature vectors for regions of interest (RoIs) from the keypoint features to refine detections. Experiments on KITTI and Waymo datasets demonstrate that PV-RCNN achieves state-of-the-art performance for 3D object detection from point clouds.
Coursera Machine Learning by Andrew NG 강의를 들으면서, 궁금했던 내용을 중심으로 정리.
내가 궁금했던건, 데이터를 분류하는 Decision boundary를 만들때...
- 왜 가중치(W)와 decision boundary가 직교해야 하는지?
- margin은 어떻게 계산하는지?
- margin은 어떻게 최대화 할 수 있는지?
- 실제로 margin을 최대화 하는 과정의 수식은 어떤지?
- 비선형 decision boundary를 찾기 위해서 어떻게 kernel을 이용하는지?...
http://blog.naver.com/freepsw/221032379891
This document summarizes an example of using backpropagation in an artificial neural network for face recognition. The network has 30x32 pixel grayscale images as input, 3 hidden units, and 4 output units to classify the direction the face is facing. It achieves 90% accuracy on a test set after training on 260 images. Design choices discussed include using 1-of-n encoding for the output, initializing weights to 0 for interpretability, and using 3 hidden units for faster training despite little gain in accuracy from more units. The learned weights show sensitivity to face and body features as desired.
https://telecombcn-dl.github.io/dlai-2020/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
The document discusses Wasserstein GANs and improved training methods. It introduces Wasserstein GANs and discusses problems with training GANs using other distances like KL divergence. Wasserstein distance is defined and shown to be continuous and differentiable. The document outlines training Wasserstein GANs using Kantorovich-Rubinstein duality by having the discriminator produce 1-Lipschitz outputs. It then discusses problems with weight clipping and proposes an improved training method by constraining the discriminator's gradient norm to be less than or equal to 1.
Batch normalization is a technique introduced in 2015 by Google researchers to address issues like internal covariate shift and vanishing gradients. It works by normalizing the inputs to each unit to have zero mean and unit variance based on the statistics of the mini-batch. This helps the network train deeper models with higher learning rates and be less sensitive to initialization. Batch normalization is applied before the activation function of each layer during both training and inference.
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object DetectionDeep Learning JP
This paper proposes a new method called PV-RCNN for 3D object detection from point clouds. It introduces two key modules: 1) A voxel-to-keypoint scene encoding module that extracts feature vectors for keypoints by combining features from voxel CNNs and point networks. 2) A RoI grid pooling module that computes feature vectors for regions of interest (RoIs) from the keypoint features to refine detections. Experiments on KITTI and Waymo datasets demonstrate that PV-RCNN achieves state-of-the-art performance for 3D object detection from point clouds.
5. 예측
환자다(P) 아니다(N)
실제
환자 TP FN
아님 FP TN
·TP : True Positive, 예측 P, 실제도 P
·FP : False Positive, 예측 P, 실제는 N
·TN : True Negative, 예측 N, 실제도 N
·FN : True Negative, 예측 N, 실제는 P
맞음!
틀림!
예측이!
예측이!
-> 예측(P/N)을 기준으로 두고, True/False 를 맞음/틀림 으로 접근!
하기 전에, 잠깐!
12. 이들 중에, 아래 2가지 활용!
예측
환자다 아니다
실제
환자 TP FN
아님 FP TN
·Sensitivity(Recall, True Positive Rate) :
𝑇𝑃
𝑇𝑃+𝐹𝑁
예측
환자다 아니다
실제
환자 TP FN
아님 FP TN
-> 민감도 : 맞게 예측 / 실제 환자
[ Y 축 : 민감도]
[ X축 : ( 1- 특이도) ]
·Specificity :
𝑇𝑁
𝐹𝑃+𝑇𝑁
-> 특이도 : 맞게 예측 / 실제 아님
13. T N T P
F P
민감도(Sensitivity)
특이도(Specificity)
환자다(P)아니다(N)
F N
0 25 50 75 100 X
(판정값)
Y
(빈도)
[분포 그래프 해석]
1. 판정값(Test Value)에 따른
환자(P)와 아님(N)의 분포
-> 분포가 확실히 분류되는 것이
좋은 판정값
임계값(Threshold)
혹은 절단점(Cutpoint)
2. 절단점(Cutpoint) 기준으로
그 이상은 환자(P)
그 미만은 아님(N)으로 예측
-> 이 떄의 민감도
𝑇𝑃
𝑇𝑃+𝐹𝑁
와
특이도
𝑇𝑁
𝐹𝑃+𝑇𝑁
를 구할 수 있다.
2. Distribution Graph (분포 그래프)
14. 예제 데이터 (T4 수치에 따른 갑상선 환자 분포)
T4 수치 환자 아님
5 이하 18 6
5 ~ 7 6 15
7 ~ 9 4 33
9 이상 3 43
혈중 티록신 수치
예측
5 이하 5 초과
실제
환자 18 14
아님 1 92
T4 = 5
T N T P
F PF N
T N T P
F PF N
T N T P
F PF N
T4 = 5
T4 = 7
T4 = 9
예측
7 이하 7 초과
실제
환자 25 7
아님 18 75
예측
9 이하 9 초과
실제
환자 29 3
아님 54 39
T4 = 7
T4 = 9
민감도 : 0.56
특이도 : 0.99
민감도 : 0.78
특이도 : 0.81
민감도 : 0.91
특이도 : 0.42
15. ???
T4 수치 환자 아님
1 이하 18 6
1 ~ 2 6 15
… … …
11 ~ 12 4 33
12 이상 3 43
예측
5 이하 5 초과
실제
환자 18 14
아님 1 92
T4 = 5
T N T P
F PF N
T N T P
F PF N
T N T P
F PF N
T4 = 5
T4 = 7
T4 = 9
예측
7 이하 7 초과
실제
환자 25 7
아님 18 75
예측
9 이하 9 초과
실제
환자 29 3
아님 54 39
T4 = 7
T4 = 9
민감도 : 0.56
특이도 : 0.99
민감도 : 0.78
특이도 : 0.81민감도 : 0.91
특이도 : 0.42
F PF N
T N T P
F PF N
T4 = 7
T4 = 9
예측
9 이하 9 초과
실제
환자 29 3
아님 54 39
T4 = 9
민감도 : 0.91
특이도 : 0.42
F PF N
T N T P
F PF N
T4 = 7
T4 = 9
예측
9 이하 9 초과
실제
환자 29 3
아님 54 39
T4 = 9
민감도 : 0.91
특이도 : 0.42
F PF N
T N T P
F PF N
T4 = 7
T4 = 9
예측
9 이하 9 초과
실제
환자 29 3
아님 54 39
T4 = 9
민감도 : 0.91
특이도 : 0.42
18. 3. ROC Curve + AUC
T4 수치 환자 아님
1 이하 18 6
1 ~ 2 6 15
… … …
11 ~ 12 4 33
12 이상 3 43
ROC Curve : (민감도)와 (1 – 특이도)로 표현
AUC (Area Under the Curve) : ROC Curve 아래의 면적
“ ‘X 수치’ 라는 판정값이 위와 같다면, 상대적으로 ‘T4 수치’는 좋은 판정값으로 볼 수 있다. “
X 수치
a 이하
a ~ b
…
y ~ z
z 이상
T4 = 5
T4 = 7
T4 = 9
T4 수치
X 수치
19. 4. Conclusion (결론)
판정값(Test Value)을 통한
분포가 명확히 분류 될수록
AUC의 면적이 넓어지고
좋은 판정값이라 할 수 있다!
X2
X1
T4
분류 성능 (예측 성능)
X2 < X1 < T4