[제 8회 BOAZ 빅데이터 컨퍼런스]
의학계의 분석에 따르면 암을 조기에 발견할 시 치유율이 65%에 이른다고 합니다. 그러나 유방에서 아주 작은 병변을 눈으로 발견하기란 모래알 속에서 진주알을 찾는 것 만큼이나 어렵습니다. 우리 팀은 전이학습된 CNN모델을 이용해 유방 사진에서 종양을 찾아내는 '유방암 진단 Classifier'를 만들었습니다. 이 분류기를 통하여 육안으로만 진단하던 과거에 비해 임상진단 효율을 높이며 조기 진단 가능성을 높여 유방암의 완치율 상승 효과를 가져올 것으로 기대합니다.
7기 홍예림 9기 박정수 박혜진 연혜민 이예은
****국내최초 빅데이터 대학생 연합동아리 BOAZ****
페이스북: https://www.facebook.com/BOAZbigdata/
블로그: http://blog.naver.com/boazbigdata
인스타그램: http://www.instagram.com/boaz_bigdata
6. CONTENTS 1
주제 선정 배경
Mammography
- 유방에 발생하는 종양의 크기와 모양, 유선의 확장
등을 진단할 수 있도록 도와주는 X선 촬영술
- 증상이 잘 나타나지 않는 여성의 유방암 검진에
매우 효과적인 방법
7. Domain Knowledge
유방암 진단에 있어서 Abnormality를
측정하는 척도는 여러가지 존재
- Mass : Breast Tissue의 Distortion(기형)
- Calcification : 석회의 존재 유무
중요한 것은 조직 뭉침의 존재 유무,
석회의 존재 유무만으로 유방암을 진단 X
더 복합적인 요인을 생각해야함
(조직의 Distortion 정도, Microcalcification)
Mammography 촬영 각도의 따라
MLO&CC로 구분하여 분류CC 기법 MLO 기법
CONTENTS 1
주제 선정 배경
8. 모형 도식화 Model Schematic
Preprocessing
Abnormality
Detection DB
Train data
Test data
Malignant
CNN
Classification
Benign
CBIS-
DDSM
Occlusion
9. CONTENTS 2
데이터 소개
The Source of Data
- CBIS DDSM(Curated Breast Imaging Subset of DDSM) dataset 사용
- mass_case_train_set : 1319장 , mass_case_test_set : 327장을 사용하여 모델링 진행
10. CONTENTS 2
데이터 소개
Data Format
- DICOM 형태로 저장
- 전문가들에 의해 ROI Segmentation 작업 완료
- Label 값에 해당하는 pathology (malignant or benign) 분류 완료 by 조직검사
11. CONTENTS 3
전처리
Median Filter
- Non Linear Filter :
Linear Filter의 결점
(Denosing시 Blurring Effect) 극복
- salt and pepper noise나
Gaussian Noise의 제거에 효과적
- 이미지 선명도를 유지하면서
이상치(Outlier)를 제거Before After
13. CONTENTS 3
전처리
CLAHE (Contrast Limited Adaptive
Histogram Equalization)
- Histogram Equalization의 한 종류로,
한 이미지를 여러 개의 블록으로 나누어
블록마다 따로 Histogram Equalization을
시행
Before After
Histogram Equalization?
의학 이미지의 특징
: 관심 영역과 배경 사이의 대비가 크지 않음
이미지의 대비를 크게 하여 배경과 관심영역
을 잘 구분할 수 있도록 처리가 필요함
-> 이 때 사용하는 것이
Histogram Equalization
16. CONTENTS 3
전처리
Otsu’s Binarization
Otsu의 이진화 방법은 임계값 T를 기준으
로 영상 픽셀들을 두 클래스로 분류했을 때
두 클래스간의 intra-class variance를 최
소화하거나 또는 inter-class variance를
최대화하는 T를 찾는 이진화 방법이다.
Before After
17. CONTENTS 3
전처리
원본 영상 픽셀들의 밝기값 Histogram 결과값
작동원리
In Histogram
배경영역은 밝기 값 100정도, 물체는
150의 분포, 임계 값을 T=125주고
binarization 진행하면 가장 좋은 결과값
기대
18. CONTENTS 3
전처리
Median Filter : 이미지 상의 노이즈를 제거
CLAHE(Contrast Limited Adaptive Histogram Equalization) : mass의 중요한 특징들을 강조
Otsu’s Binarization :
근육을 없애(muscle removal) 의사들에게 육안으로 판단하는 데 보조해주는 역할
Image Enhancement Technique
20. Classification CNN Retrain Inception
Retraining 과정 : Transfer Learning(전이학습)
Transfer learning: 성능이 입증된 CNN을 가져다 Feature를 추출하고, 이를 바탕으로 Classification 수행
Classification : Malignant Vs. Benign
21. Classification CNN Retrain Inception
Inception : 암 진단을 위해 전이학습에 사용한 모델
진단의 정확도를 높이기 위해 layer를 깊게 쌓고자 함
이 때 발생하는 문제점 :
1. 연산량이 늘어남
2. Vanishing Gradient
1 * 1 conv layer
- 연산량 감소
- 비선형적 함수의 원활한 도입
auxiliary classifier
- softmax를 통해 결과를 뽑아내는 부분을 중간 중간에 배치, vanishing gradient 문제 해결
22. Classification CNN Retrain Inception
Bottleneck
가장 마지막 CNN 블록, 즉 Fully-connected layer
직전의 CNN 블록의 결과를 Bottleneck feature
CNN 모델은 각 CNN 블록의 pooling layer를 지나면서
Feature size가 줄어들기 때문에
Feature size를 기준으로 생각하면 병을 뒤집은 모양과 비슷하다.
(차원을 줄였다 뒤에서 늘리기 때문)
23. CONTENTS 5
결과
AUC: 0.685
출처 : Whole mammogram image classification with CNN,
2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), Kansas City, MO, USA
augmentation을 한 test의 AUC = 0.73
augmentation을 하지 않은 test의 AUC = 0.62
Baseline :
24. CONTENTS 5
결과
Occlusion Sensitivity
*Occluder : 사진 속 검정색 박스
Classification prediction 결과 설명에 도움
Occluder 위치에 따른 함수로
Correct class에 대한
확률 값을 그림으로 표현
즉, 주어진 이미지에서 Occluder의 위치를
옮기기를 반복하면서 class의 확률 값을 구하고,
이를 2차원 heatmap으로 시각화
25. CONTENTS 5
결과
ex) benign
ex) malignant
*Occluder : 사진 속 하늘색 박스
Correct class에 해당하는 object가
가려지게 될 때, 확률 값 현저히 하락
heatmap에서, 종양에 해당하는 부분의
색깔이 가장 어두운 파란색에 해당
Occlusion Sensitivity
26. 부록
모델링 – Patch Detection
Fast F-CNN
RPN
Faster R-CNN (RPN + Fast R-CNN)
외부의 느린 selective search(CPU로 계산) 대신,
내부의 빠른 RPN(GPU로 계산)을 사용
-> RPN이 핵심