SlideShare a Scribd company logo
1 of 24
전국 유기동물 실태 분석
유기동물 보호 시스템 개선을 중심으로
20202123 이승엽
20202952 고효경
20170947 이준희
IMEN472 통계적데이터마이닝
목차
2
1. 주제 선정 이유 및 연구 목적
2. 데이터 수집 및 구성
3. 전처리
4. 기초통계분석
5. 유기견의 특징과 지역에 따른 보호 종료 상태 예측
6. 유기견의 특징과 지역에 따른 Period 예측
7. 분석 결과
8. 결론
Table/ Figure 목차
3
Figure 1 유기동물 개체수(좌)와 유기견 개체수(우)
Figure 2 유기동물 보호센터 수(좌)와 유기견 수/보호센터 수 (우)
Figure 3 유기견 Age(좌) log_Age(우) 히스토그램
Figure 4 유기견 Weight(좌) log_Weight(우) 히스토그램
Figure 5 유기견 품종별 누적 유기횟수 (2011~2019)
Figure 6 유기견 품종별 mean(log_Age) – mean(log_Weight) ScatterPlot
Figure 7 유기견 품종별 processState 현황 (상위 10)
Figure 8 유기견 지역별 processState 현황
Figure 9 유기견 품종별 period 현황 (상위 10)
Figure 10 유기견 지역별 period 현황
Figure 11 변수들의 Correlation Matrix
Figure 12 전체 데이터의 processState 분포
Figure 13 XGBoost 모델의 변수 중요도 분석
Figure 14 Forward, Backward Stepwise Selection의 Accuracy 비교
Figure 15 전체 데이터에 대한 Period의 분포
Figure 16 XGB의 Feautre Importance
Figure 17 Prediction 산점도
Table 1 Raw Data Feature
Table 2 품종 전처리 예시
Table 3 유기견 외형 색깔 전처리 예시
Table 4 Processed Data Feature
Table 5 Logistic Regression 모델의 변수의 영향 분석
Table 6 각 모델의 accuracy 및 parameter tuning 결과
Table 7 Imbalanced Data를 해결하기 위한 SMOTE, Under sampling 결과
Table 8 Accuracy를 높이기 위한 방법론 및 결과
Table 9 All Feature : XGB가 가장 우수
Table 10 Selected Feature : XGB가 가장 우수
Table 11 Ridge, Lasso, ElasticNet의 Coefficients
Table 12 Test Results(Selected Feature)
주제 선정 이유 및 연구 목적
• 주제 선정 이유
• 반려 동물에 대한 전문적 지식 없이 입양을 선택하여 결국 파양 혹은 유기까지 이르러 유기 동물의 수가 2018년
엔 12만 마리 이상까지 증가하고 있음. [1]
• 유기 동물이 늘어나면서 구조 및 보호 비용을 포함한 운영비가 연간 200억 이상 소요됨. [1]
• 유기된 동물들로 인한 생활 환경 및 안전 피해 발생. [2]
• 연구 목적
• 동물 보호 센터의 구조 / 보호 비용을 포함한 운영비 절감.
• 즉 각 보호소의 정보와 새로운 유기동물을 데리고 왔을 때 예상되는 보호 기간과 유기 동물의 보호 종료 시의 상
태를 예측.
• 사회적으로 대두되는 안락사 문제를 고려하고 해당 개체를 보호할 수 없다고 판단되면 다른 보호소로 이전하는
등의 대처를 할 수 있을 것으로 생각.
4
데이터 수집 및 구성
• 데이터 수집
• 공공데이터포털
• Open API – 동물보호관리시스템 유기동물 조회 서
비스 (2011 ~ 2019) [3]
• 표준 데이터 – 전국 동물보호센터 정보 (2019) [4]
• 데이터 별 Feature
• Table 1
• Raw Data Shape
• 유기동물 데이터) 882952 rows, 16 columns
• 보호센터 데이터) 292 rows, 15 columns
Table 1. Raw Data Feature
유기동물 보호센터
desertionNo 유기번호 careNm 동물보호센터명
happenDt 접수일 orgNm 관리기관명
happenPlace 발견장소 divisionNm 동물보호센터유형
kindCd 품종 saveTrgtAnimal 구조대상동물
colorCd 색상 careAddr 소재지도로명주소
age 나이 dsignationDate 보호센터지정일자
weight 체중 vetPersonCnt 수의사인원수
noticeNo 공고번호 specsPersonCnt 사양관리사인원수
noticeSdt 공고시작일 medicalCnt 진료실수
noticeEdt 공고종료일 breedCnt 사육실수
processState 상태 quarabtineCnt 격리실수
sexCd 성별 feedCnt 사료보관실수
neuterYn 중성화여부 transCarCnt 운반차량보유대수
specialMark 특징 careTel 전화번호
careNm 보호소이름 dataStdDt 데이터기준일자
careTel 보호소전화번호
5
전처리 (1)
6
• 보호소 직원이 직접 작성/입력하는 형식의 데이터들(ex. 품종(breed), 유기동물 특징(speicalMark), 유기견 외형 색깔(colorCd) …)에
대해, 형식 통일 및 categorize의 전처리 진행
Table 3. 유기견 외형 색깔 전처리 예시Table 2. 유기견 특징 전처리 예시
Raw Data
column processed columns
colorCd black white brown ivory beige grey
흰색 0 1 0 0 0 0
흰색 0 1 0 0 0 0
흰색+갈색 0 1 1 0 0 0
흰 0 1 0 0 0 0
흰 0 1 0 0 0 0
실버 흰 0 1 0 0 0 0
흰,검정색 1 1 0 0 0 0
검정/흰색 1 1 0 0 0 0
흰/갈색 0 1 1 0 0 0
백 0 1 0 0 0 0
흰색 0 1 0 0 0 0
SpecialMark
processed columns
치석 염증 결막염 피부병 외이염
왼쪽눈각막혼탁과백내장있고,치
석이많이끼어있고,피부약간있음
1 0 0 1 0
털이 많이 엉킨 상태로 내원 외
이염 유기된지 좀 된듯 함 순한
성격
0 0 1 0 1
결막염,피부병있음 0 1 1 1 0
결막염. 코 검정. 침흘림. 속눈썹
김. 꼬리끝털남기고 미용했던흔
적. 통통함. 얌전함. 사람따름.
0 1 1 0 0
교통사고,중성화,꼬리염색 0 0 0 0 0
깨발랄,순함,치석심함 1 0 0 0 0
심한탈수, 결막염, 전신피부염 0 1 1 1 0
부정교합. 발미용. 배 얼룩무늬. '
앉아' 할줄 알.ㅁ 코 진갈/중앙 연
갈. 결막염
0 1 1 0 0
전처리 (2)
7
• Period 1/2/3 전처리
• happenDt, noticeSdt, noticeEdt 전처리
Period 1 : 보호 시작 시간과 공고 시작 시간의 간격
– 유기동물 발견하고 적절한 조치 후 공고를 올리기까지 걸리는 기간
Period 2 : 공고 시작 시간과 공고 종료 시간의 간격
– 공고를 올리고 입양, 반환, 안락사 등 최종 상태에 이르기까지의 기간
Period 3 : 보호 시작 시간과 공고 종료 시간의 간격
– 유기 동물을 보호소에서 보호해야 하는 총 기간
• 데이터 별 Feature
• Table 2
• Processed Data Shape
• 179690 rows, 24 columns
processed columns
column 명 항목명 column 명 항목명
age 나이 black
유기동물 외형 색깔
colorCd 전처리
neuterYn 중성화여부 white
processState 상태 brown
sexCd 성별 ivory
specialMark 특징 beige
weight 무게 grey
period1
happenDt,
noticeSdt,
noticeEdt
전처리
tartar
유기동물 특징
speicalMark 전처리
period2 scab
period3 conjunctivitis
breed 품종 infection
addr1 시/도 주소 inflammation
addr2 시/군/구 주소 otitis
Table 4. Processed Data Feature
기초통계분석
8
• 전체 유기동물(개, 고양이, 기타종) 개체수 분포와 유기견 개체수 분포를 비교하
였을 때, 인천/대전/대구/광주/울산 등 대도심에 유기견 개체수가 집중되어 있는
것을 확인할 수 있음
• 유기동물 보호센터는 대도시를 거점으로 반경 지역을 관리하는 시스템으로 운영
되고 있는데, 보호센터 수 대비 유기견 수를 확인했을 때 경기도/ 대구 일부 지
역이 유기견 수에 비해 보호 시설이 부족해 관리가 어려울 것으로 보임
Figure 1. 유기동물 개체수(좌)와 유기견 개체수(우) Figure 2. 유기동물 보호센터 수(좌)와 유기견 수/보호센터 수 (우)
기초통계분석
9
Figure 3. 유기견 Age(좌) log_Age(우) 히스토그램 Figure 4. 유기견 Weight(좌) log_Weight(우) 히스토그램
• 유기견들의 평균 나이는 3.96세이며, 히스토그램에서 보이는
것처럼 5년 미만의 아직 성장 중인 강아지들의 유기가 많았음
• 유기견들의 평균 몸무게는 6.58kg으로, 히스토그램에서 보이는
것처럼 10kg 이하의 소형/중형견의 비율이 매우 높음
• 제3사분위수도 6.2kg으로 대부분의 유기견의 무게가 5kg 미만
및 전후에 분포해 있음
• 유기동물 종 중 가장 많은 비율을 차지하는 강아지(76.6%), 유기견 데이터를 선택
• 고양이는 품종이 구체적이지 않고, 기타 종은 너무 다양한 유형의 동물이 있어서 유기견 데이터를 사용
• Age & Weight columns의 한 쪽으로 편향된 데이터를 처리하기 위해 log스케일로 조정
기초통계분석
10
Figure 5. 유기견 품종별 누적 유기횟수 (2011~2019) Figure 6. 유기견 품종별 mean(log_Age) – mean(log_Weight) ScatterPlot
기초통계분석
11
Figure 7. 유기견 품종별 processState 현황 (상위 10) Figure 8. 유기견 지역별 processState 현황
• 유기견 품종/ 지역별로 processState(ex. 보호중, 종료(안락사) 등)가 상이한 것을 확인
기초통계분석
12
Figure 9. 유기견 품종별 period 현황 (상위 10) Figure 10. 유기견 지역별 period 현황
Period 1 : 보호 시작 시간과 공고 시작 시간의 간격 – 유기동물 발견하고 적절한 조치 후 공고를 올리기까지 걸리는 기간
Period 2 : 공고 시작 시간과 공고 종료 시간의 간격 – 공고를 올리고 입양, 반환, 안락사 등 최종 상태에 이르기까지의 기간
Period 3 : 보호 시작 시간과 공고 종료 시간의 간격 – 유기 동물을 보호소에서 보호해야 하는 총 기간
기초통계분석
13
• 대부분의 변수들 사이의 correlation이 없음
• 염증과 감염, 결막염, 피부염 등은 양의 상관관계를 가짐
• 일부 품종만 색깔에 대한 양 혹은 음의 상관관계를 가짐
• Period1/2/3 사이에 양의 상관관계를 가짐
• → 대부분 input variable이 다중공선성을 가지지 않기에
전체 변수를 사용하여 regression 모델을 사용해볼 수 있음
Figure 11. 변수들의 Correlation Matrix
유기견의 특징과 지역에 따른 보호 종료 상태 예측
14
• 유기견들의 발견 시의 상태, 지역, 품종 등을 바탕으로 보호 종료 시의 상태를 예측하는 Multiclass Classification 모델
• 케이스가 너무 적거나 상태가 불분명한 “미포획“, “방사”, “기증“ 및 보호가 종료되지 않은 “보호중"을 제외
• “입양”, “반환”, “안락사”, “자연사“를 대상으로 진행
• 모델에 사용한 데이터 (row – 171,726, column – 62)
• Train : Test = 7 : 3 (120,208 : 51,518)
• 10 – fold Cross Validation
• Input : 나이, 무게, 성별(binary), 중성화(binary),
품종(29, categorical), 색(6, categorical), 발견된 지역(17, categorical)
• Output : 보호 종료 시의 상태
• 사용한 모델
• Logistic Regression
• KNN
• Decision Tree
• Random Forest
• XGBoost Classifier
Figure 12. 전체 데이터의 processState 분포
유기견의 특징과 지역에 따른 보호 종료 상태 예측
15
Model Train Accuracy Test Accuracy
Logistic
Regression
None 0.464 0.462
L1 0.464 0.462
L2 0.464 0.462
KNN
Uniform 0.465 0.465
Distance 0.449 0.447
Decision Tree
gini 0.449 0.452
entropy 0.453 0.453
Random Forest 0.471 0.471
XGBoost 0.477 0.475
• 결과 비교
Table 6. 각 모델의 accuracy 및 parameter tuning 결과
Most Positive Coef. Most Negative Coef.
반환 비글 0.917 미니어쳐 핀셔 -1.573
안락사 미니어쳐 핀셔 1.374 요크셔 테리어 -1.308
입양 요크셔테리어 0.868 미니어쳐 핀셔 -0.509
자연사 부산광역시 0.989 세종특별시 -1.412
Table 5. Logistic Regression 모델의 변수의 영향 분석
Figure 13. XGBoost 모델의 변수 중요도 분석
유기견의 특징과 지역에 따른 보호 종료 상태 예측
16
• Imbalanced Data 처리
• Over sampling – SMOTE(Synthetic Minority Over-sampling Technique)
• Under sampling – 데이터의 크기가 충분하다고 가정
• 결과
• 전체 accuracy가 조금 낮아졌으나 특정 label로만 예측하는 것(낮은 recall)이 개선됨 – 자연사와 안락사의 예측도 상승
Original SMOTE Under Sampling
Training Data Size 120,208 190,396 52,316
Train Accuracy 0.477 0.444 0.478 0.433 0.433 0.417
Test Accuracy 0.475 0.445 0.439 0.409 0.420 0.403
Used Model XGBoost
Logistic
Regression
XGBoost Logistic Regression XGBoost Logistic Regression
Recall
(Sensitivity)
반환 0.229 0.309 0.297 0.316 0.326 0.321
안락사 0.345 0.333 0.525 0.528 0.534 0.514
입양 0.756 0.729 0.512 0.391 0.414 0.390
자연사 0.152 0.133 0.361 0.414 0.453 0.434
Table 7. Imbalanced Data를 해결하기 위한 SMOTE, Under sampling 결과
유기견의 특징과 지역에 따른 보호 종료 상태 예측
17
• Accuracy를 향상시키기 위한 접근 방법
1. Feature Selection
• Forward Selection
• 나이 → 염증 → 피부병 → ⋯
• Backward Selection
• 시츄 → 푸들 → 광주시 → ⋯
2. 부산시에 대해서만 모델 적용
• 네 개의 label 비율이 비슷함
3. 말티즈 품종에 대해서만 모델 적용
• 가장 개체 수가 많음
4. Binary Classification으로 문제를 변형
• 입양 & 반환 / 안락사 & 자연사
Original Forward Backward
부산시
SMOTE
말티즈
SMOTE
Binary
Classification
Training Data
Size
120,208 120,208 120,208 7,280 44,868 120,208
Test Accuracy 0.462 0.457 0.463 0.447 0.453 0.699
Used Model
Logistic
Regression
Logistic
Regression
Logistic
Regression
Logistic
Regression
Logistic
Regression
Random
Forest
Feature ALL ALL up to 30 일부 제외 지역 변수 제외 품종 변수 제외 ALL
Table 8. Accuracy를 높이기 위한 방법론 및 결과
Figure 14. Forward, Backward Stepwise Selection의 Accuracy 비교
* 원활한 비교와 parameter tuning을 고려하지 않기 위해 penalty 없는 Logistic Regression 사용
유기견의 특징과 지역에 따른 Period 예측
18
• 목표:유기견들의발견시의상태,지역,품종등을바탕으로보호종료까지걸리는시간예측(공고시작시간과공고종료시간의차이)
• 데이터 (row – 125,717, column – 62)
• Train : Test = 7 : 3 (88,001 : 37,716)
• 10 – fold Cross Validation
• Input : 나이, 무게, 성별(binary), 중성화(binary), 품종(29,
categorical), 색(6, categorical), 발견된 지역(17, categorical)
• Output : 공고 시작 시간과 공고 종료 시간의 차이
• 사용한 모델
• Ridge Regression
• Lasso Regression
• Elastic Net
• XGB Regressor
Figure 15. 전체 데이터에 대한 Period의 분포
유기견의 특징과 지역에 따른 Period 예측
19
RMSE Ridge Lasso Elastic Net
XGBoost
Regressor
Mean 1.6578 1.6578 1.6578 1.5801
Min 1.5507 1.5509 1.5509 1.4541
Max 1.7661 1.7661 1.7661 1.6799
Std 0.0616 0.0615 0.0615 0.0642
RMSE Ridge Lasso Elastic Net
XGBoost
Regressor
Mean 1.6408 1.7108 1.6409 1.5487
Min 1.5313 1.6198 1.5313 1.4230
Max 1.7506 1.8222 1.7509 1.6466
Std 0.0625 0.0584 1.5313 0.0623
Table 9. All Feature : XGB가 가장 우수
Table 10. Selected Feature : XGB가 가장 우수
<Train Results><Feature Selection>
Top1 Top2 Top3
광주 Tartar 부산
Top1 Top2 Top3
Age Weight 경기도
Top1 Top2 Top3
세종 대전 제주
• Gain
• Weight
• Cover
• Selected Feature(7개)
1. 지역 변수 : 광주광역시, 세종특별자치시, 대전
광역시, 제주특별자치도
2. 특징 : 치석 여부, 나이, 무게
유기견의 특징과 지역에 따른 Period 예측
20
• Selected Feature의 중요도 비교
• Ridge, Lasso, ElasticNet의 지역별 변수 영향도는 광주, 제주, 세종, 대전 순서로 광주가 가장 영향도가 높다고 판단
• Ridge, Lasso, ElasticNet의 age 변수는 영향도가 거의 없음
• XGB와 다른 세 모델의 차이점은 치석이 2번째로 영향도가 높다는 것과, 세 모델의 age 영향도가 거의 0이었던 것에 비해 XGB는 높다는 점
Table 11. Ridge, Lasso, ElasticNet의 Coefficients Figure 16. XGB의 Feautre Importance
Features Ridge Coef. Lasso Coef. ElasticNet Coef.
Age -0.0077 -0.0069 -0.0069
Weight 0.0249 0.0024 0.0024
Tartar 0.3100 0.2917 0.2932
대전광역시 0.3221 0.3017 0.9030
세종특별자치시 0.4572 0.3193 0.3286
제주특별자치도 0.4629 0.4142 0.4170
광주광역시 2.4430 2.4255 2.4230
유기견의 특징과 지역에 따른 Period 예측
21
Table 12. Test Results(Selected Feature)
RMSE MAE
Ridge 1.5821 0.9075
Lasso 1.5825 0.9022
Elastic 1.5824 0.9026
XGB 1.3986 0.8334
• Ridge, Lasso, Elastic Net의 Prediction은
비슷한 범위에 분포
• 실제 y값의 10~20 range는 XGB만
Prediction 하고 있음
• 실제 y값의 분포와의 비교
Count Mean Std Min Max
37716 10.0876 1.6479 1 50
Figure 17. Prediction 산점도
분석 결과 정리
22
유기견의 특징과 지역에 따른 보호 종료 상태 예측
• 가장 성능이 좋은 모델 : XGBoost Classifier
• Test Accuracy : 0.475
• 나이가 많은지, 소형 / 중형 / 대형견인지에 영향을 받음
• 낮은 Sensitivity를 보완하기 위해 Over / Under sampling
• Accuracy는 낮아졌으나 안락사 / 자연사 예측률 상승
• 낮은 정확도를 보완할 방법
• 변수 간의 correlation이 적어 feature selection은 비 효과적
• 특정 지역 혹은 품종만 보더라도 좋아지지 않음
• 보호 센터의 입장에서 센터가 비용을 들여야 하는지 아닌지의
두 경우를 예측하는 문제로 바꿈으로써 정확도 크게 상승
유기견의 특징과 지역에 따른 보호 기간 예측
• 가장 성능이 좋은 모델 : XGBoost Regressor
• Test RMSE : 1.399 / Test MAE : 0.833
• 광주인지, 치석이 있는지, 나이가 많은지에 영향을 받음
• XGBoost와 Regression 모델의 차이
• XGBoost는 age를 중요한 변수로 취급하나, regression에서는
age가 period에 미치는 영향이 미미
• Regression은 10 ~ 20 사이의 값을 잘 예측하지 못하지만
XGBoost는 상대적으로 잘 예측
• 광주광역시의 영향력이 공통적으로 크게 작용
두 모델 모두 input variable이 대부분 categorical variable이라는 것이 한계점
결론
23
• Business Impact
1. 연간 수백억이 소요되는 유기 동물 보호 시스템에서 유기 동물이 발생하였을 때,
해당 동물이 주인에게 반환 될 것인지, 입양될 것인지, 자연사 혹은 안락사에 이를 것인지를 판단할 수 있음.
이를 통해 해당 보호센터에서 안락사/자연사 할 것으로 예상되는 동물들을 더 잘 관리할 수 있는 센터로 이전시켜 보호 및 입양 가능.
2. 또한 유기 동물의 예상 보호 기간을 알아냄으로써 사료 구매, 격리실 관리, 백신 처방, 교통사고나 염증에 의한 진료가 필요할 시 수의사의
일정을 조절하는 등 보호센터의 운영, 보호, 관리에 필요한 계획을 미리 수립함으로써 비용을 절감할 수 있음.
3. 유기되었을 때 높은 비율로 안락사/자연사가 예측되는 품종(미니어쳐 핀셔 등), 지역(광주광역시 등)들로부터 반려동물 보호자들을 위한 자
료를 제공할 수 있고, 해당 지역에 대한 더 깊은 조사를 통한 유기 원인 파악 가능.
• 제언
1. 기록된 데이터로만 알 수 없는 개체의 특징이 크게 영향을 미칠 수 있고, 데이터 또한 정형화 되어있지 않아 손실된 데이터가 많음.
2. 각 보호센터에서 수용할 수 있는 개체 수, 환경 등의 데이터가 중요할 수 있으나 대부분 결측치.
3. 실제 데이터 분석은 종속변수에 영향을 미치는 요소들에 대한 데이터 부족과 다양한 원인으로 인해 생각보다 더 좋은 성능을 내기가 어려움.
References
24
• [1] http://www.dailyvet.co.kr/news/animalwelfare/116752
• [2] https://news.joins.com/article/21659825
• [3] https://data.go.kr/data/15001096/openapi.do
• [4] http://www.data.go.kr/data/15025454/standard.do

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Statistical Term Project

  • 1. 전국 유기동물 실태 분석 유기동물 보호 시스템 개선을 중심으로 20202123 이승엽 20202952 고효경 20170947 이준희 IMEN472 통계적데이터마이닝
  • 2. 목차 2 1. 주제 선정 이유 및 연구 목적 2. 데이터 수집 및 구성 3. 전처리 4. 기초통계분석 5. 유기견의 특징과 지역에 따른 보호 종료 상태 예측 6. 유기견의 특징과 지역에 따른 Period 예측 7. 분석 결과 8. 결론
  • 3. Table/ Figure 목차 3 Figure 1 유기동물 개체수(좌)와 유기견 개체수(우) Figure 2 유기동물 보호센터 수(좌)와 유기견 수/보호센터 수 (우) Figure 3 유기견 Age(좌) log_Age(우) 히스토그램 Figure 4 유기견 Weight(좌) log_Weight(우) 히스토그램 Figure 5 유기견 품종별 누적 유기횟수 (2011~2019) Figure 6 유기견 품종별 mean(log_Age) – mean(log_Weight) ScatterPlot Figure 7 유기견 품종별 processState 현황 (상위 10) Figure 8 유기견 지역별 processState 현황 Figure 9 유기견 품종별 period 현황 (상위 10) Figure 10 유기견 지역별 period 현황 Figure 11 변수들의 Correlation Matrix Figure 12 전체 데이터의 processState 분포 Figure 13 XGBoost 모델의 변수 중요도 분석 Figure 14 Forward, Backward Stepwise Selection의 Accuracy 비교 Figure 15 전체 데이터에 대한 Period의 분포 Figure 16 XGB의 Feautre Importance Figure 17 Prediction 산점도 Table 1 Raw Data Feature Table 2 품종 전처리 예시 Table 3 유기견 외형 색깔 전처리 예시 Table 4 Processed Data Feature Table 5 Logistic Regression 모델의 변수의 영향 분석 Table 6 각 모델의 accuracy 및 parameter tuning 결과 Table 7 Imbalanced Data를 해결하기 위한 SMOTE, Under sampling 결과 Table 8 Accuracy를 높이기 위한 방법론 및 결과 Table 9 All Feature : XGB가 가장 우수 Table 10 Selected Feature : XGB가 가장 우수 Table 11 Ridge, Lasso, ElasticNet의 Coefficients Table 12 Test Results(Selected Feature)
  • 4. 주제 선정 이유 및 연구 목적 • 주제 선정 이유 • 반려 동물에 대한 전문적 지식 없이 입양을 선택하여 결국 파양 혹은 유기까지 이르러 유기 동물의 수가 2018년 엔 12만 마리 이상까지 증가하고 있음. [1] • 유기 동물이 늘어나면서 구조 및 보호 비용을 포함한 운영비가 연간 200억 이상 소요됨. [1] • 유기된 동물들로 인한 생활 환경 및 안전 피해 발생. [2] • 연구 목적 • 동물 보호 센터의 구조 / 보호 비용을 포함한 운영비 절감. • 즉 각 보호소의 정보와 새로운 유기동물을 데리고 왔을 때 예상되는 보호 기간과 유기 동물의 보호 종료 시의 상 태를 예측. • 사회적으로 대두되는 안락사 문제를 고려하고 해당 개체를 보호할 수 없다고 판단되면 다른 보호소로 이전하는 등의 대처를 할 수 있을 것으로 생각. 4
  • 5. 데이터 수집 및 구성 • 데이터 수집 • 공공데이터포털 • Open API – 동물보호관리시스템 유기동물 조회 서 비스 (2011 ~ 2019) [3] • 표준 데이터 – 전국 동물보호센터 정보 (2019) [4] • 데이터 별 Feature • Table 1 • Raw Data Shape • 유기동물 데이터) 882952 rows, 16 columns • 보호센터 데이터) 292 rows, 15 columns Table 1. Raw Data Feature 유기동물 보호센터 desertionNo 유기번호 careNm 동물보호센터명 happenDt 접수일 orgNm 관리기관명 happenPlace 발견장소 divisionNm 동물보호센터유형 kindCd 품종 saveTrgtAnimal 구조대상동물 colorCd 색상 careAddr 소재지도로명주소 age 나이 dsignationDate 보호센터지정일자 weight 체중 vetPersonCnt 수의사인원수 noticeNo 공고번호 specsPersonCnt 사양관리사인원수 noticeSdt 공고시작일 medicalCnt 진료실수 noticeEdt 공고종료일 breedCnt 사육실수 processState 상태 quarabtineCnt 격리실수 sexCd 성별 feedCnt 사료보관실수 neuterYn 중성화여부 transCarCnt 운반차량보유대수 specialMark 특징 careTel 전화번호 careNm 보호소이름 dataStdDt 데이터기준일자 careTel 보호소전화번호 5
  • 6. 전처리 (1) 6 • 보호소 직원이 직접 작성/입력하는 형식의 데이터들(ex. 품종(breed), 유기동물 특징(speicalMark), 유기견 외형 색깔(colorCd) …)에 대해, 형식 통일 및 categorize의 전처리 진행 Table 3. 유기견 외형 색깔 전처리 예시Table 2. 유기견 특징 전처리 예시 Raw Data column processed columns colorCd black white brown ivory beige grey 흰색 0 1 0 0 0 0 흰색 0 1 0 0 0 0 흰색+갈색 0 1 1 0 0 0 흰 0 1 0 0 0 0 흰 0 1 0 0 0 0 실버 흰 0 1 0 0 0 0 흰,검정색 1 1 0 0 0 0 검정/흰색 1 1 0 0 0 0 흰/갈색 0 1 1 0 0 0 백 0 1 0 0 0 0 흰색 0 1 0 0 0 0 SpecialMark processed columns 치석 염증 결막염 피부병 외이염 왼쪽눈각막혼탁과백내장있고,치 석이많이끼어있고,피부약간있음 1 0 0 1 0 털이 많이 엉킨 상태로 내원 외 이염 유기된지 좀 된듯 함 순한 성격 0 0 1 0 1 결막염,피부병있음 0 1 1 1 0 결막염. 코 검정. 침흘림. 속눈썹 김. 꼬리끝털남기고 미용했던흔 적. 통통함. 얌전함. 사람따름. 0 1 1 0 0 교통사고,중성화,꼬리염색 0 0 0 0 0 깨발랄,순함,치석심함 1 0 0 0 0 심한탈수, 결막염, 전신피부염 0 1 1 1 0 부정교합. 발미용. 배 얼룩무늬. ' 앉아' 할줄 알.ㅁ 코 진갈/중앙 연 갈. 결막염 0 1 1 0 0
  • 7. 전처리 (2) 7 • Period 1/2/3 전처리 • happenDt, noticeSdt, noticeEdt 전처리 Period 1 : 보호 시작 시간과 공고 시작 시간의 간격 – 유기동물 발견하고 적절한 조치 후 공고를 올리기까지 걸리는 기간 Period 2 : 공고 시작 시간과 공고 종료 시간의 간격 – 공고를 올리고 입양, 반환, 안락사 등 최종 상태에 이르기까지의 기간 Period 3 : 보호 시작 시간과 공고 종료 시간의 간격 – 유기 동물을 보호소에서 보호해야 하는 총 기간 • 데이터 별 Feature • Table 2 • Processed Data Shape • 179690 rows, 24 columns processed columns column 명 항목명 column 명 항목명 age 나이 black 유기동물 외형 색깔 colorCd 전처리 neuterYn 중성화여부 white processState 상태 brown sexCd 성별 ivory specialMark 특징 beige weight 무게 grey period1 happenDt, noticeSdt, noticeEdt 전처리 tartar 유기동물 특징 speicalMark 전처리 period2 scab period3 conjunctivitis breed 품종 infection addr1 시/도 주소 inflammation addr2 시/군/구 주소 otitis Table 4. Processed Data Feature
  • 8. 기초통계분석 8 • 전체 유기동물(개, 고양이, 기타종) 개체수 분포와 유기견 개체수 분포를 비교하 였을 때, 인천/대전/대구/광주/울산 등 대도심에 유기견 개체수가 집중되어 있는 것을 확인할 수 있음 • 유기동물 보호센터는 대도시를 거점으로 반경 지역을 관리하는 시스템으로 운영 되고 있는데, 보호센터 수 대비 유기견 수를 확인했을 때 경기도/ 대구 일부 지 역이 유기견 수에 비해 보호 시설이 부족해 관리가 어려울 것으로 보임 Figure 1. 유기동물 개체수(좌)와 유기견 개체수(우) Figure 2. 유기동물 보호센터 수(좌)와 유기견 수/보호센터 수 (우)
  • 9. 기초통계분석 9 Figure 3. 유기견 Age(좌) log_Age(우) 히스토그램 Figure 4. 유기견 Weight(좌) log_Weight(우) 히스토그램 • 유기견들의 평균 나이는 3.96세이며, 히스토그램에서 보이는 것처럼 5년 미만의 아직 성장 중인 강아지들의 유기가 많았음 • 유기견들의 평균 몸무게는 6.58kg으로, 히스토그램에서 보이는 것처럼 10kg 이하의 소형/중형견의 비율이 매우 높음 • 제3사분위수도 6.2kg으로 대부분의 유기견의 무게가 5kg 미만 및 전후에 분포해 있음 • 유기동물 종 중 가장 많은 비율을 차지하는 강아지(76.6%), 유기견 데이터를 선택 • 고양이는 품종이 구체적이지 않고, 기타 종은 너무 다양한 유형의 동물이 있어서 유기견 데이터를 사용 • Age & Weight columns의 한 쪽으로 편향된 데이터를 처리하기 위해 log스케일로 조정
  • 10. 기초통계분석 10 Figure 5. 유기견 품종별 누적 유기횟수 (2011~2019) Figure 6. 유기견 품종별 mean(log_Age) – mean(log_Weight) ScatterPlot
  • 11. 기초통계분석 11 Figure 7. 유기견 품종별 processState 현황 (상위 10) Figure 8. 유기견 지역별 processState 현황 • 유기견 품종/ 지역별로 processState(ex. 보호중, 종료(안락사) 등)가 상이한 것을 확인
  • 12. 기초통계분석 12 Figure 9. 유기견 품종별 period 현황 (상위 10) Figure 10. 유기견 지역별 period 현황 Period 1 : 보호 시작 시간과 공고 시작 시간의 간격 – 유기동물 발견하고 적절한 조치 후 공고를 올리기까지 걸리는 기간 Period 2 : 공고 시작 시간과 공고 종료 시간의 간격 – 공고를 올리고 입양, 반환, 안락사 등 최종 상태에 이르기까지의 기간 Period 3 : 보호 시작 시간과 공고 종료 시간의 간격 – 유기 동물을 보호소에서 보호해야 하는 총 기간
  • 13. 기초통계분석 13 • 대부분의 변수들 사이의 correlation이 없음 • 염증과 감염, 결막염, 피부염 등은 양의 상관관계를 가짐 • 일부 품종만 색깔에 대한 양 혹은 음의 상관관계를 가짐 • Period1/2/3 사이에 양의 상관관계를 가짐 • → 대부분 input variable이 다중공선성을 가지지 않기에 전체 변수를 사용하여 regression 모델을 사용해볼 수 있음 Figure 11. 변수들의 Correlation Matrix
  • 14. 유기견의 특징과 지역에 따른 보호 종료 상태 예측 14 • 유기견들의 발견 시의 상태, 지역, 품종 등을 바탕으로 보호 종료 시의 상태를 예측하는 Multiclass Classification 모델 • 케이스가 너무 적거나 상태가 불분명한 “미포획“, “방사”, “기증“ 및 보호가 종료되지 않은 “보호중"을 제외 • “입양”, “반환”, “안락사”, “자연사“를 대상으로 진행 • 모델에 사용한 데이터 (row – 171,726, column – 62) • Train : Test = 7 : 3 (120,208 : 51,518) • 10 – fold Cross Validation • Input : 나이, 무게, 성별(binary), 중성화(binary), 품종(29, categorical), 색(6, categorical), 발견된 지역(17, categorical) • Output : 보호 종료 시의 상태 • 사용한 모델 • Logistic Regression • KNN • Decision Tree • Random Forest • XGBoost Classifier Figure 12. 전체 데이터의 processState 분포
  • 15. 유기견의 특징과 지역에 따른 보호 종료 상태 예측 15 Model Train Accuracy Test Accuracy Logistic Regression None 0.464 0.462 L1 0.464 0.462 L2 0.464 0.462 KNN Uniform 0.465 0.465 Distance 0.449 0.447 Decision Tree gini 0.449 0.452 entropy 0.453 0.453 Random Forest 0.471 0.471 XGBoost 0.477 0.475 • 결과 비교 Table 6. 각 모델의 accuracy 및 parameter tuning 결과 Most Positive Coef. Most Negative Coef. 반환 비글 0.917 미니어쳐 핀셔 -1.573 안락사 미니어쳐 핀셔 1.374 요크셔 테리어 -1.308 입양 요크셔테리어 0.868 미니어쳐 핀셔 -0.509 자연사 부산광역시 0.989 세종특별시 -1.412 Table 5. Logistic Regression 모델의 변수의 영향 분석 Figure 13. XGBoost 모델의 변수 중요도 분석
  • 16. 유기견의 특징과 지역에 따른 보호 종료 상태 예측 16 • Imbalanced Data 처리 • Over sampling – SMOTE(Synthetic Minority Over-sampling Technique) • Under sampling – 데이터의 크기가 충분하다고 가정 • 결과 • 전체 accuracy가 조금 낮아졌으나 특정 label로만 예측하는 것(낮은 recall)이 개선됨 – 자연사와 안락사의 예측도 상승 Original SMOTE Under Sampling Training Data Size 120,208 190,396 52,316 Train Accuracy 0.477 0.444 0.478 0.433 0.433 0.417 Test Accuracy 0.475 0.445 0.439 0.409 0.420 0.403 Used Model XGBoost Logistic Regression XGBoost Logistic Regression XGBoost Logistic Regression Recall (Sensitivity) 반환 0.229 0.309 0.297 0.316 0.326 0.321 안락사 0.345 0.333 0.525 0.528 0.534 0.514 입양 0.756 0.729 0.512 0.391 0.414 0.390 자연사 0.152 0.133 0.361 0.414 0.453 0.434 Table 7. Imbalanced Data를 해결하기 위한 SMOTE, Under sampling 결과
  • 17. 유기견의 특징과 지역에 따른 보호 종료 상태 예측 17 • Accuracy를 향상시키기 위한 접근 방법 1. Feature Selection • Forward Selection • 나이 → 염증 → 피부병 → ⋯ • Backward Selection • 시츄 → 푸들 → 광주시 → ⋯ 2. 부산시에 대해서만 모델 적용 • 네 개의 label 비율이 비슷함 3. 말티즈 품종에 대해서만 모델 적용 • 가장 개체 수가 많음 4. Binary Classification으로 문제를 변형 • 입양 & 반환 / 안락사 & 자연사 Original Forward Backward 부산시 SMOTE 말티즈 SMOTE Binary Classification Training Data Size 120,208 120,208 120,208 7,280 44,868 120,208 Test Accuracy 0.462 0.457 0.463 0.447 0.453 0.699 Used Model Logistic Regression Logistic Regression Logistic Regression Logistic Regression Logistic Regression Random Forest Feature ALL ALL up to 30 일부 제외 지역 변수 제외 품종 변수 제외 ALL Table 8. Accuracy를 높이기 위한 방법론 및 결과 Figure 14. Forward, Backward Stepwise Selection의 Accuracy 비교 * 원활한 비교와 parameter tuning을 고려하지 않기 위해 penalty 없는 Logistic Regression 사용
  • 18. 유기견의 특징과 지역에 따른 Period 예측 18 • 목표:유기견들의발견시의상태,지역,품종등을바탕으로보호종료까지걸리는시간예측(공고시작시간과공고종료시간의차이) • 데이터 (row – 125,717, column – 62) • Train : Test = 7 : 3 (88,001 : 37,716) • 10 – fold Cross Validation • Input : 나이, 무게, 성별(binary), 중성화(binary), 품종(29, categorical), 색(6, categorical), 발견된 지역(17, categorical) • Output : 공고 시작 시간과 공고 종료 시간의 차이 • 사용한 모델 • Ridge Regression • Lasso Regression • Elastic Net • XGB Regressor Figure 15. 전체 데이터에 대한 Period의 분포
  • 19. 유기견의 특징과 지역에 따른 Period 예측 19 RMSE Ridge Lasso Elastic Net XGBoost Regressor Mean 1.6578 1.6578 1.6578 1.5801 Min 1.5507 1.5509 1.5509 1.4541 Max 1.7661 1.7661 1.7661 1.6799 Std 0.0616 0.0615 0.0615 0.0642 RMSE Ridge Lasso Elastic Net XGBoost Regressor Mean 1.6408 1.7108 1.6409 1.5487 Min 1.5313 1.6198 1.5313 1.4230 Max 1.7506 1.8222 1.7509 1.6466 Std 0.0625 0.0584 1.5313 0.0623 Table 9. All Feature : XGB가 가장 우수 Table 10. Selected Feature : XGB가 가장 우수 <Train Results><Feature Selection> Top1 Top2 Top3 광주 Tartar 부산 Top1 Top2 Top3 Age Weight 경기도 Top1 Top2 Top3 세종 대전 제주 • Gain • Weight • Cover • Selected Feature(7개) 1. 지역 변수 : 광주광역시, 세종특별자치시, 대전 광역시, 제주특별자치도 2. 특징 : 치석 여부, 나이, 무게
  • 20. 유기견의 특징과 지역에 따른 Period 예측 20 • Selected Feature의 중요도 비교 • Ridge, Lasso, ElasticNet의 지역별 변수 영향도는 광주, 제주, 세종, 대전 순서로 광주가 가장 영향도가 높다고 판단 • Ridge, Lasso, ElasticNet의 age 변수는 영향도가 거의 없음 • XGB와 다른 세 모델의 차이점은 치석이 2번째로 영향도가 높다는 것과, 세 모델의 age 영향도가 거의 0이었던 것에 비해 XGB는 높다는 점 Table 11. Ridge, Lasso, ElasticNet의 Coefficients Figure 16. XGB의 Feautre Importance Features Ridge Coef. Lasso Coef. ElasticNet Coef. Age -0.0077 -0.0069 -0.0069 Weight 0.0249 0.0024 0.0024 Tartar 0.3100 0.2917 0.2932 대전광역시 0.3221 0.3017 0.9030 세종특별자치시 0.4572 0.3193 0.3286 제주특별자치도 0.4629 0.4142 0.4170 광주광역시 2.4430 2.4255 2.4230
  • 21. 유기견의 특징과 지역에 따른 Period 예측 21 Table 12. Test Results(Selected Feature) RMSE MAE Ridge 1.5821 0.9075 Lasso 1.5825 0.9022 Elastic 1.5824 0.9026 XGB 1.3986 0.8334 • Ridge, Lasso, Elastic Net의 Prediction은 비슷한 범위에 분포 • 실제 y값의 10~20 range는 XGB만 Prediction 하고 있음 • 실제 y값의 분포와의 비교 Count Mean Std Min Max 37716 10.0876 1.6479 1 50 Figure 17. Prediction 산점도
  • 22. 분석 결과 정리 22 유기견의 특징과 지역에 따른 보호 종료 상태 예측 • 가장 성능이 좋은 모델 : XGBoost Classifier • Test Accuracy : 0.475 • 나이가 많은지, 소형 / 중형 / 대형견인지에 영향을 받음 • 낮은 Sensitivity를 보완하기 위해 Over / Under sampling • Accuracy는 낮아졌으나 안락사 / 자연사 예측률 상승 • 낮은 정확도를 보완할 방법 • 변수 간의 correlation이 적어 feature selection은 비 효과적 • 특정 지역 혹은 품종만 보더라도 좋아지지 않음 • 보호 센터의 입장에서 센터가 비용을 들여야 하는지 아닌지의 두 경우를 예측하는 문제로 바꿈으로써 정확도 크게 상승 유기견의 특징과 지역에 따른 보호 기간 예측 • 가장 성능이 좋은 모델 : XGBoost Regressor • Test RMSE : 1.399 / Test MAE : 0.833 • 광주인지, 치석이 있는지, 나이가 많은지에 영향을 받음 • XGBoost와 Regression 모델의 차이 • XGBoost는 age를 중요한 변수로 취급하나, regression에서는 age가 period에 미치는 영향이 미미 • Regression은 10 ~ 20 사이의 값을 잘 예측하지 못하지만 XGBoost는 상대적으로 잘 예측 • 광주광역시의 영향력이 공통적으로 크게 작용 두 모델 모두 input variable이 대부분 categorical variable이라는 것이 한계점
  • 23. 결론 23 • Business Impact 1. 연간 수백억이 소요되는 유기 동물 보호 시스템에서 유기 동물이 발생하였을 때, 해당 동물이 주인에게 반환 될 것인지, 입양될 것인지, 자연사 혹은 안락사에 이를 것인지를 판단할 수 있음. 이를 통해 해당 보호센터에서 안락사/자연사 할 것으로 예상되는 동물들을 더 잘 관리할 수 있는 센터로 이전시켜 보호 및 입양 가능. 2. 또한 유기 동물의 예상 보호 기간을 알아냄으로써 사료 구매, 격리실 관리, 백신 처방, 교통사고나 염증에 의한 진료가 필요할 시 수의사의 일정을 조절하는 등 보호센터의 운영, 보호, 관리에 필요한 계획을 미리 수립함으로써 비용을 절감할 수 있음. 3. 유기되었을 때 높은 비율로 안락사/자연사가 예측되는 품종(미니어쳐 핀셔 등), 지역(광주광역시 등)들로부터 반려동물 보호자들을 위한 자 료를 제공할 수 있고, 해당 지역에 대한 더 깊은 조사를 통한 유기 원인 파악 가능. • 제언 1. 기록된 데이터로만 알 수 없는 개체의 특징이 크게 영향을 미칠 수 있고, 데이터 또한 정형화 되어있지 않아 손실된 데이터가 많음. 2. 각 보호센터에서 수용할 수 있는 개체 수, 환경 등의 데이터가 중요할 수 있으나 대부분 결측치. 3. 실제 데이터 분석은 종속변수에 영향을 미치는 요소들에 대한 데이터 부족과 다양한 원인으로 인해 생각보다 더 좋은 성능을 내기가 어려움.
  • 24. References 24 • [1] http://www.dailyvet.co.kr/news/animalwelfare/116752 • [2] https://news.joins.com/article/21659825 • [3] https://data.go.kr/data/15001096/openapi.do • [4] http://www.data.go.kr/data/15025454/standard.do