SlideShare a Scribd company logo
1 of 39
Download to read offline
K-BON 데이터 활용을 위한
생물 종 분포 모형 활용 방안
Ecological Niche
국립생물자원관 세미나
이상혁
2020. 05. 29.
친환경적이고 과학적인 국토관리를 실현합니다.
I. 모형의 개요
1. 용어의 선정
2. 주요 활용분야
3. 모형의 종류
4. 모형의 구분
2
다양한 관련 용어
 서식지적합모형 Habitat Suitability Model Hirzel, Helfer and Metral (2001)
 생물기후모형 Bioclimatic Model Sykes, Prentice and Cramer (1996)
 생물기후범위모형 Bioclimate Envelope Model Pearson and Dawson (2003)
 생태지위모형 Ecological Niche Model Peterson and Vieglais (2001)
 종 분포모형 Species Distribution Model Guisan and Thuiller (2005)
 종 지위모형 Species Niche Model Schurr et al., (2012)
 환경적합모형 Environmental Suitability Model Kaschner et al. (2006)
 환경지위모형 Environmental Niche Model VanDerWal et al. (2009)
 생물이 분포하는 위치 및 환경 인자와의 관계를 통한 해석, 이를 통한 분포지역 예측
01
모형의 개요
3Jane Elith & John R. Leathwick(2009)
주요 활용분야
 생태학 관점에서의 활용
– 종 수집을 확대 위한 효과적 지역 선정
– 기후변화에 따른 잠재적 변화 예측
– 유해종 침입 예측
– 우선 보전 필요지역 예측
– 동물 이동로 예측
 공간의사결정
– 전염병 관련 역학모델링
– 토지이용변화 예측
– 작물 재배적지 모델링
– 기후변화에 따른 작물 생산성 예측
– 산사태 발생 취약지역 예측
4https://doi.org/10.1177/1940082919854058
최근 25년간 모델링 연구 분야
02
모형의 개요
모형의 종류
 GARP = genetic algorithm for rule-set production
 MAXENT = maximum entropy
 LR = logistic regression
 GAM = generalized additive models
 GLM = generalized linear models
 CART = classification and regression tree models
 ANN = artificial neural networks
 ENFA = ecological niche factor analysis
 BRT = boosted regression trees
 GBM = generalized boosted models
 RF = random forest
 MDA = mixture discriminant analysis
 ClimEnv = climatic envelope
 SRE = surface range envelope
 MARS = multivariate adaptive regression splines
 FuzzyEnv = fuzzy envelope
 SVM = support vector machines
 ED = environmental distance
5
Global downloads of MaxEnt software from December 12, 2016,
to June 8, 2018 (n = 27,472)
최근 25년간 사용된 모형통계
03
모형의 개요
모형의 구분
 Profile techniques
– BIOCLIM, DOMAIN, ENFA
 Regression based techniques
– GLM, GAM, MARS
 Machine learning techniques
– MaxEnt, ANN, GARP, BRT, GBM, RF, SVM
6
Climate envelope model
04
모형의 개요
친환경적이고 과학적인 국토관리를 실현합니다.
II. 변수의 종류 및 선택
1. 종속변수: 생물출현자료
2. 독립변수: 환경변수(기후, 토양, 토지피복, 지형 등)
3. 변수의 선택
7
출현지점 Presence data
 데이터의 수집
– 기관 차원 보유자료(표본수집 위치, 전국자연환경조사 등)
– 시민과학 수집자료(네이처링, K-BON 데이터 등)
– 개인 연구자료
– Movebank.org (막스플랑크 동물행동연구소 Animal tracking data)
– GBIF.org
 데이터 클리닝
– 출현 불가능한 지점
– 공간범위 분포 밖의 지점
– 잘못 기록된 좌표
– 정확한 동정
 공간적자기상관 Spatial autocorrelation
– 비슷한 환경에 과다출현, 동일한 격자(cell)에 중복된 다수 출현시 발생(과적합)
– 모형의 성능 과대평가, 모형의 예측력 감소
8
01
종속변수: 생물출현자료
 자생 환경의 특성을 고려한 데이터 클리닝
– 우리나라 고산지역 대표 침엽수종 6개(구상나무, 분비나무, 눈향나무, 가문비, 주목, 눈측백)
– 문헌 고찰을 통한 연평균 기온 분포범위와 출현지점 확인
9
Annual Precipitation
출현지점 Presence data01
종속변수: 생물출현자료
비출현지점 Absence data
 임의비출현지점(Pseudo-Absences, PA) 생성
– 환경조건이 적합할지라도 출현하지 않았다고 해서 비출현지점이라 할 수 없음(Kéry et al. , 2010)
– PA생성 방식의 선정
• Random: 무작위 생성
• Disk: 출현지점으로부터 최소, 최대 거리를 기반으로 생성
• SRE: 출현지점 외부영역으로 한정하여 생성(낙관적 모델)
• User Defined: 미리 설정한 지점을 바탕으로 생성
• 연구에 따라 출현지점과 적절한 거리의 PA 생성 권장
– 1,000개 이상의 PA 개수의 선정
• 300개 이상의 출현지점의 경우
• 최소 1,000개 이상의 PA 생성
– 최소 10회 이상 반복 생성
• 출현지점 수와 PA수가 동일하거나
• 1,000개 PA 이하일 경우
10
01
종속변수: 생물출현자료
https://doi.org/10.1111/j.2041-210X.2011.00172.x
기후변수 current climate & future emission scenarios
 WorldClim 2.1데이터
– 1970~2000 평년 현재기후 제공
– 30sec, 2.5min, 5min, 10min 해상도
– Min/Max/Avg temperature (°C)
– Precipitation (mm)
– solar radiation (kJ m-2 day-1)
– wind speed (m s-1)
– water vapor pressure (kPa)
– Bioclim(01~19)
02
독립변수: 환경관련 변수
11
https://doi.org/10.1002/joc.5086
다양한 CMIP6의 모델결과 데이터 제공
기후변수 future emission scenarios
 HadGEM3-RA
영국 기상청 지역기후모델 도입한 기상청의 한반도 지역기후모델
현재 학계, 기관 등에서 제작한 5가지 기후모델 및 앙상블 제공(RCP시나리오)
수평분해능 12.5km  1km 다운스케일링
02
독립변수: 환경관련 변수
12
Annual Precp.
Annual Temp.
Current
1981-2010
RCP 4.5
2041-2060
RCP 4.5
2061-2080
RCP 8.5
2041-2060
RCP 8.5
2061-2080
climate.go.kr
기후변수
 Bioclimatic variables
02
독립변수: 환경관련 변수
13
 대표적 변수간 상관관계 by ENM tools
(주성분분석 PCA를 통한 다중공선성 Multicollinearity 제거)
 R package Biovar / DIVA-GIS / ANUCLIM
(월별 최고 / 최저기온, 월별 강수량)
추가 고려가능한 변수
 Digital Elevation Model
– 국토지리정보원(수치지도 기반 5m급)
– SRTM(30m급), ASTER(30m급)
– 경사, 사면방향, TPI지수 등 변환
 토양환경변수
– www.soilgrids.org
– data.isric.org (토양 pH, 유기탄소함량 등)
– 산림청 산림입지토양도(토성, 토심, 토양습도, 암석노출 등)
– 농업진흥청 흙토람(토성, 토색, 모암, 토심, 이화학성 등)
 정규식생지수(NVDI)
– http://landcover.usgs.gov
 토지피복지도
– http://landcover.usgs.gov
– 환경부 환경공간정보서비스(EGIS)
 임상도
– 산림청 산림공간정보시스템(FGIS)
 기타 기후 환경
– 건조지수 및 증발산량 www.cgiar-csi.org
14
02
독립변수: 환경관련 변수
변수 선택시 유의사항
 종속변수
– 독립변수와 통일된 좌표체계
 독립변수
– 어떤 변수를 포함시킬 것인가?
– 범주형, 연속형 자료의 구분
– 동일한 공간해상도(resolution, cell size)
– 동일한 Extent
– 적정한 해상도의 선택(resampling)
• 분석 대상 개체의 크기 및 출현자료의 밀도 고려
• Downscaling시 공간보간법 활용
(kriging, IDW, PRISM 등)
https://support.bccvl.org.au/support/solutions/articles/6000161294
https://science.sciencemag.org/content/295/5558/1245 https://doi.org/10.1046/j.1466-822X.2003.00042.x
15
03
변수의 선택
친환경적이고 과학적인 국토관리를 실현합니다.
III. 모형 선정
1. 적절한 모형의 선택
2. Ensemble
16
모형별 비교
17
- SDT: Species Data Type
- PI: Predictor Interactions
- HnLF: Highly non-Linear Functions
- Cat: Categorical predictorts usage
- DD: Data Dependency
- Det: Deterministic
*SDT(Species Data Type)
PO: only presence data used, PE: presence compared against the entire region,
PA: presence and some form of absence(or pseudo-absence) required
01
적절한 모형의 선택
 주요 모형별 특징
– 대상지 특성, 환경변수, 종 선정 등에 따라 다양한 결과 도출
– 어떤 모형이 더 적합한지 일반화는 어려움
– 단일모형에 의한 예측의 불확실성 제기
– 모형간의 결과를 앙상블하여 사용하는 추세
Concept Model SDT* PI HnLF Cat DD Det Key reference
Environmental
Envelope
BIOCLIM PO N N N Y Y Busby (1991)
DOMAIN PO N N N Y Y Carpenter et al. (1993)
ENFA PE Y N N N Y Hirzel et al. (2002)
Regression
Analysis
GLM PA Y Y Y N Y Guisan et al. (2002)
GAM PA Y Y Y N Y Guisan et al. (2002)
MARS PA Y Y Y Y Y Friedman (1991)
Machine
learning
CART PA Y Y Y Y N Sinclair et al. (2010)
RF PA Y Y Y Y N Brieman (2001)
BRT PA Y Y Y Y N Elith et al. (2008)
ANN PA Y Y Y Y Y Pearson et al. (2002)
SVM PA Y Y Y N Y Guo et al. (2005)
MaxEnt PE Y Y Y N Y Phillips et al. (2006)
GARP PA Y Y Y N Y Elith et al. (2006)
Ensemble species distribution models(ESDMs)
 앙상블 개념도
– 기후모델, PA자료 생성, k-fold(Training / Test data), 종 분포 모형
18
(Araújo and New, 2007 modified)
02
모형의 앙상블
(a) 단일조합
(b) 복수평가(Bootstrap, k-fold 등)
(c) 다양한 모형
(d) 모형 매개변수
(e) 다중 조건(b,c,d 고려)
 앙상블 모형 패키지 비교
– 대부분 R package형태로 제공
– SSDM은 GUI로 구현
– BIOMOD2 미래기후 입력 분석 가능
Ensemble species distribution models(ESDMs)
19
- GUI: Graphic User Interface
- NM: Number of Species Distribution Models
- WEF: Weighted Ensemble Funtion
- FCP: Future Climate Projection funtion
Software / Package GUI Platform NM WEF FCP Key references
openModeller Y C++ 14 N Y de Souza Muñoz et al. (2011)
BIOMOD2 N R 10 Y Y Thuiller et al. (2016)
dismo N R 9 Y N Hijmans et al. (2015)
SDM N R 9 Y N Naimi and Araújo (2016)
SSDM Y R 9 Y N Schmitt et al. (2017)
BiodiversityR N R 3 Y N Kindt, R. (2016)
https://doi.org/10.1177/1940082919854058
02
모형의 앙상블
SDM 관련 논문 현황(전세계)
BIOMOD2 패키지
 BIOMOD2 패키지 활용 추이
– 2003~2016년간 총 224개 관련논문 발표
– 2009년 BIOMOD2 발표를 기점으로 늘어나는 추세
20
02
모형의 앙상블
https://doi.org/10.1111/ddi.12892
친환경적이고 과학적인 국토관리를 실현합니다.
IV. 모형 결과의 평가
1. 정확도 평가의 방법
2. Cut-off 방법의 선택
21
모형 정확도 평가
22
Index Abbreviations Remark
Accuray = (TP+TN)/(TP+TN+FP+FN) TP=True positive;
TN=True negative
FP=False positive;
FN=False negative
Kappa = (OA-EA)/((TP+FP+TN+FN)-EA)
Where EA =
(TP+FN)(TP+FP)/(TP+FP+TN+FN) –
(FP+TN)(TN+TN+FN)/(TP+FP+TN+FN)
OA = observed agreement
(Accuracy)
EA = Expected agreement
Values
>= 0.81 = Excellent;
0.61-0.80 = Good;
0.41-0.60 = Medium;
0.21-0.40 = Not good;
<0.10-0.20 = Bad;
< 0.00 = Very bad
Sensitivity= TP/(TP+FN) True Positive Rate(TPR) 1 - omission error(recall)
Specificity = TN/(FP+TN) True Negative Rate(TNR) 1 - commission error
AUC = A plot of TPR vs. FPR
Where FPR = FP/(FP+TN)
= 1 - specificity
AUC = Area under the ROC*
curve
TPR= True positive rate
(sensitivity)
FPR=False positive rate
Calculated on
the test dataset
Values
> 0.7 are considered good
TSS = (Sensitivity + Specificity) – 1 Values
> 0.7 are considered good
*ROC: Receiver operating characteristic.
 Calibrate(Training), Validate(Test)를 통한 k-fold 반복 측정
– Cross validation 7:3
Observation
Recorded present Recorded absent
Prediction
Predicted
present
TP
(True positive)
FP
(False positive)
Predicted
absent
FN
(False negative)
TN
(True negative)
01
정확도 평가방법
Geographical space
FP = Overprediction(Commission error)
FN = Underprediction(Omission error)
모형 정확도 평가
23
 AUC(Area Under the ROC Curve)
01
정확도 평가방법
모형출현모형 비출현
Binary map 제작
24
02
Cut-off 방법의 선택
 정확도 판단을 위한 계수의 선택
– 그간 보편적으로 활용된 Kappa 통계량의 편향성에 대한 문제 제기
– TSS(True Skill Statistic) 값 활용의 적정성 권장
• https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/j.1365-2664.2006.01214.x
– Threshold 설정의 주요 방법론
Method Description Reference
Fixed threshold approach Taking a fixed value, usually 0.5, as the threshold
Manel et al. (1999),
Bailey et al. (2002)
Kappa maximization approach Kappa statistic is maximized
Huntley et al. (1995),
Guisan et al. (1998)
Prevalence approach Taking the prevalence of model-building data as the threshold Cramer(2003)
Average probability/
suitability approach
Taking the average predicted probability/
suitability of the model-building data as the threshold
Cramer(2003)
Sensitivity-specificity
sum maximization approach
(TSS)
The sum of sensitivity and specificity is maximized
Cantor et al. (1999),
Manel et al. (2001)
Sensitivity-specificity
equality approach
The absolute value of the difference between sensitivity and
specificity is minimized
Cantor et al. (1999)
ROC plot-based approach
The threshold corresponds to the point on ROC curve
(sensitivity against 1-specificity) which has the shortest distance
to the top-left corner (0,1) in ROC plot
Cantor et al. (1999)
https://doi.org/10.1111/j.0906-7590.2005.03957.x
https://doi.org/10.1111/jbi.12058
친환경적이고 과학적인 국토관리를 실현합니다.
V. 모형 구현
1. GUI 기반 소프트웨어
2. R package를 통한 구현
3. 보조 프로그램의 활용
25
MaxEnt
 기본 화면 구성
26
01
GUI 기반 소프트웨어
생물종 위치자료 입력 환경변수 입력
분석결과 저장위치 설정
미래기후변수 입력
• 환경변수와 동일하게 입력
• 기후변수 부분만 교체
• CSV 포멧
• 종, X, Y 순서로 열배열 필수
• 종에 따른 구분 및 선택 가능
• X, Y좌표값
• 경위도의 경우 Decimal형태
• Ascii Grid형태
• 동일한 Extent
• 동일한 Cell size
• 변수의 형태 선택 중요
• 연속적인 변수(기온 등)
• 분류형변수(토지피복 등)
MaxEnt
 Additional Settings
– 모형 구동시 추가적 결정사항 선택
27
01
GUI 기반 소프트웨어
예측범위를초과한과도한추정발생지역표시
환경변수간의유사정도(상관성)표시
MaxEnt
 결과의 해석
28
01
GUI 기반 소프트웨어
SSDM Shiny by R studio
 활용가능한 모델
– GAM, GLM, MARS, MAXENT, CTA, GBM, ANN, RF, SVM
29
01
GUI 기반 소프트웨어
https://doi.org/10.1111/2041-210X.12841
BIOMOD2
 BIOMOD2 패키지 과정
– 구현 코드 및 자세한 설명 홈페이지 및 관련문서 참조
– https://rdrr.io/cran/biomod2
– https://www.rdocumentation.org/packages/biomod2
30
02
R package를 통한 구현
BIOMOD2
Mydata <- BIOMOD_FormatingData(
resp.var = occurs,
expl.var = varip,
resp.xy = occurXY,
resp.name = occurname,
eval.resp.var = NULL,
eval.expl.var = catego,
eval.resp.xy = NULL,
PA.nb.rep = 10,
PA.nb.absences = 1000,
PA.strategy = 'random',
PA.dist.min = NULL,
PA.dist.max = NULL,
PA.sre.quant = NULL,
PA.table = NULL,
na.rm = TRUE)
31
ModelOut <- BIOMOD_Modeling( mydata,
models = c('GLM', 'GBM',
'GAM', 'CTA', 'ANN', 'FDA', 'MARS', 'RF',
'MAXENT.Phillips'),
models.options =
myBiomodOption,
NbRunEval= 10,
DataSplit = 70,
Yweights = NULL,
Prevalence = NULL,
VarImport = 7,
models.eval.meth =
c('TSS','ROC','KAPPA'),
SaveObj = TRUE,
rescal.all.models = FALSE,
do.full.models = FALSE,
modeling.id = test)
02
R package를 통한 구현
BIOMOD2
ModelOutEM <- BIOMOD_EnsembleModeling(
ModelOut,
chosen.models = 'all',
em.by = 'all',
eval.metric = c('TSS'),
eval.metric.quality.threshold = 0.8,
models.eval.meth = c('TSS','ROC','KAPPA'),
prob.mean = TRUE,
prob.cv = TRUE,
prob.ci = TRUE,
prob.ci.alpha = 0.05,
prob.median = TRUE,
committee.averaging = TRUE,
prob.mean.weight = TRUE,
prob.mean.weight.decay = 'proportional',
VarImport = 0)
32
rcp45y2050 <- BIOMOD_Projection(
modeling.output = ModelOut,
new.env = vari4550,
proj.name = '4550s',
selected.models = 'all',
binary.meth = 'TSS',
compress = 'xz',
clamping.mask = TRUE,
do.stack= TRUE,
filtered.meth = NULL,
output.format = '.img',
prob.mean.weight = TRUE,
prob.mean.weight.decay =
'proportional' )
02
R package를 통한 구현
Dataset used for models building (Pseudo Absences dataset and repetitions done): 'PA_dataset+repet'
Dataset used and statistical models : 'PA_dataset+algo'
Pseudo-absences selection dataset : 'PA_dataset'
Statistical models : 'algo'
A total consensus model : 'all'
em.by =
예측변수 평균 확률
예측변수 변동계수
예측변수 평균확률의 신뢰구간
예측변수 평균확률의 신뢰구간 값 설정
예측 값에 대한 평균치 추정
확률의 가중치 합 추정
가중치에 대한 상대적 중요도(TSS 값 비례)
SDM toolbox
 SDM toolbox 2.0
– ArcMAP 10.x버전 Tooxbox 제공
– 파일 형식 변환(grid  ascii 등)
– 출현자료 밀도 조정(환경변수 고려)
– Background Selection by Bias
– Distribution Changes between Binary SDMs
– Calculate Climate Heterogeneity
– MaxEnt 구동
33https://peerj.com/articles/4095
03
보조 프로그램 활용
ENM Tools
 ENM Tools v1.4
– Perl 또는 R 언어 기반 구동 http://enmtools.blogspot.com
– Standardizing rasters
– Removing duplicate occurrences
– Hypothesis Testing, Background tests
34https://doi.org/10.1111/j.1600-0587.2009.06142.x
03
보조 프로그램 활용
친환경적이고 과학적인 국토관리를 실현합니다.
VI. 향후 방향
35
생물다양성 빅데이터 구축
 Essential biodiversity variables
for mapping and monitoring
species populations
Nature Ecology & Evolution(2019)
– 생물다양성의 규모 및 차원 파악
– 생태모델링은 필수적 도구
– 시민과학을 통한 현장 관찰
– 연구자들과의 공유를 통한 활용 확대
– 생태정보학적 생물다양성 평가기술 개발
36
00
향후 방향 설정
https://doi.org/10.1038/s41559-019-0826-1
생물다양성 빅데이터 구축
 출현자료를 바탕으로한 시공간 융합 데이터 구축
– 국가, 기관, 보존 조직, 연구 네트워크 및 개인에 의한 향상된 데이터 확보 및 공유
– 모형에 기반한 다양한 생물자원에 대한 시공간 예측
– G-BON, Future Earth 등의 사례와 같이 학술 기관, 연구 네트워크 조직 기반 프로젝트
– 지속적인 모니터링 및 연구의 정책적 연결기능 확대
– 정책적 활용을 위한 생물다양성 및 종다양성 등의 지표화
37https://doi.org/10.1038/s41559-019-0826-1
00
향후 방향 설정
참고 사이트
 모형의 이해 및 웹을 통한 사용자 참여 모델링
– 호주 Biodiversity and Climate Change Virtual Laboratory
– http://bccvl.org.au
 Map of Life, 생물 다양성 지리 정보
– https://mol.org
 국내·외 데이터 취득
– 기후데이터
• WorldClim 데이터센터 https://www.worldclim.org
• CliMond 데이터베이스 https://www.climond.org
• 기상청 기후정보포털 http://climate.go.kr
– 지형데이터
• SRTM
• ASTER
• 국토지리정보원
38
경청해 주셔서 감사합니다.
이상혁
shlee@kei.re.kr
39

More Related Content

What's hot

[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용Kwang Woo NAM
 
지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정
지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정 지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정
지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정 Byeong-Hyeok Yu
 
공간SQL을 이용한 공간자료분석 기초실습
공간SQL을 이용한 공간자료분석 기초실습공간SQL을 이용한 공간자료분석 기초실습
공간SQL을 이용한 공간자료분석 기초실습BJ Jang
 
QGIS 실습 (총 7차시)
QGIS 실습 (총 7차시)QGIS 실습 (총 7차시)
QGIS 실습 (총 7차시)Byeong-Hyeok Yu
 
해양디지털트윈v02.pdf
해양디지털트윈v02.pdf해양디지털트윈v02.pdf
해양디지털트윈v02.pdfKwang Woo NAM
 
지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기
지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기
지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기Byeong-Hyeok Yu
 
공간정보거점대학 - PyQGIS 및 플러그인 개발
공간정보거점대학 - PyQGIS 및 플러그인 개발공간정보거점대학 - PyQGIS 및 플러그인 개발
공간정보거점대학 - PyQGIS 및 플러그인 개발MinPa Lee
 
Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러Heungsub Lee
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装Hirokatsu Kataoka
 
공간정보 스터디 2주차
공간정보 스터디 2주차공간정보 스터디 2주차
공간정보 스터디 2주차Byeong-Hyeok Yu
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII
 
[124] 하이브리드 앱 개발기 김한솔
[124] 하이브리드 앱 개발기 김한솔[124] 하이브리드 앱 개발기 김한솔
[124] 하이브리드 앱 개발기 김한솔NAVER D2
 
지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기Byeong-Hyeok Yu
 
[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해Kwang Woo NAM
 
[QGIS] 수치지도를 이용한 DEM 생성과 지형분석
[QGIS] 수치지도를 이용한 DEM 생성과 지형분석[QGIS] 수치지도를 이용한 DEM 생성과 지형분석
[QGIS] 수치지도를 이용한 DEM 생성과 지형분석MinPa Lee
 
오픈소스 GIS의 이해와 활용(육군사관학교 특강)
오픈소스 GIS의 이해와 활용(육군사관학교 특강)오픈소스 GIS의 이해와 활용(육군사관학교 특강)
오픈소스 GIS의 이해와 활용(육군사관학교 특강)SANGHEE SHIN
 
공간정보아카데미 QGIS 기초 (2017.5)
공간정보아카데미 QGIS 기초 (2017.5)공간정보아카데미 QGIS 기초 (2017.5)
공간정보아카데미 QGIS 기초 (2017.5)Sungjin Kang
 
Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기Gyuhyeon Jeon
 
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiコンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiMasaki Hayashi
 

What's hot (20)

[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
 
지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정
지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정 지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정
지리정보체계(GIS) - [4] QGIS를 이용한 밀도 추정
 
공간SQL을 이용한 공간자료분석 기초실습
공간SQL을 이용한 공간자료분석 기초실습공간SQL을 이용한 공간자료분석 기초실습
공간SQL을 이용한 공간자료분석 기초실습
 
QGIS 실습 (총 7차시)
QGIS 실습 (총 7차시)QGIS 실습 (총 7차시)
QGIS 실습 (총 7차시)
 
해양디지털트윈v02.pdf
해양디지털트윈v02.pdf해양디지털트윈v02.pdf
해양디지털트윈v02.pdf
 
지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기
지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기
지리정보체계(GIS) - [1] GIS 데이터 유형, 구조 알기
 
공간정보거점대학 - PyQGIS 및 플러그인 개발
공간정보거점대학 - PyQGIS 및 플러그인 개발공간정보거점대학 - PyQGIS 및 플러그인 개발
공간정보거점대학 - PyQGIS 및 플러그인 개발
 
Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러
 
PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装PythonによるCVアルゴリズム実装
PythonによるCVアルゴリズム実装
 
QGIS 활용
QGIS 활용QGIS 활용
QGIS 활용
 
공간정보 스터디 2주차
공간정보 스터디 2주차공간정보 스터디 2주차
공간정보 스터디 2주차
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
[124] 하이브리드 앱 개발기 김한솔
[124] 하이브리드 앱 개발기 김한솔[124] 하이브리드 앱 개발기 김한솔
[124] 하이브리드 앱 개발기 김한솔
 
지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기지리정보체계(GIS) - [2] 좌표계 이해하기
지리정보체계(GIS) - [2] 좌표계 이해하기
 
[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해
 
[QGIS] 수치지도를 이용한 DEM 생성과 지형분석
[QGIS] 수치지도를 이용한 DEM 생성과 지형분석[QGIS] 수치지도를 이용한 DEM 생성과 지형분석
[QGIS] 수치지도를 이용한 DEM 생성과 지형분석
 
오픈소스 GIS의 이해와 활용(육군사관학교 특강)
오픈소스 GIS의 이해와 활용(육군사관학교 특강)오픈소스 GIS의 이해와 활용(육군사관학교 특강)
오픈소스 GIS의 이해와 활용(육군사관학교 특강)
 
공간정보아카데미 QGIS 기초 (2017.5)
공간정보아카데미 QGIS 기초 (2017.5)공간정보아카데미 QGIS 기초 (2017.5)
공간정보아카데미 QGIS 기초 (2017.5)
 
Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기
 
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashiコンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
コンピュータビジョンの最新ソフトウェア開発環境 SSII2015 チュートリアル hayashi
 

Similar to 종 분포 모형 활용방안

고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성Hyun Jik LEE
 
도시숲 관리를 위한 원격탐사 기술
도시숲 관리를 위한 원격탐사 기술도시숲 관리를 위한 원격탐사 기술
도시숲 관리를 위한 원격탐사 기술Jason Roh
 
[COMPAS] 고양시 공공자전거 분석과제(우수상)
[COMPAS]  고양시 공공자전거 분석과제(우수상)[COMPAS]  고양시 공공자전거 분석과제(우수상)
[COMPAS] 고양시 공공자전거 분석과제(우수상)Joonho Lee
 
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...Wookjin Choi
 
Src슬라이드(1총괄2세부) 오희석
Src슬라이드(1총괄2세부) 오희석Src슬라이드(1총괄2세부) 오희석
Src슬라이드(1총괄2세부) 오희석SRCDSC
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchSunghoon Joo
 
선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화r-kor
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출SRCDSC
 
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기Ki-Hwan Kim
 
재난안전위험 사회와 정보소통12
재난안전위험 사회와 정보소통12재난안전위험 사회와 정보소통12
재난안전위험 사회와 정보소통12Han Woo PARK
 
[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM
[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM
[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEMJoonhee Lee
 
1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and Management1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and ManagementNAP Events
 

Similar to 종 분포 모형 활용방안 (15)

고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성
 
도시숲 관리를 위한 원격탐사 기술
도시숲 관리를 위한 원격탐사 기술도시숲 관리를 위한 원격탐사 기술
도시숲 관리를 위한 원격탐사 기술
 
Spc개요
Spc개요Spc개요
Spc개요
 
[COMPAS] 고양시 공공자전거 분석과제(우수상)
[COMPAS]  고양시 공공자전거 분석과제(우수상)[COMPAS]  고양시 공공자전거 분석과제(우수상)
[COMPAS] 고양시 공공자전거 분석과제(우수상)
 
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
Insight toolkit을 이용한 삼차원 흉부 ct 영상분석 및 폐 결절 검ᄎ...
 
Src슬라이드(1총괄2세부) 오희석
Src슬라이드(1총괄2세부) 오희석Src슬라이드(1총괄2세부) 오희석
Src슬라이드(1총괄2세부) 오희석
 
20200923
2020092320200923
20200923
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture Search
 
선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화
 
Detecting fake jpeg images
Detecting fake jpeg imagesDetecting fake jpeg images
Detecting fake jpeg images
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
 
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
Python의 계산성능 향상을 위해 Fortran, C, CUDA-C, OpenCL-C 코드들과 연동하기
 
재난안전위험 사회와 정보소통12
재난안전위험 사회와 정보소통12재난안전위험 사회와 정보소통12
재난안전위험 사회와 정보소통12
 
[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM
[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM
[MSAD] Presentation - PARTICULATE MATTER EFFECT INDEX SYSTEM
 
1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and Management1.3d Study for Smart Big Board System Development and Management
1.3d Study for Smart Big Board System Development and Management
 

종 분포 모형 활용방안

  • 1. K-BON 데이터 활용을 위한 생물 종 분포 모형 활용 방안 Ecological Niche 국립생물자원관 세미나 이상혁 2020. 05. 29.
  • 2. 친환경적이고 과학적인 국토관리를 실현합니다. I. 모형의 개요 1. 용어의 선정 2. 주요 활용분야 3. 모형의 종류 4. 모형의 구분 2
  • 3. 다양한 관련 용어  서식지적합모형 Habitat Suitability Model Hirzel, Helfer and Metral (2001)  생물기후모형 Bioclimatic Model Sykes, Prentice and Cramer (1996)  생물기후범위모형 Bioclimate Envelope Model Pearson and Dawson (2003)  생태지위모형 Ecological Niche Model Peterson and Vieglais (2001)  종 분포모형 Species Distribution Model Guisan and Thuiller (2005)  종 지위모형 Species Niche Model Schurr et al., (2012)  환경적합모형 Environmental Suitability Model Kaschner et al. (2006)  환경지위모형 Environmental Niche Model VanDerWal et al. (2009)  생물이 분포하는 위치 및 환경 인자와의 관계를 통한 해석, 이를 통한 분포지역 예측 01 모형의 개요 3Jane Elith & John R. Leathwick(2009)
  • 4. 주요 활용분야  생태학 관점에서의 활용 – 종 수집을 확대 위한 효과적 지역 선정 – 기후변화에 따른 잠재적 변화 예측 – 유해종 침입 예측 – 우선 보전 필요지역 예측 – 동물 이동로 예측  공간의사결정 – 전염병 관련 역학모델링 – 토지이용변화 예측 – 작물 재배적지 모델링 – 기후변화에 따른 작물 생산성 예측 – 산사태 발생 취약지역 예측 4https://doi.org/10.1177/1940082919854058 최근 25년간 모델링 연구 분야 02 모형의 개요
  • 5. 모형의 종류  GARP = genetic algorithm for rule-set production  MAXENT = maximum entropy  LR = logistic regression  GAM = generalized additive models  GLM = generalized linear models  CART = classification and regression tree models  ANN = artificial neural networks  ENFA = ecological niche factor analysis  BRT = boosted regression trees  GBM = generalized boosted models  RF = random forest  MDA = mixture discriminant analysis  ClimEnv = climatic envelope  SRE = surface range envelope  MARS = multivariate adaptive regression splines  FuzzyEnv = fuzzy envelope  SVM = support vector machines  ED = environmental distance 5 Global downloads of MaxEnt software from December 12, 2016, to June 8, 2018 (n = 27,472) 최근 25년간 사용된 모형통계 03 모형의 개요
  • 6. 모형의 구분  Profile techniques – BIOCLIM, DOMAIN, ENFA  Regression based techniques – GLM, GAM, MARS  Machine learning techniques – MaxEnt, ANN, GARP, BRT, GBM, RF, SVM 6 Climate envelope model 04 모형의 개요
  • 7. 친환경적이고 과학적인 국토관리를 실현합니다. II. 변수의 종류 및 선택 1. 종속변수: 생물출현자료 2. 독립변수: 환경변수(기후, 토양, 토지피복, 지형 등) 3. 변수의 선택 7
  • 8. 출현지점 Presence data  데이터의 수집 – 기관 차원 보유자료(표본수집 위치, 전국자연환경조사 등) – 시민과학 수집자료(네이처링, K-BON 데이터 등) – 개인 연구자료 – Movebank.org (막스플랑크 동물행동연구소 Animal tracking data) – GBIF.org  데이터 클리닝 – 출현 불가능한 지점 – 공간범위 분포 밖의 지점 – 잘못 기록된 좌표 – 정확한 동정  공간적자기상관 Spatial autocorrelation – 비슷한 환경에 과다출현, 동일한 격자(cell)에 중복된 다수 출현시 발생(과적합) – 모형의 성능 과대평가, 모형의 예측력 감소 8 01 종속변수: 생물출현자료
  • 9.  자생 환경의 특성을 고려한 데이터 클리닝 – 우리나라 고산지역 대표 침엽수종 6개(구상나무, 분비나무, 눈향나무, 가문비, 주목, 눈측백) – 문헌 고찰을 통한 연평균 기온 분포범위와 출현지점 확인 9 Annual Precipitation 출현지점 Presence data01 종속변수: 생물출현자료
  • 10. 비출현지점 Absence data  임의비출현지점(Pseudo-Absences, PA) 생성 – 환경조건이 적합할지라도 출현하지 않았다고 해서 비출현지점이라 할 수 없음(Kéry et al. , 2010) – PA생성 방식의 선정 • Random: 무작위 생성 • Disk: 출현지점으로부터 최소, 최대 거리를 기반으로 생성 • SRE: 출현지점 외부영역으로 한정하여 생성(낙관적 모델) • User Defined: 미리 설정한 지점을 바탕으로 생성 • 연구에 따라 출현지점과 적절한 거리의 PA 생성 권장 – 1,000개 이상의 PA 개수의 선정 • 300개 이상의 출현지점의 경우 • 최소 1,000개 이상의 PA 생성 – 최소 10회 이상 반복 생성 • 출현지점 수와 PA수가 동일하거나 • 1,000개 PA 이하일 경우 10 01 종속변수: 생물출현자료 https://doi.org/10.1111/j.2041-210X.2011.00172.x
  • 11. 기후변수 current climate & future emission scenarios  WorldClim 2.1데이터 – 1970~2000 평년 현재기후 제공 – 30sec, 2.5min, 5min, 10min 해상도 – Min/Max/Avg temperature (°C) – Precipitation (mm) – solar radiation (kJ m-2 day-1) – wind speed (m s-1) – water vapor pressure (kPa) – Bioclim(01~19) 02 독립변수: 환경관련 변수 11 https://doi.org/10.1002/joc.5086 다양한 CMIP6의 모델결과 데이터 제공
  • 12. 기후변수 future emission scenarios  HadGEM3-RA 영국 기상청 지역기후모델 도입한 기상청의 한반도 지역기후모델 현재 학계, 기관 등에서 제작한 5가지 기후모델 및 앙상블 제공(RCP시나리오) 수평분해능 12.5km  1km 다운스케일링 02 독립변수: 환경관련 변수 12 Annual Precp. Annual Temp. Current 1981-2010 RCP 4.5 2041-2060 RCP 4.5 2061-2080 RCP 8.5 2041-2060 RCP 8.5 2061-2080 climate.go.kr
  • 13. 기후변수  Bioclimatic variables 02 독립변수: 환경관련 변수 13  대표적 변수간 상관관계 by ENM tools (주성분분석 PCA를 통한 다중공선성 Multicollinearity 제거)  R package Biovar / DIVA-GIS / ANUCLIM (월별 최고 / 최저기온, 월별 강수량)
  • 14. 추가 고려가능한 변수  Digital Elevation Model – 국토지리정보원(수치지도 기반 5m급) – SRTM(30m급), ASTER(30m급) – 경사, 사면방향, TPI지수 등 변환  토양환경변수 – www.soilgrids.org – data.isric.org (토양 pH, 유기탄소함량 등) – 산림청 산림입지토양도(토성, 토심, 토양습도, 암석노출 등) – 농업진흥청 흙토람(토성, 토색, 모암, 토심, 이화학성 등)  정규식생지수(NVDI) – http://landcover.usgs.gov  토지피복지도 – http://landcover.usgs.gov – 환경부 환경공간정보서비스(EGIS)  임상도 – 산림청 산림공간정보시스템(FGIS)  기타 기후 환경 – 건조지수 및 증발산량 www.cgiar-csi.org 14 02 독립변수: 환경관련 변수
  • 15. 변수 선택시 유의사항  종속변수 – 독립변수와 통일된 좌표체계  독립변수 – 어떤 변수를 포함시킬 것인가? – 범주형, 연속형 자료의 구분 – 동일한 공간해상도(resolution, cell size) – 동일한 Extent – 적정한 해상도의 선택(resampling) • 분석 대상 개체의 크기 및 출현자료의 밀도 고려 • Downscaling시 공간보간법 활용 (kriging, IDW, PRISM 등) https://support.bccvl.org.au/support/solutions/articles/6000161294 https://science.sciencemag.org/content/295/5558/1245 https://doi.org/10.1046/j.1466-822X.2003.00042.x 15 03 변수의 선택
  • 16. 친환경적이고 과학적인 국토관리를 실현합니다. III. 모형 선정 1. 적절한 모형의 선택 2. Ensemble 16
  • 17. 모형별 비교 17 - SDT: Species Data Type - PI: Predictor Interactions - HnLF: Highly non-Linear Functions - Cat: Categorical predictorts usage - DD: Data Dependency - Det: Deterministic *SDT(Species Data Type) PO: only presence data used, PE: presence compared against the entire region, PA: presence and some form of absence(or pseudo-absence) required 01 적절한 모형의 선택  주요 모형별 특징 – 대상지 특성, 환경변수, 종 선정 등에 따라 다양한 결과 도출 – 어떤 모형이 더 적합한지 일반화는 어려움 – 단일모형에 의한 예측의 불확실성 제기 – 모형간의 결과를 앙상블하여 사용하는 추세 Concept Model SDT* PI HnLF Cat DD Det Key reference Environmental Envelope BIOCLIM PO N N N Y Y Busby (1991) DOMAIN PO N N N Y Y Carpenter et al. (1993) ENFA PE Y N N N Y Hirzel et al. (2002) Regression Analysis GLM PA Y Y Y N Y Guisan et al. (2002) GAM PA Y Y Y N Y Guisan et al. (2002) MARS PA Y Y Y Y Y Friedman (1991) Machine learning CART PA Y Y Y Y N Sinclair et al. (2010) RF PA Y Y Y Y N Brieman (2001) BRT PA Y Y Y Y N Elith et al. (2008) ANN PA Y Y Y Y Y Pearson et al. (2002) SVM PA Y Y Y N Y Guo et al. (2005) MaxEnt PE Y Y Y N Y Phillips et al. (2006) GARP PA Y Y Y N Y Elith et al. (2006)
  • 18. Ensemble species distribution models(ESDMs)  앙상블 개념도 – 기후모델, PA자료 생성, k-fold(Training / Test data), 종 분포 모형 18 (Araújo and New, 2007 modified) 02 모형의 앙상블 (a) 단일조합 (b) 복수평가(Bootstrap, k-fold 등) (c) 다양한 모형 (d) 모형 매개변수 (e) 다중 조건(b,c,d 고려)
  • 19.  앙상블 모형 패키지 비교 – 대부분 R package형태로 제공 – SSDM은 GUI로 구현 – BIOMOD2 미래기후 입력 분석 가능 Ensemble species distribution models(ESDMs) 19 - GUI: Graphic User Interface - NM: Number of Species Distribution Models - WEF: Weighted Ensemble Funtion - FCP: Future Climate Projection funtion Software / Package GUI Platform NM WEF FCP Key references openModeller Y C++ 14 N Y de Souza Muñoz et al. (2011) BIOMOD2 N R 10 Y Y Thuiller et al. (2016) dismo N R 9 Y N Hijmans et al. (2015) SDM N R 9 Y N Naimi and Araújo (2016) SSDM Y R 9 Y N Schmitt et al. (2017) BiodiversityR N R 3 Y N Kindt, R. (2016) https://doi.org/10.1177/1940082919854058 02 모형의 앙상블 SDM 관련 논문 현황(전세계)
  • 20. BIOMOD2 패키지  BIOMOD2 패키지 활용 추이 – 2003~2016년간 총 224개 관련논문 발표 – 2009년 BIOMOD2 발표를 기점으로 늘어나는 추세 20 02 모형의 앙상블 https://doi.org/10.1111/ddi.12892
  • 21. 친환경적이고 과학적인 국토관리를 실현합니다. IV. 모형 결과의 평가 1. 정확도 평가의 방법 2. Cut-off 방법의 선택 21
  • 22. 모형 정확도 평가 22 Index Abbreviations Remark Accuray = (TP+TN)/(TP+TN+FP+FN) TP=True positive; TN=True negative FP=False positive; FN=False negative Kappa = (OA-EA)/((TP+FP+TN+FN)-EA) Where EA = (TP+FN)(TP+FP)/(TP+FP+TN+FN) – (FP+TN)(TN+TN+FN)/(TP+FP+TN+FN) OA = observed agreement (Accuracy) EA = Expected agreement Values >= 0.81 = Excellent; 0.61-0.80 = Good; 0.41-0.60 = Medium; 0.21-0.40 = Not good; <0.10-0.20 = Bad; < 0.00 = Very bad Sensitivity= TP/(TP+FN) True Positive Rate(TPR) 1 - omission error(recall) Specificity = TN/(FP+TN) True Negative Rate(TNR) 1 - commission error AUC = A plot of TPR vs. FPR Where FPR = FP/(FP+TN) = 1 - specificity AUC = Area under the ROC* curve TPR= True positive rate (sensitivity) FPR=False positive rate Calculated on the test dataset Values > 0.7 are considered good TSS = (Sensitivity + Specificity) – 1 Values > 0.7 are considered good *ROC: Receiver operating characteristic.  Calibrate(Training), Validate(Test)를 통한 k-fold 반복 측정 – Cross validation 7:3 Observation Recorded present Recorded absent Prediction Predicted present TP (True positive) FP (False positive) Predicted absent FN (False negative) TN (True negative) 01 정확도 평가방법 Geographical space FP = Overprediction(Commission error) FN = Underprediction(Omission error)
  • 23. 모형 정확도 평가 23  AUC(Area Under the ROC Curve) 01 정확도 평가방법 모형출현모형 비출현
  • 24. Binary map 제작 24 02 Cut-off 방법의 선택  정확도 판단을 위한 계수의 선택 – 그간 보편적으로 활용된 Kappa 통계량의 편향성에 대한 문제 제기 – TSS(True Skill Statistic) 값 활용의 적정성 권장 • https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/j.1365-2664.2006.01214.x – Threshold 설정의 주요 방법론 Method Description Reference Fixed threshold approach Taking a fixed value, usually 0.5, as the threshold Manel et al. (1999), Bailey et al. (2002) Kappa maximization approach Kappa statistic is maximized Huntley et al. (1995), Guisan et al. (1998) Prevalence approach Taking the prevalence of model-building data as the threshold Cramer(2003) Average probability/ suitability approach Taking the average predicted probability/ suitability of the model-building data as the threshold Cramer(2003) Sensitivity-specificity sum maximization approach (TSS) The sum of sensitivity and specificity is maximized Cantor et al. (1999), Manel et al. (2001) Sensitivity-specificity equality approach The absolute value of the difference between sensitivity and specificity is minimized Cantor et al. (1999) ROC plot-based approach The threshold corresponds to the point on ROC curve (sensitivity against 1-specificity) which has the shortest distance to the top-left corner (0,1) in ROC plot Cantor et al. (1999) https://doi.org/10.1111/j.0906-7590.2005.03957.x https://doi.org/10.1111/jbi.12058
  • 25. 친환경적이고 과학적인 국토관리를 실현합니다. V. 모형 구현 1. GUI 기반 소프트웨어 2. R package를 통한 구현 3. 보조 프로그램의 활용 25
  • 26. MaxEnt  기본 화면 구성 26 01 GUI 기반 소프트웨어 생물종 위치자료 입력 환경변수 입력 분석결과 저장위치 설정 미래기후변수 입력 • 환경변수와 동일하게 입력 • 기후변수 부분만 교체 • CSV 포멧 • 종, X, Y 순서로 열배열 필수 • 종에 따른 구분 및 선택 가능 • X, Y좌표값 • 경위도의 경우 Decimal형태 • Ascii Grid형태 • 동일한 Extent • 동일한 Cell size • 변수의 형태 선택 중요 • 연속적인 변수(기온 등) • 분류형변수(토지피복 등)
  • 27. MaxEnt  Additional Settings – 모형 구동시 추가적 결정사항 선택 27 01 GUI 기반 소프트웨어 예측범위를초과한과도한추정발생지역표시 환경변수간의유사정도(상관성)표시
  • 28. MaxEnt  결과의 해석 28 01 GUI 기반 소프트웨어
  • 29. SSDM Shiny by R studio  활용가능한 모델 – GAM, GLM, MARS, MAXENT, CTA, GBM, ANN, RF, SVM 29 01 GUI 기반 소프트웨어 https://doi.org/10.1111/2041-210X.12841
  • 30. BIOMOD2  BIOMOD2 패키지 과정 – 구현 코드 및 자세한 설명 홈페이지 및 관련문서 참조 – https://rdrr.io/cran/biomod2 – https://www.rdocumentation.org/packages/biomod2 30 02 R package를 통한 구현
  • 31. BIOMOD2 Mydata <- BIOMOD_FormatingData( resp.var = occurs, expl.var = varip, resp.xy = occurXY, resp.name = occurname, eval.resp.var = NULL, eval.expl.var = catego, eval.resp.xy = NULL, PA.nb.rep = 10, PA.nb.absences = 1000, PA.strategy = 'random', PA.dist.min = NULL, PA.dist.max = NULL, PA.sre.quant = NULL, PA.table = NULL, na.rm = TRUE) 31 ModelOut <- BIOMOD_Modeling( mydata, models = c('GLM', 'GBM', 'GAM', 'CTA', 'ANN', 'FDA', 'MARS', 'RF', 'MAXENT.Phillips'), models.options = myBiomodOption, NbRunEval= 10, DataSplit = 70, Yweights = NULL, Prevalence = NULL, VarImport = 7, models.eval.meth = c('TSS','ROC','KAPPA'), SaveObj = TRUE, rescal.all.models = FALSE, do.full.models = FALSE, modeling.id = test) 02 R package를 통한 구현
  • 32. BIOMOD2 ModelOutEM <- BIOMOD_EnsembleModeling( ModelOut, chosen.models = 'all', em.by = 'all', eval.metric = c('TSS'), eval.metric.quality.threshold = 0.8, models.eval.meth = c('TSS','ROC','KAPPA'), prob.mean = TRUE, prob.cv = TRUE, prob.ci = TRUE, prob.ci.alpha = 0.05, prob.median = TRUE, committee.averaging = TRUE, prob.mean.weight = TRUE, prob.mean.weight.decay = 'proportional', VarImport = 0) 32 rcp45y2050 <- BIOMOD_Projection( modeling.output = ModelOut, new.env = vari4550, proj.name = '4550s', selected.models = 'all', binary.meth = 'TSS', compress = 'xz', clamping.mask = TRUE, do.stack= TRUE, filtered.meth = NULL, output.format = '.img', prob.mean.weight = TRUE, prob.mean.weight.decay = 'proportional' ) 02 R package를 통한 구현 Dataset used for models building (Pseudo Absences dataset and repetitions done): 'PA_dataset+repet' Dataset used and statistical models : 'PA_dataset+algo' Pseudo-absences selection dataset : 'PA_dataset' Statistical models : 'algo' A total consensus model : 'all' em.by = 예측변수 평균 확률 예측변수 변동계수 예측변수 평균확률의 신뢰구간 예측변수 평균확률의 신뢰구간 값 설정 예측 값에 대한 평균치 추정 확률의 가중치 합 추정 가중치에 대한 상대적 중요도(TSS 값 비례)
  • 33. SDM toolbox  SDM toolbox 2.0 – ArcMAP 10.x버전 Tooxbox 제공 – 파일 형식 변환(grid  ascii 등) – 출현자료 밀도 조정(환경변수 고려) – Background Selection by Bias – Distribution Changes between Binary SDMs – Calculate Climate Heterogeneity – MaxEnt 구동 33https://peerj.com/articles/4095 03 보조 프로그램 활용
  • 34. ENM Tools  ENM Tools v1.4 – Perl 또는 R 언어 기반 구동 http://enmtools.blogspot.com – Standardizing rasters – Removing duplicate occurrences – Hypothesis Testing, Background tests 34https://doi.org/10.1111/j.1600-0587.2009.06142.x 03 보조 프로그램 활용
  • 35. 친환경적이고 과학적인 국토관리를 실현합니다. VI. 향후 방향 35
  • 36. 생물다양성 빅데이터 구축  Essential biodiversity variables for mapping and monitoring species populations Nature Ecology & Evolution(2019) – 생물다양성의 규모 및 차원 파악 – 생태모델링은 필수적 도구 – 시민과학을 통한 현장 관찰 – 연구자들과의 공유를 통한 활용 확대 – 생태정보학적 생물다양성 평가기술 개발 36 00 향후 방향 설정 https://doi.org/10.1038/s41559-019-0826-1
  • 37. 생물다양성 빅데이터 구축  출현자료를 바탕으로한 시공간 융합 데이터 구축 – 국가, 기관, 보존 조직, 연구 네트워크 및 개인에 의한 향상된 데이터 확보 및 공유 – 모형에 기반한 다양한 생물자원에 대한 시공간 예측 – G-BON, Future Earth 등의 사례와 같이 학술 기관, 연구 네트워크 조직 기반 프로젝트 – 지속적인 모니터링 및 연구의 정책적 연결기능 확대 – 정책적 활용을 위한 생물다양성 및 종다양성 등의 지표화 37https://doi.org/10.1038/s41559-019-0826-1 00 향후 방향 설정
  • 38. 참고 사이트  모형의 이해 및 웹을 통한 사용자 참여 모델링 – 호주 Biodiversity and Climate Change Virtual Laboratory – http://bccvl.org.au  Map of Life, 생물 다양성 지리 정보 – https://mol.org  국내·외 데이터 취득 – 기후데이터 • WorldClim 데이터센터 https://www.worldclim.org • CliMond 데이터베이스 https://www.climond.org • 기상청 기후정보포털 http://climate.go.kr – 지형데이터 • SRTM • ASTER • 국토지리정보원 38