1 alberti-prima parte - Metodi di Interpolazione

Interpolazioni
e geostatistica
M. Alberti - 2010
www.malg.eu

“Campi” di variabili
Fenomeni naturali rappresentabili come campi:
• Topografia
• Batimetria
• Concentrazioni di composti chimici
• Etc.
Grid(raster)
Grid(raster)
Punti
Punti
Isolinee
Isolinee
Come si strutturano i
valori di un campo?
Da Terrengmodellering - Gaute Aarbakke
Solaas, Geodata

Interpolazione spaziale di campi scalari
Da Mitas & Mitasova, 2005.
Dati gli N valori di un fenomeno scalare studiato zj, j = 1, .., N, misurato in punti discreti rj =
(xj
[1]
, xj
[2]
, …., xj
[d
]), situati all’interno di una regione specificata di uno spazio d-dimensionale,
occorre determinare una funzione F(rj) che passi attraverso i punti (o li approssimi):
F(rj) = zj , j = 1, …, N
Da Geospatial Analysis and Modeling: Lecture notes. Helena Mitasova, NCSU MEAS

Interpolazione spaziale di campi scalari
-Ogni set di criteri particolari definisce un particolare metodo di interpolazione.
- Non esiste a priori nessun metodo più “vero” degli altri.
- Per scegliere un particolare metodo fra i numerosi proposti, dobbiamo disporre di
informazioni addizionali, cioè hard data – misure oggettive - o soft data –
conoscenze o ipotesi soggettive - sul fenomeno studiato.
-A seconda del tipo di fenomeno modellato possono essere preferiti metodi di
interpolazione differenti.
Esiste un numero infinito di funzioni che soddisfano
questa funzione -> sono necessari criteri addizionali
devono essere aggiunti per rendere la soluzione unica.

Tipi di interpolatori
Interpolatori esatti
metodi di interpolazione che per
i punti misurati stimano valori
uguali a quelli effettivamente
osservati.
Interpolatori non-esatti
metodi che non interpolano
precisamente i valori osservati
nei punti di misura.
Da Lecture5Week7SpatialInterpolation.ppt

Tipi di interpolatori
Interpolatori globali
Utilizzano tutte le osservazioni disponibili per
derivare la superficie continua.
Interpolazioni globali sono in generale usate
per rimuovere un trend dai valori osservati, ed
analizzare i residuali delle osservazioni.
Interpolatori locali
Utilizzano le sole osservazioni situate
nella immediata prossimità del punto
dal interpolare.
Da Longley et al., 2001, fig. 13.21.

Su quale supporto si misura?
Da Armstrong, 1998, Table 6-1.
Supporto: area o volume del
campione fisico sul quale viene
effettuata la misura.
Le misure reali si dovrebbero
basare sempre su una estensione
areale o volumetrica costante in
tutta la zona investigata, perché i
valori misurati e le loro proprietà
statistiche dipendono dalla
estensione effettivamente utilizzata.
L’uso di due differenti supporti di
misura produce valori differenti per le
singole celle

Interpolatori globali
Si utilizzano superfici definite da polinomiali che approssimano i punti
osservati -> interpolatore non-esatto
Piano grigio trend surface→
Trend surface analysis (global polynomials)
Solaas, Geodata

Trend surface analysis
Da Sullivan & Unwin, 2003, fig. 9.4.
I coefficienti delle
equazioni vengono
determinati
minimizzando la
somma degli errori
quadratici (differenza
tra valore interpolato e
valore osservato) per i
punti misurati.

Trend surface analysis
Il grado delle equazioni polinomiali
generalmente utilizzato può andare da 1
(piano) sino a 4-5-6.
Es.
z = ax + by +c
z = ax2
+ bxy + cy2
+ dx + ey + f

Da Davis, 1973, figg. 6.11.
Trend Surface Analysis
L’entità dei residuali
diminuisce con
l’aumentare del grado
delle equazioni
utilizzate ma non
necessariamente
aumenta l’accuratezza
dei valori interpolati.

Tecniche di stima locale
Esistono numerosi metodi. Fra gli altri:
• Poligoni di Thiessen
• IDW
• Radial basis functions
• Kriging
Solaas, Geodata

Scelta osservazioni prossime
Raggio fisso
(fixed-radius)
http://www.quantdec.com/SYSEN597/GTKAV/section9/chapter_29b.htm
Numero fisso di punti
(fixed-neighbours number)
R = 100
Dati noti = 4
R = 100
Dati noti = 1
R = 20
Dati noti = 4
R = 160
Dati noti = 4

Barriere
Le barriere sono brusche variazioni nella superficie da
interpolare, indotte p.e. da faglie e scarpate.
Alcune tecniche di interpolazione
permettono di definire barriere
prima dell’esecuzione
dell’interpolazione, in maniera
tale che nella stima di un
punto che ricade da un lato
della barriera vengono usati i
soli dati misurati dallo stesso
lato.
Fig. da Spatial Analyst Lesson 4.ppt

Da Sullivan & Unwin, 2003, fig. 8.6
Poligoni di influenza
Proximity polygons
Poligoni di Thiessen o di Voronoï o di Dirichlet.
Principio base: la miglior informazione
su un sito non misurato è fornita dalla
misura nel sito più vicino. Accettabile con
variabili categoriali, sconsigliato per variabili
continui.
Poligoni di influenza: ogni poligono
contiene tutti i punti che sono più vicini
all’osservazione interna -> gradiente di
elevazione nullo + barriera

All’interno di un singolo poligono il valore interpolato rimane
costante.
La varianza dell’intera distribuzione ottenuta tramite questo metodo
è esattamente uguale a quella delle osservazioni di partenza.
Osservazioni addensate: poligoni di limitate dimensioni.
Osservazioni isolate: p. di notevoli dimensioni.
Osservazioni disposte su griglia regolare con spaziatura costante:
poligoni di Thiessen quadrati.

Le dimensioni e la forma dei poligoni
dipendono dalla configurazione dei punti
campionati.Questo è evidente soprattutto
ai bordi della zona esaminata.
• Al passaggio da un poligono all’altro
possono essere presenti brusche
discontinuità: questo non crea problemi
nel caso di variabili categoriali/nominali,
ma rimane comunque un artefatto senza
alcuna giustificazione fisica sia per dati
categoriali sia per quelli continui.
• Il valore di un punto non campionato è
stimato basandosi su un solo valore,
quello noto più prossimo: questo non
permette di formarsi un’idea sul margine
di incertezza nella stima.
Svantaggi
Da Geospatial Analysis and Modeling:
Lecture notes. Helena Mitasova, NCSU
MEAS

Natural neighbour
Metodo proposto da Sibson (1981).
Utilizza i dati più vicini al punto da interpolare
Interpolato un nuovo valore in base alla media pesata dei dati noti.
• Viene creato un reticolato di Thiessen
(poligoni bianchi in figura) usando la
localizzazione dei dati noti
• In corrispondenza del punto col valore
da interpolare (cerchio nero) si crea un
nuovo poligono di Thiessen (blu)
• Ad ogni dato noto viene attribuito un
peso proporzionale al rapporto tra l'area
del suo poligono ricoperta da quello del
punto da interpolare e l'area di
quest'ultimo (peso rappresentato dai
cerchi verdi). Markluffel, Wikipedia - CC

Triangolazioni
Le triangolazioni suddividono lo spazio campionato in triangoli con i lati
contigui, ed aventi come vertici i punti campionati.
Esistono varie tecniche per creare i lati tra i triangoli.
La più nota è quella di Delaunay: ha la proprietà che i triangoli derivati sono i
più equilaterali possibili. Questo è utile per la rappresentazione di modelli del
terreno basandosi su punti quotati.
Da Sullivan & Unwin, 2003, fig. 2.5
E’ collegata ai POLIGONI DI
INFLUENZA: tre punti formano un
triangolo se essi condividono un
vertice comune del POLIGONO DI
INFLUENZA.

Inverse Distance Weighting (IDW)
Metodo proposto da Shepard (1968).
Interpolatore esatto nella versione originale, in versioni più recenti
è definibile un fattore di smoothing che lo rende inesatto.
Applicazione di una media pesata
in base alla distanza dei punti
rispetto al punto di osservazione.
Generalmente viene usato un
raggio di ricerca per limitare il
numero di punti utilizzati.
Da Longley et al., 2001, fig. 13.21.

ż = ∑n
i=1
wi
zi
/ ∑n
i=1
wi
Formula
ż: valore interpolato della variabile
n: numero di osservazioni usate per il calcolo del
valore interpolato
wi : peso attribuito ad ogni singola osservazione

wi
= 1 / di
n
Peso wi applicato alle osservazioni
d: distanza tra osservazione e punto con valore
interpolato
n: esponente definito dall’utilizzatore

In generale il valore utilizzato per l’esponente n è di 2 (valore arbitrario).
Tanto maggiore è l'esponente applicato a d, tanto maggiore è l'influenza del
valore della distanza sul risultato e viceversa.
Se l'esponente è 0, allora tutti i punti entro il “raggio” di ricerca sono “pesati”
ugualmente, e ricadremo nel caso della media mobile semplice.
Se l’esponente tende ad infinito, il peso viene attribuito per intero
all’osservazione più prossima al punto interpolato, e si ricade nel caso del
poligoni di influenza.

IDW - problematiche
In alcuni casi le
interpolazioni potranno
non essere del tutto
soddisfacenti per la
caratteristica dell’IDW di
essere una media
pesata, quindi con
tendenza dei risultati a
regredire verso la media
locale.
Da Longley etal., 2001, fig. 13-23.
In quanto rappresenta una media con pesi sempre positivi, la varianza
dei valori interpolati sarà minore di quella del data set di partenza.

IDW - problematiche
Un artefatto tipico
dell’IDW è la creazione
dei cosiddetti “bull
eyes”, strutture
circolari attorno alle
osservazioni disperse.
Difficilmente questi
artefatti trovano
giustificazioni naturali.

Radial Basis Functions
Interpolatori basati su polinomiali definite localmente che producono
superfici “morbide”.
Sono definite da una famiglia di funzioni che rendono minimi parametri
legati alla curvatura della superficie da interpolare.
Solaas, Geodata

Radial Basis Functions
Possono essere interpolatori sia esatti (l’interpolazione onora
esattamente i dati misurati) sia inesatti (con un parametro di
smoothing da definire).
Vari metodi proposti, con
successivi miglioramenti:
– Spline: thin-plate s., s. with
tension, completely
regularized s., inverse
multiquadric spline
– Multiquadric function
Da Geospatial Analysis and Modeling:
Lecture notes. Helena Mitasova, NCSU
MEAS

Splines
Regularized: controllo delle derivate terze
Tension: controllo delle derivate seconde
2000
3000
4000
Elevation
Distance
Tension
Regularized
Variando il parametro di controllo delle derivate la superficie
risultante tende a diventare più o meno rigida.

Regularized spline with tension and smoothing
Una versione avanzata di spline è la “Regularized spline
with tension and smoothing” che consente di applicare
uno smoothing ai dati, trasformando così il metodo
spline da esatto ad inesatto, utile quando i dati originali
contengono errori.
Implementato in Grass.

Regularized spline with tension and smoothing
Nella implementazione di Grass, due parametri importanti.
Tensione: valori elevati di tensione tendono a ridurre I gradienti della superficie
interpolata, che presenta quindi valori simili a quelli misurati nel loro intorno.
Valori ridotti di tensione invece permettono una maggiore variabilità dei dati
interpolati rispetto a quelli originari. Si possono così ottenere dei valori che sono
fortemente inferiori o superiori a quelli misurati nel loro intorno, così come i valori
estremi interpolati possono uscire dal range inziale dei dati misurati.
Smoothing: stabilisce quanto la superficie interpolata deve essere prossima ai
valori misurati. Un valore nullo indica che la superficie deve passare esattamente
per I valori noti (interpolazione esatta). Valori positivi consentono all'interpolazione
di deviare dai valori misurati in corrispondenza dei punti di osservazione.

Metodi e parametri ottimali di interpolazione
Come riconoscere il metodo
che si adatta meglio al tipo di
dati di cui si dispone? E come
definire parametri come per
esempio tensione e smoothing
per il Regularized Spline with
Tension and Smoothing?
Un metodo molto usato è la cross-
validation che permette di stimare
un errore di interpolazione prodotto
dai vari metodi e dai loro parametri
basandosi sui dati misurati. Viene
quindi scelto il metodo o I parametri
che producono I minimi errori di
interpolazione complessivi.
Miglior risultato:
tension=90;
smoothing (w) = 0.1
Regularized spline
with tension
da GRASS

Cross-validation
Esistono due versioni: una si basa sulla definizione di un subset di
validazione, che comprende per esempio il 20% dei dati misurati e
che viene escluso dal processo di interpolazione. I dati di
validazione vengono poi confrontati con I corrispondenti valori
interpolati tramite tecniche come il Root Mean Square Error (slide
successiva).
Un altro metodo è il “leave-one-out” (o “jack-knife”), che invece
esclude dall'interpolazione una singola osservazione per volta,
effettua il confronto tra valore interpolato e valore noto escluso, e
applica via via questo processamento a tutti I dati noti.

Misure di differenza tra dataset
•Si basano sulla somma delle differenze
(residuali) tra i due valori corrispondenti
nei dataset da confrontare. Queste
differenze possono essere considerare
in valore assoluto - mean absolut error -
o elevate al quadrato – root square error
-.
Nel caso della Root Mean Square Error
(RMSE), la sommatoria delle differenze
al quadrato viene divisa per il numero di
osservazioni e poi ne viene calcolata la
radice quadrata.
( )
n
ZZ
RMSE
n
i
reale
i
erpolato
i
2
1
int
∑=
−
=
Valore interpolato nel punto Pi
reale
iZ Valore reale, misurato, nel punto Pi
erpolato
iZint
Permettono di quantificare la differenza complessiva tra due dataset numerici.
Possono essere usate per riconoscere fra varie superfici interpolate quella che
meglio approssima i dati noti. Il metodo ed i parametri usati per produrre quella
superficie saranno quindi quelli più adatti per il dataset a disposizione.

Bordi della zona da interpolare
Può essere utile usare
osservazioni anche
esterne alla zona da
interpolare, per migliorare
la qualità del risultato
finale.
Dopo l’interpolazione la
zona eccedente può
essere ritagliata.
DeMers, 2000, Fig.10-14.

1 alberti-prima parte - Metodi di Interpolazione

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 1 alberti-prima parte - Metodi di Interpolazione

Similar to 1 alberti-prima parte - Metodi di Interpolazione (12)

More from Riccardo Rigon

More from Riccardo Rigon (20)

1 alberti-prima parte - Metodi di Interpolazione