Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria Ragosta, Senatro Di Leo, Andrea Tundo

1,171 views

Published on

Sesta Conferenza Nazionale in Informatica e Pianificazione Urbana e Territoriale

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,171
On SlideShare
0
From Embeds
0
Number of Embeds
16
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria Ragosta, Senatro Di Leo, Andrea Tundo

  1. 1. UNA PROCEDURA STATISTICA MULTIVARIATA PER L’OTTIMIZZAZIONE DI RETI DI MONITORAGGIO Marinella Ragosta, Andrea Tundo Dipartimento di Ingegneria e Fisica dell’Ambiente – Università della Basilicata Senatro Di Leo Istituto di Metodologie per l’Analisi Ambientale – CNR – Tito Scalo (PZ)
  2. 2. 1. IL CONTESTO Migliorare la gestione, l’interpretazione e l’utilizzo dei dati nell’analisi di fenomeni di stess ambientale. 2. LA METODICA DI ANALISI Il metodo è basato sulla valutazione combinata del contenuto informativo delle diverse variabili di rete e della struttura di correlazione della rete. 3. IL CASO STUDIO Analisi della rete di monitoraggio della qualità dell’aria della regione Basilicata, relativamente ad un semestre di dati orari.
  3. 3. IL CONTESTO (1.1) I biosistemi sono sistemi complessi, tipicamente non lineari, caratterizzati da un gran numero di variabili, biotiche e abiotiche, con ampie fluttuazioni, intrinseche ed indotte da forzanti esterne, e con una complessa struttura di correlazione che include meccanismi di feedback e di sinergismo fra le diverse variabili. Inoltre va considerato che i fenomeni ambientali che inducono stati di stress dei biosistemi (degrado della componente biotica, inquinamento dell’aria e del suolo, dissesto idrogeologico, rischio antropico ed ambientale) avvengono su scale spaziali e temporali che possono essere molto diverse fra loro. Il monitoraggio deve diventare rappresentativo dell’intero processo conoscitivo e non deve servire soltanto a misurare lo stato dell'ambiente, ma anche a determinare dinamiche di causa-effetto, a sviluppare modelli previsionali e ad individuare le aree prioritarie di intervento.
  4. 4. IL CONTESTO (1.2) La diffusione sul territorio di centraline per il monitoraggio di parametri ambientali (reti per il controllo della qualità dell’aria, delle acque e dei suoli) ha comportato un notevole aumento dei dati disponibili, ma, contestualmente, non c’è stato un adeguato sviluppo delle procedure di gestione, controllo e analisi dei dati raccolti. L’uso integrato di diverse metodologie di analisi dei dati può comportare un notevole miglioramento nella caratterizzazione ed interpretazione della struttura di correlazione fra i dati raccolti, per una gestione ottimale della rete. Inoltre l’introduzione di procedure innovative di modellazione dei dati (modelli auto regressivi non lineari, reti neurali, logica fuzzy), può supportare costruttivamente l’evoluzione delle attuali reti di monitoraggio verso un approccio più in senso prognostico che diagnostico.
  5. 5. LA METODICA DI ANALISI (2.1) Organizzazione dei dati e analisi statistica esplorativa I dati possono essere organizzati in matrici 3D [R siti di misura × S parametri misurati (e/o stimati) × W campionamenti temporali] Nella fase preliminare vengono esclusi tutti i campionamenti che presentano data missing in modo da ottenere le migliori matrici di dati, in termini di massima dimensionalità, senza i vincoli della consecutività temporale e/o della contiguità spaziale fra le osservazioni. Alle matrici selezionate vengono applicate le tecniche di analisi statistica esplorativa al fine di caratterizzare la distribuzione ed i relativi parametri di ciascuna delle variabili in esame.
  6. 6. LA METODICA DI ANALISI (2.2) Analisi della ridondanza L’analisi del contenuto informazionale dei dati è rivolto alla valutazione dell’informazione contenuta nelle diverse configurazioni possibili di rete ridotta. Siano n le variabili di rete considerate (siti di misura o parametri misurati), M ed U siano i due sottoinsiemi delle variabili in esame, il primo contenente le variabili candidate ad essere confermate, il secondo contenente le variabili candidate ad essere escluse; Se H è la dimensione del vettore U, per ogni H, il numero delle diverse configurazioni possibili della rete è In particolare se H=1, una sola variabile candidata all’ esclusione, Nconf = n. )!(! ! HnH nNconf − =
  7. 7. LA METODICA DI ANALISI (2.3) L’esclusione dal sistema di monitoraggio di una qualsiasi variabile determina una perdita di informazione. Una stima quantitativa della perdita di informazione dovuta all’eliminazione di H variabili è data dall’ Infomation Loss Index (indice di perdita di informazione) e dal suo complemento ad uno espresso in percentuale, detto Effectiveness Index (indice di efficacia), definiti rispettivamente come H H k H H k I II P max max − = ( ) 100*1 H k H k PQ −= k = 1,…,Nconf Essi sono basati sull’indice di Shannon calcolato a partire dai determinanti delle matrici di covarianza ricavate dalle matrici dei dati.
  8. 8. LA METODICA DI ANALISI (2.4) L’ indice di Shannon è definito come in cui x e y rappresentano due generiche variabili, i vettori M e U rappresentano i due sottoinsiemi in cui è stato suddiviso l’insieme delle variabili, fM,U rappresenta la funzione di densità congiunta di M e U mentre fM, fU sono le corrispondenti densità marginali. In pratica esso può essere calcolato come dove det(Cn,n), det(CH,H) e det(Cn-H,n-H) indicano rispettivamente il determinante della matrice di covarianza dei dati e i determinanti delle due sottomatrici di covarianza. In particolare serve individuare dxdyyxf yfxf yxf UMI UM UM UM ),( )()( ),( ln),( , , ∫       = HnHnHH nnH k CC C I −− −= ,, , ln 2 1 { }H N HH conf III ,...,max 1max =
  9. 9. LA METODICA DI ANALISI (2.5) In particolare è il minimo valore assunto da Q ad essere indicativo della configurazione ottimale ),...,min( 1min H N HH conf QQQ = Il calcolo di questi indici va ripetuto non solo per ciascuna configurazione, ma anche per ciascuna delle variabili di rete che non sono oggetto della procedura di ottimizzazione. Se ad esempio si sta valutando il contenuto informazionale delle diverse stazioni di monitoraggio, la procedura va ripetuta per ciascuno dei parametri misurati nelle diverse stazioni. Il Total Effectiveness Index (indice di efficacia totale) è l’indice aggregato finale che è utilizzato per individuare la configurazione ottimale ottenuta riducendo di H variabili la rete di monitoraggio. { }( )h H tot QQ minmax=
  10. 10. LA METODICA DI ANALISI (2.1) Esempio: Matrice [8 x 3 x 76] Quale fra le 8 stazioni di misura posso eliminare (H = 1, Nconf = 8)? [8 x 3 x 76] Pr.1 [8 x 76] Pr.3 [8 x 76] ……………………………………………… Conf.1 [8x8],[7x7]gld=76 Conf.8 [8x8],[7x7]gld=76 Conf.1 [8x8],[7x7]gld=76 Conf.8 [8x8],[7x7]gld=76
  11. 11. LA METODICA DI ANALISI (2.1) IH PH QH H=1 NO2 O3 SO2 NO2 O3 SO2 NO2 O3 SO2 H Qmin Ferrandina 0,17 0,53 0,04 0,68 0,33 0,84 31,6 67,1 16,2 16,2 Lavello 0,29 0,78 0,17 0,45 0,00 0,37 55,1 100 62,9 55,1 Matera 0,04 0,09 0,03 0,93 0,89 0,88 7,5 11,1 12,4 7,5 Melfi 0,18 0,30 0,27 0,66 0,61 0,00 34,1 38,6 100 34,1 PZ_1 0,53 0,70 0,15 0,00 0,11 0,46 100 89,2 54,3 54,3 PZ_2 0,51 0,70 0,25 0,04 0,11 0,09 95,8 89,2 91,4 89,2 San Nicola 0,32 0,68 0,16 0,40 0,13 0,41 60,1 86,9 58,6 58,6 Viggiano 0,01 0,72 0,08 0,98 0,09 0,72 1,8 91,4 28,3 1,8 Esempio: Matrice [8 x 3 x 76]
  12. 12. LA METODICA DI ANALISI (2.1) Analisi della struttura di correlazione L’analisi della struttura di correlazione si basa sull’ analisi statistica multivariata ed in questo caso viene determinata dall’applicazione congiunta di tecniche di clusterizzazione (Cluster Analysis CA) e di ordinamento in spazio di dimensionalità ridotta (Principal Component Analysis PCA). Cluster e componenti principali permettono di definire ed interpretare la struttura di correlazione esistente fra i dati forniti dalla rete. Le due tecniche multivariate saranno applicate iterativamente, seguendo lo schema individuato nell’analisi della ridondanza, per ottenere un peso, in termini di struttura di correlazione, da assegnare alle diverse configurazioni ridotte della rete in modo da indiiduare quale ha maggiore rilevanza quantitativa e significatività statistica
  13. 13. LA METODICA DI ANALISI (2.1) NO2 O3 SO2 PC1 PC2 PC3 PC4 PC1 PC2 PC3 PC1 PC2 PC3 PC4 PC5 λ>1 2,98 1,17 1,04 0,96 4,18 1,41 0,83 1,97 1,49 1,21 1,04 0,84 p% 37,2 14,6 13.0 12,0 52,2 17,6 10,4 24,7 18,7 15,1 13,0 10,5 pcum% 51,8 64,8 76,8 69,8 80,2 43,4 58,5 71,5 82,0 Loading NO2 Loading O3 Loading SO2 Ferrandina 0,42 0,08 0,00 0,01 0,52 0,25 0,07 0,00 0,01 0,54 0,27 0,01 Lavello 0,56 0,06 0,00 0,02 0,81 0,01 0,00 0,00 0,70 0,06 0,00 0,05 Matera 0,02 0,00 0,92 0,01 0,18 0,09 0,72 0,07 0,00 0,08 0,71 0,03 Melfi 0,29 0,31 0,04 0,02 0,17 0,50 0,00 0,70 0,00 0,03 0,01 0,02 PZ_1 0,63 0,14 0,00 0,02 0,53 0,17 0,00 0,23 0,16 0,31 0,02 0,00 PZ_2 0,58 0,20 0,00 0,01 0,74 0,02 0,01 0,30 0,41 0,08 0,00 0,04 San Nicola 0,45 0,20 0,05 0,08 0,72 0,01 0,00 0,34 0,19 0,11 0,00 0,14 Viggiano 0,02 0,17 0,03 0,79 0,35 0,51 0,02 0,32 0,03 0,00 0,02 0,56 Dendrogramma NO2 Viggiano Matera San Nicola Lavello Melfi PZ_2 PZ_1 Ferrandina -0,100,100,300,500,700,90 Dendrogramma O3 Melfi Lavello PZ_2 PZ_1 San Nicola Matera Ferrandina Viggiano -0,020,180,380,580,780,98 Dendrogramma SO2 PZ_1 Melfi Viggiano Ferrandina PZ_2 Lavello San Nicola Matera -0,38-0,180,020,220,420,620,82
  14. 14. Dendrogramma NO2 Viggiano Matera San Nicola Lavello Melfi PZ_2 PZ_1 Ferrandina -0,100,100,300,500,700,90
  15. 15. Dendrogramma O3 Melfi Lavello PZ_2 PZ_1 San Nicola Matera Ferrandina Viggiano -0,020,180,380,580,780,98
  16. 16. Dendrogramma SO2 PZ_1 Melfi Viggiano Ferrandina PZ_2 Lavello San Nicola Matera -0,38-0,180,020,220,420,620,82
  17. 17. IL CASO STUDIO (3.1) Analisi della rete di monitoraggio della qualità dell’aria della regione Basilicata, a partire da un semestre di rilevamenti orari (Giu-Dic 2006).
  18. 18. Melfi SO2 NO2 O3 CO PM10 S.N. di Melfi SO2 NO2 O3 CO PM10 Lavello SO2 NO2 O3 CO PM10 C6H6 Potenza_3 CO PM10 C6H6 Potenza_2 SO2 NO2 O3 CO PM10 Potenza_4 CO PM10 Potenza_1 SO2 NO2 O3 CO PM10 CH4 C6H6 Matera SO2 NO2 O3 CO PM10 CH4 C6H6 Viggiano SO2 NO2 O3 CO PM10 CH4 C6H6 Pisticci (data no available) Ferrandina SO2 NO2 O3 CO PM10 CH4 C6H6 IL CASO STUDIO (3.2) Siti in aree urbane Siti in aree industrali
  19. 19. Inquinanti misurati Siti di misura C6H6 CH4 CO NO2 O3 PM10 SO2 Ferrandina 29,8 68,8 6,8 67,9 8,8 n.a. 10,1 Matera 30,6 54,1 62,3 38,1 40,2 n.a. 66,3 Viggiano 9,9 59,8 66,2 22,4 22,6 n.a. 33,7 Pisticci n.a. n.a. n.a. n.a. n.a. n.a. n.a. PZ_1 14,5 37,1 9,0 9,8 14,1 n.a. 7,6 PZ_2 n.a. n.a. 76,0 18,3 15,0 50,0 34,9 PZ_3 2,9 n.a. 3,1 n.a. n.a. 55,9 n.a. PZ_4 n.a. n.a. 15,3 n.a. n.a. 56,5 n.a. S. Nicola di Melfi n.a. n.a. 99,5 50,8 20,6 59,4 23,8 Melfi n.a. n.a. 20,5 28,5 35,0 57,6 19,3 Lavello 22,7 n.a. 20,2 21,1 20,2 59,0 27,2 Quattro sotto-matrici significative (W>75) ottenute massimizzando o il numero di stazioni in cui si misuravano gli stessi inquinati (matrici M1 [8×3×76] e M3 [5×2×106]) o il numero di inquinanti misurati nelle stesse stazioni (matrici M2 [7×4×163] e M4 [4×6×92]). IL CASO STUDIO (3.3) La qualità del dato
  20. 20. IL CASO STUDIO (3.4) Potenza_2 SO2 NO2 O3 CO PM10 Potenza_3 CO PM10 C6H6 Potenza_4 CO PM10 Potenza_1 SO2 NO2 O3 CO PM10 CH4 C6H6 Matera SO2 NO2 O3 CO PM10 CH4 C6H6 Ferrandina SO2 NO2 O3 PM10 CH4 C Lavello SO2 NO2 O3 CO PM10 C6H6 Melfi SO2 NO2 O3 CO PM10 S.N. di Melfi SO2 NO2 O3 CO PM10 Viggiano SO2 NO2 O3 CO PM10 CH4 C6H6 Pisticci (data no available) SO2 NO2 O3 CO PM10 CH4 C6H6
  21. 21. Conclusioni La metodologia di analisi ha carattere generale, è flessibile ed è facilmente utilizzabile I risultati forniti hanno significatività statistica I risultati sono facilmente traducibili in azioni concrete da chi è preposto alla tutela, al controllo ed alla prevenzione I risultati possono essere notevoli anche in presenza di dati con un grado di qualità non elevato E’ auspicabile una maggiore automatizzazione della procedura e la possibilità di analizzare dati provenienti da reti di monitoraggio più complesse.

×