Angela Maria Digrandi, Pasquale Cimmino, Daniela Fusco,
Maria Marino, Davide Tedesco, Micro e Big Data per la stima dei turisti nelle aree a rischio vulcanico in Campania
Angela Maria Digrandi, Big Data per la stima dei turisti nelle aree a rischio vulcanico in Campania
1. Micro e Big Data per la
stima dei turisti nelle
aree a rischio
vulcanico in Campania
Angela Maria Digrandi
Istat – digrandi@istat.it
Pasquale Cimmino
Istat
Daniela Fusco
Istat
Maria Marino
Istat
Davide Tedesco
Università Pathenope
0
2. ① Il contesto: il rischio Vesuvio e la popolazione
② Stima della popolazione presente
③ Metodi ufficiali di stima del turismo: indagini ufficiali e Open Linked Data
④ Confronti tra dati amministrativi e dati statistici
⑤ Uso dei Big Data a supporto dei dati sulla ricettività
⑥ Il progetto di collaborazione tra Istat e Università Parthenope
⑦ La scelta della tecnica di web scraping
⑧ Primi risultati e conclusioni
Angela Maria Digrandi
Dirigente Istat
1
Indice
5. Angela Maria Digrandi
Dirigente Istat
4
Il contesto: il rischio Vesuvio e la popolazione
Azioni previste nelle fasi dell’emergenza vulcanica:
Nella fase di pre allarme vengono evacuate le persone presenti presso
• ospedali e case di cura
• Strutture carcerarie
• vengono messi in sicurezza i beni culturali
La popolazione residente, dotata di propria sistemazione abitativa alternativa, può
allontanarsi spontaneamente.
Nella fase di allarme, la popolazione residente deve obbligatoriamente lasciare la
Zona Rossa entro 72 ore dalla proclamazione della Fase di Allarme
6. Angela Maria Digrandi
Dirigente Istat
5
Il contesto: il rischio Vesuvio e la popolazione: I tre
piani di allontanamento
Dalla propria abitazione-luogo di
presenza alle:
AREE DI ATTESA
1. aree di incontro
2. punti di prima accoglienza
3. strutture di accoglienza
L’ Ufficio territoriale Istat della
Campania fornisce a partire
dall’anno 2015 alla Protezione
civile Regionale e ai Comuni i
dati per attuare le disposizioni
del Piano Comunale
di Protezione Civile
8. Angela Maria Digrandi
Dirigente Istat
7
Il contesto: il rischio Vesuvio e la popolazione. Le regioni
gemellate per le quali è previsto il trasferimento in Pullman
Zona rossa.shp
Ottaviano.shp
Piazzolla di nola.shp
Napoli est.shp
Poggiomarino.shp
L’Ufficio territoriale Istat per la
Campania ha predisposto nell’anno
2016 due documenti a supporto del
gemellaggio sperimentale tra:
• il comune di Poggiomarino e la
regione Marche
• Il comune di Ottaviano e l’area
orientale di Napoli con la regione
Lazio
effettuando analisi di dettaglio sulla
• Composizione della popolazione
per struttura socio demografica,
per condizione professionale
• Consistenza della popolazione
straniera per nazionalità
• Consistenza della popolazione in
età scolastica
•
9. Angela Maria Digrandi
Dirigente Istat
8
Il contesto: il rischio Vesuvio e la popolazione
residente.
Piazzolla di nola.shp
Napoli est.shp
Zona rossa.shp
Il comune di Napoli è
coinvolto per l’area
EST. Il comune di Nola
unicamente per il centro
abitato di Piazzolla di
Nola
10. Angela Maria Digrandi
Dirigente Istat
9
Il contesto: il rischio Vesuvio e la popolazione che
insiste nella zona rossa. Fonte: Archimede ,Anno 2014
COMUNE
POP. CHE INSISTE
SUL TERRITORIO
POPOLAZIONE
RESIDENTE
SALDO
POSITIVO (IN
ENTRATA)
NEGATIVO (IN
USCITA)
Boscoreale 23.012 28.467 5.455
Boscotrecase 7.901 10.418 2.517
Cercola 15.744 18.432 2.688
Ottaviano 23.713 24.151 438
Palma Campania 13.888 15.314 1.426
Poggiomarino 19.715 21.727 2.012
Pollena Trocchia 11.136 13.579 2.443
Pompei 26.900 25.366 1.534
Portici 51.961 55.937 3.976
Ercolano 44.422 54.141 9.719
San Gennaro Vesuviano 10.795 11.649 854
San Giorgio a Cremano 41.523 45.949 4.426
San Giuseppe Vesuviano 28.500 29.278 778
San Sebastiano al Vesuvio 9.238 9.358 120
Sant'Anastasia 24.558 27.885 3.327
Somma Vesuviana 33.067 35.402 2.335
Terzigno 16.389 18.022 1.633
Torre Annunziata 41.529 43.254 1.725
Torre del Greco 77.507 87.384 9.877
Trecase 7.047 9.134 2.087
Massa di Somma 4.406 5.562 1.156
Scafati 46.558 50.911 4.353
Totale comuni
completamente inclusi
nella zona rossa 579.509 641.320 1.534 63.345
Napoli 1.173.784 989.111 184.673
Nola 45.421 34.336 11.085
Pomigliano d'Arco 54.216 40.080 14.136
Totale 1.852.930 1.704.847 211.428 63.345
11. Angela Maria Digrandi
Dirigente Istat
10
Il contesto: il rischio Vesuvio e la popolazione che insiste
nella zona rossa per tipologia di city users. Fonte: Archimede
,Anno 2014
COMUNE
POP. CHE INSISTE
SUL TERRITORIO
POPOLAZIONE
RESIDENTE
SALDO
POSITIVO (IN
ENTRATA)
NEGATIVO (IN
USCITA)
Boscoreale 23.012 28.467 5.455
Boscotrecase 7.901 10.418 2.517
Cercola 15.744 18.432 2.688
Ottaviano 23.713 24.151 438
Palma Campania 13.888 15.314 1.426
Poggiomarino 19.715 21.727 2.012
Pollena Trocchia 11.136 13.579 2.443
Pompei 26.900 25.366 1.534
Portici 51.961 55.937 3.976
Ercolano 44.422 54.141 9.719
San Gennaro Vesuviano 10.795 11.649 854
San Giorgio a Cremano 41.523 45.949 4.426
San Giuseppe Vesuviano 28.500 29.278 778
San Sebastiano al Vesuvio 9.238 9.358 120
Sant'Anastasia 24.558 27.885 3.327
Somma Vesuviana 33.067 35.402 2.335
Terzigno 16.389 18.022 1.633
Torre Annunziata 41.529 43.254 1.725
Torre del Greco 77.507 87.384 9.877
Trecase 7.047 9.134 2.087
Massa di Somma 4.406 5.562 1.156
Scafati 46.558 50.911 4.353
Totale comuni completamente inclusi
nella zona rossa 579.509 641.320 1.534 63.345
Napoli 1.173.784 989.111 184.673
Nola 45.421 34.336 11.085
Pomigliano d'Arco 54.216 40.080 14.136
Totale 1.852.930 1.704.847 211.428 63.345
TIPO DI CITY USER
POP. CHE INSISTE
SUL TERRITORIO
POPOLAZIONE
RESIDENTE
STATICO DINAMICO INTERNO DINAMICO ESTERNO NON CLASSIFICABILE
16.080 4.094 2.764 74 23.012 28.467
5.923 1.155 800 23 7.901 10.418
9.942 2.273 3.438 91 15.744 18.432
13.057 4.896 5.690 70 23.713 24.151
7.857 4.171 1.764 96 13.888 15.314
11.729 5.216 2.698 72 19.715 21.727
7.135 1.790 2.175 36 11.136 13.579
13.566 5.575 7.711 48 26.900 25.366
30.765 11.192 9.884 120 51.961 55.937
31.906 8.521 3.874 121 44.422 54.141
5.872 2.437 2.440 46 10.795 11.649
25.634 8.099 7.722 68 41.523 45.949
16.568 6.764 5.044 124 28.500 29.278
4.706 1.483 3.029 20 9.238 9.358
15.281 5.309 3.832 136 24.558 27.885
18.966 7.619 6.396 86 33.067 35.402
9.943 3.689 2.668 89 16.389 18.022
24.905 9.275 7.258 91 41.529 43.254
49.371 20.903 6.978 255 77.507 87.384
4.880 1.081 1.066 20 7.047 9.134
3.222 496 668 20 4.406 5.562
26.533 11.682 8.207 136 46.558 50.911
353.841 127.720 96.106 1.842 579.509 641.320
576.219 325.569 268.351 3.645 1.173.784 989.111
18.255 8.001 19.052 113 45.421 34.336
21.638 9.172 23.294 112 54.216 40.080
969.953 470.462 406.803 5.712 1.852.930 1.704.847
12. Angela Maria Digrandi
Dirigente Istat
11
Il contesto: il rischio Vesuvio e la popolazione
coinvolta.
La stima della popolazione residente è accurata e
può essere aggiornata annualmente ma anche in
tempo reale dagli Uffici comunali di anagrafe.
Più complessa è la stima della popolazione che
insiste nell’area rossa, calcolabile attraverso l’
elaborazione dei dati del sistema informativo
Archimede.
Ulteriori difficoltà derivano dalla stima delle persone
che sono presenti per brevi periodi, come i turisti
in quanto alle statistiche ufficiali possono sfuggire
le strutture non ancora registrate o che non
rientrano nei canali ufficiali.
13. Angela Maria Digrandi
Dirigente Istat
12
Metodi ufficiali di stima del turismo: indagini ufficiali e
Open Linked Data
LE FONTI DATI SULL’OFFERTA RICETTIVA:
FONTI AMMINISTRATIVE:
-Regioni e Province Autonome: Archivi
amministrativi/gestionali
-Regioni e Province Autonome: Aziende agrituristiche
autorizzate
-Ministero degli Interni: Persone alloggiate presso
strutture ricettive
-Agenzia delle entrate: Base dati dell'anagrafe tributaria
ALTRE FONTI:
-Trattamenti statistici di dati prodotti da soggetti che
esercitano attività di intermediazione immobiliare
attraverso la gestione di immobili
14. Angela Maria Digrandi
Dirigente Istat
13
Metodi ufficiali di stima del turismo: indagini ufficiali e
Open Linked Data
Il PSN prevede l’acquisizione di dati aggregati e microdati
che possono essere oggetto di pubblicazione in formato
Open data nel rispetto del “segreto statistico” e della
regola della “soglia” e corredati dei relativi metadati.
Gli stessi dati previsti dal PSN possono essere pubblicati
dalle regioni prima del rilascio dei dati Istat secondo
quanto previsto dall’Accordo quadro n.104 del 6 luglio
2017 tra l’Istat e le Regioni e le Province Autonome in
materia di attività statistiche
15. Angela Maria Digrandi
Dirigente Istat
14
Popolazione presente per motivi di turismo
Tavola - Arrivi e presenze nei comuni appartenenti alla zona rossa 2014/2015/2016
pubblicati stimati
TERRITORIO ARR PRE ARR PRE arr pre
Boscoreale 582 1.258 815 1.735 922 2.002 x
Boscotrecase - - - - - -
Cercola 7.155 15.784 5.259 12.205 5.948 14.085 x
Napoli 720.349 2.891.104 1.137.903 2.908.633 1.238.214 3.292.057 ì
Nola 36.510 73.261 39.911 75.376 42.148 91.792 ì
Ottaviano 6.195 10.886 7.884 14.720 8.917 16.987 x
Palma Campania 2.783 38.132 1.875 60.171 2.121 69.437 x
Poggiomarino 704 1.898 511 1.335 578 1.541 x
Pollena Trocchia - - 145 156 164 180 x
Pompei 109.376 208.062 120.078 230.969 142.424 264.317 ì
Portici 540 1.005 152 369 172 426 x
Ercolano 20.853 36.991 18.753 34.895 12.474 25.879 ì
San Gennaro Vesuviano - - - - - -
San Giorgio a Cremano 538 837 445 729 503 841 x
San Giuseppe Vesuviano - - - - - -
San Sebastiano al Vesuvio - - - - - -
Sant'Anastasia - - - - - -
Somma Vesuviana 645 1.475 764 1.082 864 1.249 x
Terzigno 3.038 7.289 5.664 13.074 9.534 21.719 ì
Torre Annunziata 1.824 5.294 1.611 4.818 1.461 3.763 ì
Torre del Greco 21.201 43.719 22.559 46.793 25.111 61.978 ì
Trecase - - - - - -
M assa di Somma - - - - - -
Scafati 4.713 13.916 6.111 16.140 9.604 17.718 ì
T o tale co mplessivo 937.006 3.350.911 1.370.440 3.423.200 1.501.158 3.885.970 ì
2014 2015 2016
I dati sulla capacità ricettiva
devono costituire una base
informativa sempre aggiornata
con duplice finalità: localizzare
la presenza di persone
temporaneamente presenti per
motivi di turismo ( il totale
comprende turisti per svago,
lavoro, religioso)
16. Angela Maria Digrandi
Dirigente Istat
15
Confronti tra dati amministrativi e dati statistici sulla
capacità ricettiva e sul movimento dei turisti
I dati sulla capacità come set informativo di base: confronti fra fonti
diverse per monitorare il trend con cui si amplia o si restringe l’offerta
ricettiva quale base dei flussi di presenza dei turisti
17. Angela Maria Digrandi
Dirigente Istat
16
Uso dei Big Data a supporto dei dati sulla ricettività
I Big Data si contraddistinguono per le seguenti caratteristiche:
- Volume dei dati
- Varietà delle informazioni
- Velocità di raccolta
- Trattamento statistico di dati diffusi dagli operatori e utenti sul web
Questo li rende utili per l’aggiornamento, il controllo e l’inserimento di nuove informazioni
rispetto al dato statistico.
Warning:
Controllo qualità
delle
informazioni da
web
18. Angela Maria Digrandi
Dirigente Istat
17
Uso dei Big Data a supporto dei dati sulla ricettività
La scelta di TripAvisor:
- HUB con grosso volume di dati
- Omogeneità strutturale delle pagine
- Basse restrizioni per lo scraping
HUB Considerati Totale strutture
provincia di Napoli
Booking 5.652
TripAdvisor 6.688
Kayak 2.299
Trivago 8.316
Momondo 2.547
19. Angela Maria Digrandi
Dirigente Istat
18
Confronto tra dati ufficiali e Big Data sulla ricettività
Hotel B&B Altre
strutture
Per le altre strutture, a causa di
differenze definitorie non è stato
possibile al momento rendere
confrontabile la categoria con i dati
Istat
20. Angela Maria Digrandi
Dirigente Istat
19
Confronto tra dati ufficiali e Big Data sulla ricettività
PERCHÉ GROSSE DIFFERENZE TRA I DATI:
• Sul web possono essere presenti anche le strutture in corso di
autorizzazione o non autorizzate
• Discrepanza temporale: i dati sul web sono aggiornati alla data di
scarico e non alla data di riferimento dell’indagine
• Mancata cancellazione tempestiva dal web di strutture non più esistenti
(sovrastima)
• Possibile presenza di doppioni nei dati web (sovrastima)
• Differenze definitorie
21. Angela Maria Digrandi
Dirigente Istat
20
Tecnica di parsing per il reperimento dei dati dal web
Per ottenere i dati dal web si ricorre in genere
a tecniche di web-scraping.
Il web scraping è
una tecnica informatica di estrazione di
dati da un sito web per mezzo
di programmi software. Svariati siti web sono
costituiti da pagine web generate
automaticamente. La fonte da cui queste
pagine ricavano informazioni sono per lo più
grandi database. I dati di categorie simili tra
loro vengono organizzate in pagine o
template comuni, per essere reperite con
maggior facilità. I software che permettono
tramite la rilevazione dei template l'estrazione
di dati dello stesso tipo prendono il nome di
wrapper.
I dati sono stati estratti dall’HUB TripAdvisor
con la tecnica del parsing HTML utilizzando il
software R (rvest Package).
22. Angela Maria Digrandi
Dirigente Istat
21
Risultati
Il Frame:
L’attività di web scraping ha
consentito di creare un database
contenente circa 1,620 tra Hotel e
B&B e 1,360 case vacanza per i 24
comuni della zona rossa.
Per ciascuna osservazione sono state
raccolte le seguenti informazioni:
- Denominazione
- Tipologia
- Indirizzo
- Numero di stanze
Prossimi passi:
• Individuazione di duplicati nel
Frame
• Valutazione della qualità delle
informazioni raccolte
• Integrazione del Frame con il DB
statistico
• Confronto tra le fonti a livello micro