- I Big Data nelle imprese e nell’agricoltura -
Intervento di Maria Antonietta Liguori - Istat Campania
al Seminario del #23maggio 2019 tenutosi presso
l'Università degli Studi “#UniParthenope” di Napoli
Dipartimento di Studi aziendali e quantitativi
Via Generale Parisi, 13
Abstract:
Nuovi dati e nuove fonti: le statistiche sperimentali e i big data è Il seminario, curato dall’ Ufficio territoriale Istat
per la Campania e la Basilicata e dall'Università degli studi di Napoli Parthenope con l’obiettivo di consolidare la
conoscenza delle nuove fonti dati ad uso statistico, utilizzate dall’Istat. In particolare in questo evento il focus è sulle
statistiche sperimentali e i big data.
I destinatari dell’iniziativa sono ricercatori e studenti universitari che intendono utilizzare o approfondire la conoscenza
dei principali sistemi di diffusione dell’Istat e le modalità di interrogazione dei principali Open Data forniti
dall’Istituto.
Link: https://lnkd.in/dqAmRRW
Maria Antonietta Liguori - I Big Data nelle imprese e nell’agricoltura - 23 Maggio 2019 Uniparthenope
1. I Big Data nelle imprese e nell’agricoltura
Maria Antonietta Liguori
liguori@istat.it
Nuovi dati e nuove fonti: le statistiche sperimentali a misura di comune
Università degli studi «Parthenope», 23 maggio 2019
1
2. • Introduzione
• Imprese. Una misura del sentiment italiano sull’economia basata sui dati Twitter
• Imprese. Stime delle modalità di utilizzo dei siti web da parte delle imprese
• Agricoltura. Registi statistici e big data: l’esperienza del farm register
2
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
Sommario
4. • Introduzione
• Imprese. Una misura del sentiment italiano sull’economia basata sui dati Twitter
• Imprese. Stime delle modalità di utilizzo dei siti web da parte delle imprese
• Agricoltura. Registi statistici e big data: l’esperienza del farm register
4
Alla produzione ed all’analisi del Social Mood on Economy Index hanno collaborato:
C. Fabbri, R. Iannaccone, A. Righi, M. Scannapieco, P. Testa, L. Valentino, D. Zardetto, D. Zurlo.
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
5. 5
Una misura del sentiment italiano sull’economia basata sui dati Twitter
Social mood on economy index
un indice che fornisce misure giornaliere del sentiment italiano sull’economia
derivate da campioni di tweet pubblici in lingua italiana, catturati in tempo reale
Il cui testo contenga almeno una parola appartenente ad un determinato filtro.
60 parole
chiave
La Streaming Api di Twitter
permette di raccogliere campioni di tweet che soddisfino
un filtro appositamente progettato che contiene 60 parole
chiave che derivano dal questionario dell’indagine sulla
fiducia dei consumatori.
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
6. 6
Una misura del sentiment italiano sull’economia basata sui dati Twitter
La procedura di calcolo elabora tutti i tweet raccolti in un giorno (50mila in media)
Lexicon di sentiment: un vocabolario ai cui
lemmi sono associati punteggi di sentiment
positivo e negativi precalcolati
1. Pulizia e normalizzazione dei testi
2. Analisi con tecniche di sentiment analysis
a) I testi di tutti i tweet vengono confrontati con il Lexicon
b) a ciascun tweet vengono assegnati punteggi di sentiment positivo e negativo
c) si creano 3 cluster: tweet negativi, tweet neutri e tweet positivi
3. Calcolo dell’indice giornaliero attraverso una misura di tendenza centrale alla
distribuzione dei punteggi positivi e negativi
4. Trasformazione lineare dell’indice
(serie storica 10/2/16-30/9/18 con media nulla)
5. Controllo dei valori anomali
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
7. 7
Una misura del sentiment italiano sull’economia basata sui dati Twitter
Risultati
https://www.istat.it/it/archivio/219585
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
8. 8
Una misura del sentiment italiano sull’economia basata sui dati Twitter
Risultati
https://www.istat.it/it/archivio/219585
Serie storica delle medie mensili dell’indice Social Mood on
Economy grezzo (linea verde) e destagionalizzato (linea rossa).
Andamento giornaliero del numero di tweet raccolti ed analizzati
I punti di discontinuità della serie sono associati ad eventi di blocco
della raccolta dati o alla rimozione di dati anomali derivanti da
tweet “virali” giudicati fuori tema
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
9. • Introduzione
• Imprese. Una misura del sentiment italiano sull’economia basata sui dati Twitter
• Imprese. Stime delle modalità di utilizzo dei siti web da parte delle imprese
• Agricoltura. Registi statistici e big data: l’esperienza del farm register
9
Alla produzione di queste stime hanno collaborato:
- Istat: G. Barcaroli, G. Bianchi, N. Golini, A. Nurra, P. Righi, S. Salamone, F. Scalfati, M.
Scannapieco, D. Summa, D. Zardetto
- CINECA: M. Scarnò
- Università di Roma Sapienza: R. Bruni
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
10. 10
Stime delle modalità di utilizzo dei siti web da parte delle imprese
Le stime dell’utilizzo dei siti web da parte delle imprese
riportano il tasso di imprese sul totale della popolazione di riferimento che possiede o
utilizza un sito web attraverso il quale:
1. offre funzioni di web ordering (componente dell’e-commerce);
2. propone offerte di lavoro;
3. espone link a social media (Facebook, Twitter, Instagram ecc.).
Sono prodotte dall’Istat attraverso:
1 metodo tradizionale (raccolta dati mediante questionario web presso un campione di imprese):
indagine sull’uso delle tecnologie dell’informazione e della comunicazione (ICT) da parte delle
imprese.
2 metodo sperimentale: utilizzo dei big data
Consentono di ottenere variabili ausiliare
adatte ad applicare un approccio di
previsione e produrre stime che possono
essere confrontate con quelle dell’indagine
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
11. 11
Stime delle modalità di utilizzo dei siti web da parte delle imprese
La procedura di calcolo si articola in più fasi:
1. Reperire gli indirizzi web URL
2. WEB SCRAPING Estrapolare il contenuto dei siti
3. TEXT MINING Elaborare i contenuti per
identificare i migliori strumenti di predizione del
valore per le tre variabili
4. MACHINE LEARNING Creare strumenti in grado
di predire la presenza/assenza dei valori delle 3
variabili per il sottogruppo di imprese in cui
erano disponibili sia i dati dell’indagine che i big
data
5. Applicare tali strumenti alle restanti imprese
Due stimatori diversi:
I. Stime da modello
II. Stime combinate (valori predetti||valori indagine)
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
12. 12
Stime delle modalità di utilizzo dei siti web da parte delle imprese
Risultati: Stime relative al tasso di imprese che offrono funzionalità di web ordering -
Anno 2017
Limite inferiore Limite superiore
Macrosettori economici per dimensione addetti
Attività manifatturiere (C)
da 10 a 49 10,04 8,08 11,99 11,06 9,88
da 50 a 99 12,09 8,87 15,30 14,80 14,29
da 100 a 249 15,69 12,60 18,77 15,76 15,38
da 250 e oltre 24,18 21,06 27,30 22,65 21,09
Fornitura di energia elettrica, gas,
vapore e aria condizionata, acqua, reti
fognarie, attività di gestione dei rifiuti
e risanamento (D, E)
da 10 a 49 8,69 6,54 10,84 9,73 11,51
da 50 a 99 10,50 5,98 15,03 11,55 9,73
da 100 a 249 13,89 8,95 18,84 15,04 11,79
da 250 e oltre 18,79 11,86 25,72 16,97 14,55
Costruzioni (F)
da 10 a 49 2,92 2,03 3,81 5,54 5,02
da 50 a 99 3,10 0,29 5,91 5,32 4,28
da 100 a 249 2,05 0,30 3,81 5,19 5,19
da 250 e oltre 8,12 1,09 15,16 10,00 8,75
Totale servizi non finanziari (G-N,
incluso 951, escluso 75 e K)
da 10 a 49 20,28 18,26 22,30 20,26 18,40
da 50 a 99 21,76 18,36 25,16 19,36 17,68
da 100 a 249 21,76 19,03 24,48 20,89 20,82
da 250 e oltre 28,32 25,56 31,07 24,85 31,51
Stime da modello Stime combinate
Intervallo di confidenza
DOMINIO Stime da indagine
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
13. 13
Stime delle modalità di utilizzo dei siti web da parte delle imprese
Risultati: Stime relative al tasso di imprese che riportano offerte di lavoro online nel sito web -
Anno 2017
Limite inferiore Limite superiore
Ateco 2007
Attività non incluse nel settore ICT (1) 9,60 8,84 10,36 12,92 11,65
Attività incluse nel settore ICT 40,80 36,52 45,08 39,02 36,64
Industrie alimentari, delle bevande e del tabacco 5,74 3,21 8,27 9,59 8,20
Industrie tessili, dell'abbigliamento, articoli in pelle e simili 2,00 1,14 2,87 7,56 4,92
Industria dei prodotti in legno e carta, stampa 6,77 3,05 10,49 10,95 8,69
Fabbricazione di coke e di prodotti derivanti dalla raffinazione del petrolio, di prodotti chimici, di prodotti farmaceutici, diarticoli in
gomma e materie plastiche e di prodotti della lavorazione di minerali non metalliferi
12,60 9,72 15,47 15,53 14,57
Metallurgia e fabbricazione di prodotti in metallo esclusi macchinari e attrezzature 5,03 3,10 6,96 11,01 9,23
Fabbricazione di computer e prodotti di elettronica e ottica; apparecchi elettromedicali, apparecchi di misurazione e diorologi 24,92 18,46 31,38 27,74 23,46
Fabbricazione di apparecchiature elettriche ed apparecchiature per uso domestico non elettriche e di macchinari ed
apparecchiature nca
14,70 10,40 18,99 19,64 19,04
Fabbricazione di mezzi di trasporto 10,80 6,68 14,92 17,81 15,96
Fabbricazione di mobili, altre industrie manifatturiere, riparazione e installazione di macchine e apparecchiature 6,74 3,91 9,57 12,33 9,53
Fornitura di energia elettrica, gas, vapore e aria condizionata, acqua, reti fognarie, attività di gestione dei rifiuti erisanamento (D, E) 22,27 20,06 24,48 22,77 22,23
Costruzioni 6,29 5,18 7,41 8,50 7,97
Commercio all'ingrosso e al dettaglio riparazione di autoveicoli e motocicli 10,96 10,02 11,91 13,06 11,92
Trasporto e magazzinaggio, esclusi servizi postali e corrieri (H escluso 53) 7,99 5,29 10,69 11,74 11,43
Servizi postali e attività di corriere 23,97 15,69 32,26 13,24 23,74
Alloggio 9,70 5,79 13,60 13,81 10,22
Attività dei servizi di ristorazione 6,83 1,68 11,97 8,58 8,42
Attività editoriali 20,64 9,88 31,41 25,62 30,79
Attività di produzione cinematografica, di video e di programmi televisivi, di registrazioni musicali e sonore 7,24 2,54 11,95 19,80 13,31
Telecomunicazioni 44,57 35,74 53,40 41,61 44,89
Informatica ed altri servizi d'informazione 44,36 39,26 49,45 40,98 38,83
Attività immobiliari 17,90 11,98 23,82 16,98 18,71
Attività professionali, scientifiche e tecniche escluso servizi veterinari (M escluso 75) 26,06 19,65 32,48 27,27 25,60
Noleggio, servizi di supporto alle imprese escluso attività dei servizi delle agenzie di viaggio, dei tour operator e servizi
diprenotazione e attività connesse (N escluso 79)
12,47 7,97 16,98 15,22 13,20
Attività dei servizi delle agenzie di viaggio, dei tour operator e servizi di prenotazione e attività connesse 14,36 8,44 20,28 19,72 20,07
Stime damodello Stime combinate
Intervallo di confidenza
DOMINIO Stime daindagine
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
14. 14
Stime delle modalità di utilizzo dei siti web da parte delle imprese
Risultati: Stime relative al tasso di imprese che hanno link a social media nel proprio sito web -
Anno 2017
Limite inferiore Limite superiore
Regioni amministrative
Piemonte 26,16 20,98 31,33 35,86 30,80
Valle d'Aosta / Vallée d'Aoste 26,86 15,29 38,42 33,67 25,32
Liguria 30,39 17,74 43,04 34,10 30,08
Lombardia 31,85 29,75 33,94 36,16 30,20
Provincia Autonoma Bolzano / Bozen 48,05 35,43 60,66 47,08 44,54
Provincia Autonoma Trento 42,21 37,67 46,74 45,43 44,91
Veneto 32,85 29,52 36,19 40,79 35,62
Friuli-Venezia Giulia 25,08 12,51 37,65 35,16 28,36
Emilia-Romagna 29,71 26,03 33,40 39,05 33,15
Toscana 29,36 24,36 34,36 35,46 31,43
Umbria 45,47 32,57 58,37 38,46 36,53
Marche 42,43 29,35 55,50 41,13 35,97
Lazio 27,40 22,90 31,90 34,61 27,08
Abruzzo 25,28 15,59 34,98 32,09 25,08
Molise 20,41 8,17 32,65 26,03 25,69
Campania 26,89 21,26 32,52 30,70 24,03
Puglia 31,24 23,72 38,75 34,85 22,39
Basilicata 23,91 12,46 35,36 32,24 19,49
Calabria 42,71 31,23 54,19 37,83 26,98
Sicilia 36,44 29,99 42,89 38,10 30,98
Sardegna 27,27 19,08 35,47 30,29 28,68
Stime da modello Stime combinate
Intervallo di confidenza
DOMINIO Stime da indagine
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
15. • Introduzione
• Imprese. Una misura del sentiment italiano sull’economia basata sui dati Twitter
• Imprese. Stime delle modalità di utilizzo dei siti web da parte delle imprese
• Agricoltura. Registi statistici e big data: l’esperienza del farm register
15
Istat. Giulio Barcaroli, Loredana Di Consiglio, Daniela Fusco, Paola Giordano, Massimo
Greco, Valerio Moretti, Paolo Righi, Tiziana Tuoto
CINECA. Marco Scarnò
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
16. 16
Registi statistici e big data: l’esperienza del farm register
FARM REGISTER
Fonti statistiche:
- Business Register
- Censimento dell’agricoltura
- Indagine sugli agriturismi
- Indagine sul DOP IGP
Fonti amministrative:
- Agenzia per le erogazioni in agricoltura (Agea)
- Anagrafi zootecniche
- Dichiarazioni fiscali unico (Redditi agrari)
- Catasto dei terreni
- Camere di commercio
- Dichiarazioni annuali IVA
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
17. 17
Registi statistici e big data: l’esperienza del farm register
Farm register vs Censimento dell’agricoltura
16 variabili per le coltivazioni101 variabili per le coltivazioni
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
18. 18
Registi statistici e big data: l’esperienza del farm register
A cosa possono servire le informazioni provenienti dal web?
Acquisire dal web dati anagrafici, strutturali e turistici sulle aziende agricole per
migliorare e completare l’informazione statistica e amministrativa esistente
• Aumentare la completezza delle informazioni già
presenti nel registro incidendo su un generale
miglioramento della qualità;
• Aggiungere nuovi items a quelli già presenti;
• Validare le informazioni relative alle unità statistiche;
• Identificare possibili outliers su variabili esistenti;
• Imputare dati mancanti su variabili esistenti;
• Determinare nuove tassonomie per le unità del registro
Obiettivo
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
19. 19
Registi statistici e big data: l’esperienza del farm register
L’esperienza delle aziende agrituristiche
In Italia esistono oltre 20.000 agriturismi
La statistica ufficiale si occupa di agriturismi in vari progetti curati dall’Istat:
• Rilevazione annuale sugli agriturismi (IST-00697)
• Registro statistico delle aziende agricole –
Farm Register (IST-02466)
• Capacità degli esercizi ricettivi (IST-00138)
• Movimento dei clienti negli esercizi ricettivi
(IST-00139)
Inoltre il Mipaaf gestisce un archivio amministrativo
degli agriturismi
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
20. 20
Registi statistici e big data: l’esperienza del farm register
Data collection con l’utilizzo del web scraping
Tecnica di Web scraping:
«Grattare dal web», ossia una tecnica informatica di
estrazione di dati da un sito web per mezzo di
programmi software che raccolgono informazioni dal
web e li trasformano in dati più strutturati
1) La struttura del website è ben definita e l’informazione può essere estratta con
applicazioni personalizzate (specific web scraping): HUB
2) La struttura del website non è conosciuta a priori (generic web scraping): è necessaria
una fase di post-processing del testo (text mining, tecniche di machine learning o anche
regole euristiche): websites dei singoli agriturismi
Due possibili situazioni
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
21. 21
Registi statistici e big data: l’esperienza del farm register
Approccio metodologico
Approccio uno: Una strategia integrata che combina e confronta informazioni dal web
con quelle presenti nella base amministrativa/statistica, inserendo nei motori di ricerca
le informazioni presenti nel registro
(G. Barcaroli, D. Fusco, P. Giordano, M. Greco, V. Moretti, P. Righi, M. Scarnò);
Approccio due: Un record linkage secondo l’approccio di Fellegi-Sunter, unendo i dati
presenti nel registro con quelli provenienti dagli HUB di settore (Booking, TripAdvisor,
ecc.)
(D. Fusco, A. Rizzi, T. Tuoto).
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
22. 22
Registi statistici e big data: l’esperienza del farm register
Approccio 1: risultati
Il 91% degli agriturismi è stato trovato nel web, ma solo per il 37% vi è
la conferma che il sito trovato sia corretto
(1) Il numero si riferisce agli agriturismi in cui è presente denominazione ed indirizzo nel master data set
RAPPRESENTATIVITA’: Il grado di copertura varia da Regione a
Regione
ACCURATEZZA: stanze e ristorante
Concordanza al 57% sulla disponibilità di stanze e sulla presenza di
ristorante
Disponibilità di
stanze nel master
data set
Disponibilità di
stanze nel web
NO SI
NO 2,618 1,621
SI 1,367 1,273
Presenza di
ristorante nel
master data set
Presenza di
ristorante nel web
NO SI
NO 2,529 1,927
SI 1,030 1,393
Presenza di piscine (17,1%)
Wifi facilities (19,4%)
Disponibilità di prezzi (41%)
Informazioni aggiuntive
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
23. 23
Registi statistici e big data: l’esperienza del farm register
Approccio metodologico: Record Linkage
- Lo scopo del Record Linkage è
individuare le stesse unità provenienti di fonti diverse anche se non sono rappresentate in maniera
omogena
- Il metodo statistico per il RL, il RL probabilisto, segue l’approccio classico sviluppato da Fellegi and Sunter
(1969)
- Il software utilizzato in questa sperimentazione è:
RELAIS (Record Linkage At Istat)
http://www.istat.it/it/strumenti/metodi-e-strumenti-it/strumenti-di-elaborazione/relais
Variabili di linkage: denominazione, indirizzo, longitude, latitude, cap
Funzioni di comparazione: Simhash, Jaro, 3grams, 3grams pesata in base alla frequenza
Linkage Model: EM binomiale e multinomiale (5 and 8 classes)
Fonti: Farm Register - Interned-scraped data
Target: “hub”, siti che contengono informazioni relative a più unità con caratteristiche comuni
Dimesione: 13.000 unità nel FR– 7.000 unità provenienti dagli hub
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019
24. 24
Registi statistici e big data: l’esperienza del farm register
Sito web
Numero di
agriturismi
www.agriturismo.it 3.520
www.agriturismi.it 2.292
www.tripadvisor.it 7.575
www.booking.com 4.389
www.terranostra.it 2.636
www.turismoverde.it 1.514
www.agriturist.it 618
Topic Variabili Aggiornamento
Informazione
aggiuntiva
Localizzazione
e contatti
dell’azienda
agricola
Indirizzo X
Numero di telefono X X
e-mail X X
Web site X X
Geo-localization X
Informazioni
strutturali
Numero di camere X X
Prezzo X
Numero di posti a sedere nei ristoranti X X
Altre
informazioni
Vendita diretta X X
Tipologia di prodotti venduti X X
E-commerce X
Numero di agriturismi
presenti in ciascun hub
Variabili presenti sui siti
Il 38% degli agriturismi presenti nel file proveniente dallo scraping è stato linkato con gli
agriturismi presenti nel Farm Register
Approccio 2: risultati
I Big Data nelle imprese e nell’agricoltura
Uni Parthenope, 23 maggio 2019