Analisi Statistica effettuata attraverso l'utilizzo di Minitab, per un progetto universitario riguardante l'esame di 'Statistica Economica' realizzato in collaborazione con un mio collega.
L. Bisio, F. Moauro - La disaggregazione temporale nei modelli dinamici: rece...
Statistical Analysis of International Trade Exports
1. RELAZIONE STATISTICA ECONOMICA
SACCHI MARCO: 5818567
PASSARELLI PIERLUIGI: 5786213
CdL: ECONOMIA E COMMERCIO
III ANNO
LUGLIO 2017
Obiettivo dell’analisi
L’obiettivo dell’analisi è quello di studiare e analizzare l’andamento delle
componenti di una determinata serie storica, in modo tale da individuare il modello
che, applicato alla serie storica, ci permetterà di individuare il processo stocastico
che ha generato la serie.
Descrizione dei dati
La serie scelta per essere studiata ed analizzata concerne le “esportazioni”
dell’economia a livello mondiale. I dati della serie scelta sono stati estratti dalla
banca dati dell’ISTAT, I.Stat, nella sezione “Commercio Estero ed
Internazionalizzazione”:
1. Importazioni ed Esportazioni;
2. Importazioni ed Esportazioni per paese e merce Ateco 2007;
3. Importazioni ed Esportazioni per paese e merce Ateco 2007 – valori
destagionalizzati modello mondo (milioni di euro).
2. La serie è mensile (www.dati.istat.it/# ),con dati rilevati nel periodo compreso tra
Gennaio 1996 e Gennaio 2007, per un totale di 133 dati espressi in milioni di euro.
Analisi Preliminari (grafici, indici, trasformazioni)
Lo studio e l’analisi della serie scelta inizia attraverso l’utilizzo delle analisi
preliminari (che riguardano l’analisi grafica, lo studio degli indici e l’applicazione di
eventuali trasformazioni), per accertare la stazionarietà in media e varianza, la
gaussianità e la presenza di eventuali valori anomali (“outlier”) e variazioni
strutturali. Si inizia col rappresentare la serie scelta con l’utilizzo di grafici distributivi
(Istogramma) e grafici temporali (Time Series Plot).
(Figura 1.0 –Time SeriesPlot della serie originale)
130117104917865523926131
32500
30000
27500
25000
22500
20000
17500
15000
Index
export
Time Series Plot of export
3. (Figura 1.1 –Istogramma della serie originale)
Come si può evincere dal Time Series Plot, non vi è apparente stagionalità, data la
scelta iniziale di una serie destagionalizzata. Possiamo notare poi un trend non
sempre crescente dal grafico. Inoltre, è possibile vedere che la serie non è
stazionaria né in media né in varianza. Di conseguenza sono presenti anche dei
valori anomali ma non variazioni strutturali. Mentre, dal grafico distributivo, cioè
l’Istogramma, notiamo come la serie originale non è riconducibile ad una forma
gaussiana. Quindi, andremo ad effettuare determinate applicazioni per rendere
possibile l’utilizzo della modellistica ARIMA.
Di seguito riportiamo il Correlogrammi Totale (ACF) della serie originale.
Autocorrelation Function: export
300002700024000210001800015000
25
20
15
10
5
0
Mean 21518
StDev 3460
N 133
C4
Frequency
Normal
Histogram of export
4. (Figura 1.2 – Funzione di Autocorrelazione Totale della serie originale.)
Si procede quindi con le trasformazioni necessarie a riportare la serie ad essere
stazionaria in media e varianza e ad avere una distribuzione prossima a quella
gaussiana. Quindi si applicano ora le trasformazioni necessarie per riportare la serie
all’omoschedasticità. Effettuiamo ora un confronto tra la serie differenziata con e
senza la trasformazione logaritmica, in modo tale da accertare come la serie con le
differenze prime e la trasformazione logaritmica sia più omoschedastica. Di seguito
riportiamo quelli che sono i grafici temporali:
24222018161412108642
1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
Lag
Autocorrelation
Autocorrelation Function for export
(with 5% significance limits for the autocorrelations)
5. (Figura 1.3 –Time Series Plot della serie differenziata)
(Figura 1.4 –Time Serie Plot della serie differenziata con ilog)
130117104917865523926131
2000
1000
0
-1000
-2000
Index
diff1
Time Series Plot of diff1
130117104917865523926131
0,04
0,03
0,02
0,01
0,00
-0,01
-0,02
-0,03
Index
diff1logexport
Time Series Plot of diff1logexport
6. (Figura 1.5 –Grafico multiplo del confronto tra iTime Series Plot)
Dal confronto tra i Time Series Plot delle serie ”diff1” e “diff1logexport” possiamo
vedere come nel primo caso i valori oscillino per numeri maggiori di 0 ma molto più
distanti da quest’ultimo, mentre nel secondo (TSP di “difflogexport”) i valori
oscillano intorno allo 0 per valori molto vicini a quest’ultimo. In entrambi i Time
Series Plot, è possibile evincere come la componente trend non persista più. Quindi
abbiamo ricondotto la serie originale alla stazionarietà in media (mediante l’utilizzo
delle differenze prime) ed all’omoschedasticità. Per quanto riguarda il grafico
distributivo della serie differenziata con e senza trasformazioni logaritmiche ne
riportiamo ora i grafici:
7. (Figura 1.6 – Istogramma della serie differenziata)
(Figura 1.7 –Istogramma della serie differenziata con le trasformazioni
logaritmiche.)
150010005000-500-1000-1500-2000
30
25
20
15
10
5
0
Mean 95,48
StDev 584,3
N 132
diff1
Frequency
Histogram of diff1
Normal
0,030,020,010,00-0,01-0,02-0,03
25
20
15
10
5
0
Mean 0,001876
StDev 0,01138
N 132
dlogc4
Frequency
Normal
Histogram of diff1logexport
8. Dal Time Series Plot (vedi figura 1.3) si nota che attraverso l’applicazione delle
differenze prime sulla serie e delle trasformazioni logaritmiche sulla serie originale,
l’andamento è divenuto più omoschedastico e di conseguenza stazionario in media.
Adesso quindi avremo una serie stazionaria sia in media che in varianza. Dal
confronto dei grafici distributivi, invece, si vede come l’Istogramma della serie
“diff1logexport” sia meno asimmetrico rispetto all’istogramma della serie “diff1”.
Inoltre, dato che l’Istogramma della serie “diff1” è più asimmetrico della serie
“diff1logexport”, allora possiamo dedurre anche che quest’ultimo abbia una forma
aprossimativamente gaussiana rispetto al primo.
Di seguito riportiamo le statistiche descrittive, che mostrano la progressiva
diminuzione della “deviazione standard” in seguito all’applicazione delle differenze
prime e l’eliminazione del “trend” rispetto alla serie originale:
Descriptive Statistics: export; diff1
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
export 133 0 21518 300 3460 16301 18190 22131 23542 31022
diff1 132 1 95,5 50,9 584,3 -2016,0 -305,8 33,0 463,0 1750,0
Si può notare come la deviazione standard della serie differenziata (‘ diff1’) = (584,3)
si sia ridotta al 16,88% della deviazione standard della serie originaria (‘export’) =
(3460)
L’output di queste analisi preliminari è: d=1, log sono fondamentali.
Identificazione del modello (ACF e PACF)
Passiamo ora alla fase di identificazione del modello a priori, mediante l’analisi e il
confronto tra la Funzione di Autocorrelazione Totale (ACF) e Parziale (PACF) della
serie di lavoro con quelle teoriche:
9. (Figura 1.8 – Funzione di Autocorrelazione Totale della serie di lavoro.)
(Figura 1.9 – Funzione di Autocorrelazione Parziale della serie di lavoro.)
Da entrambi i Correlogrammi, Totali e Parziali, possiamo vedere come il valore
significativo di questi ultimi è appunto il primo valore in entrambi i casi; infatti dato
24222018161412108642
1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
Lag
Autocorrelation
Autocorrelation Function for diff1logexport
(with 5% significance limits for the autocorrelations)
24222018161412108642
1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
Lag
PartialAutocorrelation
Partial Autocorrelation Function for diff1logexport
(with 5% significance limits for the partial autocorrelations)
10. che le bande di confidenza sono pari a ±2/11,49= ± 0,174064 (11,49 è la radice
quadrata di 132 e non 133 per la perdita di un dato, causa le differenze prime),
abbiamo che solo il valore al primo lag le supera essendo pari a -0,2241. Di
conseguenza possiamo applicare anche un modello MA(1), dato il confronto tra i
correlogrammi campionari (ottenuti dalla serie) e teorici, in quanto i correlogrammi
teorici di un MA(1), in particolare il correlogramma che ha come parametro θ1 >0. In
conclusione, il modello che applicheremo alla serie di lavoro attuale “difflogexport”
è ARIMA(0,1,1). Di seguito riportiamo i dati di quest’ultimo:
L’output di questa fase risulta così essere: p=0, d=1, q=1.
Stima iterativa dei parametri:
ARIMA Model: export
Estimates at each iteration
Iteration SSE Parameters
0 0,0390872 0,100
1 0,0332588 0,250
2 0,0286004 0,400
3 0,0247816 0,550
4 0,0216240 0,700
5 0,0190726 0,850
6 0,0180220 0,925
7 0,0175265 0,962
8 0,0175156 0,985
9 0,0174683 0,984
Relative change in each estimate less than 0,0010
Final Estimates of Parameters
Type Coef SE Coef T P
MA 1 0,9839 0,0014 712,59 0,000
Differencing: 1 regular difference
Number of observations: Original series 132, after differencing 131
Residuals: SS = 0,0173916 (backforecasts excluded)
MS = 0,0001338 DF = 130
Modified Box-Pierce (Ljung-Box) Chi-Square statistic
Lag 12 24 36 48
Chi-Square 19,7 33,3 40,3 45,9
DF 11 23 35 47
P-Value 0,050 0,076 0,248 0,519
11. Si può notare l’estrema significatività del p-value, che porta dunquea non rifiutare
l’ipotesi nulla H0. Infine, il parametro ottenuto dalla stima è paria Ѳ= 0,9839. Dopo
la fase di stima del modello, si passa ora alla fasedi verifica suiresidui.
Verifica del modello (coerenza con le ipotesi di WN)
Dopo aver stimato il modello è necessario verificare il comportamento dei residui.
Infatti, se il modello è stato identificato correttamente, allora le ipotesi dei residui
devono coincidere con quelle degli White Noise. Se rispettano quest’ultime ipotesi,
allora i valori all’interno del Correlogramma della funzione di Autocorrelazione
Totale e Parziale (ACF e PACF) dovranno trovarsi all’interno delle bande di
confidenza per ogni lag e l’Istogramma dovrà rispettare le ipotesi di gaussianità
(trovandosi dunque ad avere una forma campanulare). Quindi applicheremo il
modello ARIMA trovato, alla serie originaria. Di seguito riportiamo i grafici necessari
alla verifica:
(Figura 2.0 – Istogramma deiresiduidella serie esportazioni)
2000150010005000-500-1000-1500
30
25
20
15
10
5
0
Residual
Frequency
Histogram
(response is export)
12. (Figura 2.1 – Funzione di Autocorrelazione Totale della serie esportazioni)
302520151051
1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
Lag
Autocorrelation
ACF of Residuals for export
(with 5% significance limits for the autocorrelations)
13. (Figura 2.2 – Funzione di Autocorrelazione Parziale della serie esportazioni)
Con riferimento ai grafici sopra riportati, possiamo in primo luogo dire che
l’Istogramma si presenta in modo approssimativamente gaussiano. In secondo
luogo, i Correlogrammi Totali e Parziali (Figure 2.1-2.2) rispettano in pieno l’ipotesi
WN poiché tutti i valori sono contenuti all’interno delle bande di confidenza.
Dunque, dopo aver accertato la verifica dei residui, si può riscrivere l’equazione del
modello come:
(1-B)d
Zt = Ѳ(B)at
Zt =Zt-1+ at- Ѳ1at-1
Con at ~ WN (0, σa
2
)
A questo punto, dopo aver compiuto la verifica, è possibile utilizzare tale modello
per fini previsivi. Tuttavia, considerando che i modelli ARMA/ARIMA forniscono solo
previsioni di breve/brevissimo termine, non ne potranno essere fatte molte.
302520151051
1,0
0,8
0,6
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
Lag
PartialAutocorrelation PACF of Residuals for export
(with 5% significance limits for the partial autocorrelations)
14. (Figura 2.3 – Time Series Plot della serie di partenza)
Quest’ultimo grafico (Figura 2.3),è stato ottenuto attraverso l’estrazione dalla
serie originale della futura struttura di dipendenza realizzata con 6 previsioni.
Conclusioni ( breve analisi complessiva passo passo dei procedimenti fatti)
Per costruire un modello che, applicato alla serie storica, determini un processo
stocastico generatore della stessa, occorre effettuare la procedura di
“identificazione – stima – verifica” di Box-Jenkins. Si procede dunque
all’introduzione di questa procedura attraverso la prima fase di analisi
preliminare; dalla quale la serie originale non presentava né stazionarietà in
media né in varianza, non vi erano stagionalità, si poteva notare un trend non
sempre crescente, vi era la presenza di valori anomali (“outlier”) e una non-
gaussianità (come si nota dalla Figura 1.1). Con queste premesse, abbiamo
1301201101009080706050403020101
32500
30000
27500
25000
22500
20000
17500
15000
Time
export
Time Series Plot for export
(with forecasts and their 95% confidence limits)
15. inizialmente proceduto all’applicazione dei logaritmi per rendere la serie
omoschedastica, seguita da una differenziazione di quest’ultima al fine di
ricercare anche la stazionarietà in media. Per verificare la necessità
dell’applicazione dei logaritmi, abbiamo effettuato un confronto tra la serie
differenziata con (“diff1logexport”) e senza logaritmi (“diff1”), notando come la
serie “diff1logexport” sia più omoschedastica rispetto alla serie “diff1”. Queste
procedure hanno portato anche una riduzione significativa della deviazione
standard da 3460 (serie originale) a 584,3 (serie differenziata). In seguito, siamo
passati alla fase di identificazione del modello mediante il confronto tra
correlogrammi campionari e teorici (Figure 1.8 – 1.9), dai quali è stato possibile
determinare il modello da applicare alla serie originale. Infatti, la scelta è stata
quella di stimare il modello MA(1), equivalente ad un ARIMA (0, 1, 1). Il modello
scelto, è stato stimato sulla serie originale “export”, per ottenere previsioni per i
dati originali. Durante queste progressive procedure per arrivare a questo
risultato i dati si sono ridotti a 132. Successivamente, abbiamo effettuato la
stima iterativa dei parametri, determinando così il coefficiente dello stesso: Ѳ=
0,9839. Dopo la fase di stima, siamo passati alla fase di verifica dei residui sul
modello scelto ed applicato sulla serie originale, per accertarsi che fossero fedeli
alle ipotesi del White Noise. Quindi, dai correlogrammi (Figure 2.1-2.2) si può
notare come i valori sono contenuti tutti all’interno delle bande di confidenza;
l’Istogramma (Figura 2.0) si presenta in modo approssimativamente gaussiano.
La fase si è conclusa positivamente, e questo ha conseguentemente permesso
l’utilizzo di questo modello ARIMA (0, 1, 1) o IMA (1, 1) sulla serie originale per
ottenere una previsione dei dati per i successivi 6 mesi (Figura 2.3).