SlideShare a Scribd company logo
1 of 107
Download to read offline
Università degli Studi di Padova
Dipartimento di Scienze Statistiche
Corso di Laurea Magistrale in
Scienze Statistiche
Modelli Funzionali Autoregressivi
Parametrici e non Parametrici
Relatore Prof. Francesco Lisi
Dipartimento di Scienze Statistiche
Laureando: Filippo Cantarello
Matricola N 1156573
Anno Accademico 2018 / 2019
iii
Sommario
INTRODUZIONE..................................................................................................... 1
1 L’ANALISI DEI DATI FUNZIONALI................................................................ 3
1.1 INTRODUZIONE E RICOGNIZIONE DELLA BIBLIOGRAFIA..................................... 3
1.2 STRUMENTI UTILI NELL’FDA........................................................................ 6
1.2.1 Spazi di Hilbert..................................................................................... 7
1.2.2 Tecniche di smoothing dei dati............................................................ 8
1.2.3 Basi di Fourier...................................................................................... 9
1.2.4 Basi B-Splines..................................................................................... 11
1.2.5 La stima dei parametri ...................................................................... 12
2 MODELLI PER DATI FUNZIONALI .............................................................. 13
2.1 UN MODELLO FUNZIONALE PARAMETRICO: IL FAR(Q)................................... 14
2.2 MODELLI FUNZIONALI NON PARAMETRICI..................................................... 18
2.2.1 Il modello NP-FAR.............................................................................. 18
2.3 METODI BASATI SULL’ALGORITMO K-NEAREST NEIGHBORS ............................ 20
2.3.1 k-nearest neighbors funzionale......................................................... 20
2.3.2 k-nearest neighbors funzionale lineare ............................................ 23
3 SIMULAZIONI MONTE CARLO..................................................................... 29
3.1 IL MODELLO VAR(1)................................................................................. 31
3.2 DGP FAR(1) CON NUCLEO DIAGONALE ....................................................... 32
3.3 DGP SETAR(1,1) CON REGIMI SBILANCIATI................................................ 36
3.4 DGP SETAR(1,1) CON REGIMI BILANCIATI ................................................. 43
4 APPLICAZIONE AI DATI REALI................................................................... 49
4.1 CONSUMI DI GAS NATURALE NEGLI U.S......................................................... 52
4.2 DOMANDA E PREZZI INGLESI DELL’ELETTRICITÀ............................................ 55
4.2.1 Domanda di energia elettrica............................................................ 56
4.2.2 Prezzi dell’energia elettrica............................................................... 65
iv Sommario
4.3 EL NINO....................................................................................................73
4.3.1 Area 3.4...............................................................................................74
4.3.2 Area 1+2..............................................................................................77
CONCLUSIONI.......................................................................................................81
APPENDICE...........................................................................................................85
CODICE R UTILIZZATO............................................................................................85
RINGRAZIAMENTI ...............................................................................................97
BIBLIOGRAFIA......................................................................................................99
Introduzione
L’obiettivo di questa tesi riguarda l’introduzione di due modelli autoregressivi
funzionali di ordine uno basati sull’algoritmo dei k vicini più prossimi, al fine
di confrontarne le performances predittive con quelle effettuate attraverso i
modelli parametrici o non parametrici già implementati nel software statistico
R. Lo scopo, quindi, è quello di capire quando la selezione di un numero di
osservazioni fisso possa offrire dei vantaggi sull’utilizzare tutta l’informazione
a disposizione nei dati oppure, rispetto all’uso di un’ampiezza di banda fissa.
Il contesto è quello delle serie storiche funzionali.
L’elaborato si compone di cinque capitoli, divisi in base al contenuto di
ciascuno.
Nel primo, sono presentati i dati funzionali, una ricognizione della bibliografia
riguardante i lavori svolti nell’ambito delle serie storiche funzionali, e le
problematiche in cui ci si imbatte quando si ha a che fare con questo genere di
dati.
Segue, la presentazione dei modelli funzionali autoregressivi parametrici e
non, fulcro del confronto in questa tesi, nel capitolo 2.
Il terzo capitolo è interamente dedicato alle simulazioni. Questa parte risulta
cruciale, in quanto si cercherà di capire in quali contesti gli approcci non
parametrici possano essere preferibili rispetto a quelli parametrici. Per fare
ciò, si sono applicati i modelli a delle serie, simulate artificialmente, con
diverse caratteristiche. Oltre a ciò, si sono valutate le caratteristiche dei due
modelli basati sul k-nn proposti, al variare del loro specifico iperparametro.
Nel capitolo 4, si sono voluti confrontare i modelli su alcune serie storiche reali
cercando, ove possibile, di trovare delle corrispondenze con i risultati
derivanti dalle simulazioni, ricavati nel capitolo precedente.
Seguono un capitolo in cui si cerca di fare il punto sulle conclusioni ottenute
ed un appendice, nella quale si trovano i codici delle funzioni utilizzate nel
corso della tesi.
2 Introduzione
1 L’analisi dei dati funzionali
1.1 Introduzione e ricognizione della bibliografia
L’analisi dei dati funzionali, nota anche attraverso l’acronimo FDA, coniato da
Ramsay e Dalzell (1991), è una disciplina statistica che può essere vista come
un’estensione delle tradizionali tecniche di analisi multivariata quando i dati,
anziché vettori, sono delle curve che evolvono in relazione ad una sottostante
variabile continua (Aguilera, 2013).
Uno dei maggiori vantaggi che offre l’approccio funzionale è dovuto alla natura
stessa dei dati. Essendo, questi, funzioni, risulta infatti possibile manipolarli
in modi inusuali, per esempio ricavandone le derivate, in maniera tale da
studiare aspetti di interesse diversi da quelli carpibili attraverso l’analisi dei
dati grezzi. Se considerassimo il tempo come variabile continua sottostante,
per esempio, prendere la derivata prima e seconda della funzione
rappresentativa di un dato fenomeno rispetto allo stesso tempo
significherebbe ricavare rispettivamente velocità ed accelerazione del
fenomeno oggetto di studio. Chiaramente, per poter sfruttare queste
potenzialità, risulta necessario avere delle funzioni regolari.
Un ulteriore vantaggio rispetto alle classiche tecniche statistiche è dovuto al
fatto che ciascuna funzione è valutabile in ogni punto del suo dominio, per cui
viene meno il problema di avere delle osservazioni ad intervalli non
equispaziati.
Un celebre esempio in cui si possono apprezzare entrambi i vantaggi offerti da
un approccio di tipo funzionale è fornito da R.D. Bock et al. (1995), che hanno
studiato l’accelerazione nella crescita di un gruppo di ragazze di Berkeley le
altezze delle quali erano state precedentemente registrate nello studio di
Tuddenham e Snyder (1954), ad intervalli non equispaziati, dal momento della
nascita al compimento dei 18 anni. Per poter fare ciò, gli autori hanno fatto
ricorso a delle splines di lisciamento, metodo che verrà spiegato nei paragrafi
a venire.
4 L’analisi dei dati funzionali
Nella pratica, si tende a parlare di dati funzionali quando si ha a che fare con
misurazioni ripetute di una stessa variabile che varia, come detto, su un
continuo.
Questa disciplina, che ha raggiunto il proprio apice quanto a notorietà solo
recentemente, è stata studiata da diversi autori, i quali hanno contribuito nella
ricerca e nello sviluppo di metodologie fruibili in aree di interesse piuttosto
differenziate. Tra questi, una citazione doverosa va a J.O. Ramsay e
B.W. Silverman (1997, 2002), le monografie dei quali rappresentano tutt’oggi
un riferimento nell’ambito dell’FDA, in quanto sono ivi riportati i più diffusi
strumenti per trattare questa tipologia di dati. In Ramsay, Hooker e Graves
(2009), inoltre, è presentata la libreria fda, scritta sia in R che in Matlab, in cui
sono presenti alcune delle routines che permettono l’implementazione dei
principali strumenti di analisi funzionale, e che verrà richiamata anche
all’interno dei codici presenti in appendice.
Approcci di tipo funzionale sono stati utilizzati nello studio di problemi relativi
ad ambiti piuttosto diversificati, dalle scienze naturali alla medicina, piuttosto
che alla finanza.
Gromenko et al. (2017), per esempio, hanno affrontato un problema, molto
controverso nella fisica contemporanea, in cui si ipotizzava la presenza di un
trend di raffreddamento nella ionosfera, connesso al surriscaldamento globale.
L’applicazione di un approccio di tipo funzionale ha garantito il superamento
del problema costituito dalla disponibilità di serie temporali troppo corte o
incomplete che, se studiate una alla volta, avevano portato a conclusioni
discordanti. Ciò ha permesso agli autori di arrivare a confermare l’effettiva
presenza di questo fenomeno e di porre, dunque, fine ad un dibattito durato
più di due decenni.
T.S. Tian (2010) ha discusso l’applicazione di metodologie di tipo funzionale ai
problemi dell’estrazione delle caratteristiche più rilevanti e della
classificazione delle immagini derivanti da risonanze magnetiche cerebrali
funzionali (fMRI). Questi dati sono stati oggetto di molti studi proposti in
letteratura, tra i quali spicca la proposta di utilizzare le componenti principali
funzionali per ricavare i segnali di interesse dalle funzioni rappresentanti i
voxels, cioè le controparti tridimensionali dei pixels delle immagini (Viviani et
al., 2005).
Introduzione e ricognizione della bibliografia 5
Le applicazioni dell’FDA in ambito finanziario risultano piuttosto recenti. Per
quanto concerne la disciplina del Risk Management, grande interesse assume
la proposta di C.X. Cai et al. (2018) che prevede di modellare la densità dei
rendimenti intra-giornalieri attraverso un modello autoregressivo funzionale
al fine di prevedere il valore a rischio a livello giornaliero.
Hörmann et al. (2013) hanno presentato e studiato le condizioni di
stazionarietà dell’estensione funzionale del modello autoregressivo ad
eteroschedasticità condizionata (ARCH), successivamente ulteriormente
generalizzato da Aue et al. (2017), che hanno introdotto e studiato le proprietà
del GARCH(1,1) funzionale. Cerovecki, Franq, Hörmann e Zakoïan (2019)
hanno proposto uno stimatore consistente e asintoticamente normale per i
parametri del GARCH(1,1) funzionale, basato sulla quasi-verosimiglianza
anziché sul metodo dei momenti.
In Kokoszka et al. (2014), attraverso l’applicazione di modelli funzionali
fattoriali è emerso come la forma delle curve rappresentanti i futures sul
grezzo impatti sulla forma delle curve dei prezzi intragiornalieri delle azioni
delle blue chips.
Ancora, per quanto concerne le serie storiche funzionali che, come si vedrà più
avanti, saranno l’ambito di applicazione considerato in questa tesi, si possono
citare diversi altri lavori. In ambito parametrico, grande risonanza hanno
assunto lavori dei francesi D. Bosq (1991), che ha introdotto il modello
autoregressivo Hilbertiano di ordine 1 (ARH), in seguito ampiamente
ridiscusso dallo stesso nella sua successiva monografia (D. Bosq, 2000) e
B. Pumo, al quale si devono l’espansione del modello ARH agli spazi di Banach
(B. Pumo, 1992) e a quello delle funzioni continue in [0,1] (B. Pumo, 1999).
P. Besse e H. Cardot (1996) hanno studiato le differenze nell’applicare il
modello ARH(1) sulle osservazioni grezze o su quelle lisciate attraverso
funzioni splines, mostrando come quest’ultimo tipo di approccio potesse
portare a previsioni più accurate. Gli stessi, inoltre (P. Besse e H. Cardot, 2000),
hanno paragonato le previsioni effettuate attraverso il modello funzionale
autoregressivo di ordine uno con quelle di un SARIMA sulla serie storica delle
temperature relative al fenomeno ‘el Ni𝑛̃o’, che verrà studiato anche in questo
elaborato. Damon e Guillas (2005) hanno presentato il modello ARHX,
estensione dell’ARH in cui vengono considerate delle dipendenze da variabili
esplicative funzionali esogene. Inoltre, vanno citati i lavori di Hörmann e
Kokoszka (2010) sui dati debolmente dipendenti, e di quest’ultimo con
6 L’analisi dei dati funzionali
D. Didericksen e Xi Zhang (2011), in cui vengono messi a confronto, attraverso
un piano di simulazione, diversi stimatori per il nucleo dell’ARH(1), che
generalmente sono basati sulle componenti principali funzionali.
In ambito funzionale non parametrico, le applicazioni ai processi dipendenti
risultano piuttosto recenti. In letteratura, si possono annoverare i lavori di
Ferraty, Gioia, Vieu (2002) e Ferraty, Vieu (2004), nei quali è stato introdotto e
discusso un modello di regressione locale basato sul kernel di Nadaraya-
Watson, le proprietà asintotiche delle cui stime sono state studiate e discusse
in E. Masry (2005) in Laib, Nouani (2010) ed in Ferraty et al. (2011).
Zhu e Politis (2017) hanno studiato le proprietà di un modello non parametrico
autoregressivo di ordine uno ed introdotto delle approssimazioni bootstrap
per le regioni di confidenza delle previsioni.
Importante, inoltre, il contributo fornito da E. Paparoditis e T. Sapatinas (2013)
che hanno utilizzato la regressione locale per prevedere i consumi energetici
di Cipro.
In letteratura sono presenti una moltitudine di altri lavori nell’ambito
dell’FDA. Quelli precedentemente riportati si sono scelti perché ritenuti
esemplificativi degli ambiti di utilizzo di questo strumento così versatile, o
perché alcuni dei sopra citati campi di applicazione rappresentano tutt’oggi
campo florido per ulteriori lavori di ricerca.
1.2 Strumenti utili nell’FDA
Data la natura particolare relativa ai dati funzionali, si riportano, nei prossimi
paragrafi, alcuni strumenti teorici e metodologici, utili in questo contesto. Se,
da un lato, avere a che fare con funzioni anziché osservazioni puntuali porta
alla necessità di superare il concetto di spazio euclideo, dall’altro lato bisogna
considerare che quelle che si osservano sono delle discretizzazioni di processi
in realtà continui e, perciò, risulta fondamentale risalire, nella maniera più
precisa possibile, ai veri processi.
Strumenti utili nell’FDA 7
1.2.1 Spazi di Hilbert
Nel campo dell’analisi funzionale, si ha a che fare con degli oggetti di
dimensione infinita, delle funzioni, per l’appunto. Ciò implica la necessità di
generalizzare lo spazio euclideo, introducendo lo spazio di Hilbert.
Definizione. Spazio di Hilbert
Uno spazio vettoriale dotato di prodotto scalare (detto spazio Pre-Hilbertiano)
e completo rispetto alla norma indotta dal prodotto scalare è chiamato spazio
di Hilbert (H).
La principale differenza tra uno spazio di Hilbert e quello euclideo è legato al
fatto che il primo sia uno spazio infinito dimensionale, cioè la cardinalità (il
numero di elementi) di ogni sua base non è finito. Al lato pratico, ciò avrà delle
ripercussioni sulle metodologie che si andrà elencando in quanto, ai fini
dell’implementazione, sarà necessario effettuare delle semplificazioni.
Oltre a ciò, vi è un’ulteriore differenza nel considerare H anziché lo spazio
euclideo. In ogni spazio finito dimensionale, infatti, tutte le norme sono
equivalenti.
In simboli:
sia 𝑉 uno spazio vettoriale a dimensione finita, allora, fissate ‖ . ‖ 𝑎 e ‖ . ‖ 𝑏,
esistono due costanti 𝑐1 e 𝑐2 tali che 𝑐1‖ 𝑣 ‖ 𝑏 ≤ ‖ 𝑣 ‖ 𝑎 ≤ 𝑐2‖ 𝑣 ‖ 𝑏, ∀ 𝑣 ∈ 𝑉.
Questa caratteristica implica che anche le distanze indotte dalle norme,
𝑑(𝑣, 𝑤) = ‖ 𝑣 − 𝑤 ‖, siano equivalenti.
Nel caso di spazi infinito dimensionale, invece, la precedente proprietà non è
più garantita e ciò può portare a problemi di diversa natura. Per esempio, il
limite di una successione può convergere rispetto ad una norma e divergere
rispetto ad un’altra. Vista questa problematicità, risulta utile, nelle
applicazioni, fissare una norma e, per fare questo, può essere utile fare ricorso
allo spazio 𝐿2
, delle funzioni quadrato integrabili, l’unico spazio 𝐿 𝑝
che è spazio
di Hilbert (gli altri sono spazi di Banach, ulteriore generazione del concetto di
spazio di Hilbert). Il ricorso a questo spazio rende molte applicazioni
concettualmente più semplici in quanto risulta piuttosto simile allo spazio
euclideo. In particolare, la norma, indotta dal prodotto scalare, è assimilabile
8 L’analisi dei dati funzionali
ad una versione integrale della norma euclidea quando al posto di vettori, si
hanno delle funzioni 𝑓:
‖𝑓‖2 = (∫ 𝑓2(𝑡)𝑑𝑡)
1/2
. (1)
1.2.2 Tecniche di smoothing dei dati
Lo sviluppo delle tecniche di analisi funzionale è cresciuto notevolmente negli
ultimi anni, nei quali, grazie ai notevoli progressi tecnologici, è risultato
possibile immagazzinare e gestire grandi moli di dati densamente campionati
da processi continui. Chiaramente, proprio il processo di campionamento
richiede che l’utente finale possa analizzare solo una discretizzazione di un
processo in realtà continuo.
Oltre a ciò, spesso, le osservazioni campionarie in possesso del ricercatore
sono sporcate da errori, siano essi errori di rilevazione o dovuti ad altri fattori.
In termini matematici, si ha che l’osservazione funzionale 𝑥𝑖, valutata al tempo
t, risulta pari a: 𝑥𝑖(𝑡) = 𝑓𝑖(𝑡) + 𝜀𝑖(𝑡), 𝑖 = 1, … , 𝑛, 𝑡 = 1, … , 𝑇,
dove 𝑓𝑖(𝑡) è la vera funzione sottostante il processo osservato ed 𝜀𝑖(𝑡) un
termine di errore.
L’operazione che permette di ottenere una stima di 𝑓𝑖(𝑡) viene detta
lisciamento (smoothing) dei dati. Questa problematica è stata affrontata in
letteratura attraverso più approcci. Tra questi, i metodi che hanno avuto più
successo prevedono la rappresentazione delle funzioni attraverso delle
combinazioni lineari di funzioni, dette di base. In particolare, se K è il numero
di queste funzioni di base (𝜙 𝑘(𝑡)), la generica f potrà essere scritta come:
𝑓(𝑡) = ∑ 𝑐 𝑘 𝜙 𝑘(𝑡)
𝐾
𝑘=1
, (2)
dove i 𝑐 𝑘 sono dei coefficienti.
In letteratura, sono stati proposti diversi tipi di funzioni di base, la cui utilità
dipende dalla natura dei dati. In questo elaborato, ci si soffermerà in particolar
modo sulle basi di Fourier e sulle B-Splines, molto diffuse quando si ha a che
fare con dati rispettivamente periodici o non periodici.
Strumenti utili nell’FDA 9
1.2.3 Basi di Fourier
Le basi di Fourier sono ricavabili direttamente a partire dalla serie di Fourier.
Questa, generalmente nota attraverso la sua rappresentazione in forma
esponenziale, è uno strumento molto utilizzato nell’ambito della teoria dei
segnali, in quanto permette di decomporre qualsiasi segnale periodico in una
somma pesata infinita di funzioni oscillanti, quali esponenziali complessi.
Tuttavia, per definire le basi di Fourier, risulta più utile considerare la forma
trigonometrica della serie. Essendo questa meno nota, si è pensato di fare cosa
gradita riportando, di seguito, i passaggi necessari per ricavarla.
Data la funzione periodica 𝑓, la serie di Fourier per 𝑓 è definita come:
𝑓(𝑡) = ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡
∞
𝑙=−∞
. (3)
Essendo, per 𝑙 = 0, 𝑒0
= 1, è possibile riscriverla come:
𝑓(𝑡) = 𝑚0 + ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡
−1
𝑙=−∞
+ ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡
∞
𝑙=1
= 𝑚 𝑜 + 𝑚−1 𝑒−𝑖𝜔𝑡
+ 𝑚1 𝑒 𝑖𝜔𝑡
+ 𝑚−2 𝑒−𝑖2𝜔𝑡
+ 𝑚2 𝑒−𝑖2𝜔𝑡
+ ⋯ .
Usando le formule di Eulero si avrà dunque:
𝑓(𝑡) = 𝑚0 + 𝑚−1 [cos(𝜔𝑡) − 𝑖 sin(𝜔𝑡)] + 𝑚1 [cos(𝜔𝑡) + 𝑖 sin(𝜔𝑡)] +
+ 𝑚−2 [cos(2𝜔𝑡) − 𝑖 sin(2𝜔𝑡)])] + 𝑚2 [cos(2𝜔𝑡) + 𝑖 sin(2𝜔𝑡)] + ⋯
𝑓( 𝑡) = 𝑚0 + (𝑚−1 + 𝑚1) cos( 𝜔𝑡) − 𝑖(𝑚−1 + 𝑚1) sin( 𝜔𝑡) +
+(𝑚−2 + 𝑚2) cos(2𝜔𝑡) − 𝑖(𝑚−2 + 𝑚2) sin(2𝜔𝑡) + ⋯
𝑓(𝑡) = 𝑚0 + (𝑚1 + 𝑚−1) cos(𝜔𝑡) + 𝑖(𝑚1 + 𝑚−1) sin(𝜔𝑡) +
+(𝑚2 + 𝑚−2) cos(2𝜔𝑡) + 𝑖(𝑚2 + 𝑚−2) sin(2𝜔𝑡) + ⋯
10 L’analisi dei dati funzionali
Posti:
𝑎0 = 𝑚0;
𝑎𝑙 = (𝑚𝑙 + 𝑚−𝑙) ;
𝑏𝑙 = 𝑖(𝑚𝑙 − 𝑚𝑙−1),
si otterrà:
𝑓(𝑡) = ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡
= 𝑎0 + ∑ [ 𝑎𝑙 cos(𝑙𝜔𝑡))
∞
𝑙=1
∞
𝑙=−∞
+ 𝑏𝑙 sin(𝑙𝜔𝑡)] . (4)
Quest’ultima è la serie di Fourier, scritta nella sua forma trigonometrica. Come
si può vedere, una funzione è rappresentabile come combinazione lineare di
seni e coseni, tra loro ortogonali, che entrano a coppie nell’espansione. La
costante 𝜔 = 2 𝜋
𝑇⁄ è relativa al periodo di osservazioni, T. Proprio tale
collezione di seni e coseni, unita al valore 1, associato alla costante (𝑎0),
definisce le basi di Fourier. Data la natura di queste ultime, risulta più facile
capire perché il loro utilizzo risulti di particolare utilità quando si devono
modellare dati caratterizzati da periodicità.
L’immagine qui sotto riporta le prime cinque basi di Fourier, definite
nell’intervallo [0,2𝜋].
Figura 1.1. Prime 5 Basi di Fourier in [0,2𝜋].
Strumenti utili nell’FDA 11
1.2.4 Basi B-Splines
Le basi B-Splines sono un caso particolare delle funzioni Splines, polinomiali a
tratti con vincoli di continuità in alcuni punti, detti nodi, selezionati sull’asse
delle ascisse. La particolarità che contraddistingue le funzioni B-Splines è che
queste assumono valori diversi da 0 solo in determinati intervalli e ciò
permette di evitare il problema dell’alta correlazione sofferto dalle più
generiche basi Power-Splines.
In termini matematici, indicata con {𝑡1, 𝑡2, 𝑡3, … , 𝑡 𝐾} una successione non
decrescente di nodi, una base B-Splines di ordine 1 è definita come:
𝐵𝑖,1(𝑡) = {
1, 𝑠𝑒 𝑡𝑖 < 𝑡 < 𝑡𝑖+1
0, 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 ,
(5)
soggetta al vincolo:
∑ 𝐵𝑖,1(𝑡) = 1 , ∀ 𝑡𝑖 .
Muovendo dalla B-Spline di ordine 1 è possibile definire la generica B-Spline di
ordine p per via ricorsiva:
𝐵𝑖,𝑝 = 𝜔𝑖,𝑝 𝐵𝑖,𝑝−1 + (1 − 𝜔𝑖+1,𝑝)𝐵𝑖+1,𝑝−1 , (6)
con
𝜔𝑖,𝑝(𝑡) = {
𝑡 − 𝑡𝑖
𝑡𝑖+𝑝−1 − 𝑡𝑖
, 𝑠𝑒 𝑡𝑖 ≠ 𝑡𝑖+𝑝−1
0, 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 .
(7)
Per ulteriori approfondimenti, si rimanda a De Boor (2001).
Figura 1.2. Prime 5 Basi B-Splines in [0,2𝜋].
12 L’analisi dei dati funzionali
1.2.5 La stima dei parametri
Una volta che è stata scelta la tipologia di funzioni di base attraverso la quale
si intende rimuovere il rumore per ricostruire le vere funzioni sottostanti è
possibile passare alla fase di stima dei parametri. Fissato a priori il numero di
nodi, i coefficienti possono essere stimati attraverso i minimi quadrati
ordinari.
Si avrà, dunque, data Φ = (𝜙1 𝜙2, . . , 𝜙 𝐾):
𝑐̂𝑖 = (Φ 𝑇
Φ)−1
Φ 𝑇
𝑥𝑖 . (8)
In questo contesto, risulta di fondamentale importanza la selezione del
corretto numero di nodi, che può avvenire, per esempio, attraverso procedure
di tipo stepwise, al fine di evitare il sovradattamento ai dati.
Un approccio alternativo alla stima dei parametri, che evita la problematica
della scelta del numero di nodi è quello basato sulle Splines di lisciamento. In
questo contesto, infatti, viene posto un nodo in corrispondenza di ogni singola
osservazione ed il grado di lisciamento è governato da un parametro (𝜆) che
moltiplica un termine di penalizzazione che coinvolge l’integrale della derivata
seconda al quadrato dell’espansione in basi. Lo stimatore che ne deriva
assume la forma:
𝑐̂𝑖 = (Φ 𝑇
Φ + λR 𝜙)
−1
Φ 𝑇
𝑥𝑖 , (9)
dove R 𝜙 è una matrice che contiene l’integrale della derivata seconda della
base di funzioni. Nelle applicazioni pratiche, che saranno svolte nel quarto
capitolo, in particolare, verrà utilizzata una variante di questo metodo, che
permette di controllare sia il grado di penalizzazione che il numero di nodi.
2 Modelli per dati funzionali
L’interesse di questa tesi verte sul confronto tra più modelli al fine di vedere
come impatta la natura dei dati forniti in input sulle loro capacità predittive. A
tal fine, verranno introdotti, in questo capitolo, i modelli funzionali considerati,
suddividendoli tra parametrico e non parametrici.
Nell’FDA esistono tre categorie di modelli, contraddistinte in base alla natura
ed al ruolo delle variabili in gioco.
Schematizzando, si possono distinguere:
• modelli scalare-funzionale, in cui le variabili esplicative hanno natura
funzionale mentre la risposta è scalare o multivariata;
• modelli funzionale-scalare, dove le covariate sono scalari mentre la
variable risposta è funzionale;
• modelli funzionale-funzionale (o fully functional), nei quali tutte le
variabili in gioco presentano una natura funzionale. Inoltre, quando il
legame ipotizzato tra le variabili è di tipo lineare si possono distinguere
in questa categoria due sotto-casi:
o Quello in cui viene ipotizzato che il legame tra la variabile
esplicative e la risposta avvenga solo per gli stessi valori del
processo continuo sottostante i funzionali. Questo significa, per
esempio, che se il sottostante continuo è il tempo, si modellano
gli effetti contemporanei delle covariate sulla variabile risposta.
Questa tipologia di modelli prende il nome di concurrent;
o Il caso in cui la variabile risposta può essere influenzata da una
generica covariata per qualsiasi valore assuma il processo
sottostante.
In questo elaborato, ci si soffermerà sull’ultima tipologia citata, in quanto si
avrà a che fare con variabili esclusivamente funzionali. In particolare, i dati
considerati presentano la forma di serie storiche funzionali, che sono delle
generalizzazioni delle tradizionali serie storiche univariate in cui, tuttavia, le
osservazioni dipendenti hanno natura funzionale. Il processo continuo
sottostante le realizzazioni, di conseguenza, risulta essere il tempo.
14 Modelli per dati funzionali
I modelli considerati, che saranno esposti di seguito, hanno tutti natura
autoregressiva di ordine 1, essendo che si è voluto effettuare un confronto alla
pari sulle loro capacità predittive.
2.1 Un modello funzionale parametrico: il FAR(q)
Il FAR(q), acronimo che sta per Functional autoregressive model, è un modello
lineare parametrico che rappresenta l’estensione al caso funzionale del
tradizionale modello autoregressivo univariato di ordine q.
Definizione 1. FAR(q).
Una sequenza 𝑋 = {𝑋 𝑛, 𝑛 ∈ 𝒁} di variabili casuali quadrato integrabili (cioè
facenti parte dello spazio 𝐿2
) aventi media zero è chiamata FAR(q) se
𝑋 𝑛 = Φ1(𝑋 𝑛−1) + Φ2(𝑋 𝑛−2) + ⋯ + Φ 𝑞(𝑋 𝑛−𝑞) + 𝜀 𝑛 , (10)
dove il generico Φ𝑖: 𝐿2
→ 𝐿2
è un operatore che trasforma una funzione in
un’altra funzione ed 𝜀 = {𝜀 𝑛, 𝑛 ∈ 𝒁} è una sequenza di errori i.i.d. a media
zero.
L’operatore integrale Φ𝑖, nello specifico, è definito come
Φ𝑖(𝑥)(𝑡) = ∫ 𝜑𝑖(𝑡, 𝑠)𝑥(𝑠)𝑑𝑠, con 𝑥 ∈ 𝐿2
e 𝜑𝑖(𝑡, 𝑠) è detto nucleo.
1
0
(11)
Nello specifico, in questo elaborato, verrà fatto ricorso al FAR(1), caso
particolare del generico FAR(q) quando q=1. L’equazione che definisce il
modello FAR(1), in particolare, è riscrivibile in forma estesa come:
𝑋 𝑛(𝑡) = ∫ 𝜑(𝑡, 𝑠)𝑋 𝑛−1(𝑠)𝑑𝑠
1
0
+ 𝜀 𝑛. (12)
Solitamente, nella realtà, le funzioni 𝑋 𝑛 presentano media diversa da zero.
Tuttavia, per ricondurci al caso generale, sarà sufficiente sottrarre a ciascuna
osservazione la funzione media 𝜇, stimabile agevolmente come media di tutte
la curve a disposizione:
Un modello funzionale parametrico: il FAR(q) 15
𝜇̂ = 𝑁−1
∑ 𝑋 𝑛
𝑁
𝑖=1
.
In linea teorica, lo stimatore del nucleo di un FAR(1) sarebbe ottenibile
invertendo la funzione di autocovarianza tra 𝑋 𝑛 ed 𝑋 𝑛−1. Tuttavia, essendo
ciascuna osservazione una funzione che assume valori in 𝐿2
, è risultato
necessario approssimarla attraverso l’espansione in componenti principali
funzionali (FPC), in questo contesto detta di Karhunen-Loéve.
Tralasciando i passaggi che permettono di ricavarlo, si riporta di seguito lo
stimatore del nucleo di un FAR(1).
𝜑̂ 𝑝(𝑡, 𝑠) =
1
𝑁 − 1
∑ ∑ ∑ 𝜆̂ 𝑗
−1
〈𝑋 𝑘 𝑣̂𝑗〉〈𝑋 𝑘+1 𝑣̂𝑖〉
𝑝
𝑖=1
𝑝
𝑗=1
𝑁−1
𝑘=1
𝑣̂𝑗(𝑠)𝑣̂𝑖(𝑡). (13)
I 𝜆𝑖 sono gli autovalori della funzione di autocovarianza, mentre le 𝑣̂𝑗 sono le
autofunzioni, l’equivalente negli spazi di Hilbert degli autovettori.
Il parametro p, va selezionato accuratamente, in modo da trovare un buon
bilanciamento tra le informazioni rilevanti nei dati e l’instabilità dovuta alla
presenza di autovalori piccoli al denominatore.
Si propone, di seguito, un esempio in cui si mostra l’incidenza di un numero
diverso di componenti principali nella stima del nucleo.
È stata generata una serie storica di 2000 dati funzionali da un FAR(1) con
nucleo
𝜑(𝑡, 𝑠) = 𝑠 𝑐𝑜𝑠(𝜋 |𝑠 − 𝑡|) − 0.19
ed errori generati come combinazione lineare del set di 4 basi,
{sin(𝑡) , exp(𝑡) , cos(𝑡) , tan(𝑡)}, valutate su un insieme discreto di punti tra 0
ed 1 ed ortonormalizzate attraverso l’algoritmo di Gram-Schmidt. Il set
risultante è stato in seguito moltiplicato a coefficienti casuali campionati da
una Normale Standard.
Questa particolare scelta dell’errore non è casuale, ma fa riferimento al
concetto di White Noise Hilbertiano che, rispetto al caso scalare, presenta
alcune peculiarità.
16 Modelli per dati funzionali
Definizione 2. Processo White Noise Hilbertiano (H-WN).
Sia 𝜀 = (𝜀 𝑛, 𝑛 ∈ 𝒁) una successione di variabili casuali che assumono valori
in uno spazio H. Si diche che 𝜀 è un H-White Noise se:
• ha media nulla:
𝐸(𝜀 𝑛) = 0 ;
• ha varianza finita:
0 < 𝐸||𝜀 𝑛|| = 𝜎 𝑛
2
< ∞ e l’operatore di covarianza non dipende da n,
𝐶𝜀 𝑛
= 𝐶𝜀 ;
• la cross-covarianza tra gli elementi del processo è zero:
𝐶𝜀 𝑛 𝜀 𝑚
= 𝐸( 〈𝜀 𝑚, . 〉 𝜀 𝑛 ) = 0 , ∀ 𝑛 ≠ 𝑚.
Inoltre, se 𝜀 = {𝜀 𝑛, 𝑛 ∈ 𝒁} è una sequenza di variabili i.i.d., 𝜀 è detto H-White
Noise in senso forte.
Il fatto che la funzione di cross-covarianza sia zero e che, come visto quando si
è esposto lo stimatore di un FAR(1), la funzione di covarianza ammette
l’espansione di Karhunen-Loéve, permette di esprimere un processo H-WN
come
𝜀 𝑛(𝑡) = ∑ 𝑐 𝑛,𝑖 𝑣𝑖(𝑡)
∞
𝑖=1
. (14)
Per definizione, le autofunzioni della matrice di covarianza sono ortogonali,
perciò, per generare dei processi H-WN, oltre a troncare la sommatoria, sarà
necessario semplicemente scegliere delle basi tra loro ortogonali ed imporre
che i coefficienti 𝑐 𝑛,𝑖~𝑁(0, 𝜎𝑖
2
).
Nemmeno la scelta del nucleo è stata effettuata in maniera casuale, ma
soddisfa la condizione di stazionarietà del FAR(1). In particolare, un FAR(1) si
dice stazionario in senso stretto se ∃ 𝑗 ∈ ℕ{0}: ‖Φ 𝑗
‖ < 1.
Per il nucleo considerato, la norma ‖Φ‖ = √∬ 𝜑2(𝑡, 𝑠)𝑑𝑡𝑑𝑠 = 0.354.
Ritornando all’esempio, l’analisi delle componenti principali indica che le
prime tre componenti, le prime quattro e le prime cinque spiegano
rispettivamente il 78%, il 99% ed il 100% della variabilità dei dati.
Un modello funzionale parametrico: il FAR(q) 17
Come si può vedere nelle immagini e dall’indagine dell’RMSE (calcolato per
ciascuna delle 100x100 discretizzazioni nelle quali è stato valutato il nucleo),
l’aggiunta di componenti principali che spiegano una quota troppo bassa di
varianza produce delle distorsioni evidenti nella stima del nucleo.
Figura 2.1. Incidenza del numero di FPC nella stima del nucleo di un FAR(1).
18 Modelli per dati funzionali
Numero FPC 3 4 5
% cumulata di Varianza Spiegata 78 99 100
RMSE 0.13 0.09 3.77
Tabella 2.1. RMSE al variare del numero di FPC nella stima del nucleo di un FAR(1).
2.2 Modelli funzionali non parametrici
2.2.1 Il modello NP-FAR
Il modello FAR può essere generalizzato attraverso una specificazione non
parametrica del legame tra la variabile risposta e le covariate che, nel caso in
esame, coincidono con la stessa risposta ritardata di un lag. Il modello che ne
risulta, chiamato NP-FAR, acronimo di non parametric functional
autoregressive model, può essere specificato come segue. Data 𝑋 ∈ 𝐻, si ha:
𝑋̂ 𝑛 = ∑ 𝜔𝑖,ℎ 𝑋𝑖
𝑛
𝑖=2
(15)
con:
𝜔𝑖,ℎ(𝑥) =
𝐾ℎ (
𝑑(𝑋𝑖−1, 𝑥)
ℎ
)
∑ 𝐾ℎ (
𝑑(𝑋𝑖−1, 𝑥)
ℎ
)𝑛
𝑖=2
(16)
𝑒 ∑ 𝜔𝑖 = 1
𝑛
𝑖=1
.
K indica un nucleo ed h è un fattore di scala, detto ampiezza di banda, che va
scelto. Nelle applicazioni, in particolare, h verrà selezionato attraverso
convalida incrociata oppure facendolo variare su una griglia e scegliendolo in
base al minore errore prodotto nell’insieme di verifica (procedura più time-
consuming, utilizzata quando la numerosità dell’insieme di stima era
Modelli funzionali non parametrici 19
abbastanza contenuta). 𝑑( . ) indica una semi-metrica definita a priori, che
permette di determinare la distanza tra due curve. Nello specifico, come detto,
facendo riferimento allo spazio 𝐿2
, si è utilizzata la semi-metrica derivante
dalla norma indotta dal prodotto scalare, che risulta essere pari a:
𝑑(𝑋 𝑚 𝑋𝑙) = (∫ (𝑋 𝑚 − 𝑋𝑙)2
𝑑𝑡
1
0
)
1 2⁄
. (17)
Le scelte per il nucleo possono essere molteplici. Dato che la sua scelta risulta
meno cruciale di quella di h, nei casi considerati, per fini espositivi, ci si limita
a considerare un nucleo con supporto limitato, quale quello rettangolare.
Prese, dunque, le osservazioni funzionali più vicine alla curva (n-1) che
ricadono nell’intervallo determinato dal nucleo con la fissata ampiezza di
banda h, (per esempio le curve 𝑋3, 𝑋11, 𝑋46, 𝑋78) la previsione per n sarà data
dalla media delle curve osservate nell’occasione temporale successiva rispetto
a quelle corrispondenti a tali osservazioni (nell’esempio, verrebbe dunque
effettuata una media pesata delle osservazioni 𝑋4, 𝑋12, 𝑋47 ed 𝑋79).
20 Modelli per dati funzionali
2.3 Metodi basati sull’algoritmo k-nearest
neighbors
I due approcci alla previsione che si andrà esponendo nei paragrafi seguenti
condividono la stessa idea di fondo, cioè l’imposizione di una banda di
ampiezza variabile. Essi sono basati, come si vedrà, sull’algoritmo dei k vicini
più prossimi e considerano, ai fini predittivi, un numero fisso di k osservazioni
funzionali.
2.3.1 k-nearest neighbors funzionale
L’algoritmo k-nearest neighbors funzionale, indicato con l’acronimo k-FNN,
rappresenta un capovolgimento di prospettiva rispetto al, precedentemente
esposto, NP-FAR. In quest’ultimo, infatti, per una determinata ampiezza di
banda, vengono selezionate le curve con distanza minore dall’(n-1)-esima tali
da rientrare nell’involucro determinato dal parametro h. Quando si calcolano
tali distanze da curve diverse, per esempio da un’osservazione funzionale n o
da quella n+1, il numero di curve che rientrano nella fascia fissata possono
essere diverse in numero. L’approccio dei k vicini più vicini funzionali, invece,
permette di fissare il numero di curve più prossime da considerare a fini
predittivi. Ciò coincide col considerare un’ampiezza di banda variabile. Tale k,
risulta essere l’iperparametro che deve essere accuratamente selezionato.
Nell’immagine 2.2 a pagina seguente si possono vedere, in maniera intuitiva,
le differenze tra i due approcci. Le circonferenze, di raggio uguale, vogliono
esemplificare un’ampiezza di banda fissa, mentre le linee chiuse al loro
interno, che racchiudono sempre due curve, sono assimilabili al fissare k
uguale a 2, ovvero al fissare un’ampiezza di banda variabile. Le curve indicano
delle osservazioni funzionali; le più vicine alle osservazioni n, n+1 ed n+2
vengono incluse nei due tipi di bande, quelle più dissimili sono escluse da
entrambe le bande.
Metodi basati sull’algoritmo k-nearest neighbors 21
Figura 2.2. Confronto visivo tra il considerare un’ampiezza di banda
fissa ed una variabile (qui k=2)
Per utilizzare il k-functional nearest neighbors è stata creata un’apposita
funzione, scritta in R, disponibile in appendice. Come nel caso dell’NP-FAR, è
stato necessario scegliere una semi-metrica. Per coerenza nel confronto tra i
metodi, anche in questo caso, si è scelta la distanza 𝐿2
.
22 Modelli per dati funzionali
Si riporta di seguito il pseudo-codice del k-FNN.
Pseudo-code: k-FNN
N: Numero di osservazioni funzionali nell’in-sample;
N2: Numero di osservazioni funzionali nell’out of sample.
Valutazione (discretizzazione) di ciascuna osservazione funzionale 𝑋𝑖( 𝑡) su
una griglia di valori.
Ciclo 1 per k da 1 ad (N-1)
Ciclo 2 per j da 1 a N2
Ciclo 3 per l 1 ad (N-2+j)
Calcolo 𝑑(𝑋𝑙, 𝑓𝑋 𝑁−1+𝑗), distanze tra l’(N-1+j)-esima curva
e tutte quelle ad essa precedenti.
Fine Ciclo 3.
Riordino delle curve per distanza in senso decrescente.
Selezione di un numero k di curve più prossime
all’(N-1+j)-esima.
Previsione per (N+j) attraverso la media delle curve ad esse
successive.
Fine ciclo 2.
Calcolo dell’errore di previsione su tutto l’out-sample.
Fine ciclo 1.
Selezione del numero kopt di osservazione funzionali che ha generato il minor
errore nell’insieme out-sample.
Metodi basati sull’algoritmo k-nearest neighbors 23
2.3.2 k-nearest neighbors funzionale lineare
Il k-nearest neighbors funzionale lineare, Lk-FNN, rappresenta una variante del
più semplice algoritmo dei k vicini più prossimi funzionali. Nello specifico,
selezionate le k curve più vicine ad una osservazione funzionale n, sempre in
base alla metrica 𝐿2
, si è mappata la loro relazione con le curve osservate
nell’occasione immediatamente successiva attraverso un modello lineare di
tipo funzionale-funzionale. Una volta stimati i parametri, si sono utilizzati per
prevedere la curva (n+1).
Si indichino con 𝑋 𝑛(𝑖), 𝑖 = 1, … , 𝑘, le k curve funzionali più prossime
all’n-esima e con 𝑋 𝑛(𝑖)+1 le (sempre k) curve osservate nelle occasioni
temporali successive rispetto a quelle in cui sono state osservate le 𝑋 𝑛(𝑖).
Si suppone che la relazione che lega 𝑋 𝑛(𝑖)+1 ed 𝑋 𝑛(𝑖) sia di tipo lineare ed
esprimibile quindi attraverso l’espressione:
𝑋 𝑛(𝑖)+1(𝑡) = ∝ (𝑡) + ∫ 𝛽(𝑡, 𝑠)
1
0
𝑋 𝑛(𝑖)(𝑠) 𝑑𝑠 . (18)
Da questa espressione, è possibile ricavare le stime dei parametri, 𝛼̂ e 𝛽̂, dove
quest’ultimo è un nucleo, come nel caso del modello FAR(1). Una volta ottenute
le stime, la previsione per (n+1) sarà esprimibile come:
𝑋̂ 𝑛+1(𝑡) = ∝̂ (𝑡) + ∫ 𝛽̂(𝑡, 𝑠)
1
0
𝑋 𝑛(𝑠) 𝑑𝑠 . (19)
Si noti come l’utilizzo di questo modello sottenda che la relazione tra le
osservazioni funzionali costituenti la corrispondente serie storica funzionale
sia localmente approssimabile per via lineare.
Per quanto riguarda la stima dell’intercetta, si è proceduto in modo analogo a
quanto fatto per il calcolo della media nella centratura del FAR(1).
Per stimare il nucleo 𝛽, invece, una volta riportati i dati a media zero, si sono
percorse due strade differenti, utilizzate in seguito, nelle applicazioni, proprio
in base alla tipologia di dati a disposizione.
Il primo stimatore è basato sulle componenti principali funzionali.
Tralasciando i passaggi che permettono di arrivare a ricavarlo, che possono
essere trovati in G. He et al. (2000), in Yao et.al. (2005), oltre che in P. Kokoszka,
M.Reimherr (2017), si ha che:
24 Modelli per dati funzionali
𝛽̂(𝑡, 𝑠) = ∑ ∑
𝜎̂𝑙𝑘
𝜆̂ 𝑙
𝑢̂ 𝑘(𝑡)𝑣̂𝑙(𝑠)
𝑝
𝑙=1
𝑞
𝑘=1
, (20)
con
𝜎̂𝑙𝑘 =
1
𝑁
∑〈𝑋 𝑛(𝑖), 𝑣̂𝑙〉 〈𝑋 𝑛(𝑖)+1, 𝑢̂ 𝑘〉
𝑁
𝑖=1
, (21)
dove 𝑢 𝑘 e 𝑣𝑙 sono rispettivamente le componenti principali di 𝑋 𝑛(𝑖)+1e di 𝑋 𝑛(𝑖)
e 𝜆𝑙 gli autovalori relativi alla funzione di covarianza di 𝑋 𝑛(𝑖). Essendo che il
modello in questione segue una logica autoregressiva, nelle applicazioni
pratiche effettuate si è posta la semplificazione 𝑞 = 𝑝, considerato che i dati
relativi alla variabile risposta ed all’esplicativa condividono le stesse
caratteristiche strutturali.
Il secondo approccio considerato per la stima del nucleo 𝛽, una cui più ampia
discussione si trova in J.O. Ramsay e B.W. Silverman (2005), è, invece, basato
sulla sua rappresentazione sotto forma di funzioni di base. Supposto che,
anche in questo caso, 𝑋 𝑛(𝑖) ed 𝑋 𝑛(𝑖)+1 siano a media zero, è infatti possibile
considerare due set di funzioni di base, {𝜂 𝑘, 𝑘 ≥ 1} e {𝜗𝑙, 𝑙 ≥ 1}, tali che li
espandano (in seguito si utilizzeranno basi B-Splines). 𝛽(𝑡, 𝑠) è dunque
rappresentabile attraverso la doppia espansione:
𝛽(𝑡, 𝑠) = ∑ ∑ 𝑏𝑙𝑘 𝜗𝑙(𝑡)𝜂 𝑘(𝑠), (22)
𝐾
𝑘=1
𝐿
𝑙=1
dove 𝑏𝑙𝑘 sono dei coefficienti.
Una volta ottenuta la loro stima è immediato ricavare la stima di 𝛽 come:
𝛽̂(𝑡, 𝑠) = ∑ ∑ 𝑏̂𝑙𝑘 𝜗𝑙(𝑡)𝜂 𝑘(𝑠)
𝐾
𝑘=1
𝐿
𝑙=1
. (23)
I limiti superiori delle due sommatorie, 𝐿 e 𝐾, rappresentano il grado con cui
viene lisciata la stima del nucleo. Come fatto per lo stimatore basato sulle
componenti principali funzionali, nei casi pratici abbiamo posto 𝐿 = 𝐾.
In entrambi gli stimatori esposti è stato necessario scegliere i parametri di
regolazione più adatti ai fini predittivi, cioè il numero di componenti principali
Metodi basati sull’algoritmo k-nearest neighbors 25
ed il numero di funzioni di base, cercando di non cadere nel problema del
sovradattamento.
Per scegliere quale tra i due stimatori utilizzare si è considerato che, quando i
dati presentano natura non lineare, per spiegare una quota consistente di
varianza è necessario considerare un numero elevato di componenti
principali, ciascuna delle quali spiega una percentuale bassa di variabilità.
Perciò lo stimatore basato sull’espansione in basi risulta più veloce da
calcolare, oltre che più robusto. Di contro, se i dati presentano una struttura
fortemente lineare, saranno sufficienti poche componenti principali per
stimare il nucleo e, quindi, conviene utilizzare lo stimatore basato su di esse.
In letteratura sono stati proposti diversi altri stimatori. Un esempio rilevante
può essere trovato in Ivanescu et. al. (2015) ed in Scheipl et al. (2015), dove gli
autori hanno proposto un approccio penalizzato alla stima. A causa del già
elevato onere computazionale, essendo che nell’Lk-FNN vengono stimati un
numero di modelli piuttosto elevato, si è deciso di evitare di percorrere queste
strade.
Nell’immagine 2.3, si è riportato un esempio riguardante l’importanza nello
scegliere il corretto numero di parametri nella fase di stima del nucleo. In
particolare, sono state generate delle covariate funzionali attraverso una
combinazione lineare di B-Splines cubiche con coefficienti casuali campionati
da una variabile gaussiana.
La variabile risposta è stata generata pre-moltiplicando le esplicative per il
nucleo 𝛽(𝑡, 𝑠) = 𝑠 𝑐𝑜𝑠(𝜋 |𝑠 − 𝑡|) − 0.19, lo stesso utilizzato nella generazione
effettuata dal FAR(1). Come termine di errore, infine, si è utilizzata
semplicemente una sequenza di 𝜀𝑖(𝑡𝑗) gaussiani ed i.i.d., uno in ciascuna
discretizzazione delle (300) osservazioni funzionali generate, a mimare degli
errori di osservazione.
26 Modelli per dati funzionali
Figura 2.3. Effetto di un’inappropriata selezione del numero di basi nella stima di 𝛽.
Come si può vedere, la specificazione di uno scorretto numero di parametri di
regolazione ha come effetto l’inseguimento di caratteristiche locali dei dati e,
conseguentemente, una stima inaccurata del nucleo 𝛽.
Considerazioni analoghe si sarebbero potute fare utilizzando lo stimatore
basato sulle componenti principali funzionali.
Metodi basati sull’algoritmo k-nearest neighbors 27
Viene di seguito riportato il pseudo-codice relativo al modello Lk-FNN.
Pseudo-code: Lk-FNN
N: Numero di osservazioni funzionali nell’in-sample;
N2: Numero di osservazioni funzionali nell’out of sample;
Valutazione (discretizzazione) di ciascuna osservazione funzionale 𝑋𝑖 su una
griglia di valori 𝑡:
Ciclo 1 per k da 1 ad (N-1)
Ciclo 2 per j da 1 a N2
Ciclo 3 per l 1 ad (N-2+j)
Calcolo 𝑑(𝑋𝑙, 𝑋 𝑁−1+𝑗) , distanze tra l’(N-1+j)-esima curva
e tutte quelle ad essa precedenti.
Fine Ciclo 3.
Riordino delle curve per distanza in senso decrescente.
Selezione di un numero k di curve più prossime all’(N-1+j)-esima
Stima dei pesi 𝛼̂ e 𝛽̂.
Previsione per (N+j) utilizzando i pesi appena stimati.
Fine ciclo 2.
Calcolo dell’errore di previsione su tutto l’out-sample.
Fine ciclo 1.
Selezione del numero kopt di osservazione funzionali che ha generato il minor
errore nell’insieme out-sample.
Come si può vedere, la presenza di cicli annidati può comportare un notevole
carico computazionale, essendo che la stima dei pesi corrisponde, di fatto,
nell’adattamento di un numero prossimo ad (N*N2) di modelli lineari
fully-functional. Tuttavia, è possibile notare come le operazioni siano
indipendenti al variare di k e ciò ha permesso di sfruttare appieno la struttura
fisica della CPU attraverso la parallelizzazione del codice, anch’esso scritto in
R, e presente in appendice.
28 Modelli per dati funzionali
3 Simulazioni Monte Carlo
Nello studio di simulazione sono state generate delle serie storiche funzionali
da diversi processi generatori dei dati, indicati con l’acronimo DGP, sia lineari
che non lineari, scartando le prime 100 osservazioni, in modo tale da evitare la
dipendenza delle realizzazioni dai valori iniziali. Queste, sono state a loro volta
suddivise sequenzialmente in un insieme, detto di stima, o in sample, ed un
altro, di verifica, o out-sample. Nell’insieme di stima sono stati calibrati i
modelli parametrici e non parametrici precedentemente esposti, le
performances predittive dei quali, in seguito, sono state testate nell’insieme di
verifica, tipicamente costituito da 40 osservazioni funzionali. Per effettuare le
previsioni, che sono sempre state fatte ad un passo, sono stati ristimati ad ogni
step tutti i coefficienti relativi ai diversi modelli; i nuclei dei modelli FAR(1) e
Lk-FNN e le matrici 𝐴0 ed 𝐴1 del VAR(1), che è stato scelto come benchmark
per il confronto e che sarà brevemente introdotto nel paragrafo successivo.
Inoltre, sono state ricalcolate le distanze tra le curve. La procedura è stata
reiterata, facendo variare il numero di osservazioni funzionali presenti
nell’in sample e gli iperparametri caratteristici dei diversi modelli.
In particolare, nella generazione dei dati, si sono voluti ricercare dei processi
che potessero enfatizzare le caratteristiche predittive dei modelli, perciò si
sono scelti un DGP lineare, uno debolmente non lineare ed un terzo fortemente
non lineare.
Nello specifico, le serie sono state generate da:
• un FAR(1) con nucleo diagonale (processo generatore lineare);
• un SETAR(1,1) con nuclei diagonali, intercette relative a ciascun regime
uguali a 0 e numero di osservazioni sbilanciato a favore di un regime
(processo generatore non lineare);
• un modello SETAR(1,1) con intercetta diversa tra i due regimi, nuclei
diagonali e osservazioni distribuite in modo più uniforme tra i regimi
(processo generatore fortemente non lineare).
Si noti che i processi generatori dei dati presentano delle strutture abbastanza
semplificate, essendo che si è fatto ricorso, per esempio, a dei nuclei diagonali.
30 Simulazioni Monte Carlo
Una tale scelta si deve al fatto che si sono voluti cercare dei processi che
mettessero in evidenza, più degli altri, le caratteristiche predittive dei modelli.
Una volta ottenute le previsioni, queste sono state confrontate con i valori
effettivi attraverso due indici, il MAE (Mean Absolure Error) e l’RMSE (Root
Mean Squared Error).
Indicando con 𝑦𝑖
𝑜𝑢𝑡
i valori discreti assunti dalle serie nell’insieme out of
sample, con 𝑦̂𝑖
𝑜𝑢𝑡
quelli previsti e con 𝑁𝑜𝑢𝑡 la numerosità di questo insieme, i
due indici sono specificati attraverso le seguenti formule:
𝑀𝐴𝐸 =
1
𝑁𝑜𝑢𝑡
∑|𝑦𝑖
𝑜𝑢𝑡
− 𝑦̂𝑖
𝑜𝑢𝑡
|
𝑁 𝑜𝑢𝑡
𝑖=1
, (24)
𝑅𝑀𝑆𝐸 = (
1
𝑁𝑜𝑢𝑡
∑(𝑦𝑖
𝑜𝑢𝑡
− 𝑦̂𝑖
𝑜𝑢𝑡
)2
𝑁 𝑜𝑢𝑡
𝑖=1
)
1
2⁄
. (25)
Il modello VAR(1) 31
3.1 Il modello VAR(1)
Prima di procedere con le simulazioni, si presenta ora, sinteticamente, il
modello VAR(1) che, come precedentemente detto, è stato scelto come
benchmark nel confronto tra i modelli.
Il VAR(1), acronimo di Vector Autoregressive Model, rappresenta la più
immediata generalizzazione al caso multivariato del tradizionale modello
univariato autoregressivo di ordine 1. Si tratta di un caso particolare del
VAR(p), quando l’ordine, p, risulta uguale ad 1. La specificazione, in termini
matematici risulta del tipo:
𝑦𝑡 = A0 + A1 𝑦𝑡−1 + 𝜀𝑡 , (26)
dove y è un vettore (𝑚𝑥1) contenente le osservazioni, A0 è anch’esso un
vettore (𝑚𝑥1) che contiene le intercette relative ad ogni singola equazione del
VAR(1), A1 è una matrice (𝑚𝑥𝑚) di coefficienti che governa la dinamica del
modello, ed 𝜀𝑡 è un White Noise vettoriale, con matrice di covarianza Σ,
singolare.
Come è possibile vedere, il modello VAR(1) è un modello parametrico che
esplicita un legame di tipo lineare tra le osservazioni e le stesse ritardate di un
lag. Inoltre, esplicitando ulteriormente, è possibile mettere in evidenza la
capacità di questo modello di tenere conto delle relazioni di interdipendenza
tra le variabili.
Per un VAR(1) con m=2, per esempio, le equazioni risultano essere:
𝑦1,𝑡 = 𝜙0,1 + 𝜙1,11 𝑦1,𝑡−1 + 𝜙1,12 𝑦2,𝑡−1 + 𝜀1,𝑡
𝑦2,𝑡 = 𝜙0,2 + 𝜙1,21 𝑦1,𝑡−1 + 𝜙1,22 𝑦2,𝑡−1 + 𝜀2,𝑡 .
32 Simulazioni Monte Carlo
3.2 DGP FAR(1) con nucleo diagonale
Si sono generate delle serie storiche da un processo FAR(1) con nucleo
diagonale. I valori assunti dalla diagonale del nucleo seguono una curva
monotona decrescente descritta dalla seguente funzione:
𝑔(𝑚) = 0.9 +
1
50
𝑒−
1
50
𝑚
, 𝑚 = 1,2, … , 40.
Come errori, si è fatto ricorso ad un processo 𝐻-𝑊𝑁, generato attraverso una
combinazione lineare di un set di 4 basi, {sin(𝑡) , exp(𝑡) , cos(𝑡) , tan(𝑡)},
ortonormalizzate attraverso l’algoritmo di Gram-Schmidt e moltiplicate a
coefficienti campionati da una Normale Standard. Una tale specificazione ha
reso possibile la generazione di osservazioni funzionali lisce e che
conservassero, comunque, una struttura di dipendenza al primo ordine di tipo
lineare.
Sono state effettuate 600 replicazioni, stimando i modelli su insiemi in sample
di numerosità pari a 150, 300, 600, 1000.
Le seguenti tabelle riportano gli errori di previsione. Tra parentesi si possono
vedere i guadagni, indicati col simbolo ‘-’ e le perdite, indicate col ‘+’ in termini
di errori di previsione per ciascun modello, rispetto al VAR(1), scelto come
benchmark perché unico modello non funzionale.
MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.262 0.252
(-3.8)
0.329
(+25.6)
0.291
(+11.1)
0.277
(+5.7)
300 0.250 0.248
(-0.1)
0.289
(+15.6)
0.278
(+11.2)
0.260
(+4.0)
600 0.249 0.247
(-0.8)
0.286
(+14.8)
0.276
(+10.8)
0.259
(+4.0)
1000 0.241 0.241
(+0)
0.269
(+11.6)
0.263
(+9.1)
0.251
(+4.1)
Tabella 3.1. MAE al variare di n quando i dati provengono da un FAR(1) diagonale.
DGP FAR(1) con nucleo diagonale 33
RMSE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.340 0.326
(-4.1)
0.436
(+28.2)
0.383
(+12.6)
0.367
(+7.9)
300 0.324 0.322
(-0.1)
0.383
(+18.2)
0.363
(+12.0)
0.344
(+6.2)
600 0.323 0.321
(-0.6)
0.375
(+16.1)
0.362
(+12.1)
0.343
(+6.2)
1000 0.312 0.312
(+0)
0.351
(+12.5)
0.345
(+10.6)
0.334
(+7.1)
Tabella 3.2. RMSE al variare di n quando i dati provengono da un FAR(1)
diagonale.
Come ci si poteva attendere, essendo i dati generati da un FAR(1), quest’ultimo
risulta essere il miglior modello a livello predittivo. Il modello VAR(1) riporta
le seconde migliori previsioni, essendo che condivide la stessa natura lineare
del FAR(1), con la differenza che la stima della matrice dei parametri avviene
utilizzando tutta l’informazione a disposizione, mentre il modello
autoregressivo lineare hilbertiano fa ricorso ad un numero limitato di
componenti principali per la stima del nucleo. Essendo i dati lineari, anche il
modello Lk-FNN presenta delle buone performances, tanto che i risultati non
mostrano evidenti peggioramenti rispetto ai due modelli migliori. Le
differenze rispetto, per esempio, al FAR(1), sono principalmente dovute al
fatto che la funzione che implementa l’Lk-FNN, lo fa su una griglia di k, anziché
su ogni singolo valore. Infine, in un tale piano di simulazione, utilizzare
un’ampiezza di banda variabile o fissa sembra non apportare grosse
differenze, soprattutto al crescere della numerosità dell’insieme di stima. Una
possibile spiegazione può essere legata alla notevole densità dei dati, che
risultano concentrarsi omogeneamente nell’intorno dell’osservazione da
prevedere. In altri termini, il processo risulta essere piuttosto regolare e ciò
garantisce che il numero di vicini più vicini rimanga pressoché immutato nel
passaggio dall’i-esima osservazione alla j-esima. Una possibile riprova di
quanto detto, può essere trovata considerando il fatto che anche gli RMSE, che
pesano maggiormente gli errori elevati, risultano piuttosto stabili tra i due
34 Simulazioni Monte Carlo
metodi, ad indicare che le osservazioni funzionali utilizzate nelle previsioni
devono essere grosso modo le stesse.
Le variazioni standard degli errori MAE ed RMSE rivelano una maggiore
velocità di convergenza dei metodi parametrici, essendo che questi forniscono
una sorta di struttura rigida, che segue poco le caratteristiche locali dei dati e,
di conseguenza, limita il numero di errori di entità elevata.
Sd MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.022 0.021 0.067 0.034 0.027
300 0.022 0.021 0.062 0.034 0.023
600 0.022 0.021 0.054 0.033 0.022
1000 0.019 0.020 0.048 0.033 0.020
Tabella 3.3. Deviazione standard dei MAE quando il DGP è un FAR(1) diagonale.
Sd RMSE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.028 0.027 0.860 0.045 0.039
300 0.027 0.027 0.080 0.043 0.032
600 0.026 0.025 0.067 0.042 0.027
1000 0.025 0.025 0.063 0.042 0.027
Tabella 3.4. Deviazione standard degli RMSE quando il DGP è un FAR(1) diagonale.
Nei grafici (Figura 3.1), nella pagina successiva, si possono vedere gli errori di
previsione e le rispettive bande di confidenza bootstrap al livello di confidenza
del 95% dei modelli k-FNN e Lk-FNN, al variare della numerosità dell’insieme
di stima ed al variare di k. Il modello Nearest Neighbor lineare tende a sfruttare
praticamente tutta l’informazione a disposizione nei dati, riportandosi su
errori vicini a quelli del FAR(1), quando 𝑘 → N.
DGP FAR(1) con nucleo diagonale 35
Figura 3.1. MAE al variare di k per k-FNN (a sinistra) e Lk-FNN
(a destra) quando il DGP è un FAR(1).
36 Simulazioni Monte Carlo
3.3 DGP SETAR(1,1) con regimi sbilanciati
In questo piano di simulazione sono state generate delle serie storiche
funzionali da un modello SETAR(1,1) funzionale (FSETAR). Si ricorda che, in
un contesto univariato, un SETAR(1,1) è un processo che evolve seguendo un
modello autoregressivo di ordine 1 il cui parametro assume due valori diversi
in base al fatto che la serie, osservata ad un ritardo definito, assuma valori
superiori o inferiori ad una soglia. La transizione da un regime all’altro avviene
in modo brusco, in base ad una semplice funzione indicatrice. Informazioni più
dettagliate si possono trovare in Tong (1978). Nel caso funzionale in esame, si
è considerata un’estensione di quello univariato, nel quale il processo, in
ciascuno dei due regimi, segue un FAR(1) con uno dei due nuclei diagonali che
presentano sulla diagonale i valori, uguali in modulo ma di segno opposto,
mappati dalle seguenti funzioni:
𝑔1(𝑚) = 0.9 +
1
50
𝑒−
1
50
𝑚
, 𝑚 = 1,2, … , 40
𝑔2(𝑚) = − (0.9 +
1
50
𝑒−
1
50
𝑚
) , 𝑚 = 1,2, … , 40.
Gli errori dei due FAR(1) sono stati scelti uguali a quelli utilizzati nella
simulazione precedente. La soglia è stata posta sul valore 0, mentre come
ritardo al quale valutare la serie si è scelto il primo. Essendo la serie storica
funzionale, si è deciso di discretizzare su una griglia ciascuna delle funzioni
generate e di valutare la serie su una discretizzazione prefissata. Essendo che
se il funzionale al ritardo uno, per tale discretizzazione, assumeva valori
positivi, questo veniva moltiplicato per coefficienti negativi, mentre se
assumeva valori negativi questo veniva moltiplicato per coefficienti positivi,
ciò ha permesso di conoscere a priori il comportamento della serie generata.
In questa, infatti, vi è stata una netta prevalenza di osservazioni appartenenti
al regime inferiore (circa l’80%).
Nella figura 3.2 è riportata una delle funzioni generate, scelta a caso. Il
cerchietto rosso corrisponde al punto nel quale ciascuna osservazione
funzionale è stata osservata per decretare il regime di appartenenza
dell’osservazione successiva.
DGP SETAR(1,1) con regimi sbilanciati 37
Figura 3.2. Un’osservazione funzionale selezionata a caso ed il punto in cui è stata
osservata per generare l’osservazione successiva dell’FSETAR(1,1).
Nell’immagine 3.3 a pagina seguente si può vedere un esempio di serie
funzionale generata dal modello SETAR(1,1) funzionale. In rosso, a sinistra, è
stata messa in risalto la serie univariata in base alla quale si è decisa
l’appartenenza ad un regime piuttosto che ad un altro della generazione
funzionale successiva. Come detto, anche dal grafico, risulta evidente la
prevalenza di valori sotto la soglia.
38 Simulazioni Monte Carlo
Figura 3.3. Serie generata da un SETAR(1,1) funzionale.
Si riportano di seguito le tabelle elative agli errori di previsione dei modelli.
MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.395 0.383
(-3.0%)
0.415
(+5.1%)
0.361
(-8.6%)
0.343
(-13.2%)
300 0.378 0.368
(-2.6%)
0.379
(+0.3%)
0.343
(-9.3%)
0.326
(-13.8%)
600 0.365 0.362
(-0.8%)
0.348
(-4.7%)
0.329
(-9.9%)
0.316
(-13.4%)
1000 0.358 0.356
(-0.6%)
0.339
(-5.3%)
0.321
(-10.3%)
0.304
(-15.1%)
Tabella 3.5. MAE al variare di n quando i dati provengono da un
FSETAR(1,1) diagonale.
DGP SETAR(1,1) con regimi sbilanciati 39
RMSE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.548 0.536
(-2.2%)
0.549
(+0.2%)
0.497
(-9.3%)
0.474
(-13.5%)
300 0.535 0.522
(-2.4%)
0.518
(-3.2%)
0.479
(-10.5%)
0.451
(-15.7%)
600 0.533 0.527
(-1.1%)
0.476
(-10.7%)
0.463
(-13.1%)
0.441
(-17.3%)
1000 0.511 0.507
(-0.8%)
0.458
(-10.4%)
0.444
(-13.1%)
0.405
(-20.7%)
Tabella 3.6. RMSE al variare di n quando i dati sono generati da un
FSETAR(1,1) diagonale.
Come si può vedere, in questo contesto, comincia a dare i suoi frutti l’utilizzo
di modelli non parametrici, ai fini predittivi. Il modello NP-FAR, tuttavia, per le
numerosità più basse, non riporta vantaggi rispetto ai modelli parametrici,
soprattutto in termini di MAE. Se si ispezionano i valori medi assunti
dall’ampiezza di banda ottimale hopt, rispettivamente pari a 1.414, 1.177, 1.018
e 0.914 per le numerosità in sample di 150, 300, 600 e 1000, e li si confronta con
il numero medio ottimo di curve selezionate dal k-FNN, kopt, pari a 7.5, 8.9, 10,
12.4, si può intuire come l’ampiezza di banda, che si ricorda essere stata tenuta
fissa per tutte le previsioni nell’out-sample, selezionata per N=150, possa aver
fatto sì che venissero pesate troppo le caratteristiche locali dei dati. Col
crescere della numerosità dell’insieme di stima, k-FNN ed NP-FAR tendono ad
avvicinare le loro performances. Si tenga conto che quando N aumenta,
aumenta anche la densità dei dati, e ciò significa che in una fissata banda h
rientrerà un numero maggiore di curve ‘vicine’ ad una prefissata generazione,
e ciò spiega il comportamento divergente tra hopt e kopt.
Per quanto riguarda la differenza tra i MAE e gli RMSE, può essere data la
seguente interpretazione. Essendo che l’RMSE pesa di più gli errori di entità
elevata, ed essendo questo errore più elevato per le previsioni derivanti
dall’utilizzo di modelli parametrici, significa che la struttura imposta da questi
modelli non permette di cogliere il break determinato dal comportamento a
tratti proprio del SETAR(1,1) funzionale, specificato come DGP. I tre modelli
40 Simulazioni Monte Carlo
non parametrici, di contro, riescono ad individuare questa peculiarità presente
nei dati. Il fatto che la forbice tra gli errori di k-FNN e Lk-FNN aumenti, a
vantaggio di quest’ultimo, con l’aumentare della numerosità dell’insieme di
stima, è dovuto al fatto che, per ottenere una stima accurata dei nuclei, sono
necessarie molte osservazioni ed, essendo la serie sbilanciata, stimare il nucleo
utilizzando i vicini di un’osservazione funzionale appartenente al regime
superiore, significherebbe utilizzare al più il 20% delle osservazioni totali, e
ciò potrebbe risultare poco accurato alle basse numerosità.
Per quanto riguarda i modelli VAR(1) e FAR(1), questi risultano pressoché
equivalenti. Si può intravedere una lieve superiorità del secondo per
numerosità basse, superiorità che, tuttavia, va scemando all’aumentare di N.
Le motivazioni di questa lieve differenza possono essere riconducibili, anche
in questo caso, al fatto che nella stima del nucleo del FAR(1) viene utilizzata
solo la quota di informazione più rilevante presente nei dati.
Sd MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.106 0.103 0.090 0.078 0.079
300 0.108 0.100 0.089 0.080 0.072
600 0.094 0.095 0.088 0.085 0.079
1000 0.079 0.080 0.063 0.057 0.048
Tabella 3.7. Deviazione standard dei MAE quando il DGP è un FSETAR(1,1) diagonale.
Sd RMSE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.157 0.159 0.123 0.134 0.123
300 0.165 0.163 0.132 0.134 0.123
600 0.172 0.173 0.143 0.154 0.140
1000 0.134 0.135 0.101 0.103 0.071
Tabella 3.8. Deviazione standard degli RMSE quando il DGP è un FSETAR(1,1)
diagonale.
Le deviazioni standard degli errori rivelano che le previsioni dei modelli non
parametrici, oltre ad essere mediamente più precise, sono anche meno
variabili. In particolare, Lk-FNN riporta i valori più bassi, ad indicare che la
DGP SETAR(1,1) con regimi sbilanciati 41
struttura locale da esso imposta risulta in errori di previsione più stabili
rispetto agli altri modelli, soprattutto al crescere della numerosità in sample.
Come fatto per le simulazioni precedenti, vengono riportati i grafici degli
errori medi per i modelli k-FNN, a sinistra, e Lk-FNN, a destra, al variare di k e
di N.
42 Simulazioni Monte Carlo
Figura 3.4. MAE al variare di k per k-FNN (a sinistra) e Lk-FNN (a destra)
quando il DGP è un FSETAR(1,1).
Ciò che emerge guardando i grafici è che, mediamente, il numero di vicini k
ottimale risulta essere molto basso, segno che i modelli riescono a cogliere
correttamente la non linearità del processo sottostante. Nel k-FNN, tuttavia, vi
è un netto peggioramento delle performances predittive quando k aumenta. Il
modello k-FNN lineare, invece, seppur tenda a preferire, anch’esso, l’utilizzo di
poche curve, risulta più stabile, in questo caso, al variare di k. Questa stabilità
può trarre in inganno, essendo essa dovuta semplicemente al DGP sottostante.
Essendo questo processo generatore lineare a tratti ma sbilanciato, infatti,
utilizzare un k vicino ad N, per Lk-FNN, significa essere molto simile ad un
FAR(1) e, chiaramente, anche le previsioni risulteranno pressoché uguali. Nel
caso specifico, infatti, utilizzare k=N=1000, porta ad un MAE pari a 0.356, cioè
esattamente uguale a quello del FAR(1).
DGP SETAR(1,1) con regimi bilanciati 43
3.4 DGP SETAR(1,1) con regimi bilanciati
Seguendo il piano di simulazione precedente, sono state generate delle serie
funzionali da un processo SETAR(1,1) con nuclei diagonali che riportano sulla
diagonale i valori 0.9 e -0.9. Tuttavia, a differenza del caso appena trattato, si è
introdotta un’intercetta nel regime inferiore, pari a 3, e si è scelta come soglia
per la discretizzazione delle osservazioni funzionali, scelta per valutare
l’appartenenza della generazione successiva ad uno dei due regimi, il valore di
1.5. Ciò ha prodotto una serie storica funzionale le cui osservazioni sono
risultate spartite tra i regimi seguendo all’incirca la proporzione di 40%-60%.
La scelta di questo processo generatore dei dati è dovuta all’idea che
l’imposizione di un’ampiezza di banda variabile possa meglio cogliere dei
break strutturali dovuti alle caratteristiche del processo, e non al rumore
presente nei dati, e che una tale caratteristica possa risaltare di più quando si
ha a che fare con delle serie sparse. Per esemplificare quanto detto, si è
riportato un semplice esempio nell’univariato in cui è stata generata una serie
storica di 1500 osservazioni da un SETAR(1,1) univariato con gli stessi
coefficienti e la stessa soglia utilizzati nella presente simulazione funzionale.
Gli iperparametri caratteristici dei modelli univariati sono stati selezionati
sulle ultime 500 osservazioni e le previsioni sono riportate nell’immagine 3.5.
Come emerge chiaramente dalla semplice indagine grafica, l’imporre
un’ampiezza di banda variabile, seppur provochi una certa aderenza ai dati
all’interno di entrambi i regimi, fa sì che venga colto l’andamento a tratti
caratteristico del SETAR(1,1) in questione, al contrario dell’utilizzo di una
banda fissa che, come si vede, tende a lisciare eccessivamente i dati.
Questo genere di considerazioni, valide nell’univariato, è emerso anche in un
contesto funzionale.
44 Simulazioni Monte Carlo
Figura 3.5. Confronto tra ampiezza di banda fissa e variabile nell’univariato.
Ritornando alla simulazione, gli errori di previsione ottenuti sono riportati
nelle tabelle 3.9 e 3.10. Essendo che i modelli non parametrici funzionano
decisamente meglio degli altri, si è scelto l’NP-FAR come riferimento su cui
valutare i guadagni e le perdite nell’utilizzo di un modello piuttosto che di un
altro.
Come si può vedere, utilizzare tutti i dati a disposizione per la previsione
provoca un’eccessiva rigidezza nei modelli parametrici, gli errori di previsione
dei quali, inoltre, risultano non convergere all’aumentare della numerosità
dell’insieme in-sample. Ciò risulta abbastanza normale, essendo che i dati
generati provengono da un processo discontinuo, con due comportamenti
diversi all’interno di ciascun regime. I metodi non parametrici, di contro,
rivelano, in casi limite come questo, la loro adeguatezza. Questi, infatti,
selezionando di volta in volta solo le curve più simili all’n-esima, riescono a
ricostruire la dinamica a tratti, dinamica che, oltretutto, viene ricostruita in
modo via via più preciso col crescere di n.
Di notevole rilievo risulta essere la differenza in termini di errori di previsione,
tra i metodi basati sull’algoritmo k-NN rispetto all’NP-FAR. Il DGP in questione,
infatti, risulta essere piuttosto caotico e sparso, essendo che le generazioni
‘saltano’ da un regime all’altro lasciando degli spazi poco popolati, poco densi,
tra i regimi. Gli spazi meno densi, essendo il processo sottostante lineare a
tratti, sono chiaramente dovuti al termine di errore. Imporre una banda fissa,
DGP SETAR(1,1) con regimi bilanciati 45
in questo caso molto più degli altri precedentemente esposti, può far quindi
ricadere all’interno dell’involucro osservazioni non rilevanti ai fini della
previsione. Considerare k valori fissi, invece, evita una selezione non mirata,
essendo che si avrà un’ampiezza di banda più adattiva.
Per quanto riguarda k-FNN ed Lk-FNN, avere poche osservazioni su ciascun
regime, significa avere meno informazione per la stima del nucleo. A tal
proposito, si tenga conto che se la numerosità in-sample è n, avere una
proporzione di curve per regime di 40%-60% non significa che il modello
utilizzerà rispettivamente n*0.40 e n*0.60 dati funzionali per stimare il
parametro, in quanto verrà tenuta solo l’informazione rilevante attraverso la
selezione dell’iperparametro k. Se le curve importanti per la previsione sono
poche, si rischia di prevedere meglio usando la media semplice di esse (o,
meglio, di quelle relative alle osservazioni ad esse successive), e ciò equivale
all’utilizzo del k-FNN. In termini di MAE, infatti, la forbice tra i due approcci
alla previsione si riduce col crescere di n mentre, rispetto agli RMSE, non vi è
una netta differenza tra essi. Ritornando all’NP-FAR, l’aumento delle differenze
rispetto ai metodi nearest neighbors, si fa ancora più evidente, a supporto della
tesi che l’ampiezza di banda fissa faccia sì che venga inglobata
dell’informazione non rilevante.
MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 2.226
(+213.5%)
2.278
(+220.8%)
0.710 0.659
(-7.2%)
0.718
(+1.1%)
300 2.121
(+237.2%)
2.179
(+246.4%)
0.629 0.599
(-4.8 %)
0.602
(-4.3%)
600 2.047
(+206.9%)
2.097
(+241.4%)
0.667 0.539
(-19.2%)
0.589
(-11.7 %)
1000 2.075
(+273.9%)
2.109
(+280.0%)
0.555 0.491
(-11.5%)
0.536
( -3.4%)
Tabella 3.9. MAE al variare di n quando i dati provengono da un
FSETAR(1,1) bilanciato.
46 Simulazioni Monte Carlo
RMSE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 2.668
(+103.4%)
2.663
(+103.0%)
1.312 1.172
(-10.7%)
1.117
(-14.9%)
300 2.556
(+129.9%)
2.552
(+129.5%)
1.112 1.021
(-8.2%)
0.952
(-14.4%)
600 2.470
(+104.0%)
2.456
(+102.8%)
1.211 0.929
(-23.3%)
0.913
(-24.6%)
1000 2.512
(+157.4%)
2.487
(+154.8%)
0.976 0.813
(-16.7%)
0.817
(-16.3%)
Tabella 3.10. RMSE al variare di n quando i dati provengono da un
FSETAR(1,1) bilanciato.
Nelle tabelle a pagina seguente è possibile vedere le deviazioni standard degli
errori MAE ed RMSE. Ciò che può stranire il lettore è la minore variabilità degli
RMSE dei modelli parametrici, modelli che, come si diceva, risultano meno
performanti in termini predittivi. Ciò non deve trarre in inganno, essendo che
questi modelli sfruttano tutta l’informazione a disposizione, generando delle
previsioni, quindi, meno variabili ma più distorte. Il fatto che le deviazioni
standard non convergano nemmeno col crescere di n, sono un’ulteriore prova
della loro inadeguatezza in casi analoghi a questo. In parole povere, VAR(1) e
FAR(1), quando il DGP è un SETAR funzionale come quello presentato in
questo paragrafo, prevedono, praticamente sempre, male.
Gli indici relativi ai modelli non parametrici, come ci si attendeva e come è
successo in tutte le simulazioni, convergono quando la serie diventa più densa.
La linearità locale propria dell’Lk-FNN, inoltre, risulta in errori meno variabili
e, ad essere meno variabili, sono soprattutto gli errori di entità più elevata.
La lentezza nel convergere della deviazione standard dell’NP-FAR va
ricondotta alle motivazioni precedentemente esposte.
DGP SETAR(1,1) con regimi bilanciati 47
Sd MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.199 0.186 0.264 0.275 0.227
300 0.202 0.180 0.273 0.273 0.195
600 0.258 0.258 0.272 0.200 0.191
1000 0.234 0.230 0.249 0.198 0.184
Tabella 3.11. Deviazione standard dei MAE quando il DGP è un FSETAR(1,1) bilanciato.
Sd MAE
n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN
150 0.244 0.249 0.635 0.641 0.409
300 0.258 0.250 0.659 0.640 0.369
600 0.296 0.293 0.630 0.478 0.349
1000 0.275 0.277 0.571 0.423 0.306
Tabella 3.12. Deviazione standard degli RMSE quando il DGP è un FSETAR(1,1)
bilanciato.
Nella pagina successiva sono riportati i grafici dei MAE di k-FNN ed Lk-FNN al
variare di k e della numerosità dell’insieme in sample. Essendo il processo
fortemente non lineare, ciò che ne risulta è un comportamento concavo molto
accentuato, con la preferenza dei modelli nell’utilizzare un numero kopt di
curve molto ristretto e con la tendenza di Lk-FNN ad usare più informazione,
necessaria per stimare il nucleo.
48 Simulazioni Monte Carlo
Figura 3.6. MAE al variare di k per k-FNN (a sinistra) e Lk-FNN (a destra)
quando il DGP è un FSETAR(1,1).
4 Applicazione ai dati reali
Nel seguente capitolo verranno testati i modelli visti in precedenza su diverse
serie storiche reali. Essendo queste registrate puntualmente, in alcuni casi è
stato necessario lisciarle per ottenere la stima delle funzioni che si suppone
siano le vere funzioni sottostanti. Chiaramente, per effettuare queste
operazioni, non si sono scelte delle serie storiche a caso, ma serie che, per i
motivi che si andrà via via elencando, si è ritenuto potessero essere
opportunamente trattate come funzionali.
Le previsioni sono state confrontate attraverso gli stessi indicatori utilizzati
nello studio di simulazione, il MAE e l’RMSE. Inoltre, quando la scala dei dati
ha reso il loro ricorso interessante, si sono calcolati anche gli errori percentuali
MAPE e MSPE.
I dati considerati, la cui provenienza verrà esplicitata in ogni paragrafo,
riguardano i consumi di gas naturale negli Stati Uniti, i prezzi e la domanda
dell’elettricità inglese ed il fenomeno naturale chiamato El Ni𝑛̃o.
Prima di illustrare i casi applicati, si introduce un test sulla stazionarietà delle
serie storiche funzionali, dato che applicare i modelli su serie, eventualmente,
non stazionarie sarebbe stato inopportuno.
Innanzitutto, è bene specificare che il concetto di stazionarietà, in un contesto
funzionale, risulta diverso da quello univariato, in quanto va valutata
esclusivamente nella sequenza di curve 𝑋1, 𝑋2, 𝑋3, … , 𝑋 𝑁 e non tra i tempi 𝑡𝑗,
non, cioè, all’interno delle stesse.
Il test in questione, introdotto da Horváth et al. (2014), è basato sul seguente
sistema di ipotesi:
{
H0: 𝑋𝑖(𝑡) = 𝜇(𝑡) + 𝜂𝑖(𝑡)
H1: H0 è 𝑓𝑎𝑙𝑠𝑎 ,
(27)
dove { 𝜂𝑖} è una sequenza a media 0, strettamente stazionaria e
𝜇(𝑡) = 𝐸[𝑋𝑖(𝑡)] è ignoto. Anziché considerare un’ipotesi alternativa così
generica, gli autori hanno deciso di sdoppiarla, in modo tale da motivare la
costruzione di una statistica test.
50 Applicazione ai dati reali
I casi risultanti sono, dunque:
HA,1: 𝑋𝑖(𝑡) = 𝜇(𝑡) + 𝛿(𝑡)𝐼{𝑖 > 𝑘∗} + 𝜂𝑖(𝑡),
HA,2: 𝑋𝑖(𝑡) = 𝜇(𝑡) + ∑ 𝑢𝑙(𝑡)𝑖
𝑙=1 .
{𝑢𝑙} è una sequenza stazionaria a media 0. L’ipotesi alternativa HA,1 coincide,
di fatto, con un’ipotesi di cambio di punto, in cui la sequenza delle curve, fino
a 𝑘∗
ha media 𝜇(𝑡) mentre dopo 𝜇(𝑡) + 𝛿(𝑡). L’ipotesi HA,2, invece, coincide con
l’ipotesi di Random-Walk.
La statistica test ricavata è basata sul processo somma parziale
𝑆 𝑁 (
𝑘
𝑁
, 𝑡) = 𝑁−1/2 ∑ 𝑋𝑖(𝑡) , 𝑘 = 1, … , 𝑁𝑘
𝑖=1 , a valori in 𝐿2
.
Ponendo 𝑥 = 𝑘/𝑁, si può scrivere la statistica 𝑈 𝑁(𝑥) = 𝑆 𝑁(𝑥) − 𝑥𝑆 𝑁(1), 0 ≤
𝑥 ≤ 1, da cui segue che, sotto H0:
𝑈 𝑁 (
𝑘
𝑁
) =
1
√𝑁
{∑ 𝜂𝑖 −
𝑘
𝑁
∑ 𝜂𝑖
𝑁
𝑖=1
𝑘
𝑖=1
} (28)
Mentre, sotto, per esempio, HA,1:
𝑈 𝑁 (
𝑘∗
𝑁
) =
1
√𝑁
{∑ 𝜂𝑖 −
𝑘∗
𝑁
∑ 𝜂𝑖
𝑁
𝑖=1
𝑘∗
𝑖=1
} +
𝑘∗(𝑁 − 𝑘∗)
𝑁3/2
𝛿 .
Analogamente, si può scrivere per l’ipotesi alternativa A2, con la differenza che
il termine aggiuntivo conterrà la somma parziale degli 𝑢𝑙, aleatori.
La statistica test ricavata avrà dunque la forma:
𝑇̂ 𝑁 = ∫ {∫ 𝑈 𝑁
2
(𝑥, 𝑡) 𝑑𝑡}
1
0
𝑑𝑥 . (29)
A questo punto, per comprendere a cosa converge la statistica test, risulta utile
introdurre il processo denominato Ponte Browniano.
Definizione 3. Ponte Browniano.
Sia {𝑊(𝑡), 𝑡 ∈ [0,1]} un processo di Wiener. Si chiama Ponte Browniano
(Brownian Bridge) il processo:
𝐵(𝑡) = 𝑊(𝑡) − 𝑡𝑊(1), 𝑡 ∈ [0,1] . (30)
51
Essendo che, dati 𝑍𝑖~𝑁(0,1), il processo di Wiener si può approssimare
attraverso la somma finita
𝑊 (
𝑘
𝑁
) ≈
1
√𝑁
∑ 𝑍𝑖
𝑘
𝑖=1
, (31)
segue che:
𝐵 (
𝑘
𝑁
) ≈
1
√𝑁
{∑ 𝑍𝑖
𝑘
𝑖=1
−
𝑘
𝑁
∑ 𝑍𝑖
𝑁
𝑖=1
} . (32)
Ispezionando l’espressione appena ottenuta, si può notare come risulti
equivalente a quella di 𝑈 𝑁, eccezion fatta per i coefficienti, in questo caso,
casuali.
Si può dimostrare che la statistica test, per 𝑁 → ∞, segue la distribuzione di:
𝑇 ≔ ∑ 𝜆𝑗 ∫ 𝐵𝑗
2
(𝑥)
1
0
𝑑𝑥 ,
∞
𝑗=1
(33)
dove i 𝐵𝑗 sono Ponti Browniani indipendenti e i 𝜆𝑗 gli autovalori della funzione
di covarianza long run (Kokoszka, 2017).
La distribuzione di T può essere ricostruita via simulazione Monte Carlo
considerando un numero finito D di autovalori e approssimando l’integrale
con una sommatoria.
Il test così specificato è implementato nella libreria R ftsa e verrà utilizzato
nelle applicazioni.
52 Applicazione ai dati reali
4.1 Consumi di gas naturale negli U.S.
In questo paragrafo, si sono testati i modelli sui dati relativi ai consumi di gas
naturale negli Stati Uniti, misurati in milioni piedi al cubo. La serie storica
originaria era composta da 540 osservazioni, rilevate con cadenza mensile a
partire dal 1973 sino al 2017. Dato l’andamento ciclico della serie univariata, e
la regolarità dei profili annui dei consumi, si è ritenuto che i dati potessero
essere delle realizzazioni nel discreto di funzioni a tempo continuo. Si è, perciò,
trasformata la serie di partenza in una serie stazionaria (il p-value del test di
di Horváth, infatti, è risultato pari a 0.691) di 45 osservazioni funzionali,
lisciando i dati attraverso un approccio penalizzato, facendo variare
contemporaneamente il numero di funzioni di base B-Splines, il cui numero
ottimale è risultato essere pari ad 11. In seguito, si è effettuata la divisione in
insiemi di stima e di verifica, allocando al secondo le 10 osservazioni più
recenti.
Figura 4.1. Consumi US di gas naturale per il periodo 1973-2017
Alla serie risultante, sono stati applicati direttamente i modelli.
Consumi di gas naturale negli U.S. 53
Gli errori di previsione indicano i modelli VAR(1) e K-FNN come i più adatti
per prevedere i consumi statunitensi di gas naturale. Il k-nearest neighbors
risulta preferibile anche all’Lk-FNN, nella stima dei pesi del quale,
probabilmente, incide la bassa numerosità campionaria. Il peggior modello per
prevedere questo tipo di dati si rivela essere l’NP-FAR, nel quale si è osservato
che l’ampiezza di banda ottimale ha portato a considerare un numero di vicini
variabile da 1 ad 8 a mano a mano che si scorreva nell’out of sample e,
potenzialmente, potrebbero essere state escluse osservazioni utili per la
previsione.
MAE RMSE MAPE MSPE
VAR(1) 36369 60599 9.101 1.822
FAR(1) 38237
(+5.1%)
58441
(-3.6%)
10.833
(+19.0%)
1.974
(+8.3%)
NP-FAR 46344
(+27.4%)
64440
(+0.6%)
15.210
(+67.1%)
3.530
(+93.7%)
K-FNN 36121
(-0.7%)
54164
(-10.6%)
10.247
(+12.6%)
1.701
(-6.6%)
LK-FNN 38343
(+5.4%)
58881
(-2.8%)
10.395
(+14.2%)
1.903
(+4.4%)
Tabella 4.1. Errori out of sample per la serie dei consumi di gas naturale negli US.
Semplicemente guardando la tabella riportante gli errori, ed i MAE al variare
di k per i modelli k-FNN e Lk-FNN, si può vedere come questi siano simili a
quelli relativi alla simulazione con DGP FAR(1) diagonale, in quanto k-FNN
seleziona un kopt basso, 4, mentre Lk-FNN seleziona un kopt pari a 34, e cioè
sfrutta quasi tutta l’informazione disponibile. Non è un caso, dunque, che gli
errori di Lk-FNN risultino molto simili a quelli del FAR(1).
54 Applicazione ai dati reali
Figura 4.2. MAE al variare di k per la serie dei consumi di gas US.
Nell’immagine 4.3 è rappresentata una delle osservazioni funzionali e le
previsioni, effettuate attraverso i due migliori modelli ed il peggiore. Come si
può vedere, le previsioni NP-FAR sono costantemente le più lontane dalla vera
funzione. Inoltre, il VAR(1) risulta mediamente il più preciso, se non fosse che,
dove prevede peggio, compie errori di entità maggiore rispetto al k-FNN, come
testimoniato dal più alto errore MSPE.
Figura 4.3. Consumi di gas naturale negli U.S. e previsioni per
un’osservazione out sample.
Domanda e prezzi inglesi dell’elettricità 55
4.2 Domanda e prezzi inglesi dell’elettricità
A partire dagli anni ‘90, il mercato elettrico ha subito un notevole mutamento,
conseguentemente alle politiche di liberalizzazione messe in atto da un
numero via via crescente di Paesi. Se, sino ad allora, i prezzi dell’elettricità
venivano regolamentati centralmente dagli Stati, che ne garantivano una certa
stabilità, dopo la liberalizzazione, l’energia elettrica è divenuta simile a
qualsiasi altra merce e, di conseguenza, la possibilità di una libera circolazione
di questo bene in ambito comunitario, ha portato anche all’aumento della
volatilità dei prezzi ed alla, conseguente, difficoltà nel prevederli. Oltre a ciò,
nonostante la liberalizzazione del mercato abbia portato a questa omogeneità
di trattamento, la natura intangibile dell’elettricità fa sì che anche la previsione
della domanda risulti cruciale, in quanto, non essendo possibile
immagazzinarla fisicamente, è necessario che vi sia un bilanciamento tra la
quantità di energia prodotta e quella richiesta.
Nelle due applicazioni proposte, ci si soffermerà, in particolare, sulle serie
relative al mercato inglese, la cui organizzazione è, per certi versi, piuttosto
articolata. Tuttavia, il fine di questo paragrafo consiste nel considerare il
cosiddetto mercato del giorno dopo, in cui vengono fatte le previsioni per la
quantità di energia richiesta e per i livelli dei prezzi per il giorno successivo. In
particolare, le previsioni avvengono sulla base del periodo di riferimento della
mezz’ora, per cui, prevedere un profilo giornaliero completo, significa
prevedere 48 valori. L’approccio a tali problemi è stato affrontato secondo
diverse metodologie, per esempio attraverso approcci univariati che
prevedono di modellare separatamente le 48 serie storiche giornaliere, oppure
attraverso l’applicazione di modelli multivariati agli interi profili giornalieri di
domanda e prezzi. In questo paragrafo, si proporrà un approccio misto, che ha
previsto la rimozione delle componenti deterministiche dalle serie storiche
attraverso dei modelli GAM e l’implementazione dei modelli funzionali sui
residui. Questa scelta è stata fatta per due motivi. Il primo, e più pratico,
riguarda il fatto che le serie della domanda e dei prezzi risultano non
stazionarie. In particolare, la serie dei prezzi riporta la maggior evidenza della
non stazionarietà, evidenza colta, tra l’altro, anche dal test di Horváth et al. che
56 Applicazione ai dati reali
rifiuta l’ipotesi nulla di stazionarietà al livello del 5%. Il secondo motivo
riguarda il fatto che il grosso degli effetti deterministici presenti nelle serie può
essere trattato attraverso l’utilizzo di alcune variabili esplicative.
Per approfondimenti sui modelli GAM si rimanda ad Hastie, Tibshirani (1986)
e a Lisi, Pelagatti (2018), per il loro utilizzo in ambito energetico.
Per quanto riguarda la provenienza dei dati sui quali sono state svolte le
analisi, si ringrazia il relatore di questa tesi.
4.2.1 Domanda di energia elettrica
La serie originale, riportata nell’immagine qui sotto, registra le quantità
richieste di energia elettrica nel mercato inglese tra l’1 Gennaio 2009 ed il 31
Dicembre 2014, per un totale di 6*365*48+48=105168 osservazioni puntuali
(il +48 è incluso per tener conto del fatto che il 2012 è stato un anno bisestile).
Figura 4.4. Serie della domanda di elettricità inglese per il periodo 2009-2014.
Domanda
Domanda e prezzi inglesi dell’elettricità 57
Come si può vedere, appare evidente la presenza di una certa sistematicità a
livello annuale. Inoltre, sembra essere presente un leggero trend decrescente
Per indagare la presenza di periodicità a livello settimanale si riportano,
nell’immagine 4.5 a pagina seguente, i boxplots relativi alla domanda per
ciascun giorno della settimana. Per fare ciò, si è dovuta scegliere una fascia
oraria specifica. La scelta è ricaduta, in particolare, sulla mezz’ora che va dalle
17.30 alle ore 18.00, essendo che, come si vedrà, è rappresentativa di uno dei
periodi in cui la domanda assume i valori più elevati.
Ciò che emerge dai grafici è che i consumi presentano delle regolarità tra i
giorni della settimana. Nei week-end, infatti si registrano valori
tendenzialmente meno elevati, come, tra l’altro, era lecito attendersi.
Figura 4.5. Boxplot relativo alla fascia oraria delle 5.30-6.00 p.m.
Come accennato, anche all’interno dei singoli giorni, la domanda presenta delle
fasi regolari, in quanto le fasce orarie notturne e mattutine riportano i valori
più bassi, mentre quelle centrali ed, in particolar misura quelle che rientrano
negli orari tra le 17 e le 19 riportano i picchi più elevati. In quest’ultime, in
aggiunta, si registra anche una maggiore variabilità.
Domanda
58 Applicazione ai dati reali
Figura 4.6. Boxplot della domanda di elettricità inglese per ciascuna fascia oraria.
Si riportano di seguito la serie univariata della domanda per la fascia semi
oraria considerata, e le rispettive funzioni di autocorrelazione globale e
parziale, calcolate nella parte in sample.
Figura 4.7. Domanda per la fascia 17.30-18.00. Dati in sample.
DomandaDomanda
Domanda e prezzi inglesi dell’elettricità 59
Figura 4.8. Funzione di autocorrelazione globale per la fascia oraria
delle 5.30-6.00 p.m.
Figura 4.9. Funzione di autocorrelazione parziale per la fascia oraria
delle 5.30-6.00 p.m.
Le funzioni di autocorrelazione globale e parziale rimarcano quanto detto in
precedenza. Il prossimo passo, a questo punto, risulta essere quello relativo
alla depurazione della serie dagli effetti deterministici. Prima di fare ciò,
tuttavia, risulta conveniente riportare i dati su scala logaritmica, in modo tale
da ridurne la variabilità.
L’idea è quella di considerare la decomposizione della serie storica in una
parte deterministica ed una stocastica.
Si avrà dunque, considerando la serie come univariata:
log(𝐷𝑡) = 𝑑 𝑡 + 𝑒𝑡, dove 𝐷𝑡 è la domanda al tempo t, 𝑑 𝑡 è una parte
deterministica che si cercherà di rimuovere ed 𝑒𝑡 è una termine residuale, che
verrà modellato in seguito per via funzionale.
60 Applicazione ai dati reali
Per quanto riguarda la parte deterministica 𝑑 𝑡, questa è stata trattata
attraverso l’utilizzo delle seguenti covariate:
• time: creata artificialmente allo scopo di modellare il trend della serie,
assume valori discreti crescenti da 1 sino al numero massimo di
osservazioni;
• DayOfWeek: assume valori discreti da 1 a 7 e serve per cogliere la
stagionalità a livello settimanale;
• DayYear: assume valori da 1 a 365 ed attraverso di essa si vogliono
modellare periodicità a livello annuale;
• EndYear: dummy che indica il periodo che va da Natale all’Epifania;
• DayOff: dummy che indica se un determinato giorno cadeva in un
periodo di ponte;
• BankHoliday: dummy che indica le festività cadute nei giorni feriali.
Come si può vedere, tutte le variabili a disposizione, si sarebbero potute
ricavare ‘calendario alla mano’.
Sulle serie storiche relative alle singole fasce orarie sono stati applicati dei
modelli GAM, con le esplicative non binarie lisciate attraverso delle Splines in
cui i parametri di lisciamento sono stati posti, semplificando, uguali in tutte le
fasce orarie.
La serie dei residui del periodo in sample risultante, per la fascia 17.30-18.00,
è riportata di seguito (figura 4.10), a titolo esemplificativo, così come le
funzioni di autocorrelazione globale e parziale (figure 4.11 e 4.12).
Figura 4.10. Serie dei residui per la fascia 17.30-18.00 dopo depurazione via GAM.
Residui
Domanda e prezzi inglesi dell’elettricità 61
Figura 4.11. Funzione di autocorrelazione globale per i residui della fascia
oraria delle 5.30-6.00 p.m.
Figura 4.12. Funzione di autocorrelazione parziale per i residui della fascia
oraria delle 5.30-6.00 p.m.
Risulta evidente che la rimozione degli effetti di lungo periodo e di calendario
abbia migliorato notevolmente le funzioni di autocorrelazione globale e
parziale. Ciò nonostante, rimangono ancora delle dipendenze da modellare. La
componente residuale, è stata dunque trattata attraverso gli approcci
funzionali e quello multivariato utilizzati nei paragrafi precedenti. Inoltre, dato
che nei residui sembra essere rimasta una componente periodica settimanale,
si sono confrontate le previsioni dei modelli anche con quelle derivanti
dall’applicazione di 48 SAR(1)7 univariati, ovvero di modelli autoregressivi di
ordine 1 stagionali, e con quelle ottenute da 48 sempilci AR(1), in modo da
vedere se la rimodellazione della stagionalità possa, effettivamente, portare
qualche vantaggio. Chiaramente, si sono applicati 48 modelli perché questa è
62 Applicazione ai dati reali
la numerosità delle semi-fasce orarie. L’applicazione dei modelli funzionali alla
serie dei residui è permessa dal fatto che questa risulta stazionaria e riporta,
infatti, un p-value di 0.165 nello specifico test.
Gli errori, calcolati sulla serie in scala originaria, attraverso una semplice
trasformazione esponenziale, sono riportati nella tabella 4.2.
I guadagni percentuali ottenuti modellando i residui sono stati confrontati con
gli errori di previsione relativi alla serie in cui sono stati rimossi
esclusivamente gli effetti di lungo periodo e di calendario (riga uno della
tabella).
MAE RMSE MAPE MSPE
n.d. 927 1229 2.715 0.128
AR(1) 908
(-2.0%)
1216
(-1.1%)
2.666
(-1.8%)
0.127
(-0.8%)
SAR(1)7 907
(-2.2%)
1214
(-1.2%)
2.664
(-1.9%)
0.126
(-1.6%)
VAR(1) 801
(-13.6%)
1068
(-13.1%)
2.313
(-14.8%)
0.091
(-28.9%)
FAR(1) 803
(-13.4%)
1072
(-12.8%)
2.320
(-14.5%)
0.093
(-27.3%)
NP-FAR 834
(-10.0%)
1106
(-10.0%)
2.420
(-10.9%)
0.100
(-21.9%)
K-FNN 831
(-10.4%)
1116
(-9.2%)
2.409
(-11.3%)
0.101
(-21.1%)
LK-FNN 807
(-12.9%)
1077
(-12.4%)
2.330
(-14.2%)
0.093
(-27.3%)
Tabella 4.2. Errori out of sample per la domanda di elettricità inglese (scala originale).
In riga 1 gli errori quando non vengono modellati i residui.
Nella tabella, emergono in modo abbastanza nitido tre gruppi di modelli con
performances predittive simili, corrispondenti, tra l’altro, alle caratteristiche
strutturali degli stessi modelli. Da un lato, si hanno i modelli univariati AR(1)
e SAR(1)7, che registrano le peggiori performances predittive, poi si trovano i
modelli funzionali non parametrici, NP-FAR e k-FNN, che mostrano risultati
intermedi ed, infine, i modelli parametrici FAR(1) e VAR(1), i migliori, seguiti
molto da vicino dall’Lk-FNN. Come si può vedere, modellare i residui per via
Domanda e prezzi inglesi dell’elettricità 63
univariata non porta vantaggi considerevoli, al contrario dell’utilizzo di un
qualsiasi altro tra i modelli proposti. Il caso reale in questione ricorda la prima
simulazione, quella in cui il processo generatore dei dati era un FAR(1)
diagonale. Tuttavia, il fatto che i modelli univariati performino così male deve
significare che le relazioni tra la domanda in fasce orarie diverse non sia
semplice come in quel caso. Questo fattore è evidenziato anche considerando
che il modello Lk-FNN tenda a non utilizzare tutta l’informazione disponibile
nei dati, ma selezioni kopt=347, quando il nucleo viene stimato attraverso 7 basi
B-Splines. Trovare una serie storica reale che combaci perfettamente con i casi
simulati non è semplice e, il caso in questione, sembra essere un caso
borderline, tra la simulazione 1 e la 2, essendo che, come si vede osservando il
MAE al variare di k, l’errore risulta piuttosto stabile per 𝑘 > 400.
Figura 4.13. MAE al variare di k per i residui della domanda inglese di elettricità.
Il fatto che la serie dei residui risultasse abbastanza stabile, al di fuori di alcuni
picchi che non sono stati colti modellando la parte deterministica della serie
originaria, unito al fatto che il numero di osservazioni risulta sufficientemente
elevato, portano a concludere che la serie funzionale sia abbastanza densa, e
ciò spiega la vicinanza nelle performances predittive dell’NP-FAR e del k-FNN.
Nell’immagine 4.14 viene riportata una curva relativa ad un profilo giornaliero
di elettricità, selezionata casualmente nell’out of sample, e le relative previsioni
con il miglior modello parametrico (VAR) ed il miglior modello non
parametrico (Lk-FNN).
64 Applicazione ai dati reali
Il riscontro visivo non rileva eccessive differenze.
Figura 4.14. Domanda a consuntivo e previsioni per il 3/12/2014.
Domanda e prezzi inglesi dell’elettricità 65
4.2.2 Prezzi dell’energia elettrica
La trattazione della serie dei prezzi risulta pressoché analoga a quella della
domanda, almeno per quanto concerne le metodologie utilizzate. Ciò che,
tuttavia, contraddistingue questo caso dal precedente, è la presenza di una
variabilità più accentuata tra le osservazioni. Per questo motivo, si è deciso di
lavorare sin da subito sui log-prezzi.
La rappresentazione univariata della serie è riportata nella figura seguente.
Come si può vedere, vi sono diversi picchi ad intervalli difficili da individuare,
perciò, per capire come trattarla, risulta necessario ispezionare tipi di grafici
differenti.
Prima di procedere, va evidenziato che la serie costituita dai profili giornalieri
dei prezzi risulta non stazionaria, in quanto l’apposito test ha riportato un
p-value pari a 0.01 conducendoci, quindi, al rifiuto dell’ipotesi nulla di
stazionarietà al livello del 5% e, per questo, non si sono modellati direttamente
tali profili.
Figura 4.15. Serie dei log-prezzi dell’elettricità inglese per il periodo 2009-2014.
log(Prezzi)
66 Applicazione ai dati reali
I grafici che seguono, mostrano le caratteristiche della serie per la stessa fascia
oraria considerata quando si è modellata la domanda di elettricità inglese.
Sebbene i boxplots dei log-prezzi risultino molto schiacciati, facendo
attenzione, si può notare una lieve flessione, anche in questo caso nel fine
settimana, per la fascia considerata, anche se l’evidenza risulta piuttosto
debole dal grafico. Tuttavia, quando si andrà a modellare la componente
deterministica dei prezzi, si farà uso della variabile DayOfWeek che, in altri
orari, rileva una maggiore stagionalità a livello settimanale.
Figura 4.16. Boxplot relativo alla fascia oraria delle 5.30-6.00 p.m.
All’interno della singola giornata, invece, risulta ben più evidente la
sistematicità, con la presenza di alcune fasce orarie dove i prezzi sono più alti
e variabili (tipicamente quelle del tardo pomeriggio), ed altre in cui i livelli e la
variabilità risultano più compresse.
Domanda e prezzi inglesi dell’elettricità 67
Figura 4.17. Boxplot dei log-prezzi dell’elettricità inglese per ciascuna fascia oraria.
Le funzioni di autocorrelazione globale e parziale per la serie univariata dei
prezzi della fascia 17.30-18.00 sono riportate nelle figure 4.18 e 4.19.
Figura 4.18. Funzione di autocorrelazione globale dei log-prezzi per
la fascia oraria delle 5.30-6.00 p.m.
log(Prezzi)
68 Applicazione ai dati reali
Figura 4.19. Funzione di autocorrelazione parziale dei log-prezzi per
la fascia oraria delle 5.30-6.00 p.m.
Anche in questo caso, le funzioni di autocorrelazione evidenziano la presenza
di componenti stagionali che devono essere rimosse.
Dopo l’applicazione dei modelli GAM in ogni singola giornaliera serie
semi-oraria, si ottengono i residui, i cui grafici in serie e le cui funzioni di
autocorrelazione, sempre relativi alla stessa fascia oraria, sono visibili nella
figura 4.20 ed a pagina seguente.
Figura 4.20. Serie dei residui per la fascia 17.30-18.00 dopo la
depurazione attraverso GAM.
Residui
Domanda e prezzi inglesi dell’elettricità 69
Figura 4.21. Funzione di autocorrelazione globale per i residui della fascia
oraria delle 5.30-6.00 p.m.
Figura 4.22. Funzione di autocorrelazione parziale per i residui della fascia
oraria delle 5.30-6.00 p.m.
I grafici rivelano quanto vi sia ancora da modellare. Per la serie relativa alla
fascia 17.30-18.00, per esempio, sono individuabili ritardi significativamente
diversi da 0 al primo lag e ad altri, apparentemente non equispaziati nella
PACF. Supponendo che, anche in questo caso, possa esservi un effetto
stagionale ancora non colto, si confrontano i modelli funzionali ed il VAR(1)
con i due modelli univariati precedentemente esposti. L’applicazione dei
modelli funzionali è giustificata dal fatto che serie funzionale dei profili
giornalieri dei residui è risultata stazionaria secondo il test di Horváth, con un
p-value pari a 0.742.
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI
MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI

More Related Content

Similar to MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI

MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...StroNGER2012
 
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...Franco Bontempi Org Didattica
 
Identificazione della non linearità attraverso criteri di informazione automa...
Identificazione della non linearità attraverso criteri di informazione automa...Identificazione della non linearità attraverso criteri di informazione automa...
Identificazione della non linearità attraverso criteri di informazione automa...Filippo Cantarello
 
Griglia metodologica 1
Griglia metodologica 1Griglia metodologica 1
Griglia metodologica 1imartini
 
Guida Scrittura
Guida ScritturaGuida Scrittura
Guida Scritturalab13unisa
 
PW_modello_servizi_ricerca_def
PW_modello_servizi_ricerca_defPW_modello_servizi_ricerca_def
PW_modello_servizi_ricerca_defLaura Ramacci
 
Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]
Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]
Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]santi caltabiano
 
Modello di Relazione Tecnica
Modello di Relazione Tecnica Modello di Relazione Tecnica
Modello di Relazione Tecnica Claudio Cancelli
 
Toni Stelline 2008
Toni Stelline 2008Toni Stelline 2008
Toni Stelline 2008francotoni
 
Analisi di forme di scrittura utilizzando un modello matematico rappresentativo
Analisi di forme di scrittura utilizzando un modello matematico rappresentativoAnalisi di forme di scrittura utilizzando un modello matematico rappresentativo
Analisi di forme di scrittura utilizzando un modello matematico rappresentativoAstridSchiulaz
 
Xii 050508
Xii 050508Xii 050508
Xii 050508imartini
 
Xii 050508
Xii 050508Xii 050508
Xii 050508imartini
 
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...Marco Virgo
 

Similar to MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI (14)

MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...
 
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE  TOPOLOGICA EVOLUTIVA DI ...
MODELLI STRUT-AND-TIE EMERGENTI DALL’OTTIMIZZAZIONE TOPOLOGICA EVOLUTIVA DI ...
 
Identificazione della non linearità attraverso criteri di informazione automa...
Identificazione della non linearità attraverso criteri di informazione automa...Identificazione della non linearità attraverso criteri di informazione automa...
Identificazione della non linearità attraverso criteri di informazione automa...
 
Griglia metodologica 1
Griglia metodologica 1Griglia metodologica 1
Griglia metodologica 1
 
Guida Scrittura
Guida ScritturaGuida Scrittura
Guida Scrittura
 
PW_modello_servizi_ricerca_def
PW_modello_servizi_ricerca_defPW_modello_servizi_ricerca_def
PW_modello_servizi_ricerca_def
 
Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]
Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]
Teoremi fondamentali sugli operatori lineari [tesi][santi caltabiano]
 
Modello di Relazione Tecnica
Modello di Relazione Tecnica Modello di Relazione Tecnica
Modello di Relazione Tecnica
 
Tesi garasi
Tesi garasiTesi garasi
Tesi garasi
 
Toni Stelline 2008
Toni Stelline 2008Toni Stelline 2008
Toni Stelline 2008
 
Analisi di forme di scrittura utilizzando un modello matematico rappresentativo
Analisi di forme di scrittura utilizzando un modello matematico rappresentativoAnalisi di forme di scrittura utilizzando un modello matematico rappresentativo
Analisi di forme di scrittura utilizzando un modello matematico rappresentativo
 
Xii 050508
Xii 050508Xii 050508
Xii 050508
 
Xii 050508
Xii 050508Xii 050508
Xii 050508
 
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
 

MODELLI FUNZIONALI AUTOREGRESSIVI PARAMETRICI E NON PARAMETRICI

  • 1. Università degli Studi di Padova Dipartimento di Scienze Statistiche Corso di Laurea Magistrale in Scienze Statistiche Modelli Funzionali Autoregressivi Parametrici e non Parametrici Relatore Prof. Francesco Lisi Dipartimento di Scienze Statistiche Laureando: Filippo Cantarello Matricola N 1156573 Anno Accademico 2018 / 2019
  • 2.
  • 3. iii Sommario INTRODUZIONE..................................................................................................... 1 1 L’ANALISI DEI DATI FUNZIONALI................................................................ 3 1.1 INTRODUZIONE E RICOGNIZIONE DELLA BIBLIOGRAFIA..................................... 3 1.2 STRUMENTI UTILI NELL’FDA........................................................................ 6 1.2.1 Spazi di Hilbert..................................................................................... 7 1.2.2 Tecniche di smoothing dei dati............................................................ 8 1.2.3 Basi di Fourier...................................................................................... 9 1.2.4 Basi B-Splines..................................................................................... 11 1.2.5 La stima dei parametri ...................................................................... 12 2 MODELLI PER DATI FUNZIONALI .............................................................. 13 2.1 UN MODELLO FUNZIONALE PARAMETRICO: IL FAR(Q)................................... 14 2.2 MODELLI FUNZIONALI NON PARAMETRICI..................................................... 18 2.2.1 Il modello NP-FAR.............................................................................. 18 2.3 METODI BASATI SULL’ALGORITMO K-NEAREST NEIGHBORS ............................ 20 2.3.1 k-nearest neighbors funzionale......................................................... 20 2.3.2 k-nearest neighbors funzionale lineare ............................................ 23 3 SIMULAZIONI MONTE CARLO..................................................................... 29 3.1 IL MODELLO VAR(1)................................................................................. 31 3.2 DGP FAR(1) CON NUCLEO DIAGONALE ....................................................... 32 3.3 DGP SETAR(1,1) CON REGIMI SBILANCIATI................................................ 36 3.4 DGP SETAR(1,1) CON REGIMI BILANCIATI ................................................. 43 4 APPLICAZIONE AI DATI REALI................................................................... 49 4.1 CONSUMI DI GAS NATURALE NEGLI U.S......................................................... 52 4.2 DOMANDA E PREZZI INGLESI DELL’ELETTRICITÀ............................................ 55 4.2.1 Domanda di energia elettrica............................................................ 56 4.2.2 Prezzi dell’energia elettrica............................................................... 65
  • 4. iv Sommario 4.3 EL NINO....................................................................................................73 4.3.1 Area 3.4...............................................................................................74 4.3.2 Area 1+2..............................................................................................77 CONCLUSIONI.......................................................................................................81 APPENDICE...........................................................................................................85 CODICE R UTILIZZATO............................................................................................85 RINGRAZIAMENTI ...............................................................................................97 BIBLIOGRAFIA......................................................................................................99
  • 5. Introduzione L’obiettivo di questa tesi riguarda l’introduzione di due modelli autoregressivi funzionali di ordine uno basati sull’algoritmo dei k vicini più prossimi, al fine di confrontarne le performances predittive con quelle effettuate attraverso i modelli parametrici o non parametrici già implementati nel software statistico R. Lo scopo, quindi, è quello di capire quando la selezione di un numero di osservazioni fisso possa offrire dei vantaggi sull’utilizzare tutta l’informazione a disposizione nei dati oppure, rispetto all’uso di un’ampiezza di banda fissa. Il contesto è quello delle serie storiche funzionali. L’elaborato si compone di cinque capitoli, divisi in base al contenuto di ciascuno. Nel primo, sono presentati i dati funzionali, una ricognizione della bibliografia riguardante i lavori svolti nell’ambito delle serie storiche funzionali, e le problematiche in cui ci si imbatte quando si ha a che fare con questo genere di dati. Segue, la presentazione dei modelli funzionali autoregressivi parametrici e non, fulcro del confronto in questa tesi, nel capitolo 2. Il terzo capitolo è interamente dedicato alle simulazioni. Questa parte risulta cruciale, in quanto si cercherà di capire in quali contesti gli approcci non parametrici possano essere preferibili rispetto a quelli parametrici. Per fare ciò, si sono applicati i modelli a delle serie, simulate artificialmente, con diverse caratteristiche. Oltre a ciò, si sono valutate le caratteristiche dei due modelli basati sul k-nn proposti, al variare del loro specifico iperparametro. Nel capitolo 4, si sono voluti confrontare i modelli su alcune serie storiche reali cercando, ove possibile, di trovare delle corrispondenze con i risultati derivanti dalle simulazioni, ricavati nel capitolo precedente. Seguono un capitolo in cui si cerca di fare il punto sulle conclusioni ottenute ed un appendice, nella quale si trovano i codici delle funzioni utilizzate nel corso della tesi.
  • 7. 1 L’analisi dei dati funzionali 1.1 Introduzione e ricognizione della bibliografia L’analisi dei dati funzionali, nota anche attraverso l’acronimo FDA, coniato da Ramsay e Dalzell (1991), è una disciplina statistica che può essere vista come un’estensione delle tradizionali tecniche di analisi multivariata quando i dati, anziché vettori, sono delle curve che evolvono in relazione ad una sottostante variabile continua (Aguilera, 2013). Uno dei maggiori vantaggi che offre l’approccio funzionale è dovuto alla natura stessa dei dati. Essendo, questi, funzioni, risulta infatti possibile manipolarli in modi inusuali, per esempio ricavandone le derivate, in maniera tale da studiare aspetti di interesse diversi da quelli carpibili attraverso l’analisi dei dati grezzi. Se considerassimo il tempo come variabile continua sottostante, per esempio, prendere la derivata prima e seconda della funzione rappresentativa di un dato fenomeno rispetto allo stesso tempo significherebbe ricavare rispettivamente velocità ed accelerazione del fenomeno oggetto di studio. Chiaramente, per poter sfruttare queste potenzialità, risulta necessario avere delle funzioni regolari. Un ulteriore vantaggio rispetto alle classiche tecniche statistiche è dovuto al fatto che ciascuna funzione è valutabile in ogni punto del suo dominio, per cui viene meno il problema di avere delle osservazioni ad intervalli non equispaziati. Un celebre esempio in cui si possono apprezzare entrambi i vantaggi offerti da un approccio di tipo funzionale è fornito da R.D. Bock et al. (1995), che hanno studiato l’accelerazione nella crescita di un gruppo di ragazze di Berkeley le altezze delle quali erano state precedentemente registrate nello studio di Tuddenham e Snyder (1954), ad intervalli non equispaziati, dal momento della nascita al compimento dei 18 anni. Per poter fare ciò, gli autori hanno fatto ricorso a delle splines di lisciamento, metodo che verrà spiegato nei paragrafi a venire.
  • 8. 4 L’analisi dei dati funzionali Nella pratica, si tende a parlare di dati funzionali quando si ha a che fare con misurazioni ripetute di una stessa variabile che varia, come detto, su un continuo. Questa disciplina, che ha raggiunto il proprio apice quanto a notorietà solo recentemente, è stata studiata da diversi autori, i quali hanno contribuito nella ricerca e nello sviluppo di metodologie fruibili in aree di interesse piuttosto differenziate. Tra questi, una citazione doverosa va a J.O. Ramsay e B.W. Silverman (1997, 2002), le monografie dei quali rappresentano tutt’oggi un riferimento nell’ambito dell’FDA, in quanto sono ivi riportati i più diffusi strumenti per trattare questa tipologia di dati. In Ramsay, Hooker e Graves (2009), inoltre, è presentata la libreria fda, scritta sia in R che in Matlab, in cui sono presenti alcune delle routines che permettono l’implementazione dei principali strumenti di analisi funzionale, e che verrà richiamata anche all’interno dei codici presenti in appendice. Approcci di tipo funzionale sono stati utilizzati nello studio di problemi relativi ad ambiti piuttosto diversificati, dalle scienze naturali alla medicina, piuttosto che alla finanza. Gromenko et al. (2017), per esempio, hanno affrontato un problema, molto controverso nella fisica contemporanea, in cui si ipotizzava la presenza di un trend di raffreddamento nella ionosfera, connesso al surriscaldamento globale. L’applicazione di un approccio di tipo funzionale ha garantito il superamento del problema costituito dalla disponibilità di serie temporali troppo corte o incomplete che, se studiate una alla volta, avevano portato a conclusioni discordanti. Ciò ha permesso agli autori di arrivare a confermare l’effettiva presenza di questo fenomeno e di porre, dunque, fine ad un dibattito durato più di due decenni. T.S. Tian (2010) ha discusso l’applicazione di metodologie di tipo funzionale ai problemi dell’estrazione delle caratteristiche più rilevanti e della classificazione delle immagini derivanti da risonanze magnetiche cerebrali funzionali (fMRI). Questi dati sono stati oggetto di molti studi proposti in letteratura, tra i quali spicca la proposta di utilizzare le componenti principali funzionali per ricavare i segnali di interesse dalle funzioni rappresentanti i voxels, cioè le controparti tridimensionali dei pixels delle immagini (Viviani et al., 2005).
  • 9. Introduzione e ricognizione della bibliografia 5 Le applicazioni dell’FDA in ambito finanziario risultano piuttosto recenti. Per quanto concerne la disciplina del Risk Management, grande interesse assume la proposta di C.X. Cai et al. (2018) che prevede di modellare la densità dei rendimenti intra-giornalieri attraverso un modello autoregressivo funzionale al fine di prevedere il valore a rischio a livello giornaliero. Hörmann et al. (2013) hanno presentato e studiato le condizioni di stazionarietà dell’estensione funzionale del modello autoregressivo ad eteroschedasticità condizionata (ARCH), successivamente ulteriormente generalizzato da Aue et al. (2017), che hanno introdotto e studiato le proprietà del GARCH(1,1) funzionale. Cerovecki, Franq, Hörmann e Zakoïan (2019) hanno proposto uno stimatore consistente e asintoticamente normale per i parametri del GARCH(1,1) funzionale, basato sulla quasi-verosimiglianza anziché sul metodo dei momenti. In Kokoszka et al. (2014), attraverso l’applicazione di modelli funzionali fattoriali è emerso come la forma delle curve rappresentanti i futures sul grezzo impatti sulla forma delle curve dei prezzi intragiornalieri delle azioni delle blue chips. Ancora, per quanto concerne le serie storiche funzionali che, come si vedrà più avanti, saranno l’ambito di applicazione considerato in questa tesi, si possono citare diversi altri lavori. In ambito parametrico, grande risonanza hanno assunto lavori dei francesi D. Bosq (1991), che ha introdotto il modello autoregressivo Hilbertiano di ordine 1 (ARH), in seguito ampiamente ridiscusso dallo stesso nella sua successiva monografia (D. Bosq, 2000) e B. Pumo, al quale si devono l’espansione del modello ARH agli spazi di Banach (B. Pumo, 1992) e a quello delle funzioni continue in [0,1] (B. Pumo, 1999). P. Besse e H. Cardot (1996) hanno studiato le differenze nell’applicare il modello ARH(1) sulle osservazioni grezze o su quelle lisciate attraverso funzioni splines, mostrando come quest’ultimo tipo di approccio potesse portare a previsioni più accurate. Gli stessi, inoltre (P. Besse e H. Cardot, 2000), hanno paragonato le previsioni effettuate attraverso il modello funzionale autoregressivo di ordine uno con quelle di un SARIMA sulla serie storica delle temperature relative al fenomeno ‘el Ni𝑛̃o’, che verrà studiato anche in questo elaborato. Damon e Guillas (2005) hanno presentato il modello ARHX, estensione dell’ARH in cui vengono considerate delle dipendenze da variabili esplicative funzionali esogene. Inoltre, vanno citati i lavori di Hörmann e Kokoszka (2010) sui dati debolmente dipendenti, e di quest’ultimo con
  • 10. 6 L’analisi dei dati funzionali D. Didericksen e Xi Zhang (2011), in cui vengono messi a confronto, attraverso un piano di simulazione, diversi stimatori per il nucleo dell’ARH(1), che generalmente sono basati sulle componenti principali funzionali. In ambito funzionale non parametrico, le applicazioni ai processi dipendenti risultano piuttosto recenti. In letteratura, si possono annoverare i lavori di Ferraty, Gioia, Vieu (2002) e Ferraty, Vieu (2004), nei quali è stato introdotto e discusso un modello di regressione locale basato sul kernel di Nadaraya- Watson, le proprietà asintotiche delle cui stime sono state studiate e discusse in E. Masry (2005) in Laib, Nouani (2010) ed in Ferraty et al. (2011). Zhu e Politis (2017) hanno studiato le proprietà di un modello non parametrico autoregressivo di ordine uno ed introdotto delle approssimazioni bootstrap per le regioni di confidenza delle previsioni. Importante, inoltre, il contributo fornito da E. Paparoditis e T. Sapatinas (2013) che hanno utilizzato la regressione locale per prevedere i consumi energetici di Cipro. In letteratura sono presenti una moltitudine di altri lavori nell’ambito dell’FDA. Quelli precedentemente riportati si sono scelti perché ritenuti esemplificativi degli ambiti di utilizzo di questo strumento così versatile, o perché alcuni dei sopra citati campi di applicazione rappresentano tutt’oggi campo florido per ulteriori lavori di ricerca. 1.2 Strumenti utili nell’FDA Data la natura particolare relativa ai dati funzionali, si riportano, nei prossimi paragrafi, alcuni strumenti teorici e metodologici, utili in questo contesto. Se, da un lato, avere a che fare con funzioni anziché osservazioni puntuali porta alla necessità di superare il concetto di spazio euclideo, dall’altro lato bisogna considerare che quelle che si osservano sono delle discretizzazioni di processi in realtà continui e, perciò, risulta fondamentale risalire, nella maniera più precisa possibile, ai veri processi.
  • 11. Strumenti utili nell’FDA 7 1.2.1 Spazi di Hilbert Nel campo dell’analisi funzionale, si ha a che fare con degli oggetti di dimensione infinita, delle funzioni, per l’appunto. Ciò implica la necessità di generalizzare lo spazio euclideo, introducendo lo spazio di Hilbert. Definizione. Spazio di Hilbert Uno spazio vettoriale dotato di prodotto scalare (detto spazio Pre-Hilbertiano) e completo rispetto alla norma indotta dal prodotto scalare è chiamato spazio di Hilbert (H). La principale differenza tra uno spazio di Hilbert e quello euclideo è legato al fatto che il primo sia uno spazio infinito dimensionale, cioè la cardinalità (il numero di elementi) di ogni sua base non è finito. Al lato pratico, ciò avrà delle ripercussioni sulle metodologie che si andrà elencando in quanto, ai fini dell’implementazione, sarà necessario effettuare delle semplificazioni. Oltre a ciò, vi è un’ulteriore differenza nel considerare H anziché lo spazio euclideo. In ogni spazio finito dimensionale, infatti, tutte le norme sono equivalenti. In simboli: sia 𝑉 uno spazio vettoriale a dimensione finita, allora, fissate ‖ . ‖ 𝑎 e ‖ . ‖ 𝑏, esistono due costanti 𝑐1 e 𝑐2 tali che 𝑐1‖ 𝑣 ‖ 𝑏 ≤ ‖ 𝑣 ‖ 𝑎 ≤ 𝑐2‖ 𝑣 ‖ 𝑏, ∀ 𝑣 ∈ 𝑉. Questa caratteristica implica che anche le distanze indotte dalle norme, 𝑑(𝑣, 𝑤) = ‖ 𝑣 − 𝑤 ‖, siano equivalenti. Nel caso di spazi infinito dimensionale, invece, la precedente proprietà non è più garantita e ciò può portare a problemi di diversa natura. Per esempio, il limite di una successione può convergere rispetto ad una norma e divergere rispetto ad un’altra. Vista questa problematicità, risulta utile, nelle applicazioni, fissare una norma e, per fare questo, può essere utile fare ricorso allo spazio 𝐿2 , delle funzioni quadrato integrabili, l’unico spazio 𝐿 𝑝 che è spazio di Hilbert (gli altri sono spazi di Banach, ulteriore generazione del concetto di spazio di Hilbert). Il ricorso a questo spazio rende molte applicazioni concettualmente più semplici in quanto risulta piuttosto simile allo spazio euclideo. In particolare, la norma, indotta dal prodotto scalare, è assimilabile
  • 12. 8 L’analisi dei dati funzionali ad una versione integrale della norma euclidea quando al posto di vettori, si hanno delle funzioni 𝑓: ‖𝑓‖2 = (∫ 𝑓2(𝑡)𝑑𝑡) 1/2 . (1) 1.2.2 Tecniche di smoothing dei dati Lo sviluppo delle tecniche di analisi funzionale è cresciuto notevolmente negli ultimi anni, nei quali, grazie ai notevoli progressi tecnologici, è risultato possibile immagazzinare e gestire grandi moli di dati densamente campionati da processi continui. Chiaramente, proprio il processo di campionamento richiede che l’utente finale possa analizzare solo una discretizzazione di un processo in realtà continuo. Oltre a ciò, spesso, le osservazioni campionarie in possesso del ricercatore sono sporcate da errori, siano essi errori di rilevazione o dovuti ad altri fattori. In termini matematici, si ha che l’osservazione funzionale 𝑥𝑖, valutata al tempo t, risulta pari a: 𝑥𝑖(𝑡) = 𝑓𝑖(𝑡) + 𝜀𝑖(𝑡), 𝑖 = 1, … , 𝑛, 𝑡 = 1, … , 𝑇, dove 𝑓𝑖(𝑡) è la vera funzione sottostante il processo osservato ed 𝜀𝑖(𝑡) un termine di errore. L’operazione che permette di ottenere una stima di 𝑓𝑖(𝑡) viene detta lisciamento (smoothing) dei dati. Questa problematica è stata affrontata in letteratura attraverso più approcci. Tra questi, i metodi che hanno avuto più successo prevedono la rappresentazione delle funzioni attraverso delle combinazioni lineari di funzioni, dette di base. In particolare, se K è il numero di queste funzioni di base (𝜙 𝑘(𝑡)), la generica f potrà essere scritta come: 𝑓(𝑡) = ∑ 𝑐 𝑘 𝜙 𝑘(𝑡) 𝐾 𝑘=1 , (2) dove i 𝑐 𝑘 sono dei coefficienti. In letteratura, sono stati proposti diversi tipi di funzioni di base, la cui utilità dipende dalla natura dei dati. In questo elaborato, ci si soffermerà in particolar modo sulle basi di Fourier e sulle B-Splines, molto diffuse quando si ha a che fare con dati rispettivamente periodici o non periodici.
  • 13. Strumenti utili nell’FDA 9 1.2.3 Basi di Fourier Le basi di Fourier sono ricavabili direttamente a partire dalla serie di Fourier. Questa, generalmente nota attraverso la sua rappresentazione in forma esponenziale, è uno strumento molto utilizzato nell’ambito della teoria dei segnali, in quanto permette di decomporre qualsiasi segnale periodico in una somma pesata infinita di funzioni oscillanti, quali esponenziali complessi. Tuttavia, per definire le basi di Fourier, risulta più utile considerare la forma trigonometrica della serie. Essendo questa meno nota, si è pensato di fare cosa gradita riportando, di seguito, i passaggi necessari per ricavarla. Data la funzione periodica 𝑓, la serie di Fourier per 𝑓 è definita come: 𝑓(𝑡) = ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡 ∞ 𝑙=−∞ . (3) Essendo, per 𝑙 = 0, 𝑒0 = 1, è possibile riscriverla come: 𝑓(𝑡) = 𝑚0 + ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡 −1 𝑙=−∞ + ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡 ∞ 𝑙=1 = 𝑚 𝑜 + 𝑚−1 𝑒−𝑖𝜔𝑡 + 𝑚1 𝑒 𝑖𝜔𝑡 + 𝑚−2 𝑒−𝑖2𝜔𝑡 + 𝑚2 𝑒−𝑖2𝜔𝑡 + ⋯ . Usando le formule di Eulero si avrà dunque: 𝑓(𝑡) = 𝑚0 + 𝑚−1 [cos(𝜔𝑡) − 𝑖 sin(𝜔𝑡)] + 𝑚1 [cos(𝜔𝑡) + 𝑖 sin(𝜔𝑡)] + + 𝑚−2 [cos(2𝜔𝑡) − 𝑖 sin(2𝜔𝑡)])] + 𝑚2 [cos(2𝜔𝑡) + 𝑖 sin(2𝜔𝑡)] + ⋯ 𝑓( 𝑡) = 𝑚0 + (𝑚−1 + 𝑚1) cos( 𝜔𝑡) − 𝑖(𝑚−1 + 𝑚1) sin( 𝜔𝑡) + +(𝑚−2 + 𝑚2) cos(2𝜔𝑡) − 𝑖(𝑚−2 + 𝑚2) sin(2𝜔𝑡) + ⋯ 𝑓(𝑡) = 𝑚0 + (𝑚1 + 𝑚−1) cos(𝜔𝑡) + 𝑖(𝑚1 + 𝑚−1) sin(𝜔𝑡) + +(𝑚2 + 𝑚−2) cos(2𝜔𝑡) + 𝑖(𝑚2 + 𝑚−2) sin(2𝜔𝑡) + ⋯
  • 14. 10 L’analisi dei dati funzionali Posti: 𝑎0 = 𝑚0; 𝑎𝑙 = (𝑚𝑙 + 𝑚−𝑙) ; 𝑏𝑙 = 𝑖(𝑚𝑙 − 𝑚𝑙−1), si otterrà: 𝑓(𝑡) = ∑ 𝑚𝑙 𝑒 𝑖𝑙𝜔𝑡 = 𝑎0 + ∑ [ 𝑎𝑙 cos(𝑙𝜔𝑡)) ∞ 𝑙=1 ∞ 𝑙=−∞ + 𝑏𝑙 sin(𝑙𝜔𝑡)] . (4) Quest’ultima è la serie di Fourier, scritta nella sua forma trigonometrica. Come si può vedere, una funzione è rappresentabile come combinazione lineare di seni e coseni, tra loro ortogonali, che entrano a coppie nell’espansione. La costante 𝜔 = 2 𝜋 𝑇⁄ è relativa al periodo di osservazioni, T. Proprio tale collezione di seni e coseni, unita al valore 1, associato alla costante (𝑎0), definisce le basi di Fourier. Data la natura di queste ultime, risulta più facile capire perché il loro utilizzo risulti di particolare utilità quando si devono modellare dati caratterizzati da periodicità. L’immagine qui sotto riporta le prime cinque basi di Fourier, definite nell’intervallo [0,2𝜋]. Figura 1.1. Prime 5 Basi di Fourier in [0,2𝜋].
  • 15. Strumenti utili nell’FDA 11 1.2.4 Basi B-Splines Le basi B-Splines sono un caso particolare delle funzioni Splines, polinomiali a tratti con vincoli di continuità in alcuni punti, detti nodi, selezionati sull’asse delle ascisse. La particolarità che contraddistingue le funzioni B-Splines è che queste assumono valori diversi da 0 solo in determinati intervalli e ciò permette di evitare il problema dell’alta correlazione sofferto dalle più generiche basi Power-Splines. In termini matematici, indicata con {𝑡1, 𝑡2, 𝑡3, … , 𝑡 𝐾} una successione non decrescente di nodi, una base B-Splines di ordine 1 è definita come: 𝐵𝑖,1(𝑡) = { 1, 𝑠𝑒 𝑡𝑖 < 𝑡 < 𝑡𝑖+1 0, 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 , (5) soggetta al vincolo: ∑ 𝐵𝑖,1(𝑡) = 1 , ∀ 𝑡𝑖 . Muovendo dalla B-Spline di ordine 1 è possibile definire la generica B-Spline di ordine p per via ricorsiva: 𝐵𝑖,𝑝 = 𝜔𝑖,𝑝 𝐵𝑖,𝑝−1 + (1 − 𝜔𝑖+1,𝑝)𝐵𝑖+1,𝑝−1 , (6) con 𝜔𝑖,𝑝(𝑡) = { 𝑡 − 𝑡𝑖 𝑡𝑖+𝑝−1 − 𝑡𝑖 , 𝑠𝑒 𝑡𝑖 ≠ 𝑡𝑖+𝑝−1 0, 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 . (7) Per ulteriori approfondimenti, si rimanda a De Boor (2001). Figura 1.2. Prime 5 Basi B-Splines in [0,2𝜋].
  • 16. 12 L’analisi dei dati funzionali 1.2.5 La stima dei parametri Una volta che è stata scelta la tipologia di funzioni di base attraverso la quale si intende rimuovere il rumore per ricostruire le vere funzioni sottostanti è possibile passare alla fase di stima dei parametri. Fissato a priori il numero di nodi, i coefficienti possono essere stimati attraverso i minimi quadrati ordinari. Si avrà, dunque, data Φ = (𝜙1 𝜙2, . . , 𝜙 𝐾): 𝑐̂𝑖 = (Φ 𝑇 Φ)−1 Φ 𝑇 𝑥𝑖 . (8) In questo contesto, risulta di fondamentale importanza la selezione del corretto numero di nodi, che può avvenire, per esempio, attraverso procedure di tipo stepwise, al fine di evitare il sovradattamento ai dati. Un approccio alternativo alla stima dei parametri, che evita la problematica della scelta del numero di nodi è quello basato sulle Splines di lisciamento. In questo contesto, infatti, viene posto un nodo in corrispondenza di ogni singola osservazione ed il grado di lisciamento è governato da un parametro (𝜆) che moltiplica un termine di penalizzazione che coinvolge l’integrale della derivata seconda al quadrato dell’espansione in basi. Lo stimatore che ne deriva assume la forma: 𝑐̂𝑖 = (Φ 𝑇 Φ + λR 𝜙) −1 Φ 𝑇 𝑥𝑖 , (9) dove R 𝜙 è una matrice che contiene l’integrale della derivata seconda della base di funzioni. Nelle applicazioni pratiche, che saranno svolte nel quarto capitolo, in particolare, verrà utilizzata una variante di questo metodo, che permette di controllare sia il grado di penalizzazione che il numero di nodi.
  • 17. 2 Modelli per dati funzionali L’interesse di questa tesi verte sul confronto tra più modelli al fine di vedere come impatta la natura dei dati forniti in input sulle loro capacità predittive. A tal fine, verranno introdotti, in questo capitolo, i modelli funzionali considerati, suddividendoli tra parametrico e non parametrici. Nell’FDA esistono tre categorie di modelli, contraddistinte in base alla natura ed al ruolo delle variabili in gioco. Schematizzando, si possono distinguere: • modelli scalare-funzionale, in cui le variabili esplicative hanno natura funzionale mentre la risposta è scalare o multivariata; • modelli funzionale-scalare, dove le covariate sono scalari mentre la variable risposta è funzionale; • modelli funzionale-funzionale (o fully functional), nei quali tutte le variabili in gioco presentano una natura funzionale. Inoltre, quando il legame ipotizzato tra le variabili è di tipo lineare si possono distinguere in questa categoria due sotto-casi: o Quello in cui viene ipotizzato che il legame tra la variabile esplicative e la risposta avvenga solo per gli stessi valori del processo continuo sottostante i funzionali. Questo significa, per esempio, che se il sottostante continuo è il tempo, si modellano gli effetti contemporanei delle covariate sulla variabile risposta. Questa tipologia di modelli prende il nome di concurrent; o Il caso in cui la variabile risposta può essere influenzata da una generica covariata per qualsiasi valore assuma il processo sottostante. In questo elaborato, ci si soffermerà sull’ultima tipologia citata, in quanto si avrà a che fare con variabili esclusivamente funzionali. In particolare, i dati considerati presentano la forma di serie storiche funzionali, che sono delle generalizzazioni delle tradizionali serie storiche univariate in cui, tuttavia, le osservazioni dipendenti hanno natura funzionale. Il processo continuo sottostante le realizzazioni, di conseguenza, risulta essere il tempo.
  • 18. 14 Modelli per dati funzionali I modelli considerati, che saranno esposti di seguito, hanno tutti natura autoregressiva di ordine 1, essendo che si è voluto effettuare un confronto alla pari sulle loro capacità predittive. 2.1 Un modello funzionale parametrico: il FAR(q) Il FAR(q), acronimo che sta per Functional autoregressive model, è un modello lineare parametrico che rappresenta l’estensione al caso funzionale del tradizionale modello autoregressivo univariato di ordine q. Definizione 1. FAR(q). Una sequenza 𝑋 = {𝑋 𝑛, 𝑛 ∈ 𝒁} di variabili casuali quadrato integrabili (cioè facenti parte dello spazio 𝐿2 ) aventi media zero è chiamata FAR(q) se 𝑋 𝑛 = Φ1(𝑋 𝑛−1) + Φ2(𝑋 𝑛−2) + ⋯ + Φ 𝑞(𝑋 𝑛−𝑞) + 𝜀 𝑛 , (10) dove il generico Φ𝑖: 𝐿2 → 𝐿2 è un operatore che trasforma una funzione in un’altra funzione ed 𝜀 = {𝜀 𝑛, 𝑛 ∈ 𝒁} è una sequenza di errori i.i.d. a media zero. L’operatore integrale Φ𝑖, nello specifico, è definito come Φ𝑖(𝑥)(𝑡) = ∫ 𝜑𝑖(𝑡, 𝑠)𝑥(𝑠)𝑑𝑠, con 𝑥 ∈ 𝐿2 e 𝜑𝑖(𝑡, 𝑠) è detto nucleo. 1 0 (11) Nello specifico, in questo elaborato, verrà fatto ricorso al FAR(1), caso particolare del generico FAR(q) quando q=1. L’equazione che definisce il modello FAR(1), in particolare, è riscrivibile in forma estesa come: 𝑋 𝑛(𝑡) = ∫ 𝜑(𝑡, 𝑠)𝑋 𝑛−1(𝑠)𝑑𝑠 1 0 + 𝜀 𝑛. (12) Solitamente, nella realtà, le funzioni 𝑋 𝑛 presentano media diversa da zero. Tuttavia, per ricondurci al caso generale, sarà sufficiente sottrarre a ciascuna osservazione la funzione media 𝜇, stimabile agevolmente come media di tutte la curve a disposizione:
  • 19. Un modello funzionale parametrico: il FAR(q) 15 𝜇̂ = 𝑁−1 ∑ 𝑋 𝑛 𝑁 𝑖=1 . In linea teorica, lo stimatore del nucleo di un FAR(1) sarebbe ottenibile invertendo la funzione di autocovarianza tra 𝑋 𝑛 ed 𝑋 𝑛−1. Tuttavia, essendo ciascuna osservazione una funzione che assume valori in 𝐿2 , è risultato necessario approssimarla attraverso l’espansione in componenti principali funzionali (FPC), in questo contesto detta di Karhunen-Loéve. Tralasciando i passaggi che permettono di ricavarlo, si riporta di seguito lo stimatore del nucleo di un FAR(1). 𝜑̂ 𝑝(𝑡, 𝑠) = 1 𝑁 − 1 ∑ ∑ ∑ 𝜆̂ 𝑗 −1 〈𝑋 𝑘 𝑣̂𝑗〉〈𝑋 𝑘+1 𝑣̂𝑖〉 𝑝 𝑖=1 𝑝 𝑗=1 𝑁−1 𝑘=1 𝑣̂𝑗(𝑠)𝑣̂𝑖(𝑡). (13) I 𝜆𝑖 sono gli autovalori della funzione di autocovarianza, mentre le 𝑣̂𝑗 sono le autofunzioni, l’equivalente negli spazi di Hilbert degli autovettori. Il parametro p, va selezionato accuratamente, in modo da trovare un buon bilanciamento tra le informazioni rilevanti nei dati e l’instabilità dovuta alla presenza di autovalori piccoli al denominatore. Si propone, di seguito, un esempio in cui si mostra l’incidenza di un numero diverso di componenti principali nella stima del nucleo. È stata generata una serie storica di 2000 dati funzionali da un FAR(1) con nucleo 𝜑(𝑡, 𝑠) = 𝑠 𝑐𝑜𝑠(𝜋 |𝑠 − 𝑡|) − 0.19 ed errori generati come combinazione lineare del set di 4 basi, {sin(𝑡) , exp(𝑡) , cos(𝑡) , tan(𝑡)}, valutate su un insieme discreto di punti tra 0 ed 1 ed ortonormalizzate attraverso l’algoritmo di Gram-Schmidt. Il set risultante è stato in seguito moltiplicato a coefficienti casuali campionati da una Normale Standard. Questa particolare scelta dell’errore non è casuale, ma fa riferimento al concetto di White Noise Hilbertiano che, rispetto al caso scalare, presenta alcune peculiarità.
  • 20. 16 Modelli per dati funzionali Definizione 2. Processo White Noise Hilbertiano (H-WN). Sia 𝜀 = (𝜀 𝑛, 𝑛 ∈ 𝒁) una successione di variabili casuali che assumono valori in uno spazio H. Si diche che 𝜀 è un H-White Noise se: • ha media nulla: 𝐸(𝜀 𝑛) = 0 ; • ha varianza finita: 0 < 𝐸||𝜀 𝑛|| = 𝜎 𝑛 2 < ∞ e l’operatore di covarianza non dipende da n, 𝐶𝜀 𝑛 = 𝐶𝜀 ; • la cross-covarianza tra gli elementi del processo è zero: 𝐶𝜀 𝑛 𝜀 𝑚 = 𝐸( 〈𝜀 𝑚, . 〉 𝜀 𝑛 ) = 0 , ∀ 𝑛 ≠ 𝑚. Inoltre, se 𝜀 = {𝜀 𝑛, 𝑛 ∈ 𝒁} è una sequenza di variabili i.i.d., 𝜀 è detto H-White Noise in senso forte. Il fatto che la funzione di cross-covarianza sia zero e che, come visto quando si è esposto lo stimatore di un FAR(1), la funzione di covarianza ammette l’espansione di Karhunen-Loéve, permette di esprimere un processo H-WN come 𝜀 𝑛(𝑡) = ∑ 𝑐 𝑛,𝑖 𝑣𝑖(𝑡) ∞ 𝑖=1 . (14) Per definizione, le autofunzioni della matrice di covarianza sono ortogonali, perciò, per generare dei processi H-WN, oltre a troncare la sommatoria, sarà necessario semplicemente scegliere delle basi tra loro ortogonali ed imporre che i coefficienti 𝑐 𝑛,𝑖~𝑁(0, 𝜎𝑖 2 ). Nemmeno la scelta del nucleo è stata effettuata in maniera casuale, ma soddisfa la condizione di stazionarietà del FAR(1). In particolare, un FAR(1) si dice stazionario in senso stretto se ∃ 𝑗 ∈ ℕ{0}: ‖Φ 𝑗 ‖ < 1. Per il nucleo considerato, la norma ‖Φ‖ = √∬ 𝜑2(𝑡, 𝑠)𝑑𝑡𝑑𝑠 = 0.354. Ritornando all’esempio, l’analisi delle componenti principali indica che le prime tre componenti, le prime quattro e le prime cinque spiegano rispettivamente il 78%, il 99% ed il 100% della variabilità dei dati.
  • 21. Un modello funzionale parametrico: il FAR(q) 17 Come si può vedere nelle immagini e dall’indagine dell’RMSE (calcolato per ciascuna delle 100x100 discretizzazioni nelle quali è stato valutato il nucleo), l’aggiunta di componenti principali che spiegano una quota troppo bassa di varianza produce delle distorsioni evidenti nella stima del nucleo. Figura 2.1. Incidenza del numero di FPC nella stima del nucleo di un FAR(1).
  • 22. 18 Modelli per dati funzionali Numero FPC 3 4 5 % cumulata di Varianza Spiegata 78 99 100 RMSE 0.13 0.09 3.77 Tabella 2.1. RMSE al variare del numero di FPC nella stima del nucleo di un FAR(1). 2.2 Modelli funzionali non parametrici 2.2.1 Il modello NP-FAR Il modello FAR può essere generalizzato attraverso una specificazione non parametrica del legame tra la variabile risposta e le covariate che, nel caso in esame, coincidono con la stessa risposta ritardata di un lag. Il modello che ne risulta, chiamato NP-FAR, acronimo di non parametric functional autoregressive model, può essere specificato come segue. Data 𝑋 ∈ 𝐻, si ha: 𝑋̂ 𝑛 = ∑ 𝜔𝑖,ℎ 𝑋𝑖 𝑛 𝑖=2 (15) con: 𝜔𝑖,ℎ(𝑥) = 𝐾ℎ ( 𝑑(𝑋𝑖−1, 𝑥) ℎ ) ∑ 𝐾ℎ ( 𝑑(𝑋𝑖−1, 𝑥) ℎ )𝑛 𝑖=2 (16) 𝑒 ∑ 𝜔𝑖 = 1 𝑛 𝑖=1 . K indica un nucleo ed h è un fattore di scala, detto ampiezza di banda, che va scelto. Nelle applicazioni, in particolare, h verrà selezionato attraverso convalida incrociata oppure facendolo variare su una griglia e scegliendolo in base al minore errore prodotto nell’insieme di verifica (procedura più time- consuming, utilizzata quando la numerosità dell’insieme di stima era
  • 23. Modelli funzionali non parametrici 19 abbastanza contenuta). 𝑑( . ) indica una semi-metrica definita a priori, che permette di determinare la distanza tra due curve. Nello specifico, come detto, facendo riferimento allo spazio 𝐿2 , si è utilizzata la semi-metrica derivante dalla norma indotta dal prodotto scalare, che risulta essere pari a: 𝑑(𝑋 𝑚 𝑋𝑙) = (∫ (𝑋 𝑚 − 𝑋𝑙)2 𝑑𝑡 1 0 ) 1 2⁄ . (17) Le scelte per il nucleo possono essere molteplici. Dato che la sua scelta risulta meno cruciale di quella di h, nei casi considerati, per fini espositivi, ci si limita a considerare un nucleo con supporto limitato, quale quello rettangolare. Prese, dunque, le osservazioni funzionali più vicine alla curva (n-1) che ricadono nell’intervallo determinato dal nucleo con la fissata ampiezza di banda h, (per esempio le curve 𝑋3, 𝑋11, 𝑋46, 𝑋78) la previsione per n sarà data dalla media delle curve osservate nell’occasione temporale successiva rispetto a quelle corrispondenti a tali osservazioni (nell’esempio, verrebbe dunque effettuata una media pesata delle osservazioni 𝑋4, 𝑋12, 𝑋47 ed 𝑋79).
  • 24. 20 Modelli per dati funzionali 2.3 Metodi basati sull’algoritmo k-nearest neighbors I due approcci alla previsione che si andrà esponendo nei paragrafi seguenti condividono la stessa idea di fondo, cioè l’imposizione di una banda di ampiezza variabile. Essi sono basati, come si vedrà, sull’algoritmo dei k vicini più prossimi e considerano, ai fini predittivi, un numero fisso di k osservazioni funzionali. 2.3.1 k-nearest neighbors funzionale L’algoritmo k-nearest neighbors funzionale, indicato con l’acronimo k-FNN, rappresenta un capovolgimento di prospettiva rispetto al, precedentemente esposto, NP-FAR. In quest’ultimo, infatti, per una determinata ampiezza di banda, vengono selezionate le curve con distanza minore dall’(n-1)-esima tali da rientrare nell’involucro determinato dal parametro h. Quando si calcolano tali distanze da curve diverse, per esempio da un’osservazione funzionale n o da quella n+1, il numero di curve che rientrano nella fascia fissata possono essere diverse in numero. L’approccio dei k vicini più vicini funzionali, invece, permette di fissare il numero di curve più prossime da considerare a fini predittivi. Ciò coincide col considerare un’ampiezza di banda variabile. Tale k, risulta essere l’iperparametro che deve essere accuratamente selezionato. Nell’immagine 2.2 a pagina seguente si possono vedere, in maniera intuitiva, le differenze tra i due approcci. Le circonferenze, di raggio uguale, vogliono esemplificare un’ampiezza di banda fissa, mentre le linee chiuse al loro interno, che racchiudono sempre due curve, sono assimilabili al fissare k uguale a 2, ovvero al fissare un’ampiezza di banda variabile. Le curve indicano delle osservazioni funzionali; le più vicine alle osservazioni n, n+1 ed n+2 vengono incluse nei due tipi di bande, quelle più dissimili sono escluse da entrambe le bande.
  • 25. Metodi basati sull’algoritmo k-nearest neighbors 21 Figura 2.2. Confronto visivo tra il considerare un’ampiezza di banda fissa ed una variabile (qui k=2) Per utilizzare il k-functional nearest neighbors è stata creata un’apposita funzione, scritta in R, disponibile in appendice. Come nel caso dell’NP-FAR, è stato necessario scegliere una semi-metrica. Per coerenza nel confronto tra i metodi, anche in questo caso, si è scelta la distanza 𝐿2 .
  • 26. 22 Modelli per dati funzionali Si riporta di seguito il pseudo-codice del k-FNN. Pseudo-code: k-FNN N: Numero di osservazioni funzionali nell’in-sample; N2: Numero di osservazioni funzionali nell’out of sample. Valutazione (discretizzazione) di ciascuna osservazione funzionale 𝑋𝑖( 𝑡) su una griglia di valori. Ciclo 1 per k da 1 ad (N-1) Ciclo 2 per j da 1 a N2 Ciclo 3 per l 1 ad (N-2+j) Calcolo 𝑑(𝑋𝑙, 𝑓𝑋 𝑁−1+𝑗), distanze tra l’(N-1+j)-esima curva e tutte quelle ad essa precedenti. Fine Ciclo 3. Riordino delle curve per distanza in senso decrescente. Selezione di un numero k di curve più prossime all’(N-1+j)-esima. Previsione per (N+j) attraverso la media delle curve ad esse successive. Fine ciclo 2. Calcolo dell’errore di previsione su tutto l’out-sample. Fine ciclo 1. Selezione del numero kopt di osservazione funzionali che ha generato il minor errore nell’insieme out-sample.
  • 27. Metodi basati sull’algoritmo k-nearest neighbors 23 2.3.2 k-nearest neighbors funzionale lineare Il k-nearest neighbors funzionale lineare, Lk-FNN, rappresenta una variante del più semplice algoritmo dei k vicini più prossimi funzionali. Nello specifico, selezionate le k curve più vicine ad una osservazione funzionale n, sempre in base alla metrica 𝐿2 , si è mappata la loro relazione con le curve osservate nell’occasione immediatamente successiva attraverso un modello lineare di tipo funzionale-funzionale. Una volta stimati i parametri, si sono utilizzati per prevedere la curva (n+1). Si indichino con 𝑋 𝑛(𝑖), 𝑖 = 1, … , 𝑘, le k curve funzionali più prossime all’n-esima e con 𝑋 𝑛(𝑖)+1 le (sempre k) curve osservate nelle occasioni temporali successive rispetto a quelle in cui sono state osservate le 𝑋 𝑛(𝑖). Si suppone che la relazione che lega 𝑋 𝑛(𝑖)+1 ed 𝑋 𝑛(𝑖) sia di tipo lineare ed esprimibile quindi attraverso l’espressione: 𝑋 𝑛(𝑖)+1(𝑡) = ∝ (𝑡) + ∫ 𝛽(𝑡, 𝑠) 1 0 𝑋 𝑛(𝑖)(𝑠) 𝑑𝑠 . (18) Da questa espressione, è possibile ricavare le stime dei parametri, 𝛼̂ e 𝛽̂, dove quest’ultimo è un nucleo, come nel caso del modello FAR(1). Una volta ottenute le stime, la previsione per (n+1) sarà esprimibile come: 𝑋̂ 𝑛+1(𝑡) = ∝̂ (𝑡) + ∫ 𝛽̂(𝑡, 𝑠) 1 0 𝑋 𝑛(𝑠) 𝑑𝑠 . (19) Si noti come l’utilizzo di questo modello sottenda che la relazione tra le osservazioni funzionali costituenti la corrispondente serie storica funzionale sia localmente approssimabile per via lineare. Per quanto riguarda la stima dell’intercetta, si è proceduto in modo analogo a quanto fatto per il calcolo della media nella centratura del FAR(1). Per stimare il nucleo 𝛽, invece, una volta riportati i dati a media zero, si sono percorse due strade differenti, utilizzate in seguito, nelle applicazioni, proprio in base alla tipologia di dati a disposizione. Il primo stimatore è basato sulle componenti principali funzionali. Tralasciando i passaggi che permettono di arrivare a ricavarlo, che possono essere trovati in G. He et al. (2000), in Yao et.al. (2005), oltre che in P. Kokoszka, M.Reimherr (2017), si ha che:
  • 28. 24 Modelli per dati funzionali 𝛽̂(𝑡, 𝑠) = ∑ ∑ 𝜎̂𝑙𝑘 𝜆̂ 𝑙 𝑢̂ 𝑘(𝑡)𝑣̂𝑙(𝑠) 𝑝 𝑙=1 𝑞 𝑘=1 , (20) con 𝜎̂𝑙𝑘 = 1 𝑁 ∑〈𝑋 𝑛(𝑖), 𝑣̂𝑙〉 〈𝑋 𝑛(𝑖)+1, 𝑢̂ 𝑘〉 𝑁 𝑖=1 , (21) dove 𝑢 𝑘 e 𝑣𝑙 sono rispettivamente le componenti principali di 𝑋 𝑛(𝑖)+1e di 𝑋 𝑛(𝑖) e 𝜆𝑙 gli autovalori relativi alla funzione di covarianza di 𝑋 𝑛(𝑖). Essendo che il modello in questione segue una logica autoregressiva, nelle applicazioni pratiche effettuate si è posta la semplificazione 𝑞 = 𝑝, considerato che i dati relativi alla variabile risposta ed all’esplicativa condividono le stesse caratteristiche strutturali. Il secondo approccio considerato per la stima del nucleo 𝛽, una cui più ampia discussione si trova in J.O. Ramsay e B.W. Silverman (2005), è, invece, basato sulla sua rappresentazione sotto forma di funzioni di base. Supposto che, anche in questo caso, 𝑋 𝑛(𝑖) ed 𝑋 𝑛(𝑖)+1 siano a media zero, è infatti possibile considerare due set di funzioni di base, {𝜂 𝑘, 𝑘 ≥ 1} e {𝜗𝑙, 𝑙 ≥ 1}, tali che li espandano (in seguito si utilizzeranno basi B-Splines). 𝛽(𝑡, 𝑠) è dunque rappresentabile attraverso la doppia espansione: 𝛽(𝑡, 𝑠) = ∑ ∑ 𝑏𝑙𝑘 𝜗𝑙(𝑡)𝜂 𝑘(𝑠), (22) 𝐾 𝑘=1 𝐿 𝑙=1 dove 𝑏𝑙𝑘 sono dei coefficienti. Una volta ottenuta la loro stima è immediato ricavare la stima di 𝛽 come: 𝛽̂(𝑡, 𝑠) = ∑ ∑ 𝑏̂𝑙𝑘 𝜗𝑙(𝑡)𝜂 𝑘(𝑠) 𝐾 𝑘=1 𝐿 𝑙=1 . (23) I limiti superiori delle due sommatorie, 𝐿 e 𝐾, rappresentano il grado con cui viene lisciata la stima del nucleo. Come fatto per lo stimatore basato sulle componenti principali funzionali, nei casi pratici abbiamo posto 𝐿 = 𝐾. In entrambi gli stimatori esposti è stato necessario scegliere i parametri di regolazione più adatti ai fini predittivi, cioè il numero di componenti principali
  • 29. Metodi basati sull’algoritmo k-nearest neighbors 25 ed il numero di funzioni di base, cercando di non cadere nel problema del sovradattamento. Per scegliere quale tra i due stimatori utilizzare si è considerato che, quando i dati presentano natura non lineare, per spiegare una quota consistente di varianza è necessario considerare un numero elevato di componenti principali, ciascuna delle quali spiega una percentuale bassa di variabilità. Perciò lo stimatore basato sull’espansione in basi risulta più veloce da calcolare, oltre che più robusto. Di contro, se i dati presentano una struttura fortemente lineare, saranno sufficienti poche componenti principali per stimare il nucleo e, quindi, conviene utilizzare lo stimatore basato su di esse. In letteratura sono stati proposti diversi altri stimatori. Un esempio rilevante può essere trovato in Ivanescu et. al. (2015) ed in Scheipl et al. (2015), dove gli autori hanno proposto un approccio penalizzato alla stima. A causa del già elevato onere computazionale, essendo che nell’Lk-FNN vengono stimati un numero di modelli piuttosto elevato, si è deciso di evitare di percorrere queste strade. Nell’immagine 2.3, si è riportato un esempio riguardante l’importanza nello scegliere il corretto numero di parametri nella fase di stima del nucleo. In particolare, sono state generate delle covariate funzionali attraverso una combinazione lineare di B-Splines cubiche con coefficienti casuali campionati da una variabile gaussiana. La variabile risposta è stata generata pre-moltiplicando le esplicative per il nucleo 𝛽(𝑡, 𝑠) = 𝑠 𝑐𝑜𝑠(𝜋 |𝑠 − 𝑡|) − 0.19, lo stesso utilizzato nella generazione effettuata dal FAR(1). Come termine di errore, infine, si è utilizzata semplicemente una sequenza di 𝜀𝑖(𝑡𝑗) gaussiani ed i.i.d., uno in ciascuna discretizzazione delle (300) osservazioni funzionali generate, a mimare degli errori di osservazione.
  • 30. 26 Modelli per dati funzionali Figura 2.3. Effetto di un’inappropriata selezione del numero di basi nella stima di 𝛽. Come si può vedere, la specificazione di uno scorretto numero di parametri di regolazione ha come effetto l’inseguimento di caratteristiche locali dei dati e, conseguentemente, una stima inaccurata del nucleo 𝛽. Considerazioni analoghe si sarebbero potute fare utilizzando lo stimatore basato sulle componenti principali funzionali.
  • 31. Metodi basati sull’algoritmo k-nearest neighbors 27 Viene di seguito riportato il pseudo-codice relativo al modello Lk-FNN. Pseudo-code: Lk-FNN N: Numero di osservazioni funzionali nell’in-sample; N2: Numero di osservazioni funzionali nell’out of sample; Valutazione (discretizzazione) di ciascuna osservazione funzionale 𝑋𝑖 su una griglia di valori 𝑡: Ciclo 1 per k da 1 ad (N-1) Ciclo 2 per j da 1 a N2 Ciclo 3 per l 1 ad (N-2+j) Calcolo 𝑑(𝑋𝑙, 𝑋 𝑁−1+𝑗) , distanze tra l’(N-1+j)-esima curva e tutte quelle ad essa precedenti. Fine Ciclo 3. Riordino delle curve per distanza in senso decrescente. Selezione di un numero k di curve più prossime all’(N-1+j)-esima Stima dei pesi 𝛼̂ e 𝛽̂. Previsione per (N+j) utilizzando i pesi appena stimati. Fine ciclo 2. Calcolo dell’errore di previsione su tutto l’out-sample. Fine ciclo 1. Selezione del numero kopt di osservazione funzionali che ha generato il minor errore nell’insieme out-sample. Come si può vedere, la presenza di cicli annidati può comportare un notevole carico computazionale, essendo che la stima dei pesi corrisponde, di fatto, nell’adattamento di un numero prossimo ad (N*N2) di modelli lineari fully-functional. Tuttavia, è possibile notare come le operazioni siano indipendenti al variare di k e ciò ha permesso di sfruttare appieno la struttura fisica della CPU attraverso la parallelizzazione del codice, anch’esso scritto in R, e presente in appendice.
  • 32. 28 Modelli per dati funzionali
  • 33. 3 Simulazioni Monte Carlo Nello studio di simulazione sono state generate delle serie storiche funzionali da diversi processi generatori dei dati, indicati con l’acronimo DGP, sia lineari che non lineari, scartando le prime 100 osservazioni, in modo tale da evitare la dipendenza delle realizzazioni dai valori iniziali. Queste, sono state a loro volta suddivise sequenzialmente in un insieme, detto di stima, o in sample, ed un altro, di verifica, o out-sample. Nell’insieme di stima sono stati calibrati i modelli parametrici e non parametrici precedentemente esposti, le performances predittive dei quali, in seguito, sono state testate nell’insieme di verifica, tipicamente costituito da 40 osservazioni funzionali. Per effettuare le previsioni, che sono sempre state fatte ad un passo, sono stati ristimati ad ogni step tutti i coefficienti relativi ai diversi modelli; i nuclei dei modelli FAR(1) e Lk-FNN e le matrici 𝐴0 ed 𝐴1 del VAR(1), che è stato scelto come benchmark per il confronto e che sarà brevemente introdotto nel paragrafo successivo. Inoltre, sono state ricalcolate le distanze tra le curve. La procedura è stata reiterata, facendo variare il numero di osservazioni funzionali presenti nell’in sample e gli iperparametri caratteristici dei diversi modelli. In particolare, nella generazione dei dati, si sono voluti ricercare dei processi che potessero enfatizzare le caratteristiche predittive dei modelli, perciò si sono scelti un DGP lineare, uno debolmente non lineare ed un terzo fortemente non lineare. Nello specifico, le serie sono state generate da: • un FAR(1) con nucleo diagonale (processo generatore lineare); • un SETAR(1,1) con nuclei diagonali, intercette relative a ciascun regime uguali a 0 e numero di osservazioni sbilanciato a favore di un regime (processo generatore non lineare); • un modello SETAR(1,1) con intercetta diversa tra i due regimi, nuclei diagonali e osservazioni distribuite in modo più uniforme tra i regimi (processo generatore fortemente non lineare). Si noti che i processi generatori dei dati presentano delle strutture abbastanza semplificate, essendo che si è fatto ricorso, per esempio, a dei nuclei diagonali.
  • 34. 30 Simulazioni Monte Carlo Una tale scelta si deve al fatto che si sono voluti cercare dei processi che mettessero in evidenza, più degli altri, le caratteristiche predittive dei modelli. Una volta ottenute le previsioni, queste sono state confrontate con i valori effettivi attraverso due indici, il MAE (Mean Absolure Error) e l’RMSE (Root Mean Squared Error). Indicando con 𝑦𝑖 𝑜𝑢𝑡 i valori discreti assunti dalle serie nell’insieme out of sample, con 𝑦̂𝑖 𝑜𝑢𝑡 quelli previsti e con 𝑁𝑜𝑢𝑡 la numerosità di questo insieme, i due indici sono specificati attraverso le seguenti formule: 𝑀𝐴𝐸 = 1 𝑁𝑜𝑢𝑡 ∑|𝑦𝑖 𝑜𝑢𝑡 − 𝑦̂𝑖 𝑜𝑢𝑡 | 𝑁 𝑜𝑢𝑡 𝑖=1 , (24) 𝑅𝑀𝑆𝐸 = ( 1 𝑁𝑜𝑢𝑡 ∑(𝑦𝑖 𝑜𝑢𝑡 − 𝑦̂𝑖 𝑜𝑢𝑡 )2 𝑁 𝑜𝑢𝑡 𝑖=1 ) 1 2⁄ . (25)
  • 35. Il modello VAR(1) 31 3.1 Il modello VAR(1) Prima di procedere con le simulazioni, si presenta ora, sinteticamente, il modello VAR(1) che, come precedentemente detto, è stato scelto come benchmark nel confronto tra i modelli. Il VAR(1), acronimo di Vector Autoregressive Model, rappresenta la più immediata generalizzazione al caso multivariato del tradizionale modello univariato autoregressivo di ordine 1. Si tratta di un caso particolare del VAR(p), quando l’ordine, p, risulta uguale ad 1. La specificazione, in termini matematici risulta del tipo: 𝑦𝑡 = A0 + A1 𝑦𝑡−1 + 𝜀𝑡 , (26) dove y è un vettore (𝑚𝑥1) contenente le osservazioni, A0 è anch’esso un vettore (𝑚𝑥1) che contiene le intercette relative ad ogni singola equazione del VAR(1), A1 è una matrice (𝑚𝑥𝑚) di coefficienti che governa la dinamica del modello, ed 𝜀𝑡 è un White Noise vettoriale, con matrice di covarianza Σ, singolare. Come è possibile vedere, il modello VAR(1) è un modello parametrico che esplicita un legame di tipo lineare tra le osservazioni e le stesse ritardate di un lag. Inoltre, esplicitando ulteriormente, è possibile mettere in evidenza la capacità di questo modello di tenere conto delle relazioni di interdipendenza tra le variabili. Per un VAR(1) con m=2, per esempio, le equazioni risultano essere: 𝑦1,𝑡 = 𝜙0,1 + 𝜙1,11 𝑦1,𝑡−1 + 𝜙1,12 𝑦2,𝑡−1 + 𝜀1,𝑡 𝑦2,𝑡 = 𝜙0,2 + 𝜙1,21 𝑦1,𝑡−1 + 𝜙1,22 𝑦2,𝑡−1 + 𝜀2,𝑡 .
  • 36. 32 Simulazioni Monte Carlo 3.2 DGP FAR(1) con nucleo diagonale Si sono generate delle serie storiche da un processo FAR(1) con nucleo diagonale. I valori assunti dalla diagonale del nucleo seguono una curva monotona decrescente descritta dalla seguente funzione: 𝑔(𝑚) = 0.9 + 1 50 𝑒− 1 50 𝑚 , 𝑚 = 1,2, … , 40. Come errori, si è fatto ricorso ad un processo 𝐻-𝑊𝑁, generato attraverso una combinazione lineare di un set di 4 basi, {sin(𝑡) , exp(𝑡) , cos(𝑡) , tan(𝑡)}, ortonormalizzate attraverso l’algoritmo di Gram-Schmidt e moltiplicate a coefficienti campionati da una Normale Standard. Una tale specificazione ha reso possibile la generazione di osservazioni funzionali lisce e che conservassero, comunque, una struttura di dipendenza al primo ordine di tipo lineare. Sono state effettuate 600 replicazioni, stimando i modelli su insiemi in sample di numerosità pari a 150, 300, 600, 1000. Le seguenti tabelle riportano gli errori di previsione. Tra parentesi si possono vedere i guadagni, indicati col simbolo ‘-’ e le perdite, indicate col ‘+’ in termini di errori di previsione per ciascun modello, rispetto al VAR(1), scelto come benchmark perché unico modello non funzionale. MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.262 0.252 (-3.8) 0.329 (+25.6) 0.291 (+11.1) 0.277 (+5.7) 300 0.250 0.248 (-0.1) 0.289 (+15.6) 0.278 (+11.2) 0.260 (+4.0) 600 0.249 0.247 (-0.8) 0.286 (+14.8) 0.276 (+10.8) 0.259 (+4.0) 1000 0.241 0.241 (+0) 0.269 (+11.6) 0.263 (+9.1) 0.251 (+4.1) Tabella 3.1. MAE al variare di n quando i dati provengono da un FAR(1) diagonale.
  • 37. DGP FAR(1) con nucleo diagonale 33 RMSE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.340 0.326 (-4.1) 0.436 (+28.2) 0.383 (+12.6) 0.367 (+7.9) 300 0.324 0.322 (-0.1) 0.383 (+18.2) 0.363 (+12.0) 0.344 (+6.2) 600 0.323 0.321 (-0.6) 0.375 (+16.1) 0.362 (+12.1) 0.343 (+6.2) 1000 0.312 0.312 (+0) 0.351 (+12.5) 0.345 (+10.6) 0.334 (+7.1) Tabella 3.2. RMSE al variare di n quando i dati provengono da un FAR(1) diagonale. Come ci si poteva attendere, essendo i dati generati da un FAR(1), quest’ultimo risulta essere il miglior modello a livello predittivo. Il modello VAR(1) riporta le seconde migliori previsioni, essendo che condivide la stessa natura lineare del FAR(1), con la differenza che la stima della matrice dei parametri avviene utilizzando tutta l’informazione a disposizione, mentre il modello autoregressivo lineare hilbertiano fa ricorso ad un numero limitato di componenti principali per la stima del nucleo. Essendo i dati lineari, anche il modello Lk-FNN presenta delle buone performances, tanto che i risultati non mostrano evidenti peggioramenti rispetto ai due modelli migliori. Le differenze rispetto, per esempio, al FAR(1), sono principalmente dovute al fatto che la funzione che implementa l’Lk-FNN, lo fa su una griglia di k, anziché su ogni singolo valore. Infine, in un tale piano di simulazione, utilizzare un’ampiezza di banda variabile o fissa sembra non apportare grosse differenze, soprattutto al crescere della numerosità dell’insieme di stima. Una possibile spiegazione può essere legata alla notevole densità dei dati, che risultano concentrarsi omogeneamente nell’intorno dell’osservazione da prevedere. In altri termini, il processo risulta essere piuttosto regolare e ciò garantisce che il numero di vicini più vicini rimanga pressoché immutato nel passaggio dall’i-esima osservazione alla j-esima. Una possibile riprova di quanto detto, può essere trovata considerando il fatto che anche gli RMSE, che pesano maggiormente gli errori elevati, risultano piuttosto stabili tra i due
  • 38. 34 Simulazioni Monte Carlo metodi, ad indicare che le osservazioni funzionali utilizzate nelle previsioni devono essere grosso modo le stesse. Le variazioni standard degli errori MAE ed RMSE rivelano una maggiore velocità di convergenza dei metodi parametrici, essendo che questi forniscono una sorta di struttura rigida, che segue poco le caratteristiche locali dei dati e, di conseguenza, limita il numero di errori di entità elevata. Sd MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.022 0.021 0.067 0.034 0.027 300 0.022 0.021 0.062 0.034 0.023 600 0.022 0.021 0.054 0.033 0.022 1000 0.019 0.020 0.048 0.033 0.020 Tabella 3.3. Deviazione standard dei MAE quando il DGP è un FAR(1) diagonale. Sd RMSE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.028 0.027 0.860 0.045 0.039 300 0.027 0.027 0.080 0.043 0.032 600 0.026 0.025 0.067 0.042 0.027 1000 0.025 0.025 0.063 0.042 0.027 Tabella 3.4. Deviazione standard degli RMSE quando il DGP è un FAR(1) diagonale. Nei grafici (Figura 3.1), nella pagina successiva, si possono vedere gli errori di previsione e le rispettive bande di confidenza bootstrap al livello di confidenza del 95% dei modelli k-FNN e Lk-FNN, al variare della numerosità dell’insieme di stima ed al variare di k. Il modello Nearest Neighbor lineare tende a sfruttare praticamente tutta l’informazione a disposizione nei dati, riportandosi su errori vicini a quelli del FAR(1), quando 𝑘 → N.
  • 39. DGP FAR(1) con nucleo diagonale 35 Figura 3.1. MAE al variare di k per k-FNN (a sinistra) e Lk-FNN (a destra) quando il DGP è un FAR(1).
  • 40. 36 Simulazioni Monte Carlo 3.3 DGP SETAR(1,1) con regimi sbilanciati In questo piano di simulazione sono state generate delle serie storiche funzionali da un modello SETAR(1,1) funzionale (FSETAR). Si ricorda che, in un contesto univariato, un SETAR(1,1) è un processo che evolve seguendo un modello autoregressivo di ordine 1 il cui parametro assume due valori diversi in base al fatto che la serie, osservata ad un ritardo definito, assuma valori superiori o inferiori ad una soglia. La transizione da un regime all’altro avviene in modo brusco, in base ad una semplice funzione indicatrice. Informazioni più dettagliate si possono trovare in Tong (1978). Nel caso funzionale in esame, si è considerata un’estensione di quello univariato, nel quale il processo, in ciascuno dei due regimi, segue un FAR(1) con uno dei due nuclei diagonali che presentano sulla diagonale i valori, uguali in modulo ma di segno opposto, mappati dalle seguenti funzioni: 𝑔1(𝑚) = 0.9 + 1 50 𝑒− 1 50 𝑚 , 𝑚 = 1,2, … , 40 𝑔2(𝑚) = − (0.9 + 1 50 𝑒− 1 50 𝑚 ) , 𝑚 = 1,2, … , 40. Gli errori dei due FAR(1) sono stati scelti uguali a quelli utilizzati nella simulazione precedente. La soglia è stata posta sul valore 0, mentre come ritardo al quale valutare la serie si è scelto il primo. Essendo la serie storica funzionale, si è deciso di discretizzare su una griglia ciascuna delle funzioni generate e di valutare la serie su una discretizzazione prefissata. Essendo che se il funzionale al ritardo uno, per tale discretizzazione, assumeva valori positivi, questo veniva moltiplicato per coefficienti negativi, mentre se assumeva valori negativi questo veniva moltiplicato per coefficienti positivi, ciò ha permesso di conoscere a priori il comportamento della serie generata. In questa, infatti, vi è stata una netta prevalenza di osservazioni appartenenti al regime inferiore (circa l’80%). Nella figura 3.2 è riportata una delle funzioni generate, scelta a caso. Il cerchietto rosso corrisponde al punto nel quale ciascuna osservazione funzionale è stata osservata per decretare il regime di appartenenza dell’osservazione successiva.
  • 41. DGP SETAR(1,1) con regimi sbilanciati 37 Figura 3.2. Un’osservazione funzionale selezionata a caso ed il punto in cui è stata osservata per generare l’osservazione successiva dell’FSETAR(1,1). Nell’immagine 3.3 a pagina seguente si può vedere un esempio di serie funzionale generata dal modello SETAR(1,1) funzionale. In rosso, a sinistra, è stata messa in risalto la serie univariata in base alla quale si è decisa l’appartenenza ad un regime piuttosto che ad un altro della generazione funzionale successiva. Come detto, anche dal grafico, risulta evidente la prevalenza di valori sotto la soglia.
  • 42. 38 Simulazioni Monte Carlo Figura 3.3. Serie generata da un SETAR(1,1) funzionale. Si riportano di seguito le tabelle elative agli errori di previsione dei modelli. MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.395 0.383 (-3.0%) 0.415 (+5.1%) 0.361 (-8.6%) 0.343 (-13.2%) 300 0.378 0.368 (-2.6%) 0.379 (+0.3%) 0.343 (-9.3%) 0.326 (-13.8%) 600 0.365 0.362 (-0.8%) 0.348 (-4.7%) 0.329 (-9.9%) 0.316 (-13.4%) 1000 0.358 0.356 (-0.6%) 0.339 (-5.3%) 0.321 (-10.3%) 0.304 (-15.1%) Tabella 3.5. MAE al variare di n quando i dati provengono da un FSETAR(1,1) diagonale.
  • 43. DGP SETAR(1,1) con regimi sbilanciati 39 RMSE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.548 0.536 (-2.2%) 0.549 (+0.2%) 0.497 (-9.3%) 0.474 (-13.5%) 300 0.535 0.522 (-2.4%) 0.518 (-3.2%) 0.479 (-10.5%) 0.451 (-15.7%) 600 0.533 0.527 (-1.1%) 0.476 (-10.7%) 0.463 (-13.1%) 0.441 (-17.3%) 1000 0.511 0.507 (-0.8%) 0.458 (-10.4%) 0.444 (-13.1%) 0.405 (-20.7%) Tabella 3.6. RMSE al variare di n quando i dati sono generati da un FSETAR(1,1) diagonale. Come si può vedere, in questo contesto, comincia a dare i suoi frutti l’utilizzo di modelli non parametrici, ai fini predittivi. Il modello NP-FAR, tuttavia, per le numerosità più basse, non riporta vantaggi rispetto ai modelli parametrici, soprattutto in termini di MAE. Se si ispezionano i valori medi assunti dall’ampiezza di banda ottimale hopt, rispettivamente pari a 1.414, 1.177, 1.018 e 0.914 per le numerosità in sample di 150, 300, 600 e 1000, e li si confronta con il numero medio ottimo di curve selezionate dal k-FNN, kopt, pari a 7.5, 8.9, 10, 12.4, si può intuire come l’ampiezza di banda, che si ricorda essere stata tenuta fissa per tutte le previsioni nell’out-sample, selezionata per N=150, possa aver fatto sì che venissero pesate troppo le caratteristiche locali dei dati. Col crescere della numerosità dell’insieme di stima, k-FNN ed NP-FAR tendono ad avvicinare le loro performances. Si tenga conto che quando N aumenta, aumenta anche la densità dei dati, e ciò significa che in una fissata banda h rientrerà un numero maggiore di curve ‘vicine’ ad una prefissata generazione, e ciò spiega il comportamento divergente tra hopt e kopt. Per quanto riguarda la differenza tra i MAE e gli RMSE, può essere data la seguente interpretazione. Essendo che l’RMSE pesa di più gli errori di entità elevata, ed essendo questo errore più elevato per le previsioni derivanti dall’utilizzo di modelli parametrici, significa che la struttura imposta da questi modelli non permette di cogliere il break determinato dal comportamento a tratti proprio del SETAR(1,1) funzionale, specificato come DGP. I tre modelli
  • 44. 40 Simulazioni Monte Carlo non parametrici, di contro, riescono ad individuare questa peculiarità presente nei dati. Il fatto che la forbice tra gli errori di k-FNN e Lk-FNN aumenti, a vantaggio di quest’ultimo, con l’aumentare della numerosità dell’insieme di stima, è dovuto al fatto che, per ottenere una stima accurata dei nuclei, sono necessarie molte osservazioni ed, essendo la serie sbilanciata, stimare il nucleo utilizzando i vicini di un’osservazione funzionale appartenente al regime superiore, significherebbe utilizzare al più il 20% delle osservazioni totali, e ciò potrebbe risultare poco accurato alle basse numerosità. Per quanto riguarda i modelli VAR(1) e FAR(1), questi risultano pressoché equivalenti. Si può intravedere una lieve superiorità del secondo per numerosità basse, superiorità che, tuttavia, va scemando all’aumentare di N. Le motivazioni di questa lieve differenza possono essere riconducibili, anche in questo caso, al fatto che nella stima del nucleo del FAR(1) viene utilizzata solo la quota di informazione più rilevante presente nei dati. Sd MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.106 0.103 0.090 0.078 0.079 300 0.108 0.100 0.089 0.080 0.072 600 0.094 0.095 0.088 0.085 0.079 1000 0.079 0.080 0.063 0.057 0.048 Tabella 3.7. Deviazione standard dei MAE quando il DGP è un FSETAR(1,1) diagonale. Sd RMSE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.157 0.159 0.123 0.134 0.123 300 0.165 0.163 0.132 0.134 0.123 600 0.172 0.173 0.143 0.154 0.140 1000 0.134 0.135 0.101 0.103 0.071 Tabella 3.8. Deviazione standard degli RMSE quando il DGP è un FSETAR(1,1) diagonale. Le deviazioni standard degli errori rivelano che le previsioni dei modelli non parametrici, oltre ad essere mediamente più precise, sono anche meno variabili. In particolare, Lk-FNN riporta i valori più bassi, ad indicare che la
  • 45. DGP SETAR(1,1) con regimi sbilanciati 41 struttura locale da esso imposta risulta in errori di previsione più stabili rispetto agli altri modelli, soprattutto al crescere della numerosità in sample. Come fatto per le simulazioni precedenti, vengono riportati i grafici degli errori medi per i modelli k-FNN, a sinistra, e Lk-FNN, a destra, al variare di k e di N.
  • 46. 42 Simulazioni Monte Carlo Figura 3.4. MAE al variare di k per k-FNN (a sinistra) e Lk-FNN (a destra) quando il DGP è un FSETAR(1,1). Ciò che emerge guardando i grafici è che, mediamente, il numero di vicini k ottimale risulta essere molto basso, segno che i modelli riescono a cogliere correttamente la non linearità del processo sottostante. Nel k-FNN, tuttavia, vi è un netto peggioramento delle performances predittive quando k aumenta. Il modello k-FNN lineare, invece, seppur tenda a preferire, anch’esso, l’utilizzo di poche curve, risulta più stabile, in questo caso, al variare di k. Questa stabilità può trarre in inganno, essendo essa dovuta semplicemente al DGP sottostante. Essendo questo processo generatore lineare a tratti ma sbilanciato, infatti, utilizzare un k vicino ad N, per Lk-FNN, significa essere molto simile ad un FAR(1) e, chiaramente, anche le previsioni risulteranno pressoché uguali. Nel caso specifico, infatti, utilizzare k=N=1000, porta ad un MAE pari a 0.356, cioè esattamente uguale a quello del FAR(1).
  • 47. DGP SETAR(1,1) con regimi bilanciati 43 3.4 DGP SETAR(1,1) con regimi bilanciati Seguendo il piano di simulazione precedente, sono state generate delle serie funzionali da un processo SETAR(1,1) con nuclei diagonali che riportano sulla diagonale i valori 0.9 e -0.9. Tuttavia, a differenza del caso appena trattato, si è introdotta un’intercetta nel regime inferiore, pari a 3, e si è scelta come soglia per la discretizzazione delle osservazioni funzionali, scelta per valutare l’appartenenza della generazione successiva ad uno dei due regimi, il valore di 1.5. Ciò ha prodotto una serie storica funzionale le cui osservazioni sono risultate spartite tra i regimi seguendo all’incirca la proporzione di 40%-60%. La scelta di questo processo generatore dei dati è dovuta all’idea che l’imposizione di un’ampiezza di banda variabile possa meglio cogliere dei break strutturali dovuti alle caratteristiche del processo, e non al rumore presente nei dati, e che una tale caratteristica possa risaltare di più quando si ha a che fare con delle serie sparse. Per esemplificare quanto detto, si è riportato un semplice esempio nell’univariato in cui è stata generata una serie storica di 1500 osservazioni da un SETAR(1,1) univariato con gli stessi coefficienti e la stessa soglia utilizzati nella presente simulazione funzionale. Gli iperparametri caratteristici dei modelli univariati sono stati selezionati sulle ultime 500 osservazioni e le previsioni sono riportate nell’immagine 3.5. Come emerge chiaramente dalla semplice indagine grafica, l’imporre un’ampiezza di banda variabile, seppur provochi una certa aderenza ai dati all’interno di entrambi i regimi, fa sì che venga colto l’andamento a tratti caratteristico del SETAR(1,1) in questione, al contrario dell’utilizzo di una banda fissa che, come si vede, tende a lisciare eccessivamente i dati. Questo genere di considerazioni, valide nell’univariato, è emerso anche in un contesto funzionale.
  • 48. 44 Simulazioni Monte Carlo Figura 3.5. Confronto tra ampiezza di banda fissa e variabile nell’univariato. Ritornando alla simulazione, gli errori di previsione ottenuti sono riportati nelle tabelle 3.9 e 3.10. Essendo che i modelli non parametrici funzionano decisamente meglio degli altri, si è scelto l’NP-FAR come riferimento su cui valutare i guadagni e le perdite nell’utilizzo di un modello piuttosto che di un altro. Come si può vedere, utilizzare tutti i dati a disposizione per la previsione provoca un’eccessiva rigidezza nei modelli parametrici, gli errori di previsione dei quali, inoltre, risultano non convergere all’aumentare della numerosità dell’insieme in-sample. Ciò risulta abbastanza normale, essendo che i dati generati provengono da un processo discontinuo, con due comportamenti diversi all’interno di ciascun regime. I metodi non parametrici, di contro, rivelano, in casi limite come questo, la loro adeguatezza. Questi, infatti, selezionando di volta in volta solo le curve più simili all’n-esima, riescono a ricostruire la dinamica a tratti, dinamica che, oltretutto, viene ricostruita in modo via via più preciso col crescere di n. Di notevole rilievo risulta essere la differenza in termini di errori di previsione, tra i metodi basati sull’algoritmo k-NN rispetto all’NP-FAR. Il DGP in questione, infatti, risulta essere piuttosto caotico e sparso, essendo che le generazioni ‘saltano’ da un regime all’altro lasciando degli spazi poco popolati, poco densi, tra i regimi. Gli spazi meno densi, essendo il processo sottostante lineare a tratti, sono chiaramente dovuti al termine di errore. Imporre una banda fissa,
  • 49. DGP SETAR(1,1) con regimi bilanciati 45 in questo caso molto più degli altri precedentemente esposti, può far quindi ricadere all’interno dell’involucro osservazioni non rilevanti ai fini della previsione. Considerare k valori fissi, invece, evita una selezione non mirata, essendo che si avrà un’ampiezza di banda più adattiva. Per quanto riguarda k-FNN ed Lk-FNN, avere poche osservazioni su ciascun regime, significa avere meno informazione per la stima del nucleo. A tal proposito, si tenga conto che se la numerosità in-sample è n, avere una proporzione di curve per regime di 40%-60% non significa che il modello utilizzerà rispettivamente n*0.40 e n*0.60 dati funzionali per stimare il parametro, in quanto verrà tenuta solo l’informazione rilevante attraverso la selezione dell’iperparametro k. Se le curve importanti per la previsione sono poche, si rischia di prevedere meglio usando la media semplice di esse (o, meglio, di quelle relative alle osservazioni ad esse successive), e ciò equivale all’utilizzo del k-FNN. In termini di MAE, infatti, la forbice tra i due approcci alla previsione si riduce col crescere di n mentre, rispetto agli RMSE, non vi è una netta differenza tra essi. Ritornando all’NP-FAR, l’aumento delle differenze rispetto ai metodi nearest neighbors, si fa ancora più evidente, a supporto della tesi che l’ampiezza di banda fissa faccia sì che venga inglobata dell’informazione non rilevante. MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 2.226 (+213.5%) 2.278 (+220.8%) 0.710 0.659 (-7.2%) 0.718 (+1.1%) 300 2.121 (+237.2%) 2.179 (+246.4%) 0.629 0.599 (-4.8 %) 0.602 (-4.3%) 600 2.047 (+206.9%) 2.097 (+241.4%) 0.667 0.539 (-19.2%) 0.589 (-11.7 %) 1000 2.075 (+273.9%) 2.109 (+280.0%) 0.555 0.491 (-11.5%) 0.536 ( -3.4%) Tabella 3.9. MAE al variare di n quando i dati provengono da un FSETAR(1,1) bilanciato.
  • 50. 46 Simulazioni Monte Carlo RMSE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 2.668 (+103.4%) 2.663 (+103.0%) 1.312 1.172 (-10.7%) 1.117 (-14.9%) 300 2.556 (+129.9%) 2.552 (+129.5%) 1.112 1.021 (-8.2%) 0.952 (-14.4%) 600 2.470 (+104.0%) 2.456 (+102.8%) 1.211 0.929 (-23.3%) 0.913 (-24.6%) 1000 2.512 (+157.4%) 2.487 (+154.8%) 0.976 0.813 (-16.7%) 0.817 (-16.3%) Tabella 3.10. RMSE al variare di n quando i dati provengono da un FSETAR(1,1) bilanciato. Nelle tabelle a pagina seguente è possibile vedere le deviazioni standard degli errori MAE ed RMSE. Ciò che può stranire il lettore è la minore variabilità degli RMSE dei modelli parametrici, modelli che, come si diceva, risultano meno performanti in termini predittivi. Ciò non deve trarre in inganno, essendo che questi modelli sfruttano tutta l’informazione a disposizione, generando delle previsioni, quindi, meno variabili ma più distorte. Il fatto che le deviazioni standard non convergano nemmeno col crescere di n, sono un’ulteriore prova della loro inadeguatezza in casi analoghi a questo. In parole povere, VAR(1) e FAR(1), quando il DGP è un SETAR funzionale come quello presentato in questo paragrafo, prevedono, praticamente sempre, male. Gli indici relativi ai modelli non parametrici, come ci si attendeva e come è successo in tutte le simulazioni, convergono quando la serie diventa più densa. La linearità locale propria dell’Lk-FNN, inoltre, risulta in errori meno variabili e, ad essere meno variabili, sono soprattutto gli errori di entità più elevata. La lentezza nel convergere della deviazione standard dell’NP-FAR va ricondotta alle motivazioni precedentemente esposte.
  • 51. DGP SETAR(1,1) con regimi bilanciati 47 Sd MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.199 0.186 0.264 0.275 0.227 300 0.202 0.180 0.273 0.273 0.195 600 0.258 0.258 0.272 0.200 0.191 1000 0.234 0.230 0.249 0.198 0.184 Tabella 3.11. Deviazione standard dei MAE quando il DGP è un FSETAR(1,1) bilanciato. Sd MAE n VAR(1) FAR(1) NP-FAR k-FNN Lk-FNN 150 0.244 0.249 0.635 0.641 0.409 300 0.258 0.250 0.659 0.640 0.369 600 0.296 0.293 0.630 0.478 0.349 1000 0.275 0.277 0.571 0.423 0.306 Tabella 3.12. Deviazione standard degli RMSE quando il DGP è un FSETAR(1,1) bilanciato. Nella pagina successiva sono riportati i grafici dei MAE di k-FNN ed Lk-FNN al variare di k e della numerosità dell’insieme in sample. Essendo il processo fortemente non lineare, ciò che ne risulta è un comportamento concavo molto accentuato, con la preferenza dei modelli nell’utilizzare un numero kopt di curve molto ristretto e con la tendenza di Lk-FNN ad usare più informazione, necessaria per stimare il nucleo.
  • 52. 48 Simulazioni Monte Carlo Figura 3.6. MAE al variare di k per k-FNN (a sinistra) e Lk-FNN (a destra) quando il DGP è un FSETAR(1,1).
  • 53. 4 Applicazione ai dati reali Nel seguente capitolo verranno testati i modelli visti in precedenza su diverse serie storiche reali. Essendo queste registrate puntualmente, in alcuni casi è stato necessario lisciarle per ottenere la stima delle funzioni che si suppone siano le vere funzioni sottostanti. Chiaramente, per effettuare queste operazioni, non si sono scelte delle serie storiche a caso, ma serie che, per i motivi che si andrà via via elencando, si è ritenuto potessero essere opportunamente trattate come funzionali. Le previsioni sono state confrontate attraverso gli stessi indicatori utilizzati nello studio di simulazione, il MAE e l’RMSE. Inoltre, quando la scala dei dati ha reso il loro ricorso interessante, si sono calcolati anche gli errori percentuali MAPE e MSPE. I dati considerati, la cui provenienza verrà esplicitata in ogni paragrafo, riguardano i consumi di gas naturale negli Stati Uniti, i prezzi e la domanda dell’elettricità inglese ed il fenomeno naturale chiamato El Ni𝑛̃o. Prima di illustrare i casi applicati, si introduce un test sulla stazionarietà delle serie storiche funzionali, dato che applicare i modelli su serie, eventualmente, non stazionarie sarebbe stato inopportuno. Innanzitutto, è bene specificare che il concetto di stazionarietà, in un contesto funzionale, risulta diverso da quello univariato, in quanto va valutata esclusivamente nella sequenza di curve 𝑋1, 𝑋2, 𝑋3, … , 𝑋 𝑁 e non tra i tempi 𝑡𝑗, non, cioè, all’interno delle stesse. Il test in questione, introdotto da Horváth et al. (2014), è basato sul seguente sistema di ipotesi: { H0: 𝑋𝑖(𝑡) = 𝜇(𝑡) + 𝜂𝑖(𝑡) H1: H0 è 𝑓𝑎𝑙𝑠𝑎 , (27) dove { 𝜂𝑖} è una sequenza a media 0, strettamente stazionaria e 𝜇(𝑡) = 𝐸[𝑋𝑖(𝑡)] è ignoto. Anziché considerare un’ipotesi alternativa così generica, gli autori hanno deciso di sdoppiarla, in modo tale da motivare la costruzione di una statistica test.
  • 54. 50 Applicazione ai dati reali I casi risultanti sono, dunque: HA,1: 𝑋𝑖(𝑡) = 𝜇(𝑡) + 𝛿(𝑡)𝐼{𝑖 > 𝑘∗} + 𝜂𝑖(𝑡), HA,2: 𝑋𝑖(𝑡) = 𝜇(𝑡) + ∑ 𝑢𝑙(𝑡)𝑖 𝑙=1 . {𝑢𝑙} è una sequenza stazionaria a media 0. L’ipotesi alternativa HA,1 coincide, di fatto, con un’ipotesi di cambio di punto, in cui la sequenza delle curve, fino a 𝑘∗ ha media 𝜇(𝑡) mentre dopo 𝜇(𝑡) + 𝛿(𝑡). L’ipotesi HA,2, invece, coincide con l’ipotesi di Random-Walk. La statistica test ricavata è basata sul processo somma parziale 𝑆 𝑁 ( 𝑘 𝑁 , 𝑡) = 𝑁−1/2 ∑ 𝑋𝑖(𝑡) , 𝑘 = 1, … , 𝑁𝑘 𝑖=1 , a valori in 𝐿2 . Ponendo 𝑥 = 𝑘/𝑁, si può scrivere la statistica 𝑈 𝑁(𝑥) = 𝑆 𝑁(𝑥) − 𝑥𝑆 𝑁(1), 0 ≤ 𝑥 ≤ 1, da cui segue che, sotto H0: 𝑈 𝑁 ( 𝑘 𝑁 ) = 1 √𝑁 {∑ 𝜂𝑖 − 𝑘 𝑁 ∑ 𝜂𝑖 𝑁 𝑖=1 𝑘 𝑖=1 } (28) Mentre, sotto, per esempio, HA,1: 𝑈 𝑁 ( 𝑘∗ 𝑁 ) = 1 √𝑁 {∑ 𝜂𝑖 − 𝑘∗ 𝑁 ∑ 𝜂𝑖 𝑁 𝑖=1 𝑘∗ 𝑖=1 } + 𝑘∗(𝑁 − 𝑘∗) 𝑁3/2 𝛿 . Analogamente, si può scrivere per l’ipotesi alternativa A2, con la differenza che il termine aggiuntivo conterrà la somma parziale degli 𝑢𝑙, aleatori. La statistica test ricavata avrà dunque la forma: 𝑇̂ 𝑁 = ∫ {∫ 𝑈 𝑁 2 (𝑥, 𝑡) 𝑑𝑡} 1 0 𝑑𝑥 . (29) A questo punto, per comprendere a cosa converge la statistica test, risulta utile introdurre il processo denominato Ponte Browniano. Definizione 3. Ponte Browniano. Sia {𝑊(𝑡), 𝑡 ∈ [0,1]} un processo di Wiener. Si chiama Ponte Browniano (Brownian Bridge) il processo: 𝐵(𝑡) = 𝑊(𝑡) − 𝑡𝑊(1), 𝑡 ∈ [0,1] . (30)
  • 55. 51 Essendo che, dati 𝑍𝑖~𝑁(0,1), il processo di Wiener si può approssimare attraverso la somma finita 𝑊 ( 𝑘 𝑁 ) ≈ 1 √𝑁 ∑ 𝑍𝑖 𝑘 𝑖=1 , (31) segue che: 𝐵 ( 𝑘 𝑁 ) ≈ 1 √𝑁 {∑ 𝑍𝑖 𝑘 𝑖=1 − 𝑘 𝑁 ∑ 𝑍𝑖 𝑁 𝑖=1 } . (32) Ispezionando l’espressione appena ottenuta, si può notare come risulti equivalente a quella di 𝑈 𝑁, eccezion fatta per i coefficienti, in questo caso, casuali. Si può dimostrare che la statistica test, per 𝑁 → ∞, segue la distribuzione di: 𝑇 ≔ ∑ 𝜆𝑗 ∫ 𝐵𝑗 2 (𝑥) 1 0 𝑑𝑥 , ∞ 𝑗=1 (33) dove i 𝐵𝑗 sono Ponti Browniani indipendenti e i 𝜆𝑗 gli autovalori della funzione di covarianza long run (Kokoszka, 2017). La distribuzione di T può essere ricostruita via simulazione Monte Carlo considerando un numero finito D di autovalori e approssimando l’integrale con una sommatoria. Il test così specificato è implementato nella libreria R ftsa e verrà utilizzato nelle applicazioni.
  • 56. 52 Applicazione ai dati reali 4.1 Consumi di gas naturale negli U.S. In questo paragrafo, si sono testati i modelli sui dati relativi ai consumi di gas naturale negli Stati Uniti, misurati in milioni piedi al cubo. La serie storica originaria era composta da 540 osservazioni, rilevate con cadenza mensile a partire dal 1973 sino al 2017. Dato l’andamento ciclico della serie univariata, e la regolarità dei profili annui dei consumi, si è ritenuto che i dati potessero essere delle realizzazioni nel discreto di funzioni a tempo continuo. Si è, perciò, trasformata la serie di partenza in una serie stazionaria (il p-value del test di di Horváth, infatti, è risultato pari a 0.691) di 45 osservazioni funzionali, lisciando i dati attraverso un approccio penalizzato, facendo variare contemporaneamente il numero di funzioni di base B-Splines, il cui numero ottimale è risultato essere pari ad 11. In seguito, si è effettuata la divisione in insiemi di stima e di verifica, allocando al secondo le 10 osservazioni più recenti. Figura 4.1. Consumi US di gas naturale per il periodo 1973-2017 Alla serie risultante, sono stati applicati direttamente i modelli.
  • 57. Consumi di gas naturale negli U.S. 53 Gli errori di previsione indicano i modelli VAR(1) e K-FNN come i più adatti per prevedere i consumi statunitensi di gas naturale. Il k-nearest neighbors risulta preferibile anche all’Lk-FNN, nella stima dei pesi del quale, probabilmente, incide la bassa numerosità campionaria. Il peggior modello per prevedere questo tipo di dati si rivela essere l’NP-FAR, nel quale si è osservato che l’ampiezza di banda ottimale ha portato a considerare un numero di vicini variabile da 1 ad 8 a mano a mano che si scorreva nell’out of sample e, potenzialmente, potrebbero essere state escluse osservazioni utili per la previsione. MAE RMSE MAPE MSPE VAR(1) 36369 60599 9.101 1.822 FAR(1) 38237 (+5.1%) 58441 (-3.6%) 10.833 (+19.0%) 1.974 (+8.3%) NP-FAR 46344 (+27.4%) 64440 (+0.6%) 15.210 (+67.1%) 3.530 (+93.7%) K-FNN 36121 (-0.7%) 54164 (-10.6%) 10.247 (+12.6%) 1.701 (-6.6%) LK-FNN 38343 (+5.4%) 58881 (-2.8%) 10.395 (+14.2%) 1.903 (+4.4%) Tabella 4.1. Errori out of sample per la serie dei consumi di gas naturale negli US. Semplicemente guardando la tabella riportante gli errori, ed i MAE al variare di k per i modelli k-FNN e Lk-FNN, si può vedere come questi siano simili a quelli relativi alla simulazione con DGP FAR(1) diagonale, in quanto k-FNN seleziona un kopt basso, 4, mentre Lk-FNN seleziona un kopt pari a 34, e cioè sfrutta quasi tutta l’informazione disponibile. Non è un caso, dunque, che gli errori di Lk-FNN risultino molto simili a quelli del FAR(1).
  • 58. 54 Applicazione ai dati reali Figura 4.2. MAE al variare di k per la serie dei consumi di gas US. Nell’immagine 4.3 è rappresentata una delle osservazioni funzionali e le previsioni, effettuate attraverso i due migliori modelli ed il peggiore. Come si può vedere, le previsioni NP-FAR sono costantemente le più lontane dalla vera funzione. Inoltre, il VAR(1) risulta mediamente il più preciso, se non fosse che, dove prevede peggio, compie errori di entità maggiore rispetto al k-FNN, come testimoniato dal più alto errore MSPE. Figura 4.3. Consumi di gas naturale negli U.S. e previsioni per un’osservazione out sample.
  • 59. Domanda e prezzi inglesi dell’elettricità 55 4.2 Domanda e prezzi inglesi dell’elettricità A partire dagli anni ‘90, il mercato elettrico ha subito un notevole mutamento, conseguentemente alle politiche di liberalizzazione messe in atto da un numero via via crescente di Paesi. Se, sino ad allora, i prezzi dell’elettricità venivano regolamentati centralmente dagli Stati, che ne garantivano una certa stabilità, dopo la liberalizzazione, l’energia elettrica è divenuta simile a qualsiasi altra merce e, di conseguenza, la possibilità di una libera circolazione di questo bene in ambito comunitario, ha portato anche all’aumento della volatilità dei prezzi ed alla, conseguente, difficoltà nel prevederli. Oltre a ciò, nonostante la liberalizzazione del mercato abbia portato a questa omogeneità di trattamento, la natura intangibile dell’elettricità fa sì che anche la previsione della domanda risulti cruciale, in quanto, non essendo possibile immagazzinarla fisicamente, è necessario che vi sia un bilanciamento tra la quantità di energia prodotta e quella richiesta. Nelle due applicazioni proposte, ci si soffermerà, in particolare, sulle serie relative al mercato inglese, la cui organizzazione è, per certi versi, piuttosto articolata. Tuttavia, il fine di questo paragrafo consiste nel considerare il cosiddetto mercato del giorno dopo, in cui vengono fatte le previsioni per la quantità di energia richiesta e per i livelli dei prezzi per il giorno successivo. In particolare, le previsioni avvengono sulla base del periodo di riferimento della mezz’ora, per cui, prevedere un profilo giornaliero completo, significa prevedere 48 valori. L’approccio a tali problemi è stato affrontato secondo diverse metodologie, per esempio attraverso approcci univariati che prevedono di modellare separatamente le 48 serie storiche giornaliere, oppure attraverso l’applicazione di modelli multivariati agli interi profili giornalieri di domanda e prezzi. In questo paragrafo, si proporrà un approccio misto, che ha previsto la rimozione delle componenti deterministiche dalle serie storiche attraverso dei modelli GAM e l’implementazione dei modelli funzionali sui residui. Questa scelta è stata fatta per due motivi. Il primo, e più pratico, riguarda il fatto che le serie della domanda e dei prezzi risultano non stazionarie. In particolare, la serie dei prezzi riporta la maggior evidenza della non stazionarietà, evidenza colta, tra l’altro, anche dal test di Horváth et al. che
  • 60. 56 Applicazione ai dati reali rifiuta l’ipotesi nulla di stazionarietà al livello del 5%. Il secondo motivo riguarda il fatto che il grosso degli effetti deterministici presenti nelle serie può essere trattato attraverso l’utilizzo di alcune variabili esplicative. Per approfondimenti sui modelli GAM si rimanda ad Hastie, Tibshirani (1986) e a Lisi, Pelagatti (2018), per il loro utilizzo in ambito energetico. Per quanto riguarda la provenienza dei dati sui quali sono state svolte le analisi, si ringrazia il relatore di questa tesi. 4.2.1 Domanda di energia elettrica La serie originale, riportata nell’immagine qui sotto, registra le quantità richieste di energia elettrica nel mercato inglese tra l’1 Gennaio 2009 ed il 31 Dicembre 2014, per un totale di 6*365*48+48=105168 osservazioni puntuali (il +48 è incluso per tener conto del fatto che il 2012 è stato un anno bisestile). Figura 4.4. Serie della domanda di elettricità inglese per il periodo 2009-2014. Domanda
  • 61. Domanda e prezzi inglesi dell’elettricità 57 Come si può vedere, appare evidente la presenza di una certa sistematicità a livello annuale. Inoltre, sembra essere presente un leggero trend decrescente Per indagare la presenza di periodicità a livello settimanale si riportano, nell’immagine 4.5 a pagina seguente, i boxplots relativi alla domanda per ciascun giorno della settimana. Per fare ciò, si è dovuta scegliere una fascia oraria specifica. La scelta è ricaduta, in particolare, sulla mezz’ora che va dalle 17.30 alle ore 18.00, essendo che, come si vedrà, è rappresentativa di uno dei periodi in cui la domanda assume i valori più elevati. Ciò che emerge dai grafici è che i consumi presentano delle regolarità tra i giorni della settimana. Nei week-end, infatti si registrano valori tendenzialmente meno elevati, come, tra l’altro, era lecito attendersi. Figura 4.5. Boxplot relativo alla fascia oraria delle 5.30-6.00 p.m. Come accennato, anche all’interno dei singoli giorni, la domanda presenta delle fasi regolari, in quanto le fasce orarie notturne e mattutine riportano i valori più bassi, mentre quelle centrali ed, in particolar misura quelle che rientrano negli orari tra le 17 e le 19 riportano i picchi più elevati. In quest’ultime, in aggiunta, si registra anche una maggiore variabilità. Domanda
  • 62. 58 Applicazione ai dati reali Figura 4.6. Boxplot della domanda di elettricità inglese per ciascuna fascia oraria. Si riportano di seguito la serie univariata della domanda per la fascia semi oraria considerata, e le rispettive funzioni di autocorrelazione globale e parziale, calcolate nella parte in sample. Figura 4.7. Domanda per la fascia 17.30-18.00. Dati in sample. DomandaDomanda
  • 63. Domanda e prezzi inglesi dell’elettricità 59 Figura 4.8. Funzione di autocorrelazione globale per la fascia oraria delle 5.30-6.00 p.m. Figura 4.9. Funzione di autocorrelazione parziale per la fascia oraria delle 5.30-6.00 p.m. Le funzioni di autocorrelazione globale e parziale rimarcano quanto detto in precedenza. Il prossimo passo, a questo punto, risulta essere quello relativo alla depurazione della serie dagli effetti deterministici. Prima di fare ciò, tuttavia, risulta conveniente riportare i dati su scala logaritmica, in modo tale da ridurne la variabilità. L’idea è quella di considerare la decomposizione della serie storica in una parte deterministica ed una stocastica. Si avrà dunque, considerando la serie come univariata: log(𝐷𝑡) = 𝑑 𝑡 + 𝑒𝑡, dove 𝐷𝑡 è la domanda al tempo t, 𝑑 𝑡 è una parte deterministica che si cercherà di rimuovere ed 𝑒𝑡 è una termine residuale, che verrà modellato in seguito per via funzionale.
  • 64. 60 Applicazione ai dati reali Per quanto riguarda la parte deterministica 𝑑 𝑡, questa è stata trattata attraverso l’utilizzo delle seguenti covariate: • time: creata artificialmente allo scopo di modellare il trend della serie, assume valori discreti crescenti da 1 sino al numero massimo di osservazioni; • DayOfWeek: assume valori discreti da 1 a 7 e serve per cogliere la stagionalità a livello settimanale; • DayYear: assume valori da 1 a 365 ed attraverso di essa si vogliono modellare periodicità a livello annuale; • EndYear: dummy che indica il periodo che va da Natale all’Epifania; • DayOff: dummy che indica se un determinato giorno cadeva in un periodo di ponte; • BankHoliday: dummy che indica le festività cadute nei giorni feriali. Come si può vedere, tutte le variabili a disposizione, si sarebbero potute ricavare ‘calendario alla mano’. Sulle serie storiche relative alle singole fasce orarie sono stati applicati dei modelli GAM, con le esplicative non binarie lisciate attraverso delle Splines in cui i parametri di lisciamento sono stati posti, semplificando, uguali in tutte le fasce orarie. La serie dei residui del periodo in sample risultante, per la fascia 17.30-18.00, è riportata di seguito (figura 4.10), a titolo esemplificativo, così come le funzioni di autocorrelazione globale e parziale (figure 4.11 e 4.12). Figura 4.10. Serie dei residui per la fascia 17.30-18.00 dopo depurazione via GAM. Residui
  • 65. Domanda e prezzi inglesi dell’elettricità 61 Figura 4.11. Funzione di autocorrelazione globale per i residui della fascia oraria delle 5.30-6.00 p.m. Figura 4.12. Funzione di autocorrelazione parziale per i residui della fascia oraria delle 5.30-6.00 p.m. Risulta evidente che la rimozione degli effetti di lungo periodo e di calendario abbia migliorato notevolmente le funzioni di autocorrelazione globale e parziale. Ciò nonostante, rimangono ancora delle dipendenze da modellare. La componente residuale, è stata dunque trattata attraverso gli approcci funzionali e quello multivariato utilizzati nei paragrafi precedenti. Inoltre, dato che nei residui sembra essere rimasta una componente periodica settimanale, si sono confrontate le previsioni dei modelli anche con quelle derivanti dall’applicazione di 48 SAR(1)7 univariati, ovvero di modelli autoregressivi di ordine 1 stagionali, e con quelle ottenute da 48 sempilci AR(1), in modo da vedere se la rimodellazione della stagionalità possa, effettivamente, portare qualche vantaggio. Chiaramente, si sono applicati 48 modelli perché questa è
  • 66. 62 Applicazione ai dati reali la numerosità delle semi-fasce orarie. L’applicazione dei modelli funzionali alla serie dei residui è permessa dal fatto che questa risulta stazionaria e riporta, infatti, un p-value di 0.165 nello specifico test. Gli errori, calcolati sulla serie in scala originaria, attraverso una semplice trasformazione esponenziale, sono riportati nella tabella 4.2. I guadagni percentuali ottenuti modellando i residui sono stati confrontati con gli errori di previsione relativi alla serie in cui sono stati rimossi esclusivamente gli effetti di lungo periodo e di calendario (riga uno della tabella). MAE RMSE MAPE MSPE n.d. 927 1229 2.715 0.128 AR(1) 908 (-2.0%) 1216 (-1.1%) 2.666 (-1.8%) 0.127 (-0.8%) SAR(1)7 907 (-2.2%) 1214 (-1.2%) 2.664 (-1.9%) 0.126 (-1.6%) VAR(1) 801 (-13.6%) 1068 (-13.1%) 2.313 (-14.8%) 0.091 (-28.9%) FAR(1) 803 (-13.4%) 1072 (-12.8%) 2.320 (-14.5%) 0.093 (-27.3%) NP-FAR 834 (-10.0%) 1106 (-10.0%) 2.420 (-10.9%) 0.100 (-21.9%) K-FNN 831 (-10.4%) 1116 (-9.2%) 2.409 (-11.3%) 0.101 (-21.1%) LK-FNN 807 (-12.9%) 1077 (-12.4%) 2.330 (-14.2%) 0.093 (-27.3%) Tabella 4.2. Errori out of sample per la domanda di elettricità inglese (scala originale). In riga 1 gli errori quando non vengono modellati i residui. Nella tabella, emergono in modo abbastanza nitido tre gruppi di modelli con performances predittive simili, corrispondenti, tra l’altro, alle caratteristiche strutturali degli stessi modelli. Da un lato, si hanno i modelli univariati AR(1) e SAR(1)7, che registrano le peggiori performances predittive, poi si trovano i modelli funzionali non parametrici, NP-FAR e k-FNN, che mostrano risultati intermedi ed, infine, i modelli parametrici FAR(1) e VAR(1), i migliori, seguiti molto da vicino dall’Lk-FNN. Come si può vedere, modellare i residui per via
  • 67. Domanda e prezzi inglesi dell’elettricità 63 univariata non porta vantaggi considerevoli, al contrario dell’utilizzo di un qualsiasi altro tra i modelli proposti. Il caso reale in questione ricorda la prima simulazione, quella in cui il processo generatore dei dati era un FAR(1) diagonale. Tuttavia, il fatto che i modelli univariati performino così male deve significare che le relazioni tra la domanda in fasce orarie diverse non sia semplice come in quel caso. Questo fattore è evidenziato anche considerando che il modello Lk-FNN tenda a non utilizzare tutta l’informazione disponibile nei dati, ma selezioni kopt=347, quando il nucleo viene stimato attraverso 7 basi B-Splines. Trovare una serie storica reale che combaci perfettamente con i casi simulati non è semplice e, il caso in questione, sembra essere un caso borderline, tra la simulazione 1 e la 2, essendo che, come si vede osservando il MAE al variare di k, l’errore risulta piuttosto stabile per 𝑘 > 400. Figura 4.13. MAE al variare di k per i residui della domanda inglese di elettricità. Il fatto che la serie dei residui risultasse abbastanza stabile, al di fuori di alcuni picchi che non sono stati colti modellando la parte deterministica della serie originaria, unito al fatto che il numero di osservazioni risulta sufficientemente elevato, portano a concludere che la serie funzionale sia abbastanza densa, e ciò spiega la vicinanza nelle performances predittive dell’NP-FAR e del k-FNN. Nell’immagine 4.14 viene riportata una curva relativa ad un profilo giornaliero di elettricità, selezionata casualmente nell’out of sample, e le relative previsioni con il miglior modello parametrico (VAR) ed il miglior modello non parametrico (Lk-FNN).
  • 68. 64 Applicazione ai dati reali Il riscontro visivo non rileva eccessive differenze. Figura 4.14. Domanda a consuntivo e previsioni per il 3/12/2014.
  • 69. Domanda e prezzi inglesi dell’elettricità 65 4.2.2 Prezzi dell’energia elettrica La trattazione della serie dei prezzi risulta pressoché analoga a quella della domanda, almeno per quanto concerne le metodologie utilizzate. Ciò che, tuttavia, contraddistingue questo caso dal precedente, è la presenza di una variabilità più accentuata tra le osservazioni. Per questo motivo, si è deciso di lavorare sin da subito sui log-prezzi. La rappresentazione univariata della serie è riportata nella figura seguente. Come si può vedere, vi sono diversi picchi ad intervalli difficili da individuare, perciò, per capire come trattarla, risulta necessario ispezionare tipi di grafici differenti. Prima di procedere, va evidenziato che la serie costituita dai profili giornalieri dei prezzi risulta non stazionaria, in quanto l’apposito test ha riportato un p-value pari a 0.01 conducendoci, quindi, al rifiuto dell’ipotesi nulla di stazionarietà al livello del 5% e, per questo, non si sono modellati direttamente tali profili. Figura 4.15. Serie dei log-prezzi dell’elettricità inglese per il periodo 2009-2014. log(Prezzi)
  • 70. 66 Applicazione ai dati reali I grafici che seguono, mostrano le caratteristiche della serie per la stessa fascia oraria considerata quando si è modellata la domanda di elettricità inglese. Sebbene i boxplots dei log-prezzi risultino molto schiacciati, facendo attenzione, si può notare una lieve flessione, anche in questo caso nel fine settimana, per la fascia considerata, anche se l’evidenza risulta piuttosto debole dal grafico. Tuttavia, quando si andrà a modellare la componente deterministica dei prezzi, si farà uso della variabile DayOfWeek che, in altri orari, rileva una maggiore stagionalità a livello settimanale. Figura 4.16. Boxplot relativo alla fascia oraria delle 5.30-6.00 p.m. All’interno della singola giornata, invece, risulta ben più evidente la sistematicità, con la presenza di alcune fasce orarie dove i prezzi sono più alti e variabili (tipicamente quelle del tardo pomeriggio), ed altre in cui i livelli e la variabilità risultano più compresse.
  • 71. Domanda e prezzi inglesi dell’elettricità 67 Figura 4.17. Boxplot dei log-prezzi dell’elettricità inglese per ciascuna fascia oraria. Le funzioni di autocorrelazione globale e parziale per la serie univariata dei prezzi della fascia 17.30-18.00 sono riportate nelle figure 4.18 e 4.19. Figura 4.18. Funzione di autocorrelazione globale dei log-prezzi per la fascia oraria delle 5.30-6.00 p.m. log(Prezzi)
  • 72. 68 Applicazione ai dati reali Figura 4.19. Funzione di autocorrelazione parziale dei log-prezzi per la fascia oraria delle 5.30-6.00 p.m. Anche in questo caso, le funzioni di autocorrelazione evidenziano la presenza di componenti stagionali che devono essere rimosse. Dopo l’applicazione dei modelli GAM in ogni singola giornaliera serie semi-oraria, si ottengono i residui, i cui grafici in serie e le cui funzioni di autocorrelazione, sempre relativi alla stessa fascia oraria, sono visibili nella figura 4.20 ed a pagina seguente. Figura 4.20. Serie dei residui per la fascia 17.30-18.00 dopo la depurazione attraverso GAM. Residui
  • 73. Domanda e prezzi inglesi dell’elettricità 69 Figura 4.21. Funzione di autocorrelazione globale per i residui della fascia oraria delle 5.30-6.00 p.m. Figura 4.22. Funzione di autocorrelazione parziale per i residui della fascia oraria delle 5.30-6.00 p.m. I grafici rivelano quanto vi sia ancora da modellare. Per la serie relativa alla fascia 17.30-18.00, per esempio, sono individuabili ritardi significativamente diversi da 0 al primo lag e ad altri, apparentemente non equispaziati nella PACF. Supponendo che, anche in questo caso, possa esservi un effetto stagionale ancora non colto, si confrontano i modelli funzionali ed il VAR(1) con i due modelli univariati precedentemente esposti. L’applicazione dei modelli funzionali è giustificata dal fatto che serie funzionale dei profili giornalieri dei residui è risultata stazionaria secondo il test di Horváth, con un p-value pari a 0.742.