SlideShare a Scribd company logo
Tesina in
Matematica attuariale e tecnica attuariale delle
assicurazioni sulla vita
Modelli lineari generalizzati:
il pricing delle Non-Life Insurance
Mirko Lezzi
Matricola 20047119
I
Indice
Introduzione
1. Introduzione al pricing delle Non-Life Insurance
1.1. Definizione di Non-Life Insurance
1.2. Approccio al pricing: i rating factors
1.3. Analisi tariffaria
1.4. Modello moltiplicativo
2. Il pricing tramite i modelli lineari generalizzati
2.1. Alcuni concetti introduttivi
2.2. Modelli di dispersione esponenziale
2.2.1. Distribuzione di Poisson (frequenza dei reclami)
2.2.2. Distribuzione gamma (gravità dei reclami)
2.3. Funzione di collegamento
2.4. Stima dei parametri di regressione
2.5. Alcune importanti osservazioni
3. Caso applicativo in R
3.1. Collisione automobilistica nel Regno Unito
3.2. Assicurazione per ciclomotori
Appendice
Riferimenti bibliografici e sitografici
I
Introduzione
Il seguente elaborato ha come obiettivo principale lo svolgimento di un’analisi
tariffaria relativa alle Non-Life Insurance tramite l’utilizzo dei modelli lineari generalizzati,
noti con l’acronimo GLM. In particolare, tale analisi è condotta dapprima tramite un
approccio teorico e, successivamente, tramite un approccio pratico su un campione di dati
estrapolati dalla realtà.
Il primo capitolo è introduttivo relativamente al tema che andremo a trattare. Si
definiscono le Non-Life Insurance e si mettono giù le basi teoriche del pricing di
quest’ultime e dell’analisi tariffaria, con particolare rilievo alle proprietà e alle assunzioni
alla base dei modelli che saranno utilizzati nella trattazione.
Con il secondo capitolo si entra nel vivo dell’analisi tariffaria, attraverso un approccio
analitico sia statistico che matematico. Con riferimento ai modelli di dispersione
esponenziale si dimostra come modellizzare due componenti fondamentali dell’analisi, la
frequenza e la gravità dei sinistri. Infine, attraverso la funzione di collegamento e alla stima
dei parametri di regressione si giungerà al termine della tariffazione.
Il terzo ed ultimo capitolo consisterà in un’applicazione pratica di quanto esposto
teoricamente in precedenza. In particolare, basandoci su un set di dati reali, sarà effettuata
l’analisi tariffaria, al fine di giungere alla relatività del premio puro, ovvero un indice
indicativo di una delle componenti che caratterizzano il premio da corrispondere per una
polizza assicurativa.
La seguente applicazione sarà effettuata sul software statistico RStudio, un ambiente
di sviluppo integrato per il linguaggio di programmazione R. In particolare, saranno
enunciati i pacchetti utilizzati nella stesura del codice, nonché alcune stringhe dello stesso
per gli aspetti più rilevanti dell’analisi applicativa.
~ 1 ~
Capitolo 1
Introduzione al pricing delle Non-Life
Insurance
1.1 Definizione di Non-Life Insurance – Approccio al pricing: i rating factors – 1.3 Analisi tariffaria
– 1.4 Modello moltiplicativo
1.1 Definizione di Non-Life Insurance
Le assicurazioni generali, meglio note in lingua anglosassone con il termine ‘Non-Life
Insurance’, possono essere definite, genericamente, come tutti quei contratti assicurativi che non
riguardano la vita dell’assicurato (Life Insurance), ovvero quei contratti in cui l’assicuratore
promette di pagare una prestazione (o beneficio) al beneficiario, in relazione al rischio di una vita
individuale, quella dell’assicurato, ad esempio nei casi di morte, invalidità e pensionamento,
dietro il pagamento di un premio assicurativo (singolo o una serie di pagamenti nel tempo).
Entrando più nello specifico della definizione di assicurazioni generali, ne elenchiamo
sinteticamente alcune tipologie:
• assicurazione automobilistica, divisa in due gruppi rispettivamente per i veicoli a due
o a quattro ruote;
• assicurazione sanitaria, in forma individuale o per famiglie, relativa ad esempio a
malattie critiche;
• assicurazione di viaggio, anche questa classificabile in forma individuale, familiare,
per studenti o per anziani;
• assicurazione sulla casa, al fine di tutelare la casa stessa nonché i suoi interni;
• assicurazione contro gli infortuni, nel caso di incidenti di una certa entità in qualsiasi
momento, in qualsiasi luogo e nel caso di qualsiasi persona o oggetto;
• altri esempi come le assicurazioni antincendio, contro i furti e sulla proprietà.
Considerando che gli incidenti (di varia natura) possono verificarsi ogni giorno, con un
differente grado di severità, e che in alcuni di questi casi risulti difficile evitare che tali eventi
possano accadere, risulta facile capire il perché delle assicurazioni generali.
Stipulando tali contratti, l’assicurato è in grado di proteggersi da imponenti perdite
finanziarie derivanti dal verificarsi di tali sinistri; infatti, nel momento in cui viene sottoscritto
~ 2 ~
l’accordo (tra compagnia di assicurazione e assicurato), con cui il rischio economico degli eventi
dannosi viene trasferito, tutto o in parte, dal contraente alla compagnia assicuratrice, quest’ultima
ha l’obbligo di ricostituire il patrimonio perso dell’assicurato (per un beneficio pari a quanto
stipulato da contratto), per contro del pagamento di un premio, come ben sappiamo.
Tale compagnia, dovrà essere chiamata a sopportare una potenziale perdita data dalla
somma di ognuna delle potenziali perdite (indipendenti tra di loro) derivanti dai clienti assicurati.
Tuttavia, a differenza di quest’ultime che risultano essere poco prevedibili, la potenziale perdita
della compagnia assicuratrice risulta essere una quantità più facile da stimare e prossima al suo
valore atteso. Generalmente, quindi, il premio applicato ai clienti rispecchia la perdita attesa che
viene trasferita dall’assicurato all’assicuratore.
Nel caso delle assicurazioni generali, tuttavia, intervengono delle variabili determinanti
da prendere in considerazione. Ad esempio, il tasso di infortuni non è lo stesso per tutti gli
assicurati, per cui, una volta che si è verificato un sinistro, anche gli stessi danni previsti variano
tra gli assicurati; il premio di un’assicurazione antincendio per una grande villa dovrebbe essere
maggiore del premio pagato per la stessa assicurazione relativa ad un piccolo cottage; oppure,
ancora, un conducente storicamente più soggetto agli incidenti dovrebbe pagare di più per
un’assicurazione auto rispetto ad un conducente caratterizzato da un basso tasso d’incidenti
stradali. Saranno questi i concetti oggetto di approfondimento del prossimo paragrafo.
1.2 Approccio al pricing: i rating factors
Per capire l’importanza del pricing di un’assicurazione, partiamo facendo un esempio
concreto.
Su un mercato competitivo, abbiamo da una parte i clienti che hanno l’intenzione di
stipulare un contratto assicurativo e quindi cercano una polizza che copra quanto più rischio
possibile a fronte di un costo relativamente basso. Dall’altra parte ci sono le compagnie di
assicurazione che a fronte dei potenziali rischi dei clienti, cercano, sia un maggiore guadagno, sia
di continuare a conquistare la clientela. Per quest’ultime, quindi, si viene a creare un trade-off:
• se il costo dell’assicurazione è troppo oneroso, perdono dei potenziali clienti, in
quanto, in un mercato competitivo, sceglieranno una compagnia più economica;
• se il costo dell’assicurazione è troppo basso, questo attirerà un maggior numero di
clienti, tra cui quelli con un elevato tasso di sinistrosità (adverse selection). In questo
caso, la compagnia corre il rischio di sostenere delle perdite o, nei casi più gravi, di
diventare insolvente.
~ 3 ~
Capiamo, dunque, quanto sia fondamentale, in generale, determinare il pricing di una
polizza assicurativa e quanto sia importante l’utilizzo di alcuni modelli statistici avanzati. Nel
caso particolare, preso in considerazione in questo elaborato, delle Non-Life Insurance, il premio
da corrispondere a carico dell’assicurato viene calcolato in base ad una molteplicità di variabili
da prendere in considerazione, come abbiamo visto alla fine del paragrafo precedente. Queste
variabili prendono il nome di ‘fattori di valutazione’, meglio noti come ‘Rating Factors’. Ciascun
rating factor, può provenire da una delle categorie seguenti1:
1. Proprietà relative agli assicurati, ad esempio età o genere se l’assicurato è una
persona privata, settore di attività per quanto riguarda un’azienda, etc.;
2. Proprietà relative agli oggetti assicurati, come ad esempio età o modello di
un’auto, il tipo di edificio, etc.;
3. Proprietà relative alla regione geografica, come il reddito pro-capite o la densità di
popolazione della zona residenziale degli assicurati, etc.
Risulta facile intuire che alcuni di questi fattori di valutazione sono reperibili più
facilmente rispetto ad altri e che soprattutto alcuni di questi possono essere ritenuti delle misure
continue oppure classificati in modo discreto, attraverso una suddivisione in intervalli o classi,
creando così delle categorie differenti di ciascun rating factor. Per intenderci, l’età sarà suddivisa
appunto in differenti fasce d’età, il chilometraggio di un veicolo sarà suddiviso in differenti
intervalli e così via.
In questo elaborato faremo riferimento ai rating factors categorizzati per intervalli o classi
e la ragione di tale scelta sarà spiegata attraverso le applicazioni pratiche nel terzo capitolo,
tuttavia possiamo subito dire che, ad esempio, se due o più polizze condividono lo stesso
intervallo per ciascun rating factor preso in considerazione, è possibile affermare che tali polizze
derivano dalla stessa cella tariffaria (tariff cell) e che, quindi, ci restituiranno lo stesso prezzo del
premio assicurativo. La seguente Tabella 1.1 consente di chiarire l’argomento in questione, in
riferimento, per scopo puramente esemplificativo, ad un’assicurazione per ciclomotori. Come si
può notare, ciascun fattore di valutazione è stato categorizzato in differenti classi.
1 E. Ohlsson and B. Johansson. Non-life insurance pricing with generalized linear models, 1, Springer, 2010, p. 2.
~ 4 ~
Rating factor Classe Descrizione della classe
Classe del veicolo 1 Peso superiore a 60 kg con due o più marce presenti
2 Altro
Età del veicolo 1 Al massimo 1 anno
2 2 anni o più
Zona geografica 1 Nord della regione
2 Sud della regione
3 Est della regione
4 Ovest della regione
Tabella 1.1 Esempi di rating factors in un’assicurazione per ciclomotori.
1.3 Analisi tariffaria
Entriamo, dopo alcuni concetti basilari, nel vivo della teoria del pricing delle Non-Life
Insurance, ovvero, lo studio dell’analisi tariffaria condotto tramite un approccio statistico al fine
di determinare la tariffa, o premio, della polizza assicurativa.
Questo tipo di analisi si basa sia sui dati della polizza assicurativa stessa sia sui reclami,
sulle caratteristiche specifiche dei portafogli in questione. Facciamo chiarezza definendo alcuni
fattori chiave da considerare in funzione dell’analisi tariffaria2:
▪ la durata della polizza assicurativa (duration of the policy), ovvero il periodo di tempo
per il quale la polizza copre il rischio dell’assicurato, solitamente misurato in anni, per cui,
per facilità operativa, prenderemo spesso in considerazione la durata pari ad un singolo
anno. La durata di un gruppo di polizze è ottenuta sommando la durata delle singole
polizze;
▪ il reclamo o sinistro (claim), cioè l’evento segnalato dall’assicurato per il quale chiede il
risarcimento economico così come stabilito dal contratto;
▪ la frequenza del reclamo (claim frequency), ovvero il numero medio di sinistri in relazione
all’arco temporale considerato, quindi è calcolato come il rapporto tra il numero dei
reclami e la durata della polizza in questione. Spesso la frequenza del reclamo è calcolata
per mille, al fine di misurare il numero dei reclami per mille anni di polizza
▪ la gravità del reclamo (claim severity), vale a dire l’aspettativa di costo per reclamo, dato
dal rapporto tra il costo totale del sinistro e il numero totale di richieste effettuate;
La frequenza dei reclami e la gravità dei reclami sono variabili diverse in ogni polizza
assicurativa e possiamo stimarle proprio grazie alla presenza di un set di rating factors.
2
Ibidem, p. 4
~ 5 ~
▪ il premio puro (pure premium), sarebbe il costo medio per il periodo di tempo,
determinato dal rapporto tra importo totale del sinistro e per la durata della polizza.
Infatti, partendo dalla seguente relazione:
𝑃𝑢𝑟𝑒 𝑝𝑟𝑒𝑚𝑖𝑢𝑚 = 𝑐𝑙𝑎𝑖𝑚 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ∗ 𝑐𝑙𝑎𝑖𝑚 𝑠𝑒𝑣𝑒𝑟𝑖𝑡𝑦
da cui segue che:
𝑃𝑢𝑟𝑒 𝑝𝑟𝑒𝑚𝑖𝑢𝑚 =
𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑖 𝑟𝑒𝑐𝑙𝑎𝑚𝑖
𝑑𝑢𝑟𝑎𝑡𝑎 𝑑𝑒𝑙𝑙𝑎 𝑝𝑜𝑙𝑖𝑧𝑧𝑎
∗
𝑐𝑜𝑠𝑡𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒𝑙 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑜
𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑖 𝑟𝑒𝑐𝑙𝑎𝑚𝑖
=
𝑐𝑜𝑠𝑡𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒𝑙 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑜
𝑑𝑢𝑟𝑎𝑡𝑎 𝑑𝑒𝑙𝑙𝑎 𝑝𝑜𝑙𝑖𝑧𝑧𝑎
È bene sottolineare che il premio puro, a dispetto del nome, non è in realtà il premio vero
e proprio da corrispondere, ma bensì, come già detto, rappresenta il costo medio annuo (ad
esempio nel caso nostro in cui la duration sia pari ad uno). Volendo esprimere tale concetto in
termini strettamente più matematici, possiamo definire la seguente espressione3:
𝑃𝑟𝑒𝑚𝑖𝑜 𝑝𝑢𝑟𝑜 = ∏ .
𝑝𝑢
.
= 𝐸[𝑁|𝑥] · 𝐸[𝑍|𝑥]
In particolare, E[N|x] è l’aspettativa di sinistri, quella che noi abbiamo definito claim
frequency, ed E[Z|x] è l’aspettativa di costo, definita precedentemente come claim severity; il tutto
in relazione allo stesso arco temporale. Come si nota, entrambi i fattori sono condizionati ad x,
ovvero i rating factors da considerare, quali età, sesso, area geografica e così via. Come vedremo
nel capitolo successivo, si cercherà di definire separatamente due modelli differenti per entrambi
i fattori e come questi siano influenzati dai fattori di valutazione.
Si è ritenuto doveroso approfondire tale concetto in quanto il premio puro non include al
suo interno la considerazione di altri costi generali che l’assicurato sostiene, come ad esempio le
spese amministrative, di capitale, ecc. Nel caso facessimo riferimento anche a queste variabili in
aggiunta al premio puro, allora potremmo parlare di premio guadagnato o premio complessivo
(earned premium o overall premium) da parte della compagnia. Soltanto la parte del premio
assicurativo che corrisponde puramente al rischio e non ad altri fattori può essere definito come
premio puro. È possibile, a questo punto, definire un altro fattore chiave:
▪ il rapporto di perdita (loss ratio), definito come il rapporto tra il valore totale del reclamo
e il premio guadagnato.
3
Tam Ha; Modelling the Premium in Non-Life Insurance, A Comparison of Generalized Linear and Generalized Linear
Mixed Models, Master’s Thesis, Autumn 2017, p. 2.
~ 6 ~
I rapporti definiti precedentemente, vale a dire il claim frequency, il claim severity, il pure
premium e il loss ratio, nell’analisi tariffaria sono detti rapporti chiave, anche noti come key ratios
e sono di fondamentale importanza per il resto dell’elaborato, infatti, le valutazioni effettuate in
seguito avranno lo scopo di descrivere come i fattori di valutazione, di cui si è parlato
precedentemente, influenzano proprio tali rapporti. La seguente Tabella 1.2, continuando
l’esempio precedente relativo ad un’assicurazione per ciclomotori, ci consente di mettere insieme
i concetti di rating factors e key ratios.
Cella tariffaria Durata Numero dei
reclami
Frequenza del
reclamo
Gravità del
reclamo
Premio
PuroClasse Età Zona
1 1 1 62.9 17 270 18.256 4.936
1 1 2 112.6 7 62 13.632 845
1 1 3 133.1 9 68 20.877 1.411
1 1 4 9.4 0 0 . 0
1 2 1 352.1 52 148 8.232 1.216
1 2 2 840.1 69 82 7.418 609
1 2 3 1378.3 75 54 7.318 609
1 2 4 5505.3 136 25 6.922 171
2 1 1 191.6 43 224 7.754 1.740
2 1 2 237.3 34 143 6.933 993
2 1 3 162.4 11 68 4.402 298
2 1 4 446.5 8 18 8.214 147
2 2 1 844.8 94 111 4.728 526
2 2 2 1296.0 99 76 4.252 325
2 2 3 1214.9 37 30 4.212 128
2 2 4 3740.7 56 15 3.846 58
Tabella 1.2 Rapporti chiave per le singole celle tariffarie
Nella tabella precedente, la frequenza del reclamo è moltiplicata per mille, la cui
motivazione è stata già esposta in precedenza. Le prime tre colonne specificano le celle tariffarie
così come definite nella Tabella 1.1 ed infine, come già detto, la colonna del premio puro indica
il costo medio per anno, che possiamo considerare la parte del premio assicurativo
esclusivamente legata al rischio.
Per chiarezza espositiva, si riportano nella seguente Tabella 1.3 i rapporti chiave al fine di
considerarli sono un differente punto di vista, particolarmente utile nel corso della seguente
trattazione.
~ 7 ~
Esposizione (w) Risposta (X) Rapporto chiave
(Y=X/w)Durata Numero di reclami Claim Frequency
Numero di reclami Costo del reclamo Claim Severity
Durata Costo del reclamo Pure Premium
Premio guadagnato Costo del reclamo Loss Ratio
Tabella 1.3: rapporti chiave
Come si può notare, un rapporto chiave può essere visto sempre come un rapporto tra il
risultato di una variabile casuale ed una misura del volume, che chiameremo esposizione. La
misura dell’esposizione 𝑤 determina una risposta X, come ad esempio il numero di reclami o
l’importo del reclamo. Inoltre, tale misura può essere vista come un peso delle singole
osservazioni nonché avere differenti interpretazioni nelle applicazioni attuariali. Infatti, ad
esempio, quando 𝑌𝑖 è la frequenza dei reclami (claim frequency), 𝑤 rappresenta la durata
(duration); oppure, quando 𝑌𝑖 è la gravità del reclamo (claim severity), 𝑤 rappresenta il numero
dei reclami. Si noti, infine, che l'esposizione gioca un ruolo fondamentale nell'analisi: maggiore è
l'esposizione nei dati che analizziamo, minore è la variazione dei rapporti chiave.
Come è stato già detto in precedenza, al fine di determinare il premio puro, è opportuno
modellizzare separatamente la frequenza e la gravità dei reclami, perché questi possono
dipendere da fattori di valutazione differenti, e solo successivamente creare un collegamento tra
i due fattori. In questa sede, quindi, è opportuno enunciare alcune assunzioni basilari di notevole
importanza per la costruzione analitica dei due differenti modelli, che saranno oggetto di analisi
del capitolo successivo:
1. indipendenza delle polizze. Considerate 𝑛 differenti polizze assicurative e sia 𝑋𝑖 il
reclamo relativo alla polizza 𝑖, allora 𝑋1, 𝑋2, … , 𝑋 𝑛 sono indipendenti tra di loro;
2. indipendenza temporale. Considerati 𝑛 intervalli temporali disgiunti e sia 𝑋𝑖 il reclamo
relativo all’intervallo 𝑖, allora 𝑋1, 𝑋2, … , 𝑋 𝑛 sono indipendenti tra di loro.
Una conseguenza delle due ipotesi di cui sopra è che tutti i costi dei singoli reclami sono
indipendenti: riguardano polizze diverse o si verificano in intervalli temporali di diversi.
La terza assunzione fa riferimento ad un concetto già esposto, quello relativo alle celle
tariffarie in cui viene diviso un portafoglio di polizze. In base a questo, è ragionevole addebitare
lo stesso premio per tutte le polizze all'interno di una stessa cella tariffaria (per la stessa durata).
3. omogeneità. Considerate due differenti polizze appartenenti alla stessa cella tariffaria e
con la stessa esposizione e sia 𝑋𝑖 il reclamo relativo alla polizza 𝑖, allora 𝑋1 𝑒𝑑 𝑋2 hanno la
stessa distribuzione di probabilità.
~ 8 ~
Si ritiene doveroso effettuare alcune precisazioni. La terza assunzione, infatti, contiene una
supposizione implicita di omogeneità nel tempo, vale a dire che, tra differenti polizze
assicurative, l'unica cosa che conta è solo la durata di ogni polizza, non quando inizia o finisce,
quindi non il suo periodo di calendario in cui è in vigore. Chiaramente, ciò può apparire poco
realistico, poiché molti tipi di reclami sono soggetti a variazioni stagionali; inoltre, per durate
delle polizze molto ampie potrebbero essere evidenti anche delle tendenze (come ad esempio
l’aumento dei costi dei reclami a causa dell’inflazione).
Nonostante ciò, l'omogeneità è essenziale per fornire ripetute osservazioni per l'analisi
statistica oggetto del seguente elaborato, per cui, tali problematiche possono essere superate
facendo alcune considerazioni. In particolare, come già detto, faremo riferimento a polizze della
durata di un anno, quindi, le variazioni stagionali risultano essenzialmente trascurabili e lo stesso
può dirsi per quanto riguarda gli effetti delle tendenze, di cui, alternativamente, è possibile
ridurne l'impatto ricalcolando gli importi dei reclami ai prezzi correnti dato un certo indice.
1.4 Modello moltiplicativo
In via teorica, un’analisi tariffaria dovrebbe essere basata esclusivamente sui dati reali che
la compagnia assicuratrice possiede e sui quali effettua le rispettive analisi. Detto questo, se
avessimo un numero adeguato di dati sui sinistri rispettivamente in ciascuna cella tariffaria,
potremmo determinare un premio assicurativo per la singola cella semplicemente stimando il
costo atteso dal premio puro osservato.
Tuttavia, in pratica, potrebbero esserci dei dati mancanti. Infatti, considerando i dati
derivanti dal mondo reale, potremmo avere delle celle vuote dovute ad esempio sia all’assenza
di reclami nella maggior parte dei casi (per un dato periodo di tempo considerato) sia ad una
raccolta erronea da parte della compagnia assicuratrice, eventualità questa sempre più rara grazie
all’informatizzazione dei sistemi.
In questi casi, si rende necessario individuare un metodo per calcolare un premio puro
atteso che risulti uniforme rispetto a tutte le celle tariffarie. Il metodo ampiamente più utilizzato
per questo scopo, considerato il modello standard nel contesto del pricing delle Non-Life
Insurance, è il modello moltiplicativo, in cui si presuppone la dipendenza del premio puro atteso
da alcuni fattori di valutazione (rating factors). Consideriamo alcune informazioni preliminari
per fini esplicativi.
Assumiamo di avere 𝑀 fattori di valutazione e sia 𝑚𝑖 il numero di intervalli in cui è
categorizzato il fattore di valutazione 𝑖 − 𝑒𝑠𝑖𝑚𝑜. Per semplicità espositiva, poniamo 𝑀 = 2 e
indichiamo con (𝑖; 𝑗) le celle tariffarie rispettivamente di ogni fattore di valutazione. Quindi
abbiamo due rating factors categorizzati, ad esempio, in due intervalli: 𝑖 = 1, 2 per il primo e 𝑗 =
1, 2 per il secondo. All’interno di ciascuna cella (𝑖; 𝑗), indichiamo con 𝑤𝑖𝑗 quella che abbiamo
definito esposizione (come in Tabella 1.3) e con 𝑋𝑖𝑗 la rispettiva risposta. Il rapporto chiave (key
~ 9 ~
ratio) è definito nel modo seguente: 𝑌𝑖𝑗 =
𝑋 𝑖𝑗
𝑤 𝑖𝑗
e può essere uno dei quattro rapporti specificati in
precedenza. Queste intuizioni sono contenute a scopo riassuntivo nella seguente Tabella 1.4, tale
rappresentazione è nota come forma tabulare delle osservazioni.
𝒋
1 2
𝒊
1 𝑌11 =
𝑋11
𝑤11
𝑌12 =
𝑋12
𝑤12
2 𝑌21 =
𝑋21
𝑤21
𝑌22 =
𝑋22
𝑤22
Tabella 1.4: forma tabulare delle osservazioni
Sia, inoltre, 𝜇 la media del rapporto chiave 𝑌𝑖𝑗, per cui abbiamo che 𝐸(𝑌𝑖𝑗) = 𝑤𝑖𝑗 𝜇𝑖𝑗 = 𝜇𝑖𝑗
ovvero l’aspettativa per la risposta 𝑋𝑖𝑗 essendo l’esposizione unitaria 𝑤𝑖𝑗 = 1 (ad esempio, la
durata pari ad un anno). Quindi, il modello moltiplicativo è il seguente:
𝜇𝑖𝑗 = 𝛾0 𝛾1𝑖 𝛾2𝑗
in cui {𝛾1𝑖 ; 𝑖 = 1, … , 𝑚1} indicano i parametri che corrispondo alle differenti classi relative
al fattore di valutazione 1 e {𝛾2𝑗 ; 𝑖 = 1, … , 𝑚2} quelli per il fattore di valutazione 2. Al fine di
interpretarne meglio il loro significato è necessario chiarire l’importanza del parametro 𝛾0. Infatti,
𝛾0 può essere interpretato come un valore base dettato dalla necessità di specificare una cella di
riferimento, chiamata cella base. Per cui 𝛾0 è un rapporto chiave per le polizze identificato nella
cella base e, rispettivamente alle altre celle, ne consente di misurare la differenza relativa,
chiamata relatività dei prezzi o price relativities. Ad esempio, se la cella base è (1; 1), caso in cui
𝛾11 = 𝛾21 = 1 e si ha che 𝛾12 = 1.25, significa che alla cella (2; 1) corrisponde un premio più
elevato del 25% rispetto alla cella (1; 1).
È possibile estendere il modello 𝑀 = 2 nel caso generale del modello moltiplicativo
descritto di seguito:
𝜇𝑖1,𝑖2,…,𝑖 𝑀
= 𝛾0 ∏ 𝛾 𝑘,𝑖 𝑘
𝑀
𝑘=1
dove 𝛾0 è ancora il valore base mentre il resto dei parametri sul lato destro sono le relatività
dei prezzi per il fattore di valutazione 𝑘 − 𝑒𝑠𝑖𝑚𝑜. Si ritiene necessario fare alcune considerazioni.
La prima è che, in base alle assunzioni esposte nel paragrafo precedente, non vi è
interazione tra i fattori di valutazione. Ad esempio, nel caso del modello 𝑀 = 2, se il primo fattore
di valutazione è la classe di età, il secondo è la regione geografica e il rapporto chiave in questione
~ 10 ~
è il premio puro, allora un'interpretazione è che la relazione del premio puro per due classi di età
è la stessa in qualsiasi regione si consideri. Numericamente, se il premio puro è superiore del 20%
per le età 21–25 anni rispetto alle età 26–30 in una regione, allora la stessa relazione vale in
qualsiasi altra regione.
La seconda considerazione richiama il concetto di premio complessivo esposto in
precedenza. Infatti, il livello complessivo del premio è controllato regolando il parametro 𝛾0
mentre il resto dei parametri determina quanto addebitare per una polizza relativamente a
ciascun fattore di valutazione, con 𝛾0 noto. Come vedremo in pratica, nei capitoli successivi, dopo
aver determinato le relatività dei prezzi 𝛾 𝑘,𝑖 𝑘
, imposteremo il valore base 𝛾0 al fine di determinare
il livello complessivo del premio.
~ 11 ~
Capitolo 2
Il pricing tramite i modelli lineari
generalizzati
2.1 Concetti introduttivi – 2.2 Modelli di dispersione esponenziale – 2.2.1 Distribuzione di
Poisson (frequenza dei reclami) – 2.2.2 Distribuzione gamma (gravità dei reclami) – 2.3
Funzione di collegamento – 2.4 Stima dei parametri di regressione – 2.5 Alcune importanti
osservazioni
2.1 Concetti introduttivi
I modelli lineari generalizzati, spesso noti in lingua anglosassone con l'acronimo
GLMs, rappresentano un'importante classe di modelli di regressione che hanno trovato
ampio impiego nella pratica attuariale. Negli anni '90 gli attuari britannici hanno introdotto
i GLM come strumento per l'analisi delle tariffe, anche a causa della deregolamentazione
dei mercati assicurativi, e da allora questo è diventato l'approccio standard in molti paesi.
Come già detto nel capitolo precedente, l'obiettivo dell'analisi tariffaria è quello di
determinare correttamente uno o più rapporti chiave (key ratios), al variare dei fattori di
valutazione (rating factors). Tale analisi, potrebbe sembrare molto simile allo sviluppo di
una regressione lineare multipla in cui la variabile dipendente è in funzione delle covariate, le
variabili esplicative. Tuttavia, il modello di regressione lineare non risulta del tutto
applicabile al contesto delle Non-Life Insurance per due ragioni, sia perché presuppone
esclusivamente degli errori casuali normalmente distribuiti mentre il numero di reclami
assicurativi segue una distribuzione di probabilità discreta con numeri interi non negativi
così come i costi dei reclami sono non negativi; ed inoltre, i valori attesi delle variabili sono
funzioni lineari delle covariate (variabili esplicative) mentre i modelli moltiplicativi
risultano essere solitamente più ragionevoli ai fini del pricing in contesti assicurativi.
In conclusione, in molte applicazioni attuariali, una variabile casuale simmetrica
normalmente distribuita con una varianza costante attorno a una media che è lineare
rispetto ai dati, non descrive adeguatamente la situazione.
Questi problemi possono essere risolti in modo elegante lavorando con i modelli lineari
generalizzati (GLM) anziché con i normali modelli lineari. La generalizzazione è in due
direzioni. Ci consentono di superare il primo ordine di problemi ricorrendo all’utilizzo di
una classe generale di distribuzioni di probabilità, in quanto si assume che le deviazioni
~ 12 ~
casuali dalla media abbiano una distribuzione diversa dalla normale. Possiamo prendere in
considerazione le distribuzioni della famiglia di dispersione esponenziale, che racchiude al suo
interno, oltre alla distribuzione normale, anche le distribuzioni discrete di Poisson e quella
binomiale, nonché distribuzioni continue come la gamma e le gaussiane inverse. Infatti la
variabile dipendente 𝑌𝑖, ovvero il rapporto chiave, può essere discreta, continua o una
miscela. Pertanto, la funzione di frequenza può essere interpretata come una densità di
probabilità o una funzione di probabilità, a seconda del contesto applicativo. Ad esempio 𝑌𝑖
può essere la frequenza dei reclami o la gravità dei reclami.
Per il secondo limite, relativamente al modello per la media, tramite i GLM, alcune
trasformazioni monotone della media sono una funzione lineare delle variabili esplicative,
per cui contengono i modelli lineari e moltiplicativi come casi particolari. In questo contesto,
i fenomeni da modellare sono raramente additivi ed un modello moltiplicativo è molto più
plausibile.
Ricorrendo all’utilizzo dei GLM, sono diversi i vantaggi da prendere in
considerazione. Anzitutto, fanno parte di una teoria statistica generale per cui le tecniche di
stima degli errori standard, la costruzione di intervalli di confidenza, i test di verifica delle
ipotesi e la selezione del modello costituiscono tutte tecniche ben consolidate. Ne deriva che
il loro utilizzo non si esaurisce soltanto nei confini della scienza attuariale per il pricing delle
assicurazioni generali, ma possono essere utilizzati in svariati contesti statistici. Infine,
grazie allo sviluppo tecnologico e informatico, è possibile il loro calcolo e la loro
applicazione grazie a vari software statistici presenti, ad uso gratuito o meno.
L’obiettivo di questo capitolo è quello di presentare la teoria di base dei modelli
lineari generalizzati nel contesto dell'analisi tariffaria, mentre sarà compito del terzo
capitolo metterne in pratica tali concetti.
2.2 Modelli di dispersione esponenziale
Come già detto, fare riferimento ai modelli di dispersione esponenziale (exponential
dispersion models, EDM), ci consente di generalizzare ed estendere l’insieme di distribuzioni
alle quali possiamo fare riferimento. Prima di entrare in questa spiegazione, tuttavia, è
opportuno fare alcune considerazioni pratiche. Nel momento in cui abbiamo trattato il tema
del modello moltiplicativo, abbiamo rappresentato le osservazioni in forma tabulare, in cui
ciascun indice a rappresentava un rating factor. In sede di presentazione dei modelli di
dispersione esponenziale è utile ricorrere ad una differente disposizione dei dati, ovvero un
formato ad elenco, in cui le n osservazioni sono organizzate come un vettore colonna:
~ 13 ~
𝒀′
= (𝑌1, 𝑌2, … , 𝑌𝑛) 𝑇
Oltre al rapporto chiave 𝑌𝑘, ogni riga k dell'elenco contiene il peso di esposizione 𝑤 𝑘
della cella tariffaria, nonché i valori delle risposte dei fattori di rating. Di seguito, si
rappresenta la trasposizione dalla precedente forma tabulare (Tabella 1.4) al formato ad
elenco:
Tabella 2.1: trasposizione dalla forma tabulare al formato ad elenco
e, in particolar modo, si rappresenta la trasposizione della Tabella 1.2 relativa
all’esempio di un’assicurazione per ciclomotori in merito al rapporto chiave della frequenza
del reclamo.
Cella
tariffaria
𝑖
Covariate Durata
(esposizione)
Frequenza del
reclamo
(claim frequency)
Classe
𝒙𝒊𝟏
Età
𝒙 𝟏𝟐
Zona
𝒙𝒊𝟑
1 1 1 1 62.9 270
2 1 1 2 112.6 62
3 1 1 3 133.1 68
4 1 1 4 9.4 0
5 1 2 1 352.1 148
6 1 2 2 840.1 82
7 1 2 3 1378.3 54
8 1 2 4 5505.3 25
9 2 1 1 191.6 224
10 2 1 2 237.3 143
11 2 1 3 162.4 68
12 2 1 4 446.5 18
13 2 2 1 844.8 111
14 2 2 2 1296.0 76
15 2 2 3 1214.9 30
16 2 2 4 3740.7 15
Tabella 2.2 Trasposizione in formato ad elenco dati assicurazione per ciclomotori (con frequenza del reclamo per mille)
𝒌 𝒊 𝒋 Rapporto chiave
1 1 1 𝑌1
2 1 2 𝑌2
3 2 1 𝑌3
4 2 2 𝑌4
𝒋
1 2
𝒊
1 𝑌11 𝑌12
2 𝑌21 𝑌22
~ 14 ~
Partendo dalle assunzioni fondamentali esposte nel Capitolo 1, considerate le
seguenti variabili tutte indipendenti tra loro 𝑌1, 𝑌2, … , 𝑌𝑛 , è possibile affermare che una
distribuzione di probabilità è un membro della famiglia di dispersione esponenziale se la
sua funzione di densità (nel caso continuo) o la sua funzione di probabilità (nel caso
discreto) può essere espressa nel modo seguente:
𝑓𝑌𝑖
(𝑦𝑖, 𝜃𝑖, ϕ) = 𝑒𝑥𝑝 {
𝑦𝑖 𝜃𝑖 − 𝑏(𝜃𝑖)
𝜙/𝑤𝑖
+ 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)}
in cui 𝒘𝒊 ≥ 𝟎, già descritto in precedenza, rappresenta l’esposizione di una cella
tariffaria, 𝜽𝒊 è il parametro naturale che può dipendere da 𝑖, 𝛟 > 𝟎 è il parametro di dispersione
uguale per ogni 𝑖, se 𝜙 è considerato fisso abbiamo una famiglia esponenziale a un
parametro, se così non fosse e 𝜙 è considerato incognito abbiamo gli EDM, cioè una famiglia
di modelli di dispersione esponenziale. È importante sottolineare che lo spazio dei
parametri considerato deve essere aperto. 𝒃(𝜽𝒊) è la funzione cumulativa che, per assunzione,
si ritiene essere due volte continuamente differenziabile con derivata prima invertibile. Per
ogni scelta di tale funzione, otteniamo una famiglia di distribuzioni di probabilità, come ad
esempio la distribuzione normale, di Poisson e gamma e data la scelta di 𝑏(∙), la rispettiva
distribuzione è completamente specificata dai parametri 𝜃𝑖 𝑒 𝜙. La funzione 𝒄(∙), che non
dipende da 𝜃𝑖, è di scarso interesse nella teoria dei modelli lineari generalizzati.
Naturalmente, l'espressione sopra è valida solo per tutte le 𝑦𝑖 che sono possibili esiti di 𝑌𝑖.
Infatti, nel caso di altri valori di 𝑦𝑖 assumiamo tacitamente che 𝑓𝑌𝑖
(𝑦𝑖) = 0. Alcuni range di
valori che possiamo osservare per 𝑦𝑖 nei casi applicativi possono essere (0, ∞), (−∞, ∞) e
l’insieme dei numeri interi non negativi.
La media e la varianza della variabile dipendente 𝑌𝑖 con distribuzione di probabilità
descritta in precedenza sono così espresse:
𝐸(𝑌𝑖) = 𝜇𝑖 = 𝑏′(𝜃𝑖)
𝑉𝑎𝑟(𝑌𝑖) = 𝜙𝑏′′
(𝜃𝑖) 𝑤𝑖⁄ = 𝜙𝜈(𝜇𝑖) 𝑤𝑖⁄
dove 𝜈(𝜇𝑖) = 𝑏′′((𝑏′)−1(𝜇𝑖)) è denominata funzione varianza4.
4 Ulteriori spiegazioni in merito in “Non-life insurance pricing with generalized linear models”, E.
Ohlsson and B. Johansson, sezione 2.1.3.
~ 15 ~
In seguito verifichiamo brevemente che le distribuzioni di Poisson e gamma,
particolarmente utili nel contesto delle Non-Life Insurance come vedremo più avanti, sono
incluse in questa famiglia di distribuzioni di probabilità.
2.2.1 Distribuzione di Poisson (frequenza dei reclami)
𝑭𝒐𝒓𝒎𝒖𝒍𝒂 𝒈𝒆𝒏𝒆𝒓𝒂𝒍𝒆
𝑝 𝑿(𝑥; 𝜆) = 𝑒−𝜆 𝜆 𝑥
𝑥!
; 𝑥 = 0,1,2, … ; 𝑐𝑜𝑛 𝜆 > 0 segue che 𝑋~𝑃𝑜𝑖(𝜆)
Per verificare che la distribuzione discreta di Poisson rientri nei modelli di
dispersione esponenziale (EDM), sotto le assunzioni del Capitolo 1, si consideri che 𝑌𝑖 sia il
numero di reclami in una cella tariffaria, quindi il rapporto chiave oggetto d’analisi è
relativo alla frequenza dei reclami, 𝑤𝑖 sia la duration o esposizione (solitamente considerata
in questo elaborato 𝑤𝑖 = 1) e che 𝐸(𝑌𝑖) = 𝑤𝑖 𝜇𝑖 (pari a 𝜇𝑖 nel caso di duration unitaria). La
distribuzione di probabilità di 𝑌𝑖, sottoforma di una distribuzione di Poisson, è la seguente:
𝑓𝑌 𝑖
(𝑦𝑖; 𝜇𝑖) = 𝑒−𝑤 𝑖 𝜇 𝑖
(𝑤𝑖 𝜇𝑖) 𝑤 𝑖 𝑦 𝑖
𝑤𝑖 𝑦𝑖!
= exp{𝑤𝑖 𝑦𝑖 𝑙𝑜𝑔(𝑤𝑖 𝜇𝑖) − 𝑤𝑖 𝜇𝑖 − 𝑙𝑜𝑔(𝑤𝑖 𝑦𝑖!)} 𝑦𝑖 = 0,1,2, …
considerato che 𝑦𝑖 sia un numero intero non negativo ed avendo fissato la parte che
non dipende da 𝜇𝑖 pari a 𝑐(𝑦𝑖, 𝑤𝑖) = − 𝑙𝑜𝑔(𝑤𝑖 𝑦𝑖!). La distribuzione di probabilità fa parte
della famiglia dei modelli di dispersione esponenziale con parametri 𝜃𝑖 = log (𝜇𝑖), 𝜙 = 1 e
funzione cumulativa 𝑏(𝜃𝑖) = 𝑒 𝜃 𝑖, infatti:
𝑓𝑌𝑖
(𝑦𝑖; 𝜃𝑖) = exp{𝑦𝑖 𝜃𝑖 − 𝑤𝑖 𝑒 𝜃 𝑖) + 𝑐(𝑦𝑖, 𝑤𝑖)} 𝑦𝑖 = 0,1,2, …
Si può concludere quindi che:
𝑌𝑖~𝑃𝑜𝑖(𝜇𝑖)
2.2.2 Distribuzione gamma (gravità dei reclami)
𝑭𝒐𝒓𝒎𝒖𝒍𝒂 𝒈𝒆𝒏𝒆𝒓𝒂𝒍𝒆
𝑓𝑿(𝑥; 𝛼, 𝛽) =
1
Γ(𝛼)
𝛽 𝛼
𝑥 𝛼−1
𝑒−𝛽𝑥
; 𝑐𝑜𝑛 𝑥 > 0, 𝛼 > 0, 𝛽 > 0 segue che
𝑋~𝐺𝑎𝑚(𝛼, 𝛽)
~ 16 ~
Per dimostrare che la distribuzione gamma è anch’essa un membro della famiglia dei
modelli di dispersione esponenziale, non consideriamo temporaneamente l’indice 𝑖 al
pedice per riferirci ad una cella tariffaria in particolare ed assumiamo che il costo di un
singolo reclamo sia gamma distribuito e che il costo totale dei reclami della cella sia 𝑋.
Quindi se 𝑋 è la somma di 𝑤 variabili aleatorie gamma distribuite indipendenti si ha che
𝑋~𝐺𝑎𝑚(𝜔𝛼, 𝛽) dove 𝛼 > 0, 𝛽 > 0 rispettivamente i parametri di forma e di scala, quindi la
distribuzione di probabilità della gravità dei reclami (claim severity), cioè il rapporto chiave
𝑌 = 𝑋/𝑤 è:
𝑓𝑌(𝑦) = 𝑤𝑓𝑋(𝑤𝑦) =
(𝑤𝛽) 𝑤𝛼
Γ(𝑤𝛼)
𝑦 𝑤𝛼−1
𝑒−𝑤𝛽𝑦
quindi Y è gamma distribuita con 𝐺(𝑤𝛼, 𝑤𝛽) con aspettativa 𝛼 𝛽⁄ . Abbiamo che
𝐸(𝑌) = 𝑤𝛼/𝑤𝛽 e 𝑉𝑎𝑟(𝑌) =
𝑤𝛼
(𝑤𝛽)2
= 𝜙𝜇2
/𝑤. Successivamente, reimpostando i parametri
opportunamente, in particolare con 𝜇 = 𝛼/𝛽 ed 𝜙 = 1/𝛼 la distribuzione diventa:
𝑓𝑌(𝑦) = 𝑓𝑌(𝑦; 𝜇, 𝜙)
=
1
Γ (
𝑤
𝜙
)
(
𝑤
𝜇𝜙
)
𝑤
𝜙
𝑦(𝑤 𝜙)−1⁄
𝑒−𝑤𝑦 (𝜇𝜙⁄ )
= 𝑒𝑥𝑝 {
−𝑦 𝜇⁄ − log (𝜇)
𝜙 𝑤⁄
+ log (𝑤𝑦 𝜙) 𝑤 𝜙⁄ − log(𝑦) − 𝑙𝑜𝑔Γ(𝑤 𝜙)⁄⁄ } ; 𝑦 > 0
come per la distribuzione precedente, abbiamo impostato quindi gli elementi che non
dipendono da 𝜇 nel modo seguente: 𝑐(𝑦, 𝜙, 𝑤) = log (𝑤𝑦 𝜙) 𝑤 𝜙⁄ − log(𝑦) − 𝑙𝑜𝑔Γ(𝑤 𝜙)⁄⁄ .
Per verificare che la distribuzione gamma rientri nella famiglia dei modelli di
dispersione esponenziale impostiamo il parametro 𝜃 = 1/𝜇 e reintroducendo ora
nuovamente l’indice 𝑖, la distribuzione di probabilità della gravità dei reclami (claim
severity) 𝑌𝑖 è:
𝑓𝑌𝑖
(𝑦𝑖; 𝜃𝑖, 𝜙) = 𝑒𝑥𝑝 {
−𝑦𝑖 𝜃𝑖 + log (−𝜃)
𝜙/𝑤𝑖
+ 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)}
con funzione cumulativa 𝑏(𝜃𝑖) = −log (−𝜃𝑖). Quindi, concludendo:
𝑌𝑖~𝐺𝑎𝑚(𝜇𝑖, 𝜙)
~ 17 ~
2.3 Funzione di collegamento
Nel precedente paragrafo abbiamo dimostrato, facendo riferimento alla famiglia dei
modelli di dispersione esponenziale (EDM), come superare facilmente i limiti esposti dai
modelli lineari in merito alla distribuzione di probabilità della variabile aleatoria 𝑌𝑖. Ci
occupiamo ora di verificare, come già accennato in merito al secondo limite quello relativo
al modello per la media, che tramite i GLM alcune trasformazioni monotone della media
sono una funzione lineare delle variabili esplicative, per cui contengono i modelli lineari e
moltiplicativi come casi particolari.
Nei modelli lineari abbiamo che la variabile dipendente può essere scritta come una
combinazione lineare delle covariate o regressori. Nei modelli lineari generalizzati, tale
relazione è lineare attraverso la cosiddetta funzione di collegamento 𝑔(∙) (nota come link
function in lingua anglosassone), quindi, ad esempio ritornando al caso dei modelli lineari
in cui la variabile dipendente si assume che sia normale, si ha che 𝑔(𝜇𝑖) = 𝜇𝑖 per cui 𝑔(∙)
viene denominata in questo caso funzione di collegamento identità poiché non è necessaria
alcuna trasformazione.
Possiamo affermare quindi che la relazione tra il valore medio 𝜇𝑖 di 𝑌𝑖 e la struttura
lineare, meglio nota come previsione lineare 𝜂𝑖, può essere descritta da una funzione
regolare e monotona 𝑔(∙) chiamata, per l’appunto, funzione di collegamento e rappresenta
un elemento fondamentale nella teoria dei modelli lineari generalizzati (GLM). La si
definisce nel modo seguente:
𝑔(𝜇𝑖) = 𝜂𝑖 = 𝑿 ∙ 𝜷 = ∑ 𝑥𝑖𝑗 𝛽𝑗
𝑟
𝑗=1
; 𝑖 = 1,2, … , 𝑛
Il previsore lineare 𝜂𝑖 è una combinazione lineare di variabili esplicative, dove 𝜷 =
(𝛽1, 𝛽2, … , 𝛽𝑟) 𝑇
è un vettore r-dimensionale di parametri che definiremo in seguito ed 𝑥𝑖𝑗 è
un dato valore della covariata 𝑥𝑗 relativa all’osservazione 𝑖. Inoltre, 𝑟 è il numero totale dei
parametri di regressione, mentre 𝑛 rappresenta il numero di celle tariffarie, per cui per 𝑟 ≤
𝑛 si ottiene una matrice nota 𝑿 di dimensioni 𝑟 × 𝑛 di variabili esplicative, anche questa
definita in seguito attraverso un esempio.
Si noti che la precedente espressione rappresenta la componente sistematica del
modello. Si ritiene doveroso fare un esempio chiarificatore.
Consideriamo due rating factors, di cui il primo e il secondo categorizzati,
rispettivamente, in due e tre differenti classi (o intervalli). Assumiamo una notazione in
~ 18 ~
forma tabulare delle osservazioni ed una struttura di modello moltiplicativo per la media;
sia 𝜇𝑖𝑗 l’aspettativa di 𝑌𝑖𝑗 (rapporto chiave) delle celle (𝑖, 𝑗) dove 𝑖 = 1,2 e 𝑗 = 1,2,3 per cui si
ha che:
𝜇𝑖𝑗 = 𝛾0 𝛾1𝑖 𝛾2𝑗
come già visto in precedenza. Per semplificare la stima, consideriamo la funzione
logaritmica applicata per entrambi i lati dell’equazione:
log 𝜇𝑖𝑗 = 𝑙𝑜𝑔 𝛾0 + 𝑙𝑜𝑔 𝛾1𝑖 + 𝑙𝑜𝑔 𝛾2𝑗
Sempre da quanto già discusso, si sceglie una cella base come riferimento, ad esempio
(1,1) per cui si ha che se 𝛾11 = 𝛾21 = 1 in modo che 𝜇11 = 𝛾0, come dimostrato dalla
precedente equazione, gli altri parametri misurino la deviazione media da questa cella di
riferimento. Successivamente, riscriviamo il modello utilizzando la notazione ad elenco,
ordinando le celle nel modo seguente (1,1); (1,2); (1,3); (2,1); (2,2); (2,3) e rinominando i
parametri così di seguito:
𝛽1 ≡ 𝑙𝑜𝑔𝛾00
𝛽2 ≡ 𝑙𝑜𝑔𝛾12
𝛽3 ≡ 𝑙𝑜𝑔𝛾22
𝛽4 ≡ 𝑙𝑜𝑔𝛾23
Per i parametri restanti, introduciamo un insieme di variabili dummy, al fine di
poterli esprimere nei termini dei parametri che abbiamo già assunto. Tuttavia, prima di
ricorrere all’utilizzo di tali variabili, dobbiamo analizzare tutte le possibili relazioni tra
𝑙𝑜𝑔 𝜇𝑖𝑗 e 𝛽{1,2,3,4}. La seguente Tabella 2.3 ci aiuta a mettere in evidenza tali relazioni:
Cella tariffaria i j Cella base 𝒍𝒐𝒈 𝝁𝒊𝒋
1 1 1 ✓ 𝛽1
2 1 2 𝛽1 + 𝛽3
3 1 3 𝛽1 + 𝛽4
4 2 1 𝛽1 + 𝛽2
5 2 2 𝛽1 + 𝛽2 + 𝛽3
6 2 3 𝛽1 + 𝛽2 + 𝛽4
Tabella 2.3 Relazioni del modello considerato con cella base (1,1)
Le variabili dummy sono definite nel modo seguente:
~ 19 ~
𝑥𝑖𝑗 = {
1, 𝑠𝑒 𝛽𝑗 è 𝑖𝑛𝑐𝑙𝑢𝑠𝑜 𝑖𝑛 𝑙𝑜𝑔 𝜇𝑖
0, 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
da cui segue Tabella 2.4, da cui si noti la similarità con la precedente tabella.
Cella tariffaria i j 𝒙𝒊𝟏 𝒙𝒊𝟐 𝒙𝒊𝟑 𝒙𝒊𝟒
1 1 1 1 0 0 0
2 1 2 1 0 1 0
3 1 3 1 0 0 1
4 2 1 1 1 0 0
5 2 2 1 1 1 0
6 2 3 1 1 0 1
Tabella 2.4 Variabili dummy del modello additivo considerato
Possiamo quindi dimostrare che 𝑙𝑜𝑔 𝜇𝑖𝑗 può essere presentato, ricorrendo all’utilizzo
delle variabili dummy, nel modo seguente:
𝑙𝑜𝑔 𝜇𝑖𝑗 = ∑ 𝑥𝑖𝑗 𝛽𝑗; 𝑖 = 1,2, … ,6.
4
𝑗=𝑖
e che 𝑥𝑖𝑗, definito in precedenza come il valore della covariata 𝑥𝑗 relativa
all’osservazione 𝑖, può essere espresso sotto forma di una matrice 𝑿, nota in letteratura come
design matrix oppure model matrix.
𝑿 =
[
1 0 0 0
1 0 1 0
1 0 0 1
1 1 0 0
1 1 1 0
1 1 0 1]
Con la design matrix esposta, ricorrendo all’utilizzo del previsore lineare 𝜂𝑖 =
𝑙𝑜𝑔 𝜇𝑖𝑗 per 𝑖 = 1,2, … ,6 anche 𝜂𝑖 e 𝛽 possiamo esprimerli nel modo seguente 𝜂 = 𝑿𝛽
𝜂 =
[
𝜂1
𝜂2
𝜂3
𝜂4
𝜂5
𝜂6]
𝛽 = [
𝛽1
𝛽2
𝛽3
𝛽4
]
~ 20 ~
Concluso tale esempio, è bene ricordare che il problema generale dell'analisi tariffaria
è quello di indagare come la risposta 𝑌𝑖 sia influenzata da 𝑟 covariate 𝑥1, 𝑥2, … , 𝑥 𝑟. La funzione
di collegamento nota 𝑔(∙) deve essere rigorosamente monotona e differenziabile. La scelta
della funzione di collegamento dipende dalle caratteristiche dei dati oggetto d’analisi ed è
in qualche modo arbitraria. Nel nostro caso del pricing delle Non-Life Insurance, una
funzione di collegamento logaritmica associata ad un modello moltiplicativo (sempre
ragionevole nella pratica) è di gran lunga la più comune e la più utilizzata. Definiremo log-
link function questo tipo di collegamento per il prosieguo della trattazione
𝑔(𝑢𝑖) = log (𝑢𝑖)
mentre come già visto in precedenza i modelli lineari utilizzano un collegamento di tipo
identity-link function. In letteratura, chiaramente, sono presenti varie tipologie di funzione
di collegamento, quali la funzione logit, probit, power, squareroot etc. sulle quali non si ritiene
opportuno approfondire ulteriormente, in tale sede, il loro significato. Ciò che è sufficiente
dire è che a ciascuna delle distribuzioni è associata una funzione di collegamento naturale,
chiamata funzione di collegamento canonica, nota anche come canonical link. L'uso di
queste funzioni di collegamento presenta alcuni vantaggi tecnici. Per la distribuzione
normale, il collegamento canonico è la funzione identità, che porta a modelli additivi. Per la
distribuzione di Poisson è la funzione logaritmica, che porta a modelli log-lineari e
moltiplicativi. Per la gamma, è il reciproco e così via.
L’inverso della funzione di collegamento, viene definita funzione media, di cui ne
segue la sua espressione:
𝑔−1(𝜂𝑖) = 𝜇𝑖
Giunti a questo punto, risulta utile fare una breve sintesi delle tre importanti
componenti che caratterizzano i modelli lineari generalizzati, vale a dire:
1. Componente stocastica: la variabile casuale indipendente 𝑌𝑖 la cui funzione densità
è contenuta nella famiglia di dispersione esponenziale;
2. Componente sistematica: la media 𝐸[𝑌] = 𝜇𝑖 = 𝑔−1(𝜂𝑖) con 𝜂𝑖 = ∑ 𝑥𝑖𝑗 𝛽𝑗
𝑟
𝑗=1 e con 𝑿
che rappresenta la matrice dei regressori e 𝛽⃗ il vettore dei parametri;
3. Funzione di collegamento: la funzione che collega il valore medio 𝜇𝑖 di 𝑌𝑖 al
previsore lineare 𝜂𝑖 = 𝑔(𝑢𝑖).
~ 21 ~
2.4 Stima dei parametri di regressione
Dopo aver definito i modelli lineari generalizzati e aver messo in risalto alcune delle
peculiarità tipiche di tali modelli nelle sezioni precedenti, si è giunti ora ad una fase
fondamentale, quella relativa alla stima dei parametri di regressione. Dai risultati che
otterremo è possibile determinare quello che in precedenza abbiamo denominato valore base
(il valore della cella di riferimento, la cella base) e le relatività dei prezzi, l’elemento alla base
dell’analisi tariffaria.
La stima di 𝛽 per i GLM viene in genere effettuata utilizzando il metodo della massima
verosimiglianza (likelihood function) per ciascuna delle variabili casuali indipendenti 𝑌𝑖 la
cui funzione di probabilità può essere espressa come un membro della famiglia di
dispersione esponenziale, di cui si ripropone l’espressione già analizzata in precedenza:
𝑓𝑌𝑖
(𝑦𝑖, 𝜃𝑖, ϕ) = 𝑒𝑥𝑝 {
𝑦𝑖 𝜃𝑖 − 𝑏(𝜃𝑖)
𝜙/𝑤𝑖
+ 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)}
La massima verosimiglianza per 𝑌𝑖 in funzione dei parametri 𝜃𝑖 𝑒 ϕ per un dato
valore di 𝑦𝑖 viene così descritta:
ℓ𝑖(𝑦𝑖; 𝜃𝑖, ϕ) =
𝑦𝑖 𝜃𝑖 − 𝑏(𝜃𝑖)
𝜙/𝑤𝑖
+ 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)
in presenza di un vettore casuale 𝒀 avremo che:
ℓ𝑖( 𝒚; 𝜽, ϕ) = ∑ ℓ𝑖( 𝑦𝑖; 𝜃𝑖, ϕ) =
1
𝜙
𝑛
𝑖=1
∑ 𝑤𝑖(𝑦𝑖 𝜃𝑖 − 𝑏( 𝜃𝑖))
𝑛
𝑖=1
+ ∑ 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)
𝑛
𝑖=1
La derivata parziale di ℓ rispetto a 𝛽𝑗, grazie alla regola della catena, è pari a
𝜕ℓ
𝜕𝛽𝑗
= ∑
𝜕ℓ𝑖
𝜕𝜃𝑖
𝜕𝜃𝑖
𝜕𝜇𝑖
𝜕𝜇𝑖
𝜕𝜂𝑖
𝑛
𝑖=1
𝜕𝜂𝑖
𝜕𝛽𝑗
=
1
𝜙
∑ 𝑤𝑖
𝑦𝑖 − 𝜇𝑖
𝜈(𝜇𝑖)𝑔′(𝜇𝑖)
𝑥𝑖𝑗
𝑛
𝑖=1
scaturita dai seguenti calcoli e dalle relazioni descritte nei paragrafi precedenti:
•
𝜕ℓ 𝑖
𝜕𝜃 𝑖
=
𝑤 𝑖(𝑦 𝑖 𝜃 𝑖−𝑏′(𝜃 𝑖))
ϕ
,
~ 22 ~
•
𝜕𝜃 𝑖
𝜕𝜇 𝑖
=
1
𝜕𝜂 𝑖
𝜕𝜃 𝑖
=
1
𝜕𝑏′(𝜃 𝑖)
𝜕𝜃 𝑖
=
1
𝑏′′(𝜃 𝑖)
=
1
𝜈(𝜇 𝑖)
,
•
𝜕𝜇 𝑖
𝜕𝜂 𝑖
=
1
𝜕𝜂 𝑖
𝜕𝜇 𝑖
=
1
𝜕𝑔(𝜇 𝑖)
𝜕𝜇 𝑖
=
1
𝑔′(𝜇 𝑖)
,
•
𝜕𝜂 𝑖
𝜕𝛽 𝑗
= 𝑥𝑖𝑗 .
Impostando tutte queste 𝑟 derivate parziali uguali a zero e moltiplicando per φ, che
non ha alcun effetto sulla massimizzazione, otteniamo le equazioni di massima
verosimiglianza5:
∑ 𝒘𝒊
𝒚𝒊 − 𝝁𝒊
𝝂(𝝁𝒊)𝒈′(𝝁𝒊)
𝒙𝒊𝒋
𝒏
𝒊=𝟏
= 𝟎, 𝒋 = 𝟏, … , 𝒓.
la cui soluzione deve rispettare anche la seguente condizione a noi già nota:
𝜇𝑖 = 𝑔−1(𝜂𝑖) = 𝑔−1
(∑ 𝑥𝑖𝑗 𝛽𝑗
𝑟
𝑗=1
).
Eccetto per alcuni casi speciali, come ad esempio il saturated model in cui si ha che 𝜇𝑖̂ =
𝑦𝑖, le equazioni di massima verosimiglianza sono risolte numericamente. In tale sede, si
ritiene sufficiente menzionare due dei principali metodi numerici utilizzati per la
risoluzione, quali il metodo di Newton-Raphson e il metodo di scoring di Fisher per i quali
si rimanda ad altri elaborati presenti in letteratura.
Giunti a questo punto, dopo aver risolto l’equazione di massima verosimiglianza,
attraverso l’utilizzo di software statistici, nei modelli moltiplicativi più che stimare i
parametri regressori 𝛽, il nostro interesse è quello di stimare il valore base nonchè la
relatività dei prezzi (o price relativities), ovvero gli elementi portanti dell’analisi tariffaria.
Questo è possibile grazie alla seguente relazione:
𝛾𝑗̂ = 𝑒 𝛽 𝑗̂ , 𝑗 = 1, … , 𝑟
5
Si riportano in appendice, a fini esaustivi, le derivazioni delle funzioni di massima verosimiglianza relative
ai due casi speciali della distribuzione di Poisson (claim frequency) e della distribuzione gamma (claim
severity).
~ 23 ~
tuttavia, l'analisi tariffaria nei GLM, da quanto abbiamo capito, consiste
nell'effettuare analisi separate per la frequenza e la gravità dei sinistri, quindi, solo
successivamente, si trovano le relatività per il premio puro moltiplicando i risultati. Le
ragioni di questo sono essenzialmente due:
• la frequenza dei reclami risulta essere, di solito, molto più stabile della gravità
degli stessi, per cui può essere stimata separatamente con maggiore
accuratezza;
• condurre un’analisi separata fornisce maggiori informazioni su come un
rating factor incide sul premio puro.
Per terminare tale argomento, possiamo riprendere l’esempio fatto in precedenza
relativo ad un’assicurazione per ciclomotori e fare alcune considerazioni conclusive.
Conducendo un'analisi separata per la frequenza dei sinistri e gravità, otteniamo le relatività
per il premio puro moltiplicando i fattori di queste due analisi, come da Tabella 2.5.
Rating factor Classe Duration
N° di
reclami
Relatività,
frequenza
Relatività,
gravità
Relatività, premio
puro
Classe del
veicolo
1 9833 391 1.00 1.00 1.00
2 8824 395 0.78 0.55 0.42
Età del
veicolo
1 1918 141 1.55 1.79 2.78
2 16740 645 1.00 1.00 1.00
Zona
geografica
1 1451 206 7.10 1.21 8.62
2 2486 209 4.17 1.07 4.48
3 2889 132 2.23 1.07 2.38
4 10069 207 1.00 1.00 1.00
Tabella 2.5 Relatività di un modello moltiplicativo tra Poisson per la frequenza e Gamma per la gravità.
Osserviamo che i due fattori di valutazione ‘classe di veicolo’ ed ‘età del veicolo’
influenzano la frequenza e la gravità del reclamo nella stessa direzione, il che significa che i
veicoli più nuovi e più potenti non solo sono più costosi da sostituire quando vengono
~ 24 ~
rubati, ma vengono anche rubati più spesso. La zona geografica ha un grande impatto sulla
frequenza del reclamo, ma una volta rubato un ciclomotore il costo della sua sostituzione
non è necessariamente più grande in una zona rispetto a un'altra, con una possibile
eccezione per le più grandi città della zona 1. Si noti che queste interessanti conclusioni non
avremmo potuto coglierle se avessimo analizzato solo il premio puro. Inoltre, in caso di
zone geografiche con un numero molto ridotto di reclami è piuttosto ovvio che non è
possibile trarre conclusioni attendibili e quindi si avranno stime molto incerte sulla gravità
dei reclami.
Tuttavia, come è possibile definire un valore soglia del numero di reclami oltre la
quale è possibile ritenere attendibili le stime? A questa, e ad altre domande, è possibile
rispondere tramite l’utilizzo di alcune tecniche statistiche, quali la valutazione della bontà di
adattamento del modello ai dati (goodness of fit), nel caso in cui sia opportuno aggiungere
ulteriori fattori di valutazione o omettere quelli inclusi, oppure tramite i test di verifica delle
ipotesi o test di verifica delle informazioni di Akaike. L’utilizzo di tali tecniche, tuttavia, non è
oggetto del seguente elaborato.
Giunti alla fine della trattazione teorica del pricing delle Non-Life Insurance tramite
i modelli lineari generalizzati, è possibile applicare tale teoria a due differenti casi pratici,
oggetto del terzo ed ultimo capitolo.
2.5 Alcune importanti osservazioni
• Molti problemi di pricing nell'assicurazione generali contengono rating factors
continui, come ad esempio l'età di ciascun assicurato o le miglia percorse da un
veicolo assicurato. Da quanto visto nella teoria dei GLM, sappiamo che il primo passo
per risolvere questi problemi di pricing è quello di categorizzare tali rating factors in
intervalli diversi e gestire valori diversi contenuti nello stesso intervallo come se
fossero identici. Tuttavia è possibile menzionare uno svantaggio. Dal momento che,
se due polizze assicurative sono caratterizzate da valori diversi, seppur vicini, in
termini di gravità e frequenza dei reclami, possono comportare premi
significativamente diversi dopo che i valori sono stati categorizzati in intervalli
diversi. Inoltre, anche la classificazione efficace degli intervalli può richiedere molto
tempo dal momento che risulta difficile trovare intervalli appropriati per alcuni
fattori di valutazione come l'età. Gli intervalli di ciascun rating factor devono essere
abbastanza grandi da fornire una buona precisione nella stima della relatività dei
prezzi, ma devono anche essere abbastanza piccoli da essere efficaci se i rating factor
~ 25 ~
variano ampiamente. Nel mondo reale, a volte è difficile soddisfare entrambi i
requisiti. In uno studio del 1986 Trevor Hastie e Robert Tibshirani hanno introdotto
il concetto di modelli di additivi generalizzati, noti con la sigla GAM, che utilizzano una
somma di smooth functions ∑ 𝑠𝑗(𝑋𝑗) anziché l’utilizzo della forma lineare a noi nota
∑ 𝛽𝑗 𝑋𝑗 come nei GLM, al fine di ovviare a tali problemi.
• In merito alla prima assunzione esposta, quella relativa all’indipendenza delle polizze.
Tale assunzione è un presupposto fondamentale, tuttavia, vi sono dei casi nel mondo
reale in cui è impossibile garantire tale presupposto, come ad esempio,
nell'assicurazione automobilistica, la possibilità di una collisione tra due auto
assicurate dalla stessa compagnia viola l'assunto di indipendenza, almeno in linea di
principio. Un altro esempio più importante di dipendenza sono le catastrofi, in cui
un gran numero di polizze sono colpite dalla stessa calamità naturale. Questa
situazione richiede altri tipi di modelli rispetto a quelli trattati in questo elaborato.
• In merito alla seconda assunzione esposta, quella relativa all’indipendenza temporale
delle polizze. In questo caso, sia il numero di reclami che l'importo del reclamo sono
considerati indipendenti da un periodo di tempo all'altro. Tuttavia, potremmo
considerare il caso di un automobilista che ha avuto un incidente e per tale ragione
potrebbe guidare in modo più attento in futuro o un proprietario di casa che ha subito
un danno o pregiudizio e potrebbe decidere di installare un allarme antifurto; in tali
casi, la presenza di un reclamo oggi implica, almeno concettualmente, una frequenza
dei reclami inferiore in futuro.
• In merito alla terza assunzione esposta, quella relativa all’omogeneità delle polizze.
Questa ipotesi non è in genere perfettamente soddisfatta. In pratica, cerchiamo un
modello che divide le polizze in gruppi abbastanza omogenei e applichi lo stesso
premio all'interno di ciascuna cella tariffaria. Per far fronte alla non omogeneità
residua all'interno delle celle, esistono dei sistemi che prevedono bonus / malus ad
esempio nel caso di autoveicoli privati oppure sulla base di una valutazione
d’esperienza delle grandi imprese.
• Abbiamo dimostrato che il rapporto chiave della frequenza dei reclami segue una
distribuzione di Poisson. Risulta opportuno chiedersi, in questo caso, se tale
distribuzione è realistica o meno per rappresentare la frequenza. In pratica,
l'omogeneità all'interno delle cellule, da quanto detto sopra, è difficile da
raggiungere. La frequenza dei reclami attesa del processo di Poisson 𝜇𝑖 può variare
nel tempo, ma questo non è necessariamente un problema poiché il numero di
reclami durante un anno sarà ancora caratterizzato da una distribuzione di Poisson.
Un problema più grave è che spesso rimangono notevoli variazioni tra le polizze
~ 26 ~
all'interno delle stesse celle tariffarie. Tuttavia, questo può essere modellato lasciando
che il parametro di rischio stesso sia la realizzazione di una variabile casuale. Questo
𝜇𝑖 porta ad una cosiddetta distribuzione mista di Poisson, con una varianza maggiore
rispetto alla distribuzione standard di Poisson. Tali modelli spesso risultano essere
migliori per trattare i dati di tipo assicurativo.
• Nel caso della gravità dei reclami non è affatto ovvio quale distribuzione dovremmo
assumere. La distribuzione dovrebbe essere positiva e inclinata a destra, da qui si
capisce che la distribuzione normale non è adatta, ma ci possono essere altre
distribuzioni che soddisfano tali i requisiti. Tuttavia, la distribuzione gamma è
diventata più o meno uno standard di fatto nell'analisi dei GLM in merito alla gravità
dei reclami. Tale assunto implica che la deviazione standard è proporzionale a 𝜇, cioè
abbiamo un coefficiente di variazione costante ed anche questo fattore sembra essere
abbastanza plausibile per caratterizzare la gravità.
• I modelli misti lineari generalizzati, GLMM in abbreviato, estendono i GLM
consentendo la presenza di effetti casuali che tengono conto della correlazione tra i dati
dello stesso gruppo o cluster e dovrebbero essere una soluzione per aggirare alcune
delle problematiche poste dalle assunzioni alla base dei modelli lineari generalizzati,
come detto in precedenza. È stato dimostrato che i GLMM possono migliorare le
stime dei dati e determinare un premio puro con maggiore accuratezza. In
particolare, i dati raggruppati sorgono quando le osservazioni possono essere divise
in sottogruppi più piccoli, in cui le osservazioni all'interno di ciascun sottogruppo
sono più "simili" tra loro. In tale modo, ogni soggetto che decide di assicurarsi
rappresenta quindi un cluster. È spesso ragionevole supporre che le osservazioni di
ciascun soggetto siano indipendenti da quelle degli altri, ma le osservazioni
all'interno di un cluster sono correlate. La correlazione all'interno del gruppo
contraddice l’assunzione di indipendenza dei GLM.
~ 27 ~
Capitolo 3
Caso applicativo in R
3.1 Collisione automobilistica nel Regno Unito – 3.2 Assicurazione per ciclomotori
Il nostro obiettivo principale nei seguenti esempi è quello di eseguire un'analisi
tariffaria attraverso i GLM standard tramite l’utilizzo del software RStudio che è un
ambiente di sviluppo integrato per R. In base a quanto detto nei precedenti due capitoli
teorici, si effettuerà dapprima un'analisi separata per la frequenza dei reclami e per la
gravità degli stessi e quindi otterremo le relatività per il premio puro moltiplicando i
risultati ottenuti dalle due modellizzazioni effettuate.
3.1 Collisione automobilistica nel Regno Unito
In questo caso oggetto d’analisi, si considera un campione di n = 32 osservazioni
estratto da un data-set di 8.942 perdite da collisioni automobilistiche nel Regno Unito così
come testimoniato dalle polizze assicurative dei conducenti privati oggetto d’indagine. In
particolare, abbiamo estratto tali osservazioni da un pacchetto, ‘insuranceData’, ovvero una
raccolta di set di dati assicurativi, che vengono spesso utilizzati nell’analisi della gravità dei
sinistri e nella modellizzazione della frequenza dei sinistri.
FASE 1: descrizione dei dati
I conducenti privati sono divisi in celle tariffarie sulla base di due rating factor:
1. Età. Indica la fascia di età del conducente. Tale rating factor viene categorizzato in 8
differenti intervalli o classi, in questo caso rappresentativi delle diverse fasce d’età,
quindi dalla fascia A ad H. I conducenti più giovani appartengono alla fascia di età
A, quelli più anziani alla fascia d'età H, come di seguito:
- A, età 17-20
- B, età 21-24
- C, età 25-29
- D, età 30-34
~ 28 ~
- E, età 35-39
- F, età 40-49
- G, età 50-59
- H, età 60+;
2. Uso del veicolo. Indica il motivo per cui il veicolo viene utilizzato di solito dai
conducenti. Si hanno 4 differenti classi, tra cui:
- Affari
- Guida breve (driveShort, guidare meno di 10 miglia)
- Guida lunga (driveLong, guidare più di 10 miglia)
- Piacere
Per ognuna delle 8 × 4 = 32 celle tariffarie sono noti i seguenti totali:
• Gravità (Severity), ovvero l’importo medio dei sinistri in sterline corretto per
l'inflazione;
• Numero di reclami (Claim Count), ovvero il conteggio totale dei reclami per
ciascuna delle 32 celle tariffarie.
Si riportano di seguito statistiche descrittive dei dati oggetto d’analisi. Abbiamo solo
un'osservazione per ogni combinazione di ciascuna classe o intervallo dei fattori di
valutazione. Come si può notare, tutti gli importi medi dei reclami sono superiori a zero,
per cui non si avrà alcuna restrizione nella modellizzazione della distribuzione della gravità
dei reclami, per la quale, come visto nel Capitolo 2, utilizzeremo la distribuzione Gamma.
+/- R Codice
summary(auto)
+/- Uscita
Age Vehicle_Use Severity Claim_Count
A :4 Business :8 Min. :153.6 Min. : 5.0
B :4 DriveLong :8 1st Qu.:212.4 1st Qu.:116.2
C :4 DriveShort:8 Median :250.5 Median :208.0
D :4 Pleasure :8 Mean :276.4 Mean :279.4
E :4 3rd Qu.:298.2 3rd Qu.:366.0
F :4 Max. :797.8 Max. :970.0
(Other):8
~ 29 ~
FASE 2: analisi sulla frequenza dei reclami (Claim Frequency)
Il numero di reclami in ciascuna cella tariffaria è la variabile di nostro interesse in
quest’analisi. Pertanto, considereremo la variabile Claim_Count come una variabile
dipendente. Nella seguente Figura 3.1.1 si rappresentano gli istogrammi condizionali prima
relativi all'età del conducente e poi relativi all'uso del veicolo. Come si può notare, con
l'aumentare dell'età aumenta anche il numero di reclami per sinistri. Per quanto riguarda
l'uso del veicolo, in relazione a coloro che guidano per meno di 10 miglia corrispondono un
maggior numero di reclami.
Tali rappresentazioni sono state ottenute in ambiente RStudio, grazie all’installazione
di un ulteriore pacchetto, ggplot2, che ci consente di rappresentare in maniera elegante, ma
allo stesso tempo di facile comprensione, i dati oggetto d’analisi.
+/- R Codice
ggplot(auto, aes(Claim_Count, fill = Age)) + geom_histogram(binwidth = 3) + facet
_grid(Age ~ ., margins = TRUE, scales = "free")
ggplot(auto, aes(Claim_Count, fill = Vehicle_Use)) + geom_histogram(binwidth = 3)
+ facet_grid(Vehicle_Use ~ ., margins = TRUE, scales = "free")
+/- Uscita
Figura 3.1.1 Istogrammi condizionali
Da quanto detto nel capitolo precedente, il rapporto chiave della frequenza dei
reclami, segue una distribuzione di Poisson. Per cui si adatta tale distribuzione, con una
funzione di collegamento logaritmico, quella che abbiamo definito log-link function, e con
~ 30 ~
due fattori di valutazione: Age e Vehicle_Use. Lo si memorizza in un oggetto denominato
model.frequency_p, di cui è possibile ottenere un riepilogo di alcune informazioni che si è
scelto di non trattare in questo elaborato, per cui non vengono presentante ma sono
comunque contenute nel seguente codice. Si utilizza, inoltre, la funzione glm() presente in
R per ricordurci ai modelli lineari generalizzati.
+/- R Codice
summary(model.frequency_p <-glm(Claim_Count ~Age + Vehicle_Use,
data=auto, family=pois
FASE 3: analisi sulla gravità dei reclami (Claim Severity)
L’importo medio dei reclami in ciascuna cella tariffaria è la variabile di interesse in
quest’analisi. Si effettua una prima rappresentazione grafica in Figura 3.1.2, sempre
attraverso degli istogrammi condizionali divisi per età del conducente e per l’uso del
veicolo, per una migliore visualizzazione della dipendenza tra gravità e rating factor.
+/- R Codice
ggplot(auto, aes(Severity)) + geom_histogram() + scale_x_log10() + facet_grid(Age
~ Vehicle_Use, margins = TRUE, scales = "free_y")
+/- Uscita
Figura 3.1.2 Istogrammi condizionali
~ 31 ~
Tale relazione, per una maggiore chiarezza espositiva, si rappresenta anche, per
ciascun rating factor, tramite un diagramma di violino, un metodo per tracciare dati
numerici con l'aggiunta di un diagramma di densità del kernel ruotato su ciascun lato, come
in Figura 3.1.3
+/- R Codice
ggplot(auto, aes(Age, Severity)) + geom_violin() + geom_jitter(size = 1.5) + scal
e_y_log10() + stat_smooth(aes(x = Age, y = Severity, group = 1), method = "loess")
ggplot(auto, aes(Vehicle_Use, Severity)) + geom_violin() + geom_jitter(size = 1.5
) + scale_y_log10() + stat_smooth(aes(x = Vehicle_Use, y = Severity, group = 1), method
= "loess")
+/- Uscita
Figura 3.1.3 Diagrammi a violino
~ 32 ~
Come è possibile notare, i sinistri ai quali corrispondono in media un numero più
elevato di importi (in sterline) sono quelli relativi alla fascia d’età A, ovvero per i conducenti
più giovani, e quelli relativi all’utilizzo del veicolo per affari. Gli importi più bassi sono
relativi a conducenti di mezza età, fascia d’età E ed F e quando l’utilizzo del veicolo è dovuto
a viaggi di piacere.
Al rapporto chiave della gravità dei reclami adattiamo una distribuzione gamma, con
una funzione di collegamento logaritmico, quella che abbiamo definito log-link function, e
con due fattori di valutazione: Age e Vehicle_Use. Lo si memorizza in un oggetto
denominato model.severity_g, di cui è possibile ottenere un riepilogo di alcune informazioni
che si è scelto di non trattare in questo elaborato, per cui non vengono presentante ma sono
comunque contenute nel seguente codice.
+/- R Codice
summary(model.severity_g <- glm(Severity ~ Age + Vehicle_Use,
data = auto, family = Gamma("log"))
FASE 4: calcolo del premio puro, combinazione dei due modelli
A questo punto abbiamo scelto la fascia di età A e la classe di utilizzo dei veicoli per
affari come cella tariffaria di base. Tale scelta, si basa esclusivamente su una nostra decisione,
per cui, è chiaro che è possibile scegliere qualsiasi altra combinazione. Quindi, fascia A e
utilizzo del veicolo per affari saranno la cella di riferimento, con valore normalizzato pari
ad 1. Il calcolo delle restanti relatività nelle celle tariffarie, mostrano la differenza da tale
cella base.
+/- R Codice
rel <- data.frame(rating.factor =
c(rep("Age", nlevels(auto$Age)), rep("Vehicle use",
nlevels(auto$Vehicle_Use
))),
class = c(levels(auto$Age),levels(auto$Vehicle_Use)),
stringsAsFactors = FALSE)
print(rel)
Si determinano le relatività per la frequenza dei reclami e la gravità dei reclami
separatamente utilizzando i GLM, nel modo seguente.
+/- R Codice
rels <- coef( model.frequency_p)
rels <- exp( rels[1] + rels[-1] ) / exp( rels[1] )
rel$rels.frequency <- c(c(1, rels[1:7]), c(1, rels[8:10]))
rels <- coef(model.severity_g)
~ 33 ~
rels <- exp(rels[1] + rels[-1])/exp(rels[1])
rel$rels.severity <- c(c(1, rels[1:7]), c(1, rels[8:10]))
Infine, moltiplichiamo questi risultati per ottenere le relatività per il premio puro.
+/- R Codice
rel$rels.pure.premium <- with(rel, rels.frequency * rels.severity)
print(rel, digits = 2)
+/- Uscita
rating.factor class rels.frequency rels.severity rels.pure.premium
1 Age A 1.0 1.00 1.00
2 Age B 4.2 0.81 3.38
3 Age C 10.4 0.79 8.30
4 Age D 12.4 0.77 9.51
5 Age E 13.2 0.59 7.78
6 Age F 25.1 0.68 17.16
7 Age G 20.1 0.69 13.84
8 Age H 14.0 0.67 9.44
9 Vehicle use Business 1.0 1.00 1.00
10 Vehicle use DriveLong 2.5 0.70 1.76
11 Vehicle use DriveShort 3.6 0.60 2.18
12 Vehicle use Pleasure 1.2 0.56 0.66
L’indice di relatività per il premio puro, come già detto, evidenzia la differenza
esistente dalle celle tariffarie dalla cella base. Come si può notare, l’indice più elevato
corrisponde alle fasce d’età F e G, in quanto è fortemente influenzato, come abbiamo visto,
dall’alto numero di reclami per tali fasce d’età. Le relatività più bassa corrisponde alla classe
di utilizzo del veicolo per viaggi di piacere, in cui sia il numero di sinistri che l’importo
medio degli stessi è molto basso.
In questo modo si conclude l’analisi tariffaria del caso pratico oggetto d’analisi.
3.2 Assicurazione per ciclomotori
Questo caso oggetto di studio è relativo ad alcuni esempi già discussi nel corso della
trattazione. In questa sede, il compito sarà quello di svolgere l’analisi tariffaria completa. Si
considerano i dati assicurativi registrati dalla compagnia assicuratrice Wasa Insurance Ltd
tra il 1994 e il 1999 in 7 differenti regioni svedesi, in riferimento ad un’assicurazione per
ciclomotori casco parziale. Tali dati assicurativi sono contenuti in un file esterno
"ciclomotore_data.txt”, successivamente importato e letto sull’applicativo RStudio.
FASE 1: descrizione dei dati
I dati osservati sono distribuiti nelle celle tariffarie in base a tre differenti rating
factors:
~ 34 ~
1. Classe del veicolo. Indica la presenza di differenti tipologie di veicolo. Tale rating
factor viene categorizzato in 2 differenti classi, che rappresentano, appunto, delle
diverse tipologie di veicolo al quale si riferisce. In particolare:
- CLASSE 1, veicolo con peso maggiore di 60 kg e più di due marce presenti
- CLASSE 2, altro, ciò che non rientra nella CLASSE 1;
2. Età del veicolo. Indica da quanto tempo il veicolo risulta immatricolato. Anche
qui, si hanno 2 differenti classi:
- CLASSE 1, immatricolazione al massimo entro 1 anno
- CLASSE 2, immatricolazione di 2 anni o superiore;
3. Zona geografica. Indica la differente regione geografica svedese in cui sono stati
registrati i reclami in seguito ai sinistri stradali. Si considerano 7 regioni:
- Zona 1, parti centrali e semi-centrali delle tre città più grandi della Svezia,
- Zona 2, periferia e città di medie dimensioni
- Zona 3, città minori, tranne quelle delle Zone 5 o 7
- Zona 4, piccole città e campagna, tranne quelle delle Zone 5 o 7
- Zona 5, città settentrionali
- Zona 6, campagna settentrionale
- Zona 7, = Gotland, ovvero l'isola più grande della Svezia.
Per ognuna delle 2 × 2 × 7 = 28 celle tariffarie sono note le seguenti osservazioni:
• Gravità dei reclami (Severity), ovvero l’importo medio dei sinistri in corone
svedesi corretto per l'inflazione;
• Numero di reclami (Numero), ovvero il conteggio totale dei reclami per
ciascuna delle 28 celle tariffarie;
• Frequenza dei reclami (Frequency); determinato dal rapporto tra numero dei
reclami e durata (l’esposizione considerata)
Si riportano di seguito statistiche descrittive dei dati oggetto d’analisi.
+/- R Codice
summary(ciclomotore_data)
+/- Uscita
~ 35 ~
Successivamente abbiamo calcolato la durata e il numero di sinistri per ciascun
intervallo di ogni rating factor. In questo caso è risultato comodo da usare il pacchetto
‘foreach’, nonostante, tali calcoli, potevano essere svolti attraverso l’impostazione di un
ciclo normale e l’utilizzo di alcune variabili ausiliarie. Usiamo foreach per eseguire il loop
ed accumulare le somme per ciascuna cella tariffaria.
+/- R Codice
library("foreach")
## Calcolo della durata per gli intervalli dei rating factor level
## Definizione delle quantità per ciascun intervalloù
## Si è utilizzato foreach per eseguire il loop e accumuluare le somme
new.cols <-
foreach (rating.factor = c("class", "age", "zone"),
.combine = rbind) %do%
{
nclaims <- tapply(moped$number, moped[[rating.factor]], sum)
sums <- tapply(moped$duration, moped[[rating.factor]], sum)
n.levels <- nlevels(moped[[rating.factor]])
contrasts(moped[[rating.factor]]) <-
contr.treatment(n.levels)[rank(-sums, ties.method = "first"), ]
data.frame(dur = sums, n.claims = nclaims)
}
rel <- cbind(rel, new.cols)
rm(new.cols)
print(rel)
+/- Uscita
rating.factor class dur n.claims
1 Vehicle class 1 9833.2 391
2 Vehicle class 2 8825.1 395
11 Vehicle age 1 1918.4 141
21 Vehicle age 2 16739.9 645
12 Zone 1 1451.4 206
22 Zone 2 2486.3 209
3 Zone 3 2888.7 132
4 Zone 4 10069.1 207
5 Zone 5 246.1 6
6 Zone 6 1369.2 23
7 Zone 7 147.5 3
~ 36 ~
FASE 2: analisi sulla frequenza dei reclami (Claim Frequency)
Il numero di reclami in ciascuna cella tariffaria è la variabile di nostro interesse in
quest’analisi. Pertanto, considereremo la variabile ‘Frequenza’ come una variabile
dipendente. Nella seguente Figura 3.2.1 si rappresentano gli istogrammi condizionali per i
tre differenti rating factors, ottenuti sempre tramite l’utilizzo del pacchetto ggplot2.
+/- R Codice
ggplot(moped, aes(number, fill = class)) + geom_histogram(binwidth = 1) + facet_g
rid(class ~ ., margins = TRUE, scales = "free")
ggplot(moped, aes(number, fill = age)) + geom_histogram(binwidth = 1) + facet_gri
d(age ~ ., margins = TRUE, scales = "free")
ggplot(moped, aes(number, fill = zone)) + geom_histogram(binwidth = 1) + facet_gr
id(zone ~ ., margins = TRUE, scales = "free")
+/- Uscita
Figura 3.2.1 Istogrammi condizionali
~ 37 ~
Come è possibile notare dalla precedente figura, alla CLASSE 1 relativa alla tipologia
del veicolo, corrispondono un numero più elevato di reclami. Stesso discorso vale per la
CLASSE 2 relativa all’età del veicolo, in quanto a tale classe corrispondono un numero più
elevato di sinistri. Infine, per quanto riguarda il rating factor della zona geografica, alla Zona
4 sono registrati maggiori reclami, mentre alla Zona 7 corrisponde la quantità più bassa di
sinistri dichiarati.
Il rapporto chiave della frequenza dei reclami, segue una distribuzione di Poisson. Per
cui si adatta tale distribuzione, con una funzione di collegamento logaritmico, quella che
abbiamo definito log-link function, e con tre fattori di valutazione: Classe del Veicolo, Età
del Veicolo e Zona Geografica. Lo si memorizza in un oggetto denominato model.frequency.
Si utilizza, inoltre, la funzione glm() presente in R per ricordurci ai modelli lineari
generalizzati.
+/- R Codice
summary(model.frequency <- glm(number ~ class + age + zone + offset(log(duration)
), data = moped, family = poisson))
FASE 3: analisi sulla gravità dei reclami (Claim Severity)
L’importo medio dei reclami in ciascuna cella tariffaria è la variabile di interesse in
quest’analisi. Si effettua una prima rappresentazione grafica in Figura 3.2.2, sempre
attraverso degli istogrammi condizionali divisi per classe del veicolo ed età del veicolo.
+/- R Codice
ggplot(moped, aes(severity)) + geom_histogram() + scale_x_log10() + facet_grid(cl
ass ~ age, margins = TRUE, scales = "free_y")
+/- Uscita
Figura 3.3.2 Istogrammi condizionali
~ 38 ~
Anche in questo caso, tramite un diagramma di violino, si rappresentano le relazioni
tra rating factor ed importo dei sinistri come in Figura 3.2.3.
+/- R Codice
ggplot(moped, aes(class, severity)) + geom_violin() + geom_jitter(size = 1.5) + s
cale_y_log10() + stat_smooth(aes(x = class, y = severity, group = 1), method = "loess")
ggplot(moped, aes(age, severity)) + geom_violin() + geom_jitter(size = 1.5) + sca
le_y_log10() + stat_smooth(aes(x = age, y = severity, group = 1), method = "loess")
ggplot(moped, aes(zone, severity)) + geom_violin() + geom_jitter(size = 1.5) +
scale_y_log10() + stat_smooth(aes(x = zone, y = severity, group = 1), method = "loess")
+/- Uscita
Figura 3.1.3 Diagrammi a violino
~ 39 ~
Come è possibile notare, i sinistri ai quali corrispondono in media un numero più
elevato di importi (in corone svedesi) sono quelli relativi alla CLASSE 1 sia per la tipologia
del veicolo, sia per l’età del veicolo. Per quanto riguarda la gravità dei sinistri relativamente
alle zone geografiche svedesi, è possibile affermare che nella Zona 3 si registrano i reclami
ai quali corrispondo, in media, sia gli importi più elevati sia quelli più bassi, considerando
tutte le 7 regioni svedesi.
Al rapporto chiave della gravità dei reclami adattiamo una distribuzione gamma, con
una funzione di collegamento logaritmico, quella che abbiamo definito log-link function. Lo
si memorizza in un oggetto denominato model.severity e si utilizza sempre la funzione glm()
presente in R per ricordurci ai modelli lineari generalizzati.
+/- R Codice
summary(model.severity <- glm(severity ~ class + age + zone, data = moped[moped$s
everity > 0, ], family = Gamma("log"), weights = number))
FASE 4: calcolo del premio puro, combinazione dei due modelli
A questo punto bisogna scegliere la cella tariffaria di base. Come già detto, tale scelta
si basa esclusivamente sulla decisione dell’analista, per cui è chiaro che è possibile scegliere
qualsiasi combinazione delle 28 celle tariffarie. In questo caso la cella di riferimento è la
numero 12, quella che corrisponde alla CLASSE 1 in merito alla tipologia del veicolo, alla
CLASSE 2 in merito all’età del veicolo e alla Zona 4 relativamente alla regione geografica. A
tale cella di riferimento corrisponde un valore normalizzato delle relatività pari ad 1. Il
calcolo delle restanti relatività nelle altre celle tariffarie evidenziano la differenza da tale
cella base.
+/- R Codice
rels <- coef( model.frequency )
rels <- exp( rels[1] + rels[-1] ) / exp( rels[1] )
rel$rels.frequency <-
c(c(1, rels[1])[rank(-rel$dur[1:2], ties.method = "first")],
c(1, rels[2])[rank(-rel$dur[3:4], ties.method = "first")],
c(1, rels[3:8])[rank(-rel$dur[5:11], ties.method = "first")])
rels <- coef( model.severity )
rels <- exp( rels[1] + rels[-1] ) / exp( rels[1] )
rel$rels.severity <-
c(c(1, rels[1])[rank(-rel$dur[1:2], ties.method = "first")],
c(1, rels[2])[rank(-rel$dur[3:4], ties.method = "first")],
c(1, rels[3:8])[rank(-rel$dur[5:11], ties.method = "first")])
~ 40 ~
Combinando le relatività delle colonne frequenza e gravità dei reclami otteniamo le
relatività del premio puro.
+/- R Codice
rel$rels.pure.premium <- with(rel, rels.frequency * rels.severity)
print(rel, digits = 2)
+/- Uscita
rating.factor class dur n.claims rels.frequency rels.severity
1 Vehicle class 1 9833 391 1.00 1.00
2 Vehicle class 2 8825 395 0.78 0.55
11 Vehicle age 1 1918 141 1.55 1.79
21 Vehicle age 2 16740 645 1.00 1.00
12 Zone 1 1451 206 7.10 1.21
22 Zone 2 2486 209 4.17 1.07
3 Zone 3 2889 132 2.23 1.07
4 Zone 4 10069 207 1.00 1.00
5 Zone 5 246 6 1.20 1.21
6 Zone 6 1369 23 0.79 0.98
7 Zone 7 148 3 1.00 1.20
rels.pure.premium
1 1.00
2 0.42
11 2.78
21 1.00
12 8.62
22 4.48
3 2.38
4 1.00
5 1.46
6 0.78
7 1.20
Come si può notare, l’indice di relatività del premio puro più elevato corrisponde alla
cella tariffaria numero 12, caratterizzato dalla CLASSE 1 per la tipologia del veicolo, dalla
CLASSE 2 per l’età del veicolo e dalla Zona 5. Mentre, la relatività del premio puro più basso
corrisponde alla cella tariffaria numero 2, caratterizzata dalla CLASSE 1 per la tipologia del
veicolo, dalla CLASSE 1 per l’età del veicolo e dalla Zona 2. Si ricorda, ulteriormente, che
tali relatività non sono da intendere in senso assoluto ma in termini relativi, ossia come
scostamenti dalla cella di riferimento precedentemente scelta, la cella tariffaria numero 11.
Per maggiore chiarezza espositiva, si rappresenta la tabella delle 28 celle tariffarie di seguito.
Cella tariffaria Classe del veicolo Età del veicolo Zona geografica
1 1 1 1
2 1 1 2
3 1 1 3
4 1 1 4
5 1 1 5
6 1 1 6
~ 41 ~
7 1 1 7
8 1 2 1
9 1 2 2
10 1 2 3
11 1 2 4
12 1 2 5
13 1 2 6
14 1 2 7
15 2 1 1
16 2 1 2
17 2 1 3
18 2 1 4
19 2 1 5
20 2 1 6
21 2 1 7
22 2 2 1
23 2 2 2
24 2 2 3
25 2 2 4
26 2 2 5
27 2 2 6
28 2 2 7
In questo modo si conclude l’analisi tariffaria del caso pratico oggetto d’analisi.
~ 42 ~
Appendice
1 – Derivazione della funzione di massima verosimiglianza per una distribuzione di
Poisson (Claim Frequency)
▪
~ 43 ~
2 – Derivazione della funzione di massima verosimiglianza per una distribuzione gamma
(Claim Severity)
▪
~ 44 ~
Riferimenti bibliografici
E. Ohlsson and B. Johansson; Non-life insurance pricing with generalized linear models, volume
21. Springer, 2010.
R. Kaas, M. Goovaerts, J. Dhaene, and M. Denuit; Modern Actuarial Risk Theory| Using R.
Springer, Heidelberg, second edition, 2008.
Tam Ha; Modeling the Premium in Non-Life Insurance, A Comparison of Generalized Linear and
Generalized Linear Mixed Models, Master’s Thesis, Autumn 2017.
Michal Pešta, Barbora Petrová, Tereza Smolárová, Pavel Zimmermann; EXERCISES FOR
NON-LIFE INSURANCE (University of Economics, Prague Faculty of Informatics and Statistics
and Charles University in Prague Faculty of Mathematics and Physics).
Piet de Jong, Gillian Z. Heller; GLMs for Insurance Data, Cambridge, febbraio 2008
Riferimenti sitografici
https://en.wikipedia.org/wiki/General_insurance
https://www.r-bloggers.com/r-code-for-chapter-2-of-non-life-insurance-pricing-with-
glm-2/
https://rdrr.io/cran/insuranceData/
http://www.imsbio.co.jp/RGM/R_dataset_list?package=insuranceData&init=true

More Related Content

Similar to Modelli lineari generalizzati, il pricing delle non life insurance

La polizza di responsabilità civile professionale
La polizza di responsabilità civile professionaleLa polizza di responsabilità civile professionale
La polizza di responsabilità civile professionale
Donato Vinci
 
Mercati € mercanti numero 4
Mercati € mercanti   numero 4Mercati € mercanti   numero 4
Mercati € mercanti numero 4Marcello Agnello
 
03 derivati
03   derivati03   derivati
03 derivati
Carlo Bertolazzi
 
Le Credit Protection Insurance (CPI)
Le Credit Protection Insurance (CPI)Le Credit Protection Insurance (CPI)
Le Credit Protection Insurance (CPI)
Federico Battaglini
 
Presentazione due diligence assicurativa sas
Presentazione due diligence assicurativa sasPresentazione due diligence assicurativa sas
Presentazione due diligence assicurativa sas
Michele Borsoi
 
Il Private Life Insurance
Il Private Life Insurance Il Private Life Insurance
Il Private Life Insurance
Valeria K
 
broker e scuola: dinamiche di un rapporto utile e non oneroso
broker e scuola: dinamiche di un rapporto utile e non onerosobroker e scuola: dinamiche di un rapporto utile e non oneroso
broker e scuola: dinamiche di un rapporto utile e non oneroso
Logica Insurance Broker
 
Creditpricing: a multinomial model for italian banks
Creditpricing: a multinomial model for italian banksCreditpricing: a multinomial model for italian banks
Creditpricing: a multinomial model for italian banks
Giulio Velliscig
 
Caso particolari - descrizione
Caso particolari - descrizioneCaso particolari - descrizione
Caso particolari - descrizioneDaniele Donghi
 
L'assicurazione rca gs
L'assicurazione rca   gsL'assicurazione rca   gs
L'assicurazione rca gs
Giorgio Alfredo Spedicato
 
Slides giurisprudenza prodotti vita unit index linked
Slides giurisprudenza prodotti vita unit index linkedSlides giurisprudenza prodotti vita unit index linked
Slides giurisprudenza prodotti vita unit index linked
Salvatore Iannitti
 
La UE si pronuncia sulla remunerazione degli intermediari
La UE si pronuncia sulla remunerazione degli intermediari La UE si pronuncia sulla remunerazione degli intermediari
La UE si pronuncia sulla remunerazione degli intermediari
Fabrizio Callarà
 
Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"
Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"
Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"
Fabrizio Callarà
 
Articolo rc professionale broker (1)
Articolo rc professionale broker (1)Articolo rc professionale broker (1)
Articolo rc professionale broker (1)
Pasquale Falzarano
 
Programma Assicurativo Federgeometri – Conferdertecnica
Programma Assicurativo Federgeometri – ConferdertecnicaProgramma Assicurativo Federgeometri – Conferdertecnica
Programma Assicurativo Federgeometri – Conferdertecnica
Fabrizio Callarà
 
Anatomia dei Derivati di Credito
Anatomia dei Derivati di CreditoAnatomia dei Derivati di Credito
Anatomia dei Derivati di Credito
Luca Amorello
 
Programma Assicurativo InArSind Sindacato Ingegneri e Architetti
Programma Assicurativo InArSind Sindacato Ingegneri e ArchitettiProgramma Assicurativo InArSind Sindacato Ingegneri e Architetti
Programma Assicurativo InArSind Sindacato Ingegneri e Architetti
Fabrizio Callarà
 
Programma Assicurativo Consiglio Nazionale Geologi
Programma Assicurativo Consiglio Nazionale GeologiProgramma Assicurativo Consiglio Nazionale Geologi
Programma Assicurativo Consiglio Nazionale Geologi
Fabrizio Callarà
 
Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...
Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...
Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...
Fabrizio Callarà
 

Similar to Modelli lineari generalizzati, il pricing delle non life insurance (20)

Basidati
BasidatiBasidati
Basidati
 
La polizza di responsabilità civile professionale
La polizza di responsabilità civile professionaleLa polizza di responsabilità civile professionale
La polizza di responsabilità civile professionale
 
Mercati € mercanti numero 4
Mercati € mercanti   numero 4Mercati € mercanti   numero 4
Mercati € mercanti numero 4
 
03 derivati
03   derivati03   derivati
03 derivati
 
Le Credit Protection Insurance (CPI)
Le Credit Protection Insurance (CPI)Le Credit Protection Insurance (CPI)
Le Credit Protection Insurance (CPI)
 
Presentazione due diligence assicurativa sas
Presentazione due diligence assicurativa sasPresentazione due diligence assicurativa sas
Presentazione due diligence assicurativa sas
 
Il Private Life Insurance
Il Private Life Insurance Il Private Life Insurance
Il Private Life Insurance
 
broker e scuola: dinamiche di un rapporto utile e non oneroso
broker e scuola: dinamiche di un rapporto utile e non onerosobroker e scuola: dinamiche di un rapporto utile e non oneroso
broker e scuola: dinamiche di un rapporto utile e non oneroso
 
Creditpricing: a multinomial model for italian banks
Creditpricing: a multinomial model for italian banksCreditpricing: a multinomial model for italian banks
Creditpricing: a multinomial model for italian banks
 
Caso particolari - descrizione
Caso particolari - descrizioneCaso particolari - descrizione
Caso particolari - descrizione
 
L'assicurazione rca gs
L'assicurazione rca   gsL'assicurazione rca   gs
L'assicurazione rca gs
 
Slides giurisprudenza prodotti vita unit index linked
Slides giurisprudenza prodotti vita unit index linkedSlides giurisprudenza prodotti vita unit index linked
Slides giurisprudenza prodotti vita unit index linked
 
La UE si pronuncia sulla remunerazione degli intermediari
La UE si pronuncia sulla remunerazione degli intermediari La UE si pronuncia sulla remunerazione degli intermediari
La UE si pronuncia sulla remunerazione degli intermediari
 
Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"
Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"
Lo slalom del plurimandato tra accordi "orizzontali" e "verticali"
 
Articolo rc professionale broker (1)
Articolo rc professionale broker (1)Articolo rc professionale broker (1)
Articolo rc professionale broker (1)
 
Programma Assicurativo Federgeometri – Conferdertecnica
Programma Assicurativo Federgeometri – ConferdertecnicaProgramma Assicurativo Federgeometri – Conferdertecnica
Programma Assicurativo Federgeometri – Conferdertecnica
 
Anatomia dei Derivati di Credito
Anatomia dei Derivati di CreditoAnatomia dei Derivati di Credito
Anatomia dei Derivati di Credito
 
Programma Assicurativo InArSind Sindacato Ingegneri e Architetti
Programma Assicurativo InArSind Sindacato Ingegneri e ArchitettiProgramma Assicurativo InArSind Sindacato Ingegneri e Architetti
Programma Assicurativo InArSind Sindacato Ingegneri e Architetti
 
Programma Assicurativo Consiglio Nazionale Geologi
Programma Assicurativo Consiglio Nazionale GeologiProgramma Assicurativo Consiglio Nazionale Geologi
Programma Assicurativo Consiglio Nazionale Geologi
 
Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...
Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...
Polizze Responsabilità Civile Generale emesse in “Claims Made” senza tacito r...
 

More from MirkoLezzi

La finanza comportamentale durante le crisi finanziarie
La finanza comportamentale durante le crisi finanziarieLa finanza comportamentale durante le crisi finanziarie
La finanza comportamentale durante le crisi finanziarie
MirkoLezzi
 
Analisi statistica spaziale
Analisi statistica spazialeAnalisi statistica spaziale
Analisi statistica spaziale
MirkoLezzi
 
Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...
Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...
Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...
MirkoLezzi
 
Panoramica UniCredit S.p.a.
Panoramica UniCredit S.p.a.Panoramica UniCredit S.p.a.
Panoramica UniCredit S.p.a.
MirkoLezzi
 
Politica economica e sostenibilità del debito pubblico italiano - Economic po...
Politica economica e sostenibilità del debito pubblico italiano - Economic po...Politica economica e sostenibilità del debito pubblico italiano - Economic po...
Politica economica e sostenibilità del debito pubblico italiano - Economic po...
MirkoLezzi
 
Analisi delle serie storiche
Analisi delle serie storicheAnalisi delle serie storiche
Analisi delle serie storiche
MirkoLezzi
 

More from MirkoLezzi (6)

La finanza comportamentale durante le crisi finanziarie
La finanza comportamentale durante le crisi finanziarieLa finanza comportamentale durante le crisi finanziarie
La finanza comportamentale durante le crisi finanziarie
 
Analisi statistica spaziale
Analisi statistica spazialeAnalisi statistica spaziale
Analisi statistica spaziale
 
Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...
Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...
Analisi econometrica sul numero di occupati, nel territorio italiano, dal 201...
 
Panoramica UniCredit S.p.a.
Panoramica UniCredit S.p.a.Panoramica UniCredit S.p.a.
Panoramica UniCredit S.p.a.
 
Politica economica e sostenibilità del debito pubblico italiano - Economic po...
Politica economica e sostenibilità del debito pubblico italiano - Economic po...Politica economica e sostenibilità del debito pubblico italiano - Economic po...
Politica economica e sostenibilità del debito pubblico italiano - Economic po...
 
Analisi delle serie storiche
Analisi delle serie storicheAnalisi delle serie storiche
Analisi delle serie storiche
 

Modelli lineari generalizzati, il pricing delle non life insurance

  • 1. Tesina in Matematica attuariale e tecnica attuariale delle assicurazioni sulla vita Modelli lineari generalizzati: il pricing delle Non-Life Insurance Mirko Lezzi Matricola 20047119
  • 2. I Indice Introduzione 1. Introduzione al pricing delle Non-Life Insurance 1.1. Definizione di Non-Life Insurance 1.2. Approccio al pricing: i rating factors 1.3. Analisi tariffaria 1.4. Modello moltiplicativo 2. Il pricing tramite i modelli lineari generalizzati 2.1. Alcuni concetti introduttivi 2.2. Modelli di dispersione esponenziale 2.2.1. Distribuzione di Poisson (frequenza dei reclami) 2.2.2. Distribuzione gamma (gravità dei reclami) 2.3. Funzione di collegamento 2.4. Stima dei parametri di regressione 2.5. Alcune importanti osservazioni 3. Caso applicativo in R 3.1. Collisione automobilistica nel Regno Unito 3.2. Assicurazione per ciclomotori Appendice Riferimenti bibliografici e sitografici
  • 3. I Introduzione Il seguente elaborato ha come obiettivo principale lo svolgimento di un’analisi tariffaria relativa alle Non-Life Insurance tramite l’utilizzo dei modelli lineari generalizzati, noti con l’acronimo GLM. In particolare, tale analisi è condotta dapprima tramite un approccio teorico e, successivamente, tramite un approccio pratico su un campione di dati estrapolati dalla realtà. Il primo capitolo è introduttivo relativamente al tema che andremo a trattare. Si definiscono le Non-Life Insurance e si mettono giù le basi teoriche del pricing di quest’ultime e dell’analisi tariffaria, con particolare rilievo alle proprietà e alle assunzioni alla base dei modelli che saranno utilizzati nella trattazione. Con il secondo capitolo si entra nel vivo dell’analisi tariffaria, attraverso un approccio analitico sia statistico che matematico. Con riferimento ai modelli di dispersione esponenziale si dimostra come modellizzare due componenti fondamentali dell’analisi, la frequenza e la gravità dei sinistri. Infine, attraverso la funzione di collegamento e alla stima dei parametri di regressione si giungerà al termine della tariffazione. Il terzo ed ultimo capitolo consisterà in un’applicazione pratica di quanto esposto teoricamente in precedenza. In particolare, basandoci su un set di dati reali, sarà effettuata l’analisi tariffaria, al fine di giungere alla relatività del premio puro, ovvero un indice indicativo di una delle componenti che caratterizzano il premio da corrispondere per una polizza assicurativa. La seguente applicazione sarà effettuata sul software statistico RStudio, un ambiente di sviluppo integrato per il linguaggio di programmazione R. In particolare, saranno enunciati i pacchetti utilizzati nella stesura del codice, nonché alcune stringhe dello stesso per gli aspetti più rilevanti dell’analisi applicativa.
  • 4. ~ 1 ~ Capitolo 1 Introduzione al pricing delle Non-Life Insurance 1.1 Definizione di Non-Life Insurance – Approccio al pricing: i rating factors – 1.3 Analisi tariffaria – 1.4 Modello moltiplicativo 1.1 Definizione di Non-Life Insurance Le assicurazioni generali, meglio note in lingua anglosassone con il termine ‘Non-Life Insurance’, possono essere definite, genericamente, come tutti quei contratti assicurativi che non riguardano la vita dell’assicurato (Life Insurance), ovvero quei contratti in cui l’assicuratore promette di pagare una prestazione (o beneficio) al beneficiario, in relazione al rischio di una vita individuale, quella dell’assicurato, ad esempio nei casi di morte, invalidità e pensionamento, dietro il pagamento di un premio assicurativo (singolo o una serie di pagamenti nel tempo). Entrando più nello specifico della definizione di assicurazioni generali, ne elenchiamo sinteticamente alcune tipologie: • assicurazione automobilistica, divisa in due gruppi rispettivamente per i veicoli a due o a quattro ruote; • assicurazione sanitaria, in forma individuale o per famiglie, relativa ad esempio a malattie critiche; • assicurazione di viaggio, anche questa classificabile in forma individuale, familiare, per studenti o per anziani; • assicurazione sulla casa, al fine di tutelare la casa stessa nonché i suoi interni; • assicurazione contro gli infortuni, nel caso di incidenti di una certa entità in qualsiasi momento, in qualsiasi luogo e nel caso di qualsiasi persona o oggetto; • altri esempi come le assicurazioni antincendio, contro i furti e sulla proprietà. Considerando che gli incidenti (di varia natura) possono verificarsi ogni giorno, con un differente grado di severità, e che in alcuni di questi casi risulti difficile evitare che tali eventi possano accadere, risulta facile capire il perché delle assicurazioni generali. Stipulando tali contratti, l’assicurato è in grado di proteggersi da imponenti perdite finanziarie derivanti dal verificarsi di tali sinistri; infatti, nel momento in cui viene sottoscritto
  • 5. ~ 2 ~ l’accordo (tra compagnia di assicurazione e assicurato), con cui il rischio economico degli eventi dannosi viene trasferito, tutto o in parte, dal contraente alla compagnia assicuratrice, quest’ultima ha l’obbligo di ricostituire il patrimonio perso dell’assicurato (per un beneficio pari a quanto stipulato da contratto), per contro del pagamento di un premio, come ben sappiamo. Tale compagnia, dovrà essere chiamata a sopportare una potenziale perdita data dalla somma di ognuna delle potenziali perdite (indipendenti tra di loro) derivanti dai clienti assicurati. Tuttavia, a differenza di quest’ultime che risultano essere poco prevedibili, la potenziale perdita della compagnia assicuratrice risulta essere una quantità più facile da stimare e prossima al suo valore atteso. Generalmente, quindi, il premio applicato ai clienti rispecchia la perdita attesa che viene trasferita dall’assicurato all’assicuratore. Nel caso delle assicurazioni generali, tuttavia, intervengono delle variabili determinanti da prendere in considerazione. Ad esempio, il tasso di infortuni non è lo stesso per tutti gli assicurati, per cui, una volta che si è verificato un sinistro, anche gli stessi danni previsti variano tra gli assicurati; il premio di un’assicurazione antincendio per una grande villa dovrebbe essere maggiore del premio pagato per la stessa assicurazione relativa ad un piccolo cottage; oppure, ancora, un conducente storicamente più soggetto agli incidenti dovrebbe pagare di più per un’assicurazione auto rispetto ad un conducente caratterizzato da un basso tasso d’incidenti stradali. Saranno questi i concetti oggetto di approfondimento del prossimo paragrafo. 1.2 Approccio al pricing: i rating factors Per capire l’importanza del pricing di un’assicurazione, partiamo facendo un esempio concreto. Su un mercato competitivo, abbiamo da una parte i clienti che hanno l’intenzione di stipulare un contratto assicurativo e quindi cercano una polizza che copra quanto più rischio possibile a fronte di un costo relativamente basso. Dall’altra parte ci sono le compagnie di assicurazione che a fronte dei potenziali rischi dei clienti, cercano, sia un maggiore guadagno, sia di continuare a conquistare la clientela. Per quest’ultime, quindi, si viene a creare un trade-off: • se il costo dell’assicurazione è troppo oneroso, perdono dei potenziali clienti, in quanto, in un mercato competitivo, sceglieranno una compagnia più economica; • se il costo dell’assicurazione è troppo basso, questo attirerà un maggior numero di clienti, tra cui quelli con un elevato tasso di sinistrosità (adverse selection). In questo caso, la compagnia corre il rischio di sostenere delle perdite o, nei casi più gravi, di diventare insolvente.
  • 6. ~ 3 ~ Capiamo, dunque, quanto sia fondamentale, in generale, determinare il pricing di una polizza assicurativa e quanto sia importante l’utilizzo di alcuni modelli statistici avanzati. Nel caso particolare, preso in considerazione in questo elaborato, delle Non-Life Insurance, il premio da corrispondere a carico dell’assicurato viene calcolato in base ad una molteplicità di variabili da prendere in considerazione, come abbiamo visto alla fine del paragrafo precedente. Queste variabili prendono il nome di ‘fattori di valutazione’, meglio noti come ‘Rating Factors’. Ciascun rating factor, può provenire da una delle categorie seguenti1: 1. Proprietà relative agli assicurati, ad esempio età o genere se l’assicurato è una persona privata, settore di attività per quanto riguarda un’azienda, etc.; 2. Proprietà relative agli oggetti assicurati, come ad esempio età o modello di un’auto, il tipo di edificio, etc.; 3. Proprietà relative alla regione geografica, come il reddito pro-capite o la densità di popolazione della zona residenziale degli assicurati, etc. Risulta facile intuire che alcuni di questi fattori di valutazione sono reperibili più facilmente rispetto ad altri e che soprattutto alcuni di questi possono essere ritenuti delle misure continue oppure classificati in modo discreto, attraverso una suddivisione in intervalli o classi, creando così delle categorie differenti di ciascun rating factor. Per intenderci, l’età sarà suddivisa appunto in differenti fasce d’età, il chilometraggio di un veicolo sarà suddiviso in differenti intervalli e così via. In questo elaborato faremo riferimento ai rating factors categorizzati per intervalli o classi e la ragione di tale scelta sarà spiegata attraverso le applicazioni pratiche nel terzo capitolo, tuttavia possiamo subito dire che, ad esempio, se due o più polizze condividono lo stesso intervallo per ciascun rating factor preso in considerazione, è possibile affermare che tali polizze derivano dalla stessa cella tariffaria (tariff cell) e che, quindi, ci restituiranno lo stesso prezzo del premio assicurativo. La seguente Tabella 1.1 consente di chiarire l’argomento in questione, in riferimento, per scopo puramente esemplificativo, ad un’assicurazione per ciclomotori. Come si può notare, ciascun fattore di valutazione è stato categorizzato in differenti classi. 1 E. Ohlsson and B. Johansson. Non-life insurance pricing with generalized linear models, 1, Springer, 2010, p. 2.
  • 7. ~ 4 ~ Rating factor Classe Descrizione della classe Classe del veicolo 1 Peso superiore a 60 kg con due o più marce presenti 2 Altro Età del veicolo 1 Al massimo 1 anno 2 2 anni o più Zona geografica 1 Nord della regione 2 Sud della regione 3 Est della regione 4 Ovest della regione Tabella 1.1 Esempi di rating factors in un’assicurazione per ciclomotori. 1.3 Analisi tariffaria Entriamo, dopo alcuni concetti basilari, nel vivo della teoria del pricing delle Non-Life Insurance, ovvero, lo studio dell’analisi tariffaria condotto tramite un approccio statistico al fine di determinare la tariffa, o premio, della polizza assicurativa. Questo tipo di analisi si basa sia sui dati della polizza assicurativa stessa sia sui reclami, sulle caratteristiche specifiche dei portafogli in questione. Facciamo chiarezza definendo alcuni fattori chiave da considerare in funzione dell’analisi tariffaria2: ▪ la durata della polizza assicurativa (duration of the policy), ovvero il periodo di tempo per il quale la polizza copre il rischio dell’assicurato, solitamente misurato in anni, per cui, per facilità operativa, prenderemo spesso in considerazione la durata pari ad un singolo anno. La durata di un gruppo di polizze è ottenuta sommando la durata delle singole polizze; ▪ il reclamo o sinistro (claim), cioè l’evento segnalato dall’assicurato per il quale chiede il risarcimento economico così come stabilito dal contratto; ▪ la frequenza del reclamo (claim frequency), ovvero il numero medio di sinistri in relazione all’arco temporale considerato, quindi è calcolato come il rapporto tra il numero dei reclami e la durata della polizza in questione. Spesso la frequenza del reclamo è calcolata per mille, al fine di misurare il numero dei reclami per mille anni di polizza ▪ la gravità del reclamo (claim severity), vale a dire l’aspettativa di costo per reclamo, dato dal rapporto tra il costo totale del sinistro e il numero totale di richieste effettuate; La frequenza dei reclami e la gravità dei reclami sono variabili diverse in ogni polizza assicurativa e possiamo stimarle proprio grazie alla presenza di un set di rating factors. 2 Ibidem, p. 4
  • 8. ~ 5 ~ ▪ il premio puro (pure premium), sarebbe il costo medio per il periodo di tempo, determinato dal rapporto tra importo totale del sinistro e per la durata della polizza. Infatti, partendo dalla seguente relazione: 𝑃𝑢𝑟𝑒 𝑝𝑟𝑒𝑚𝑖𝑢𝑚 = 𝑐𝑙𝑎𝑖𝑚 𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 ∗ 𝑐𝑙𝑎𝑖𝑚 𝑠𝑒𝑣𝑒𝑟𝑖𝑡𝑦 da cui segue che: 𝑃𝑢𝑟𝑒 𝑝𝑟𝑒𝑚𝑖𝑢𝑚 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑖 𝑟𝑒𝑐𝑙𝑎𝑚𝑖 𝑑𝑢𝑟𝑎𝑡𝑎 𝑑𝑒𝑙𝑙𝑎 𝑝𝑜𝑙𝑖𝑧𝑧𝑎 ∗ 𝑐𝑜𝑠𝑡𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒𝑙 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑜 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑖 𝑟𝑒𝑐𝑙𝑎𝑚𝑖 = 𝑐𝑜𝑠𝑡𝑜 𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒𝑙 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑜 𝑑𝑢𝑟𝑎𝑡𝑎 𝑑𝑒𝑙𝑙𝑎 𝑝𝑜𝑙𝑖𝑧𝑧𝑎 È bene sottolineare che il premio puro, a dispetto del nome, non è in realtà il premio vero e proprio da corrispondere, ma bensì, come già detto, rappresenta il costo medio annuo (ad esempio nel caso nostro in cui la duration sia pari ad uno). Volendo esprimere tale concetto in termini strettamente più matematici, possiamo definire la seguente espressione3: 𝑃𝑟𝑒𝑚𝑖𝑜 𝑝𝑢𝑟𝑜 = ∏ . 𝑝𝑢 . = 𝐸[𝑁|𝑥] · 𝐸[𝑍|𝑥] In particolare, E[N|x] è l’aspettativa di sinistri, quella che noi abbiamo definito claim frequency, ed E[Z|x] è l’aspettativa di costo, definita precedentemente come claim severity; il tutto in relazione allo stesso arco temporale. Come si nota, entrambi i fattori sono condizionati ad x, ovvero i rating factors da considerare, quali età, sesso, area geografica e così via. Come vedremo nel capitolo successivo, si cercherà di definire separatamente due modelli differenti per entrambi i fattori e come questi siano influenzati dai fattori di valutazione. Si è ritenuto doveroso approfondire tale concetto in quanto il premio puro non include al suo interno la considerazione di altri costi generali che l’assicurato sostiene, come ad esempio le spese amministrative, di capitale, ecc. Nel caso facessimo riferimento anche a queste variabili in aggiunta al premio puro, allora potremmo parlare di premio guadagnato o premio complessivo (earned premium o overall premium) da parte della compagnia. Soltanto la parte del premio assicurativo che corrisponde puramente al rischio e non ad altri fattori può essere definito come premio puro. È possibile, a questo punto, definire un altro fattore chiave: ▪ il rapporto di perdita (loss ratio), definito come il rapporto tra il valore totale del reclamo e il premio guadagnato. 3 Tam Ha; Modelling the Premium in Non-Life Insurance, A Comparison of Generalized Linear and Generalized Linear Mixed Models, Master’s Thesis, Autumn 2017, p. 2.
  • 9. ~ 6 ~ I rapporti definiti precedentemente, vale a dire il claim frequency, il claim severity, il pure premium e il loss ratio, nell’analisi tariffaria sono detti rapporti chiave, anche noti come key ratios e sono di fondamentale importanza per il resto dell’elaborato, infatti, le valutazioni effettuate in seguito avranno lo scopo di descrivere come i fattori di valutazione, di cui si è parlato precedentemente, influenzano proprio tali rapporti. La seguente Tabella 1.2, continuando l’esempio precedente relativo ad un’assicurazione per ciclomotori, ci consente di mettere insieme i concetti di rating factors e key ratios. Cella tariffaria Durata Numero dei reclami Frequenza del reclamo Gravità del reclamo Premio PuroClasse Età Zona 1 1 1 62.9 17 270 18.256 4.936 1 1 2 112.6 7 62 13.632 845 1 1 3 133.1 9 68 20.877 1.411 1 1 4 9.4 0 0 . 0 1 2 1 352.1 52 148 8.232 1.216 1 2 2 840.1 69 82 7.418 609 1 2 3 1378.3 75 54 7.318 609 1 2 4 5505.3 136 25 6.922 171 2 1 1 191.6 43 224 7.754 1.740 2 1 2 237.3 34 143 6.933 993 2 1 3 162.4 11 68 4.402 298 2 1 4 446.5 8 18 8.214 147 2 2 1 844.8 94 111 4.728 526 2 2 2 1296.0 99 76 4.252 325 2 2 3 1214.9 37 30 4.212 128 2 2 4 3740.7 56 15 3.846 58 Tabella 1.2 Rapporti chiave per le singole celle tariffarie Nella tabella precedente, la frequenza del reclamo è moltiplicata per mille, la cui motivazione è stata già esposta in precedenza. Le prime tre colonne specificano le celle tariffarie così come definite nella Tabella 1.1 ed infine, come già detto, la colonna del premio puro indica il costo medio per anno, che possiamo considerare la parte del premio assicurativo esclusivamente legata al rischio. Per chiarezza espositiva, si riportano nella seguente Tabella 1.3 i rapporti chiave al fine di considerarli sono un differente punto di vista, particolarmente utile nel corso della seguente trattazione.
  • 10. ~ 7 ~ Esposizione (w) Risposta (X) Rapporto chiave (Y=X/w)Durata Numero di reclami Claim Frequency Numero di reclami Costo del reclamo Claim Severity Durata Costo del reclamo Pure Premium Premio guadagnato Costo del reclamo Loss Ratio Tabella 1.3: rapporti chiave Come si può notare, un rapporto chiave può essere visto sempre come un rapporto tra il risultato di una variabile casuale ed una misura del volume, che chiameremo esposizione. La misura dell’esposizione 𝑤 determina una risposta X, come ad esempio il numero di reclami o l’importo del reclamo. Inoltre, tale misura può essere vista come un peso delle singole osservazioni nonché avere differenti interpretazioni nelle applicazioni attuariali. Infatti, ad esempio, quando 𝑌𝑖 è la frequenza dei reclami (claim frequency), 𝑤 rappresenta la durata (duration); oppure, quando 𝑌𝑖 è la gravità del reclamo (claim severity), 𝑤 rappresenta il numero dei reclami. Si noti, infine, che l'esposizione gioca un ruolo fondamentale nell'analisi: maggiore è l'esposizione nei dati che analizziamo, minore è la variazione dei rapporti chiave. Come è stato già detto in precedenza, al fine di determinare il premio puro, è opportuno modellizzare separatamente la frequenza e la gravità dei reclami, perché questi possono dipendere da fattori di valutazione differenti, e solo successivamente creare un collegamento tra i due fattori. In questa sede, quindi, è opportuno enunciare alcune assunzioni basilari di notevole importanza per la costruzione analitica dei due differenti modelli, che saranno oggetto di analisi del capitolo successivo: 1. indipendenza delle polizze. Considerate 𝑛 differenti polizze assicurative e sia 𝑋𝑖 il reclamo relativo alla polizza 𝑖, allora 𝑋1, 𝑋2, … , 𝑋 𝑛 sono indipendenti tra di loro; 2. indipendenza temporale. Considerati 𝑛 intervalli temporali disgiunti e sia 𝑋𝑖 il reclamo relativo all’intervallo 𝑖, allora 𝑋1, 𝑋2, … , 𝑋 𝑛 sono indipendenti tra di loro. Una conseguenza delle due ipotesi di cui sopra è che tutti i costi dei singoli reclami sono indipendenti: riguardano polizze diverse o si verificano in intervalli temporali di diversi. La terza assunzione fa riferimento ad un concetto già esposto, quello relativo alle celle tariffarie in cui viene diviso un portafoglio di polizze. In base a questo, è ragionevole addebitare lo stesso premio per tutte le polizze all'interno di una stessa cella tariffaria (per la stessa durata). 3. omogeneità. Considerate due differenti polizze appartenenti alla stessa cella tariffaria e con la stessa esposizione e sia 𝑋𝑖 il reclamo relativo alla polizza 𝑖, allora 𝑋1 𝑒𝑑 𝑋2 hanno la stessa distribuzione di probabilità.
  • 11. ~ 8 ~ Si ritiene doveroso effettuare alcune precisazioni. La terza assunzione, infatti, contiene una supposizione implicita di omogeneità nel tempo, vale a dire che, tra differenti polizze assicurative, l'unica cosa che conta è solo la durata di ogni polizza, non quando inizia o finisce, quindi non il suo periodo di calendario in cui è in vigore. Chiaramente, ciò può apparire poco realistico, poiché molti tipi di reclami sono soggetti a variazioni stagionali; inoltre, per durate delle polizze molto ampie potrebbero essere evidenti anche delle tendenze (come ad esempio l’aumento dei costi dei reclami a causa dell’inflazione). Nonostante ciò, l'omogeneità è essenziale per fornire ripetute osservazioni per l'analisi statistica oggetto del seguente elaborato, per cui, tali problematiche possono essere superate facendo alcune considerazioni. In particolare, come già detto, faremo riferimento a polizze della durata di un anno, quindi, le variazioni stagionali risultano essenzialmente trascurabili e lo stesso può dirsi per quanto riguarda gli effetti delle tendenze, di cui, alternativamente, è possibile ridurne l'impatto ricalcolando gli importi dei reclami ai prezzi correnti dato un certo indice. 1.4 Modello moltiplicativo In via teorica, un’analisi tariffaria dovrebbe essere basata esclusivamente sui dati reali che la compagnia assicuratrice possiede e sui quali effettua le rispettive analisi. Detto questo, se avessimo un numero adeguato di dati sui sinistri rispettivamente in ciascuna cella tariffaria, potremmo determinare un premio assicurativo per la singola cella semplicemente stimando il costo atteso dal premio puro osservato. Tuttavia, in pratica, potrebbero esserci dei dati mancanti. Infatti, considerando i dati derivanti dal mondo reale, potremmo avere delle celle vuote dovute ad esempio sia all’assenza di reclami nella maggior parte dei casi (per un dato periodo di tempo considerato) sia ad una raccolta erronea da parte della compagnia assicuratrice, eventualità questa sempre più rara grazie all’informatizzazione dei sistemi. In questi casi, si rende necessario individuare un metodo per calcolare un premio puro atteso che risulti uniforme rispetto a tutte le celle tariffarie. Il metodo ampiamente più utilizzato per questo scopo, considerato il modello standard nel contesto del pricing delle Non-Life Insurance, è il modello moltiplicativo, in cui si presuppone la dipendenza del premio puro atteso da alcuni fattori di valutazione (rating factors). Consideriamo alcune informazioni preliminari per fini esplicativi. Assumiamo di avere 𝑀 fattori di valutazione e sia 𝑚𝑖 il numero di intervalli in cui è categorizzato il fattore di valutazione 𝑖 − 𝑒𝑠𝑖𝑚𝑜. Per semplicità espositiva, poniamo 𝑀 = 2 e indichiamo con (𝑖; 𝑗) le celle tariffarie rispettivamente di ogni fattore di valutazione. Quindi abbiamo due rating factors categorizzati, ad esempio, in due intervalli: 𝑖 = 1, 2 per il primo e 𝑗 = 1, 2 per il secondo. All’interno di ciascuna cella (𝑖; 𝑗), indichiamo con 𝑤𝑖𝑗 quella che abbiamo definito esposizione (come in Tabella 1.3) e con 𝑋𝑖𝑗 la rispettiva risposta. Il rapporto chiave (key
  • 12. ~ 9 ~ ratio) è definito nel modo seguente: 𝑌𝑖𝑗 = 𝑋 𝑖𝑗 𝑤 𝑖𝑗 e può essere uno dei quattro rapporti specificati in precedenza. Queste intuizioni sono contenute a scopo riassuntivo nella seguente Tabella 1.4, tale rappresentazione è nota come forma tabulare delle osservazioni. 𝒋 1 2 𝒊 1 𝑌11 = 𝑋11 𝑤11 𝑌12 = 𝑋12 𝑤12 2 𝑌21 = 𝑋21 𝑤21 𝑌22 = 𝑋22 𝑤22 Tabella 1.4: forma tabulare delle osservazioni Sia, inoltre, 𝜇 la media del rapporto chiave 𝑌𝑖𝑗, per cui abbiamo che 𝐸(𝑌𝑖𝑗) = 𝑤𝑖𝑗 𝜇𝑖𝑗 = 𝜇𝑖𝑗 ovvero l’aspettativa per la risposta 𝑋𝑖𝑗 essendo l’esposizione unitaria 𝑤𝑖𝑗 = 1 (ad esempio, la durata pari ad un anno). Quindi, il modello moltiplicativo è il seguente: 𝜇𝑖𝑗 = 𝛾0 𝛾1𝑖 𝛾2𝑗 in cui {𝛾1𝑖 ; 𝑖 = 1, … , 𝑚1} indicano i parametri che corrispondo alle differenti classi relative al fattore di valutazione 1 e {𝛾2𝑗 ; 𝑖 = 1, … , 𝑚2} quelli per il fattore di valutazione 2. Al fine di interpretarne meglio il loro significato è necessario chiarire l’importanza del parametro 𝛾0. Infatti, 𝛾0 può essere interpretato come un valore base dettato dalla necessità di specificare una cella di riferimento, chiamata cella base. Per cui 𝛾0 è un rapporto chiave per le polizze identificato nella cella base e, rispettivamente alle altre celle, ne consente di misurare la differenza relativa, chiamata relatività dei prezzi o price relativities. Ad esempio, se la cella base è (1; 1), caso in cui 𝛾11 = 𝛾21 = 1 e si ha che 𝛾12 = 1.25, significa che alla cella (2; 1) corrisponde un premio più elevato del 25% rispetto alla cella (1; 1). È possibile estendere il modello 𝑀 = 2 nel caso generale del modello moltiplicativo descritto di seguito: 𝜇𝑖1,𝑖2,…,𝑖 𝑀 = 𝛾0 ∏ 𝛾 𝑘,𝑖 𝑘 𝑀 𝑘=1 dove 𝛾0 è ancora il valore base mentre il resto dei parametri sul lato destro sono le relatività dei prezzi per il fattore di valutazione 𝑘 − 𝑒𝑠𝑖𝑚𝑜. Si ritiene necessario fare alcune considerazioni. La prima è che, in base alle assunzioni esposte nel paragrafo precedente, non vi è interazione tra i fattori di valutazione. Ad esempio, nel caso del modello 𝑀 = 2, se il primo fattore di valutazione è la classe di età, il secondo è la regione geografica e il rapporto chiave in questione
  • 13. ~ 10 ~ è il premio puro, allora un'interpretazione è che la relazione del premio puro per due classi di età è la stessa in qualsiasi regione si consideri. Numericamente, se il premio puro è superiore del 20% per le età 21–25 anni rispetto alle età 26–30 in una regione, allora la stessa relazione vale in qualsiasi altra regione. La seconda considerazione richiama il concetto di premio complessivo esposto in precedenza. Infatti, il livello complessivo del premio è controllato regolando il parametro 𝛾0 mentre il resto dei parametri determina quanto addebitare per una polizza relativamente a ciascun fattore di valutazione, con 𝛾0 noto. Come vedremo in pratica, nei capitoli successivi, dopo aver determinato le relatività dei prezzi 𝛾 𝑘,𝑖 𝑘 , imposteremo il valore base 𝛾0 al fine di determinare il livello complessivo del premio.
  • 14. ~ 11 ~ Capitolo 2 Il pricing tramite i modelli lineari generalizzati 2.1 Concetti introduttivi – 2.2 Modelli di dispersione esponenziale – 2.2.1 Distribuzione di Poisson (frequenza dei reclami) – 2.2.2 Distribuzione gamma (gravità dei reclami) – 2.3 Funzione di collegamento – 2.4 Stima dei parametri di regressione – 2.5 Alcune importanti osservazioni 2.1 Concetti introduttivi I modelli lineari generalizzati, spesso noti in lingua anglosassone con l'acronimo GLMs, rappresentano un'importante classe di modelli di regressione che hanno trovato ampio impiego nella pratica attuariale. Negli anni '90 gli attuari britannici hanno introdotto i GLM come strumento per l'analisi delle tariffe, anche a causa della deregolamentazione dei mercati assicurativi, e da allora questo è diventato l'approccio standard in molti paesi. Come già detto nel capitolo precedente, l'obiettivo dell'analisi tariffaria è quello di determinare correttamente uno o più rapporti chiave (key ratios), al variare dei fattori di valutazione (rating factors). Tale analisi, potrebbe sembrare molto simile allo sviluppo di una regressione lineare multipla in cui la variabile dipendente è in funzione delle covariate, le variabili esplicative. Tuttavia, il modello di regressione lineare non risulta del tutto applicabile al contesto delle Non-Life Insurance per due ragioni, sia perché presuppone esclusivamente degli errori casuali normalmente distribuiti mentre il numero di reclami assicurativi segue una distribuzione di probabilità discreta con numeri interi non negativi così come i costi dei reclami sono non negativi; ed inoltre, i valori attesi delle variabili sono funzioni lineari delle covariate (variabili esplicative) mentre i modelli moltiplicativi risultano essere solitamente più ragionevoli ai fini del pricing in contesti assicurativi. In conclusione, in molte applicazioni attuariali, una variabile casuale simmetrica normalmente distribuita con una varianza costante attorno a una media che è lineare rispetto ai dati, non descrive adeguatamente la situazione. Questi problemi possono essere risolti in modo elegante lavorando con i modelli lineari generalizzati (GLM) anziché con i normali modelli lineari. La generalizzazione è in due direzioni. Ci consentono di superare il primo ordine di problemi ricorrendo all’utilizzo di una classe generale di distribuzioni di probabilità, in quanto si assume che le deviazioni
  • 15. ~ 12 ~ casuali dalla media abbiano una distribuzione diversa dalla normale. Possiamo prendere in considerazione le distribuzioni della famiglia di dispersione esponenziale, che racchiude al suo interno, oltre alla distribuzione normale, anche le distribuzioni discrete di Poisson e quella binomiale, nonché distribuzioni continue come la gamma e le gaussiane inverse. Infatti la variabile dipendente 𝑌𝑖, ovvero il rapporto chiave, può essere discreta, continua o una miscela. Pertanto, la funzione di frequenza può essere interpretata come una densità di probabilità o una funzione di probabilità, a seconda del contesto applicativo. Ad esempio 𝑌𝑖 può essere la frequenza dei reclami o la gravità dei reclami. Per il secondo limite, relativamente al modello per la media, tramite i GLM, alcune trasformazioni monotone della media sono una funzione lineare delle variabili esplicative, per cui contengono i modelli lineari e moltiplicativi come casi particolari. In questo contesto, i fenomeni da modellare sono raramente additivi ed un modello moltiplicativo è molto più plausibile. Ricorrendo all’utilizzo dei GLM, sono diversi i vantaggi da prendere in considerazione. Anzitutto, fanno parte di una teoria statistica generale per cui le tecniche di stima degli errori standard, la costruzione di intervalli di confidenza, i test di verifica delle ipotesi e la selezione del modello costituiscono tutte tecniche ben consolidate. Ne deriva che il loro utilizzo non si esaurisce soltanto nei confini della scienza attuariale per il pricing delle assicurazioni generali, ma possono essere utilizzati in svariati contesti statistici. Infine, grazie allo sviluppo tecnologico e informatico, è possibile il loro calcolo e la loro applicazione grazie a vari software statistici presenti, ad uso gratuito o meno. L’obiettivo di questo capitolo è quello di presentare la teoria di base dei modelli lineari generalizzati nel contesto dell'analisi tariffaria, mentre sarà compito del terzo capitolo metterne in pratica tali concetti. 2.2 Modelli di dispersione esponenziale Come già detto, fare riferimento ai modelli di dispersione esponenziale (exponential dispersion models, EDM), ci consente di generalizzare ed estendere l’insieme di distribuzioni alle quali possiamo fare riferimento. Prima di entrare in questa spiegazione, tuttavia, è opportuno fare alcune considerazioni pratiche. Nel momento in cui abbiamo trattato il tema del modello moltiplicativo, abbiamo rappresentato le osservazioni in forma tabulare, in cui ciascun indice a rappresentava un rating factor. In sede di presentazione dei modelli di dispersione esponenziale è utile ricorrere ad una differente disposizione dei dati, ovvero un formato ad elenco, in cui le n osservazioni sono organizzate come un vettore colonna:
  • 16. ~ 13 ~ 𝒀′ = (𝑌1, 𝑌2, … , 𝑌𝑛) 𝑇 Oltre al rapporto chiave 𝑌𝑘, ogni riga k dell'elenco contiene il peso di esposizione 𝑤 𝑘 della cella tariffaria, nonché i valori delle risposte dei fattori di rating. Di seguito, si rappresenta la trasposizione dalla precedente forma tabulare (Tabella 1.4) al formato ad elenco: Tabella 2.1: trasposizione dalla forma tabulare al formato ad elenco e, in particolar modo, si rappresenta la trasposizione della Tabella 1.2 relativa all’esempio di un’assicurazione per ciclomotori in merito al rapporto chiave della frequenza del reclamo. Cella tariffaria 𝑖 Covariate Durata (esposizione) Frequenza del reclamo (claim frequency) Classe 𝒙𝒊𝟏 Età 𝒙 𝟏𝟐 Zona 𝒙𝒊𝟑 1 1 1 1 62.9 270 2 1 1 2 112.6 62 3 1 1 3 133.1 68 4 1 1 4 9.4 0 5 1 2 1 352.1 148 6 1 2 2 840.1 82 7 1 2 3 1378.3 54 8 1 2 4 5505.3 25 9 2 1 1 191.6 224 10 2 1 2 237.3 143 11 2 1 3 162.4 68 12 2 1 4 446.5 18 13 2 2 1 844.8 111 14 2 2 2 1296.0 76 15 2 2 3 1214.9 30 16 2 2 4 3740.7 15 Tabella 2.2 Trasposizione in formato ad elenco dati assicurazione per ciclomotori (con frequenza del reclamo per mille) 𝒌 𝒊 𝒋 Rapporto chiave 1 1 1 𝑌1 2 1 2 𝑌2 3 2 1 𝑌3 4 2 2 𝑌4 𝒋 1 2 𝒊 1 𝑌11 𝑌12 2 𝑌21 𝑌22
  • 17. ~ 14 ~ Partendo dalle assunzioni fondamentali esposte nel Capitolo 1, considerate le seguenti variabili tutte indipendenti tra loro 𝑌1, 𝑌2, … , 𝑌𝑛 , è possibile affermare che una distribuzione di probabilità è un membro della famiglia di dispersione esponenziale se la sua funzione di densità (nel caso continuo) o la sua funzione di probabilità (nel caso discreto) può essere espressa nel modo seguente: 𝑓𝑌𝑖 (𝑦𝑖, 𝜃𝑖, ϕ) = 𝑒𝑥𝑝 { 𝑦𝑖 𝜃𝑖 − 𝑏(𝜃𝑖) 𝜙/𝑤𝑖 + 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)} in cui 𝒘𝒊 ≥ 𝟎, già descritto in precedenza, rappresenta l’esposizione di una cella tariffaria, 𝜽𝒊 è il parametro naturale che può dipendere da 𝑖, 𝛟 > 𝟎 è il parametro di dispersione uguale per ogni 𝑖, se 𝜙 è considerato fisso abbiamo una famiglia esponenziale a un parametro, se così non fosse e 𝜙 è considerato incognito abbiamo gli EDM, cioè una famiglia di modelli di dispersione esponenziale. È importante sottolineare che lo spazio dei parametri considerato deve essere aperto. 𝒃(𝜽𝒊) è la funzione cumulativa che, per assunzione, si ritiene essere due volte continuamente differenziabile con derivata prima invertibile. Per ogni scelta di tale funzione, otteniamo una famiglia di distribuzioni di probabilità, come ad esempio la distribuzione normale, di Poisson e gamma e data la scelta di 𝑏(∙), la rispettiva distribuzione è completamente specificata dai parametri 𝜃𝑖 𝑒 𝜙. La funzione 𝒄(∙), che non dipende da 𝜃𝑖, è di scarso interesse nella teoria dei modelli lineari generalizzati. Naturalmente, l'espressione sopra è valida solo per tutte le 𝑦𝑖 che sono possibili esiti di 𝑌𝑖. Infatti, nel caso di altri valori di 𝑦𝑖 assumiamo tacitamente che 𝑓𝑌𝑖 (𝑦𝑖) = 0. Alcuni range di valori che possiamo osservare per 𝑦𝑖 nei casi applicativi possono essere (0, ∞), (−∞, ∞) e l’insieme dei numeri interi non negativi. La media e la varianza della variabile dipendente 𝑌𝑖 con distribuzione di probabilità descritta in precedenza sono così espresse: 𝐸(𝑌𝑖) = 𝜇𝑖 = 𝑏′(𝜃𝑖) 𝑉𝑎𝑟(𝑌𝑖) = 𝜙𝑏′′ (𝜃𝑖) 𝑤𝑖⁄ = 𝜙𝜈(𝜇𝑖) 𝑤𝑖⁄ dove 𝜈(𝜇𝑖) = 𝑏′′((𝑏′)−1(𝜇𝑖)) è denominata funzione varianza4. 4 Ulteriori spiegazioni in merito in “Non-life insurance pricing with generalized linear models”, E. Ohlsson and B. Johansson, sezione 2.1.3.
  • 18. ~ 15 ~ In seguito verifichiamo brevemente che le distribuzioni di Poisson e gamma, particolarmente utili nel contesto delle Non-Life Insurance come vedremo più avanti, sono incluse in questa famiglia di distribuzioni di probabilità. 2.2.1 Distribuzione di Poisson (frequenza dei reclami) 𝑭𝒐𝒓𝒎𝒖𝒍𝒂 𝒈𝒆𝒏𝒆𝒓𝒂𝒍𝒆 𝑝 𝑿(𝑥; 𝜆) = 𝑒−𝜆 𝜆 𝑥 𝑥! ; 𝑥 = 0,1,2, … ; 𝑐𝑜𝑛 𝜆 > 0 segue che 𝑋~𝑃𝑜𝑖(𝜆) Per verificare che la distribuzione discreta di Poisson rientri nei modelli di dispersione esponenziale (EDM), sotto le assunzioni del Capitolo 1, si consideri che 𝑌𝑖 sia il numero di reclami in una cella tariffaria, quindi il rapporto chiave oggetto d’analisi è relativo alla frequenza dei reclami, 𝑤𝑖 sia la duration o esposizione (solitamente considerata in questo elaborato 𝑤𝑖 = 1) e che 𝐸(𝑌𝑖) = 𝑤𝑖 𝜇𝑖 (pari a 𝜇𝑖 nel caso di duration unitaria). La distribuzione di probabilità di 𝑌𝑖, sottoforma di una distribuzione di Poisson, è la seguente: 𝑓𝑌 𝑖 (𝑦𝑖; 𝜇𝑖) = 𝑒−𝑤 𝑖 𝜇 𝑖 (𝑤𝑖 𝜇𝑖) 𝑤 𝑖 𝑦 𝑖 𝑤𝑖 𝑦𝑖! = exp{𝑤𝑖 𝑦𝑖 𝑙𝑜𝑔(𝑤𝑖 𝜇𝑖) − 𝑤𝑖 𝜇𝑖 − 𝑙𝑜𝑔(𝑤𝑖 𝑦𝑖!)} 𝑦𝑖 = 0,1,2, … considerato che 𝑦𝑖 sia un numero intero non negativo ed avendo fissato la parte che non dipende da 𝜇𝑖 pari a 𝑐(𝑦𝑖, 𝑤𝑖) = − 𝑙𝑜𝑔(𝑤𝑖 𝑦𝑖!). La distribuzione di probabilità fa parte della famiglia dei modelli di dispersione esponenziale con parametri 𝜃𝑖 = log (𝜇𝑖), 𝜙 = 1 e funzione cumulativa 𝑏(𝜃𝑖) = 𝑒 𝜃 𝑖, infatti: 𝑓𝑌𝑖 (𝑦𝑖; 𝜃𝑖) = exp{𝑦𝑖 𝜃𝑖 − 𝑤𝑖 𝑒 𝜃 𝑖) + 𝑐(𝑦𝑖, 𝑤𝑖)} 𝑦𝑖 = 0,1,2, … Si può concludere quindi che: 𝑌𝑖~𝑃𝑜𝑖(𝜇𝑖) 2.2.2 Distribuzione gamma (gravità dei reclami) 𝑭𝒐𝒓𝒎𝒖𝒍𝒂 𝒈𝒆𝒏𝒆𝒓𝒂𝒍𝒆 𝑓𝑿(𝑥; 𝛼, 𝛽) = 1 Γ(𝛼) 𝛽 𝛼 𝑥 𝛼−1 𝑒−𝛽𝑥 ; 𝑐𝑜𝑛 𝑥 > 0, 𝛼 > 0, 𝛽 > 0 segue che 𝑋~𝐺𝑎𝑚(𝛼, 𝛽)
  • 19. ~ 16 ~ Per dimostrare che la distribuzione gamma è anch’essa un membro della famiglia dei modelli di dispersione esponenziale, non consideriamo temporaneamente l’indice 𝑖 al pedice per riferirci ad una cella tariffaria in particolare ed assumiamo che il costo di un singolo reclamo sia gamma distribuito e che il costo totale dei reclami della cella sia 𝑋. Quindi se 𝑋 è la somma di 𝑤 variabili aleatorie gamma distribuite indipendenti si ha che 𝑋~𝐺𝑎𝑚(𝜔𝛼, 𝛽) dove 𝛼 > 0, 𝛽 > 0 rispettivamente i parametri di forma e di scala, quindi la distribuzione di probabilità della gravità dei reclami (claim severity), cioè il rapporto chiave 𝑌 = 𝑋/𝑤 è: 𝑓𝑌(𝑦) = 𝑤𝑓𝑋(𝑤𝑦) = (𝑤𝛽) 𝑤𝛼 Γ(𝑤𝛼) 𝑦 𝑤𝛼−1 𝑒−𝑤𝛽𝑦 quindi Y è gamma distribuita con 𝐺(𝑤𝛼, 𝑤𝛽) con aspettativa 𝛼 𝛽⁄ . Abbiamo che 𝐸(𝑌) = 𝑤𝛼/𝑤𝛽 e 𝑉𝑎𝑟(𝑌) = 𝑤𝛼 (𝑤𝛽)2 = 𝜙𝜇2 /𝑤. Successivamente, reimpostando i parametri opportunamente, in particolare con 𝜇 = 𝛼/𝛽 ed 𝜙 = 1/𝛼 la distribuzione diventa: 𝑓𝑌(𝑦) = 𝑓𝑌(𝑦; 𝜇, 𝜙) = 1 Γ ( 𝑤 𝜙 ) ( 𝑤 𝜇𝜙 ) 𝑤 𝜙 𝑦(𝑤 𝜙)−1⁄ 𝑒−𝑤𝑦 (𝜇𝜙⁄ ) = 𝑒𝑥𝑝 { −𝑦 𝜇⁄ − log (𝜇) 𝜙 𝑤⁄ + log (𝑤𝑦 𝜙) 𝑤 𝜙⁄ − log(𝑦) − 𝑙𝑜𝑔Γ(𝑤 𝜙)⁄⁄ } ; 𝑦 > 0 come per la distribuzione precedente, abbiamo impostato quindi gli elementi che non dipendono da 𝜇 nel modo seguente: 𝑐(𝑦, 𝜙, 𝑤) = log (𝑤𝑦 𝜙) 𝑤 𝜙⁄ − log(𝑦) − 𝑙𝑜𝑔Γ(𝑤 𝜙)⁄⁄ . Per verificare che la distribuzione gamma rientri nella famiglia dei modelli di dispersione esponenziale impostiamo il parametro 𝜃 = 1/𝜇 e reintroducendo ora nuovamente l’indice 𝑖, la distribuzione di probabilità della gravità dei reclami (claim severity) 𝑌𝑖 è: 𝑓𝑌𝑖 (𝑦𝑖; 𝜃𝑖, 𝜙) = 𝑒𝑥𝑝 { −𝑦𝑖 𝜃𝑖 + log (−𝜃) 𝜙/𝑤𝑖 + 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)} con funzione cumulativa 𝑏(𝜃𝑖) = −log (−𝜃𝑖). Quindi, concludendo: 𝑌𝑖~𝐺𝑎𝑚(𝜇𝑖, 𝜙)
  • 20. ~ 17 ~ 2.3 Funzione di collegamento Nel precedente paragrafo abbiamo dimostrato, facendo riferimento alla famiglia dei modelli di dispersione esponenziale (EDM), come superare facilmente i limiti esposti dai modelli lineari in merito alla distribuzione di probabilità della variabile aleatoria 𝑌𝑖. Ci occupiamo ora di verificare, come già accennato in merito al secondo limite quello relativo al modello per la media, che tramite i GLM alcune trasformazioni monotone della media sono una funzione lineare delle variabili esplicative, per cui contengono i modelli lineari e moltiplicativi come casi particolari. Nei modelli lineari abbiamo che la variabile dipendente può essere scritta come una combinazione lineare delle covariate o regressori. Nei modelli lineari generalizzati, tale relazione è lineare attraverso la cosiddetta funzione di collegamento 𝑔(∙) (nota come link function in lingua anglosassone), quindi, ad esempio ritornando al caso dei modelli lineari in cui la variabile dipendente si assume che sia normale, si ha che 𝑔(𝜇𝑖) = 𝜇𝑖 per cui 𝑔(∙) viene denominata in questo caso funzione di collegamento identità poiché non è necessaria alcuna trasformazione. Possiamo affermare quindi che la relazione tra il valore medio 𝜇𝑖 di 𝑌𝑖 e la struttura lineare, meglio nota come previsione lineare 𝜂𝑖, può essere descritta da una funzione regolare e monotona 𝑔(∙) chiamata, per l’appunto, funzione di collegamento e rappresenta un elemento fondamentale nella teoria dei modelli lineari generalizzati (GLM). La si definisce nel modo seguente: 𝑔(𝜇𝑖) = 𝜂𝑖 = 𝑿 ∙ 𝜷 = ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑟 𝑗=1 ; 𝑖 = 1,2, … , 𝑛 Il previsore lineare 𝜂𝑖 è una combinazione lineare di variabili esplicative, dove 𝜷 = (𝛽1, 𝛽2, … , 𝛽𝑟) 𝑇 è un vettore r-dimensionale di parametri che definiremo in seguito ed 𝑥𝑖𝑗 è un dato valore della covariata 𝑥𝑗 relativa all’osservazione 𝑖. Inoltre, 𝑟 è il numero totale dei parametri di regressione, mentre 𝑛 rappresenta il numero di celle tariffarie, per cui per 𝑟 ≤ 𝑛 si ottiene una matrice nota 𝑿 di dimensioni 𝑟 × 𝑛 di variabili esplicative, anche questa definita in seguito attraverso un esempio. Si noti che la precedente espressione rappresenta la componente sistematica del modello. Si ritiene doveroso fare un esempio chiarificatore. Consideriamo due rating factors, di cui il primo e il secondo categorizzati, rispettivamente, in due e tre differenti classi (o intervalli). Assumiamo una notazione in
  • 21. ~ 18 ~ forma tabulare delle osservazioni ed una struttura di modello moltiplicativo per la media; sia 𝜇𝑖𝑗 l’aspettativa di 𝑌𝑖𝑗 (rapporto chiave) delle celle (𝑖, 𝑗) dove 𝑖 = 1,2 e 𝑗 = 1,2,3 per cui si ha che: 𝜇𝑖𝑗 = 𝛾0 𝛾1𝑖 𝛾2𝑗 come già visto in precedenza. Per semplificare la stima, consideriamo la funzione logaritmica applicata per entrambi i lati dell’equazione: log 𝜇𝑖𝑗 = 𝑙𝑜𝑔 𝛾0 + 𝑙𝑜𝑔 𝛾1𝑖 + 𝑙𝑜𝑔 𝛾2𝑗 Sempre da quanto già discusso, si sceglie una cella base come riferimento, ad esempio (1,1) per cui si ha che se 𝛾11 = 𝛾21 = 1 in modo che 𝜇11 = 𝛾0, come dimostrato dalla precedente equazione, gli altri parametri misurino la deviazione media da questa cella di riferimento. Successivamente, riscriviamo il modello utilizzando la notazione ad elenco, ordinando le celle nel modo seguente (1,1); (1,2); (1,3); (2,1); (2,2); (2,3) e rinominando i parametri così di seguito: 𝛽1 ≡ 𝑙𝑜𝑔𝛾00 𝛽2 ≡ 𝑙𝑜𝑔𝛾12 𝛽3 ≡ 𝑙𝑜𝑔𝛾22 𝛽4 ≡ 𝑙𝑜𝑔𝛾23 Per i parametri restanti, introduciamo un insieme di variabili dummy, al fine di poterli esprimere nei termini dei parametri che abbiamo già assunto. Tuttavia, prima di ricorrere all’utilizzo di tali variabili, dobbiamo analizzare tutte le possibili relazioni tra 𝑙𝑜𝑔 𝜇𝑖𝑗 e 𝛽{1,2,3,4}. La seguente Tabella 2.3 ci aiuta a mettere in evidenza tali relazioni: Cella tariffaria i j Cella base 𝒍𝒐𝒈 𝝁𝒊𝒋 1 1 1 ✓ 𝛽1 2 1 2 𝛽1 + 𝛽3 3 1 3 𝛽1 + 𝛽4 4 2 1 𝛽1 + 𝛽2 5 2 2 𝛽1 + 𝛽2 + 𝛽3 6 2 3 𝛽1 + 𝛽2 + 𝛽4 Tabella 2.3 Relazioni del modello considerato con cella base (1,1) Le variabili dummy sono definite nel modo seguente:
  • 22. ~ 19 ~ 𝑥𝑖𝑗 = { 1, 𝑠𝑒 𝛽𝑗 è 𝑖𝑛𝑐𝑙𝑢𝑠𝑜 𝑖𝑛 𝑙𝑜𝑔 𝜇𝑖 0, 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖 da cui segue Tabella 2.4, da cui si noti la similarità con la precedente tabella. Cella tariffaria i j 𝒙𝒊𝟏 𝒙𝒊𝟐 𝒙𝒊𝟑 𝒙𝒊𝟒 1 1 1 1 0 0 0 2 1 2 1 0 1 0 3 1 3 1 0 0 1 4 2 1 1 1 0 0 5 2 2 1 1 1 0 6 2 3 1 1 0 1 Tabella 2.4 Variabili dummy del modello additivo considerato Possiamo quindi dimostrare che 𝑙𝑜𝑔 𝜇𝑖𝑗 può essere presentato, ricorrendo all’utilizzo delle variabili dummy, nel modo seguente: 𝑙𝑜𝑔 𝜇𝑖𝑗 = ∑ 𝑥𝑖𝑗 𝛽𝑗; 𝑖 = 1,2, … ,6. 4 𝑗=𝑖 e che 𝑥𝑖𝑗, definito in precedenza come il valore della covariata 𝑥𝑗 relativa all’osservazione 𝑖, può essere espresso sotto forma di una matrice 𝑿, nota in letteratura come design matrix oppure model matrix. 𝑿 = [ 1 0 0 0 1 0 1 0 1 0 0 1 1 1 0 0 1 1 1 0 1 1 0 1] Con la design matrix esposta, ricorrendo all’utilizzo del previsore lineare 𝜂𝑖 = 𝑙𝑜𝑔 𝜇𝑖𝑗 per 𝑖 = 1,2, … ,6 anche 𝜂𝑖 e 𝛽 possiamo esprimerli nel modo seguente 𝜂 = 𝑿𝛽 𝜂 = [ 𝜂1 𝜂2 𝜂3 𝜂4 𝜂5 𝜂6] 𝛽 = [ 𝛽1 𝛽2 𝛽3 𝛽4 ]
  • 23. ~ 20 ~ Concluso tale esempio, è bene ricordare che il problema generale dell'analisi tariffaria è quello di indagare come la risposta 𝑌𝑖 sia influenzata da 𝑟 covariate 𝑥1, 𝑥2, … , 𝑥 𝑟. La funzione di collegamento nota 𝑔(∙) deve essere rigorosamente monotona e differenziabile. La scelta della funzione di collegamento dipende dalle caratteristiche dei dati oggetto d’analisi ed è in qualche modo arbitraria. Nel nostro caso del pricing delle Non-Life Insurance, una funzione di collegamento logaritmica associata ad un modello moltiplicativo (sempre ragionevole nella pratica) è di gran lunga la più comune e la più utilizzata. Definiremo log- link function questo tipo di collegamento per il prosieguo della trattazione 𝑔(𝑢𝑖) = log (𝑢𝑖) mentre come già visto in precedenza i modelli lineari utilizzano un collegamento di tipo identity-link function. In letteratura, chiaramente, sono presenti varie tipologie di funzione di collegamento, quali la funzione logit, probit, power, squareroot etc. sulle quali non si ritiene opportuno approfondire ulteriormente, in tale sede, il loro significato. Ciò che è sufficiente dire è che a ciascuna delle distribuzioni è associata una funzione di collegamento naturale, chiamata funzione di collegamento canonica, nota anche come canonical link. L'uso di queste funzioni di collegamento presenta alcuni vantaggi tecnici. Per la distribuzione normale, il collegamento canonico è la funzione identità, che porta a modelli additivi. Per la distribuzione di Poisson è la funzione logaritmica, che porta a modelli log-lineari e moltiplicativi. Per la gamma, è il reciproco e così via. L’inverso della funzione di collegamento, viene definita funzione media, di cui ne segue la sua espressione: 𝑔−1(𝜂𝑖) = 𝜇𝑖 Giunti a questo punto, risulta utile fare una breve sintesi delle tre importanti componenti che caratterizzano i modelli lineari generalizzati, vale a dire: 1. Componente stocastica: la variabile casuale indipendente 𝑌𝑖 la cui funzione densità è contenuta nella famiglia di dispersione esponenziale; 2. Componente sistematica: la media 𝐸[𝑌] = 𝜇𝑖 = 𝑔−1(𝜂𝑖) con 𝜂𝑖 = ∑ 𝑥𝑖𝑗 𝛽𝑗 𝑟 𝑗=1 e con 𝑿 che rappresenta la matrice dei regressori e 𝛽⃗ il vettore dei parametri; 3. Funzione di collegamento: la funzione che collega il valore medio 𝜇𝑖 di 𝑌𝑖 al previsore lineare 𝜂𝑖 = 𝑔(𝑢𝑖).
  • 24. ~ 21 ~ 2.4 Stima dei parametri di regressione Dopo aver definito i modelli lineari generalizzati e aver messo in risalto alcune delle peculiarità tipiche di tali modelli nelle sezioni precedenti, si è giunti ora ad una fase fondamentale, quella relativa alla stima dei parametri di regressione. Dai risultati che otterremo è possibile determinare quello che in precedenza abbiamo denominato valore base (il valore della cella di riferimento, la cella base) e le relatività dei prezzi, l’elemento alla base dell’analisi tariffaria. La stima di 𝛽 per i GLM viene in genere effettuata utilizzando il metodo della massima verosimiglianza (likelihood function) per ciascuna delle variabili casuali indipendenti 𝑌𝑖 la cui funzione di probabilità può essere espressa come un membro della famiglia di dispersione esponenziale, di cui si ripropone l’espressione già analizzata in precedenza: 𝑓𝑌𝑖 (𝑦𝑖, 𝜃𝑖, ϕ) = 𝑒𝑥𝑝 { 𝑦𝑖 𝜃𝑖 − 𝑏(𝜃𝑖) 𝜙/𝑤𝑖 + 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖)} La massima verosimiglianza per 𝑌𝑖 in funzione dei parametri 𝜃𝑖 𝑒 ϕ per un dato valore di 𝑦𝑖 viene così descritta: ℓ𝑖(𝑦𝑖; 𝜃𝑖, ϕ) = 𝑦𝑖 𝜃𝑖 − 𝑏(𝜃𝑖) 𝜙/𝑤𝑖 + 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖) in presenza di un vettore casuale 𝒀 avremo che: ℓ𝑖( 𝒚; 𝜽, ϕ) = ∑ ℓ𝑖( 𝑦𝑖; 𝜃𝑖, ϕ) = 1 𝜙 𝑛 𝑖=1 ∑ 𝑤𝑖(𝑦𝑖 𝜃𝑖 − 𝑏( 𝜃𝑖)) 𝑛 𝑖=1 + ∑ 𝑐(𝑦𝑖, 𝜙, 𝑤𝑖) 𝑛 𝑖=1 La derivata parziale di ℓ rispetto a 𝛽𝑗, grazie alla regola della catena, è pari a 𝜕ℓ 𝜕𝛽𝑗 = ∑ 𝜕ℓ𝑖 𝜕𝜃𝑖 𝜕𝜃𝑖 𝜕𝜇𝑖 𝜕𝜇𝑖 𝜕𝜂𝑖 𝑛 𝑖=1 𝜕𝜂𝑖 𝜕𝛽𝑗 = 1 𝜙 ∑ 𝑤𝑖 𝑦𝑖 − 𝜇𝑖 𝜈(𝜇𝑖)𝑔′(𝜇𝑖) 𝑥𝑖𝑗 𝑛 𝑖=1 scaturita dai seguenti calcoli e dalle relazioni descritte nei paragrafi precedenti: • 𝜕ℓ 𝑖 𝜕𝜃 𝑖 = 𝑤 𝑖(𝑦 𝑖 𝜃 𝑖−𝑏′(𝜃 𝑖)) ϕ ,
  • 25. ~ 22 ~ • 𝜕𝜃 𝑖 𝜕𝜇 𝑖 = 1 𝜕𝜂 𝑖 𝜕𝜃 𝑖 = 1 𝜕𝑏′(𝜃 𝑖) 𝜕𝜃 𝑖 = 1 𝑏′′(𝜃 𝑖) = 1 𝜈(𝜇 𝑖) , • 𝜕𝜇 𝑖 𝜕𝜂 𝑖 = 1 𝜕𝜂 𝑖 𝜕𝜇 𝑖 = 1 𝜕𝑔(𝜇 𝑖) 𝜕𝜇 𝑖 = 1 𝑔′(𝜇 𝑖) , • 𝜕𝜂 𝑖 𝜕𝛽 𝑗 = 𝑥𝑖𝑗 . Impostando tutte queste 𝑟 derivate parziali uguali a zero e moltiplicando per φ, che non ha alcun effetto sulla massimizzazione, otteniamo le equazioni di massima verosimiglianza5: ∑ 𝒘𝒊 𝒚𝒊 − 𝝁𝒊 𝝂(𝝁𝒊)𝒈′(𝝁𝒊) 𝒙𝒊𝒋 𝒏 𝒊=𝟏 = 𝟎, 𝒋 = 𝟏, … , 𝒓. la cui soluzione deve rispettare anche la seguente condizione a noi già nota: 𝜇𝑖 = 𝑔−1(𝜂𝑖) = 𝑔−1 (∑ 𝑥𝑖𝑗 𝛽𝑗 𝑟 𝑗=1 ). Eccetto per alcuni casi speciali, come ad esempio il saturated model in cui si ha che 𝜇𝑖̂ = 𝑦𝑖, le equazioni di massima verosimiglianza sono risolte numericamente. In tale sede, si ritiene sufficiente menzionare due dei principali metodi numerici utilizzati per la risoluzione, quali il metodo di Newton-Raphson e il metodo di scoring di Fisher per i quali si rimanda ad altri elaborati presenti in letteratura. Giunti a questo punto, dopo aver risolto l’equazione di massima verosimiglianza, attraverso l’utilizzo di software statistici, nei modelli moltiplicativi più che stimare i parametri regressori 𝛽, il nostro interesse è quello di stimare il valore base nonchè la relatività dei prezzi (o price relativities), ovvero gli elementi portanti dell’analisi tariffaria. Questo è possibile grazie alla seguente relazione: 𝛾𝑗̂ = 𝑒 𝛽 𝑗̂ , 𝑗 = 1, … , 𝑟 5 Si riportano in appendice, a fini esaustivi, le derivazioni delle funzioni di massima verosimiglianza relative ai due casi speciali della distribuzione di Poisson (claim frequency) e della distribuzione gamma (claim severity).
  • 26. ~ 23 ~ tuttavia, l'analisi tariffaria nei GLM, da quanto abbiamo capito, consiste nell'effettuare analisi separate per la frequenza e la gravità dei sinistri, quindi, solo successivamente, si trovano le relatività per il premio puro moltiplicando i risultati. Le ragioni di questo sono essenzialmente due: • la frequenza dei reclami risulta essere, di solito, molto più stabile della gravità degli stessi, per cui può essere stimata separatamente con maggiore accuratezza; • condurre un’analisi separata fornisce maggiori informazioni su come un rating factor incide sul premio puro. Per terminare tale argomento, possiamo riprendere l’esempio fatto in precedenza relativo ad un’assicurazione per ciclomotori e fare alcune considerazioni conclusive. Conducendo un'analisi separata per la frequenza dei sinistri e gravità, otteniamo le relatività per il premio puro moltiplicando i fattori di queste due analisi, come da Tabella 2.5. Rating factor Classe Duration N° di reclami Relatività, frequenza Relatività, gravità Relatività, premio puro Classe del veicolo 1 9833 391 1.00 1.00 1.00 2 8824 395 0.78 0.55 0.42 Età del veicolo 1 1918 141 1.55 1.79 2.78 2 16740 645 1.00 1.00 1.00 Zona geografica 1 1451 206 7.10 1.21 8.62 2 2486 209 4.17 1.07 4.48 3 2889 132 2.23 1.07 2.38 4 10069 207 1.00 1.00 1.00 Tabella 2.5 Relatività di un modello moltiplicativo tra Poisson per la frequenza e Gamma per la gravità. Osserviamo che i due fattori di valutazione ‘classe di veicolo’ ed ‘età del veicolo’ influenzano la frequenza e la gravità del reclamo nella stessa direzione, il che significa che i veicoli più nuovi e più potenti non solo sono più costosi da sostituire quando vengono
  • 27. ~ 24 ~ rubati, ma vengono anche rubati più spesso. La zona geografica ha un grande impatto sulla frequenza del reclamo, ma una volta rubato un ciclomotore il costo della sua sostituzione non è necessariamente più grande in una zona rispetto a un'altra, con una possibile eccezione per le più grandi città della zona 1. Si noti che queste interessanti conclusioni non avremmo potuto coglierle se avessimo analizzato solo il premio puro. Inoltre, in caso di zone geografiche con un numero molto ridotto di reclami è piuttosto ovvio che non è possibile trarre conclusioni attendibili e quindi si avranno stime molto incerte sulla gravità dei reclami. Tuttavia, come è possibile definire un valore soglia del numero di reclami oltre la quale è possibile ritenere attendibili le stime? A questa, e ad altre domande, è possibile rispondere tramite l’utilizzo di alcune tecniche statistiche, quali la valutazione della bontà di adattamento del modello ai dati (goodness of fit), nel caso in cui sia opportuno aggiungere ulteriori fattori di valutazione o omettere quelli inclusi, oppure tramite i test di verifica delle ipotesi o test di verifica delle informazioni di Akaike. L’utilizzo di tali tecniche, tuttavia, non è oggetto del seguente elaborato. Giunti alla fine della trattazione teorica del pricing delle Non-Life Insurance tramite i modelli lineari generalizzati, è possibile applicare tale teoria a due differenti casi pratici, oggetto del terzo ed ultimo capitolo. 2.5 Alcune importanti osservazioni • Molti problemi di pricing nell'assicurazione generali contengono rating factors continui, come ad esempio l'età di ciascun assicurato o le miglia percorse da un veicolo assicurato. Da quanto visto nella teoria dei GLM, sappiamo che il primo passo per risolvere questi problemi di pricing è quello di categorizzare tali rating factors in intervalli diversi e gestire valori diversi contenuti nello stesso intervallo come se fossero identici. Tuttavia è possibile menzionare uno svantaggio. Dal momento che, se due polizze assicurative sono caratterizzate da valori diversi, seppur vicini, in termini di gravità e frequenza dei reclami, possono comportare premi significativamente diversi dopo che i valori sono stati categorizzati in intervalli diversi. Inoltre, anche la classificazione efficace degli intervalli può richiedere molto tempo dal momento che risulta difficile trovare intervalli appropriati per alcuni fattori di valutazione come l'età. Gli intervalli di ciascun rating factor devono essere abbastanza grandi da fornire una buona precisione nella stima della relatività dei prezzi, ma devono anche essere abbastanza piccoli da essere efficaci se i rating factor
  • 28. ~ 25 ~ variano ampiamente. Nel mondo reale, a volte è difficile soddisfare entrambi i requisiti. In uno studio del 1986 Trevor Hastie e Robert Tibshirani hanno introdotto il concetto di modelli di additivi generalizzati, noti con la sigla GAM, che utilizzano una somma di smooth functions ∑ 𝑠𝑗(𝑋𝑗) anziché l’utilizzo della forma lineare a noi nota ∑ 𝛽𝑗 𝑋𝑗 come nei GLM, al fine di ovviare a tali problemi. • In merito alla prima assunzione esposta, quella relativa all’indipendenza delle polizze. Tale assunzione è un presupposto fondamentale, tuttavia, vi sono dei casi nel mondo reale in cui è impossibile garantire tale presupposto, come ad esempio, nell'assicurazione automobilistica, la possibilità di una collisione tra due auto assicurate dalla stessa compagnia viola l'assunto di indipendenza, almeno in linea di principio. Un altro esempio più importante di dipendenza sono le catastrofi, in cui un gran numero di polizze sono colpite dalla stessa calamità naturale. Questa situazione richiede altri tipi di modelli rispetto a quelli trattati in questo elaborato. • In merito alla seconda assunzione esposta, quella relativa all’indipendenza temporale delle polizze. In questo caso, sia il numero di reclami che l'importo del reclamo sono considerati indipendenti da un periodo di tempo all'altro. Tuttavia, potremmo considerare il caso di un automobilista che ha avuto un incidente e per tale ragione potrebbe guidare in modo più attento in futuro o un proprietario di casa che ha subito un danno o pregiudizio e potrebbe decidere di installare un allarme antifurto; in tali casi, la presenza di un reclamo oggi implica, almeno concettualmente, una frequenza dei reclami inferiore in futuro. • In merito alla terza assunzione esposta, quella relativa all’omogeneità delle polizze. Questa ipotesi non è in genere perfettamente soddisfatta. In pratica, cerchiamo un modello che divide le polizze in gruppi abbastanza omogenei e applichi lo stesso premio all'interno di ciascuna cella tariffaria. Per far fronte alla non omogeneità residua all'interno delle celle, esistono dei sistemi che prevedono bonus / malus ad esempio nel caso di autoveicoli privati oppure sulla base di una valutazione d’esperienza delle grandi imprese. • Abbiamo dimostrato che il rapporto chiave della frequenza dei reclami segue una distribuzione di Poisson. Risulta opportuno chiedersi, in questo caso, se tale distribuzione è realistica o meno per rappresentare la frequenza. In pratica, l'omogeneità all'interno delle cellule, da quanto detto sopra, è difficile da raggiungere. La frequenza dei reclami attesa del processo di Poisson 𝜇𝑖 può variare nel tempo, ma questo non è necessariamente un problema poiché il numero di reclami durante un anno sarà ancora caratterizzato da una distribuzione di Poisson. Un problema più grave è che spesso rimangono notevoli variazioni tra le polizze
  • 29. ~ 26 ~ all'interno delle stesse celle tariffarie. Tuttavia, questo può essere modellato lasciando che il parametro di rischio stesso sia la realizzazione di una variabile casuale. Questo 𝜇𝑖 porta ad una cosiddetta distribuzione mista di Poisson, con una varianza maggiore rispetto alla distribuzione standard di Poisson. Tali modelli spesso risultano essere migliori per trattare i dati di tipo assicurativo. • Nel caso della gravità dei reclami non è affatto ovvio quale distribuzione dovremmo assumere. La distribuzione dovrebbe essere positiva e inclinata a destra, da qui si capisce che la distribuzione normale non è adatta, ma ci possono essere altre distribuzioni che soddisfano tali i requisiti. Tuttavia, la distribuzione gamma è diventata più o meno uno standard di fatto nell'analisi dei GLM in merito alla gravità dei reclami. Tale assunto implica che la deviazione standard è proporzionale a 𝜇, cioè abbiamo un coefficiente di variazione costante ed anche questo fattore sembra essere abbastanza plausibile per caratterizzare la gravità. • I modelli misti lineari generalizzati, GLMM in abbreviato, estendono i GLM consentendo la presenza di effetti casuali che tengono conto della correlazione tra i dati dello stesso gruppo o cluster e dovrebbero essere una soluzione per aggirare alcune delle problematiche poste dalle assunzioni alla base dei modelli lineari generalizzati, come detto in precedenza. È stato dimostrato che i GLMM possono migliorare le stime dei dati e determinare un premio puro con maggiore accuratezza. In particolare, i dati raggruppati sorgono quando le osservazioni possono essere divise in sottogruppi più piccoli, in cui le osservazioni all'interno di ciascun sottogruppo sono più "simili" tra loro. In tale modo, ogni soggetto che decide di assicurarsi rappresenta quindi un cluster. È spesso ragionevole supporre che le osservazioni di ciascun soggetto siano indipendenti da quelle degli altri, ma le osservazioni all'interno di un cluster sono correlate. La correlazione all'interno del gruppo contraddice l’assunzione di indipendenza dei GLM.
  • 30. ~ 27 ~ Capitolo 3 Caso applicativo in R 3.1 Collisione automobilistica nel Regno Unito – 3.2 Assicurazione per ciclomotori Il nostro obiettivo principale nei seguenti esempi è quello di eseguire un'analisi tariffaria attraverso i GLM standard tramite l’utilizzo del software RStudio che è un ambiente di sviluppo integrato per R. In base a quanto detto nei precedenti due capitoli teorici, si effettuerà dapprima un'analisi separata per la frequenza dei reclami e per la gravità degli stessi e quindi otterremo le relatività per il premio puro moltiplicando i risultati ottenuti dalle due modellizzazioni effettuate. 3.1 Collisione automobilistica nel Regno Unito In questo caso oggetto d’analisi, si considera un campione di n = 32 osservazioni estratto da un data-set di 8.942 perdite da collisioni automobilistiche nel Regno Unito così come testimoniato dalle polizze assicurative dei conducenti privati oggetto d’indagine. In particolare, abbiamo estratto tali osservazioni da un pacchetto, ‘insuranceData’, ovvero una raccolta di set di dati assicurativi, che vengono spesso utilizzati nell’analisi della gravità dei sinistri e nella modellizzazione della frequenza dei sinistri. FASE 1: descrizione dei dati I conducenti privati sono divisi in celle tariffarie sulla base di due rating factor: 1. Età. Indica la fascia di età del conducente. Tale rating factor viene categorizzato in 8 differenti intervalli o classi, in questo caso rappresentativi delle diverse fasce d’età, quindi dalla fascia A ad H. I conducenti più giovani appartengono alla fascia di età A, quelli più anziani alla fascia d'età H, come di seguito: - A, età 17-20 - B, età 21-24 - C, età 25-29 - D, età 30-34
  • 31. ~ 28 ~ - E, età 35-39 - F, età 40-49 - G, età 50-59 - H, età 60+; 2. Uso del veicolo. Indica il motivo per cui il veicolo viene utilizzato di solito dai conducenti. Si hanno 4 differenti classi, tra cui: - Affari - Guida breve (driveShort, guidare meno di 10 miglia) - Guida lunga (driveLong, guidare più di 10 miglia) - Piacere Per ognuna delle 8 × 4 = 32 celle tariffarie sono noti i seguenti totali: • Gravità (Severity), ovvero l’importo medio dei sinistri in sterline corretto per l'inflazione; • Numero di reclami (Claim Count), ovvero il conteggio totale dei reclami per ciascuna delle 32 celle tariffarie. Si riportano di seguito statistiche descrittive dei dati oggetto d’analisi. Abbiamo solo un'osservazione per ogni combinazione di ciascuna classe o intervallo dei fattori di valutazione. Come si può notare, tutti gli importi medi dei reclami sono superiori a zero, per cui non si avrà alcuna restrizione nella modellizzazione della distribuzione della gravità dei reclami, per la quale, come visto nel Capitolo 2, utilizzeremo la distribuzione Gamma. +/- R Codice summary(auto) +/- Uscita Age Vehicle_Use Severity Claim_Count A :4 Business :8 Min. :153.6 Min. : 5.0 B :4 DriveLong :8 1st Qu.:212.4 1st Qu.:116.2 C :4 DriveShort:8 Median :250.5 Median :208.0 D :4 Pleasure :8 Mean :276.4 Mean :279.4 E :4 3rd Qu.:298.2 3rd Qu.:366.0 F :4 Max. :797.8 Max. :970.0 (Other):8
  • 32. ~ 29 ~ FASE 2: analisi sulla frequenza dei reclami (Claim Frequency) Il numero di reclami in ciascuna cella tariffaria è la variabile di nostro interesse in quest’analisi. Pertanto, considereremo la variabile Claim_Count come una variabile dipendente. Nella seguente Figura 3.1.1 si rappresentano gli istogrammi condizionali prima relativi all'età del conducente e poi relativi all'uso del veicolo. Come si può notare, con l'aumentare dell'età aumenta anche il numero di reclami per sinistri. Per quanto riguarda l'uso del veicolo, in relazione a coloro che guidano per meno di 10 miglia corrispondono un maggior numero di reclami. Tali rappresentazioni sono state ottenute in ambiente RStudio, grazie all’installazione di un ulteriore pacchetto, ggplot2, che ci consente di rappresentare in maniera elegante, ma allo stesso tempo di facile comprensione, i dati oggetto d’analisi. +/- R Codice ggplot(auto, aes(Claim_Count, fill = Age)) + geom_histogram(binwidth = 3) + facet _grid(Age ~ ., margins = TRUE, scales = "free") ggplot(auto, aes(Claim_Count, fill = Vehicle_Use)) + geom_histogram(binwidth = 3) + facet_grid(Vehicle_Use ~ ., margins = TRUE, scales = "free") +/- Uscita Figura 3.1.1 Istogrammi condizionali Da quanto detto nel capitolo precedente, il rapporto chiave della frequenza dei reclami, segue una distribuzione di Poisson. Per cui si adatta tale distribuzione, con una funzione di collegamento logaritmico, quella che abbiamo definito log-link function, e con
  • 33. ~ 30 ~ due fattori di valutazione: Age e Vehicle_Use. Lo si memorizza in un oggetto denominato model.frequency_p, di cui è possibile ottenere un riepilogo di alcune informazioni che si è scelto di non trattare in questo elaborato, per cui non vengono presentante ma sono comunque contenute nel seguente codice. Si utilizza, inoltre, la funzione glm() presente in R per ricordurci ai modelli lineari generalizzati. +/- R Codice summary(model.frequency_p <-glm(Claim_Count ~Age + Vehicle_Use, data=auto, family=pois FASE 3: analisi sulla gravità dei reclami (Claim Severity) L’importo medio dei reclami in ciascuna cella tariffaria è la variabile di interesse in quest’analisi. Si effettua una prima rappresentazione grafica in Figura 3.1.2, sempre attraverso degli istogrammi condizionali divisi per età del conducente e per l’uso del veicolo, per una migliore visualizzazione della dipendenza tra gravità e rating factor. +/- R Codice ggplot(auto, aes(Severity)) + geom_histogram() + scale_x_log10() + facet_grid(Age ~ Vehicle_Use, margins = TRUE, scales = "free_y") +/- Uscita Figura 3.1.2 Istogrammi condizionali
  • 34. ~ 31 ~ Tale relazione, per una maggiore chiarezza espositiva, si rappresenta anche, per ciascun rating factor, tramite un diagramma di violino, un metodo per tracciare dati numerici con l'aggiunta di un diagramma di densità del kernel ruotato su ciascun lato, come in Figura 3.1.3 +/- R Codice ggplot(auto, aes(Age, Severity)) + geom_violin() + geom_jitter(size = 1.5) + scal e_y_log10() + stat_smooth(aes(x = Age, y = Severity, group = 1), method = "loess") ggplot(auto, aes(Vehicle_Use, Severity)) + geom_violin() + geom_jitter(size = 1.5 ) + scale_y_log10() + stat_smooth(aes(x = Vehicle_Use, y = Severity, group = 1), method = "loess") +/- Uscita Figura 3.1.3 Diagrammi a violino
  • 35. ~ 32 ~ Come è possibile notare, i sinistri ai quali corrispondono in media un numero più elevato di importi (in sterline) sono quelli relativi alla fascia d’età A, ovvero per i conducenti più giovani, e quelli relativi all’utilizzo del veicolo per affari. Gli importi più bassi sono relativi a conducenti di mezza età, fascia d’età E ed F e quando l’utilizzo del veicolo è dovuto a viaggi di piacere. Al rapporto chiave della gravità dei reclami adattiamo una distribuzione gamma, con una funzione di collegamento logaritmico, quella che abbiamo definito log-link function, e con due fattori di valutazione: Age e Vehicle_Use. Lo si memorizza in un oggetto denominato model.severity_g, di cui è possibile ottenere un riepilogo di alcune informazioni che si è scelto di non trattare in questo elaborato, per cui non vengono presentante ma sono comunque contenute nel seguente codice. +/- R Codice summary(model.severity_g <- glm(Severity ~ Age + Vehicle_Use, data = auto, family = Gamma("log")) FASE 4: calcolo del premio puro, combinazione dei due modelli A questo punto abbiamo scelto la fascia di età A e la classe di utilizzo dei veicoli per affari come cella tariffaria di base. Tale scelta, si basa esclusivamente su una nostra decisione, per cui, è chiaro che è possibile scegliere qualsiasi altra combinazione. Quindi, fascia A e utilizzo del veicolo per affari saranno la cella di riferimento, con valore normalizzato pari ad 1. Il calcolo delle restanti relatività nelle celle tariffarie, mostrano la differenza da tale cella base. +/- R Codice rel <- data.frame(rating.factor = c(rep("Age", nlevels(auto$Age)), rep("Vehicle use", nlevels(auto$Vehicle_Use ))), class = c(levels(auto$Age),levels(auto$Vehicle_Use)), stringsAsFactors = FALSE) print(rel) Si determinano le relatività per la frequenza dei reclami e la gravità dei reclami separatamente utilizzando i GLM, nel modo seguente. +/- R Codice rels <- coef( model.frequency_p) rels <- exp( rels[1] + rels[-1] ) / exp( rels[1] ) rel$rels.frequency <- c(c(1, rels[1:7]), c(1, rels[8:10])) rels <- coef(model.severity_g)
  • 36. ~ 33 ~ rels <- exp(rels[1] + rels[-1])/exp(rels[1]) rel$rels.severity <- c(c(1, rels[1:7]), c(1, rels[8:10])) Infine, moltiplichiamo questi risultati per ottenere le relatività per il premio puro. +/- R Codice rel$rels.pure.premium <- with(rel, rels.frequency * rels.severity) print(rel, digits = 2) +/- Uscita rating.factor class rels.frequency rels.severity rels.pure.premium 1 Age A 1.0 1.00 1.00 2 Age B 4.2 0.81 3.38 3 Age C 10.4 0.79 8.30 4 Age D 12.4 0.77 9.51 5 Age E 13.2 0.59 7.78 6 Age F 25.1 0.68 17.16 7 Age G 20.1 0.69 13.84 8 Age H 14.0 0.67 9.44 9 Vehicle use Business 1.0 1.00 1.00 10 Vehicle use DriveLong 2.5 0.70 1.76 11 Vehicle use DriveShort 3.6 0.60 2.18 12 Vehicle use Pleasure 1.2 0.56 0.66 L’indice di relatività per il premio puro, come già detto, evidenzia la differenza esistente dalle celle tariffarie dalla cella base. Come si può notare, l’indice più elevato corrisponde alle fasce d’età F e G, in quanto è fortemente influenzato, come abbiamo visto, dall’alto numero di reclami per tali fasce d’età. Le relatività più bassa corrisponde alla classe di utilizzo del veicolo per viaggi di piacere, in cui sia il numero di sinistri che l’importo medio degli stessi è molto basso. In questo modo si conclude l’analisi tariffaria del caso pratico oggetto d’analisi. 3.2 Assicurazione per ciclomotori Questo caso oggetto di studio è relativo ad alcuni esempi già discussi nel corso della trattazione. In questa sede, il compito sarà quello di svolgere l’analisi tariffaria completa. Si considerano i dati assicurativi registrati dalla compagnia assicuratrice Wasa Insurance Ltd tra il 1994 e il 1999 in 7 differenti regioni svedesi, in riferimento ad un’assicurazione per ciclomotori casco parziale. Tali dati assicurativi sono contenuti in un file esterno "ciclomotore_data.txt”, successivamente importato e letto sull’applicativo RStudio. FASE 1: descrizione dei dati I dati osservati sono distribuiti nelle celle tariffarie in base a tre differenti rating factors:
  • 37. ~ 34 ~ 1. Classe del veicolo. Indica la presenza di differenti tipologie di veicolo. Tale rating factor viene categorizzato in 2 differenti classi, che rappresentano, appunto, delle diverse tipologie di veicolo al quale si riferisce. In particolare: - CLASSE 1, veicolo con peso maggiore di 60 kg e più di due marce presenti - CLASSE 2, altro, ciò che non rientra nella CLASSE 1; 2. Età del veicolo. Indica da quanto tempo il veicolo risulta immatricolato. Anche qui, si hanno 2 differenti classi: - CLASSE 1, immatricolazione al massimo entro 1 anno - CLASSE 2, immatricolazione di 2 anni o superiore; 3. Zona geografica. Indica la differente regione geografica svedese in cui sono stati registrati i reclami in seguito ai sinistri stradali. Si considerano 7 regioni: - Zona 1, parti centrali e semi-centrali delle tre città più grandi della Svezia, - Zona 2, periferia e città di medie dimensioni - Zona 3, città minori, tranne quelle delle Zone 5 o 7 - Zona 4, piccole città e campagna, tranne quelle delle Zone 5 o 7 - Zona 5, città settentrionali - Zona 6, campagna settentrionale - Zona 7, = Gotland, ovvero l'isola più grande della Svezia. Per ognuna delle 2 × 2 × 7 = 28 celle tariffarie sono note le seguenti osservazioni: • Gravità dei reclami (Severity), ovvero l’importo medio dei sinistri in corone svedesi corretto per l'inflazione; • Numero di reclami (Numero), ovvero il conteggio totale dei reclami per ciascuna delle 28 celle tariffarie; • Frequenza dei reclami (Frequency); determinato dal rapporto tra numero dei reclami e durata (l’esposizione considerata) Si riportano di seguito statistiche descrittive dei dati oggetto d’analisi. +/- R Codice summary(ciclomotore_data) +/- Uscita
  • 38. ~ 35 ~ Successivamente abbiamo calcolato la durata e il numero di sinistri per ciascun intervallo di ogni rating factor. In questo caso è risultato comodo da usare il pacchetto ‘foreach’, nonostante, tali calcoli, potevano essere svolti attraverso l’impostazione di un ciclo normale e l’utilizzo di alcune variabili ausiliarie. Usiamo foreach per eseguire il loop ed accumulare le somme per ciascuna cella tariffaria. +/- R Codice library("foreach") ## Calcolo della durata per gli intervalli dei rating factor level ## Definizione delle quantità per ciascun intervalloù ## Si è utilizzato foreach per eseguire il loop e accumuluare le somme new.cols <- foreach (rating.factor = c("class", "age", "zone"), .combine = rbind) %do% { nclaims <- tapply(moped$number, moped[[rating.factor]], sum) sums <- tapply(moped$duration, moped[[rating.factor]], sum) n.levels <- nlevels(moped[[rating.factor]]) contrasts(moped[[rating.factor]]) <- contr.treatment(n.levels)[rank(-sums, ties.method = "first"), ] data.frame(dur = sums, n.claims = nclaims) } rel <- cbind(rel, new.cols) rm(new.cols) print(rel) +/- Uscita rating.factor class dur n.claims 1 Vehicle class 1 9833.2 391 2 Vehicle class 2 8825.1 395 11 Vehicle age 1 1918.4 141 21 Vehicle age 2 16739.9 645 12 Zone 1 1451.4 206 22 Zone 2 2486.3 209 3 Zone 3 2888.7 132 4 Zone 4 10069.1 207 5 Zone 5 246.1 6 6 Zone 6 1369.2 23 7 Zone 7 147.5 3
  • 39. ~ 36 ~ FASE 2: analisi sulla frequenza dei reclami (Claim Frequency) Il numero di reclami in ciascuna cella tariffaria è la variabile di nostro interesse in quest’analisi. Pertanto, considereremo la variabile ‘Frequenza’ come una variabile dipendente. Nella seguente Figura 3.2.1 si rappresentano gli istogrammi condizionali per i tre differenti rating factors, ottenuti sempre tramite l’utilizzo del pacchetto ggplot2. +/- R Codice ggplot(moped, aes(number, fill = class)) + geom_histogram(binwidth = 1) + facet_g rid(class ~ ., margins = TRUE, scales = "free") ggplot(moped, aes(number, fill = age)) + geom_histogram(binwidth = 1) + facet_gri d(age ~ ., margins = TRUE, scales = "free") ggplot(moped, aes(number, fill = zone)) + geom_histogram(binwidth = 1) + facet_gr id(zone ~ ., margins = TRUE, scales = "free") +/- Uscita Figura 3.2.1 Istogrammi condizionali
  • 40. ~ 37 ~ Come è possibile notare dalla precedente figura, alla CLASSE 1 relativa alla tipologia del veicolo, corrispondono un numero più elevato di reclami. Stesso discorso vale per la CLASSE 2 relativa all’età del veicolo, in quanto a tale classe corrispondono un numero più elevato di sinistri. Infine, per quanto riguarda il rating factor della zona geografica, alla Zona 4 sono registrati maggiori reclami, mentre alla Zona 7 corrisponde la quantità più bassa di sinistri dichiarati. Il rapporto chiave della frequenza dei reclami, segue una distribuzione di Poisson. Per cui si adatta tale distribuzione, con una funzione di collegamento logaritmico, quella che abbiamo definito log-link function, e con tre fattori di valutazione: Classe del Veicolo, Età del Veicolo e Zona Geografica. Lo si memorizza in un oggetto denominato model.frequency. Si utilizza, inoltre, la funzione glm() presente in R per ricordurci ai modelli lineari generalizzati. +/- R Codice summary(model.frequency <- glm(number ~ class + age + zone + offset(log(duration) ), data = moped, family = poisson)) FASE 3: analisi sulla gravità dei reclami (Claim Severity) L’importo medio dei reclami in ciascuna cella tariffaria è la variabile di interesse in quest’analisi. Si effettua una prima rappresentazione grafica in Figura 3.2.2, sempre attraverso degli istogrammi condizionali divisi per classe del veicolo ed età del veicolo. +/- R Codice ggplot(moped, aes(severity)) + geom_histogram() + scale_x_log10() + facet_grid(cl ass ~ age, margins = TRUE, scales = "free_y") +/- Uscita Figura 3.3.2 Istogrammi condizionali
  • 41. ~ 38 ~ Anche in questo caso, tramite un diagramma di violino, si rappresentano le relazioni tra rating factor ed importo dei sinistri come in Figura 3.2.3. +/- R Codice ggplot(moped, aes(class, severity)) + geom_violin() + geom_jitter(size = 1.5) + s cale_y_log10() + stat_smooth(aes(x = class, y = severity, group = 1), method = "loess") ggplot(moped, aes(age, severity)) + geom_violin() + geom_jitter(size = 1.5) + sca le_y_log10() + stat_smooth(aes(x = age, y = severity, group = 1), method = "loess") ggplot(moped, aes(zone, severity)) + geom_violin() + geom_jitter(size = 1.5) + scale_y_log10() + stat_smooth(aes(x = zone, y = severity, group = 1), method = "loess") +/- Uscita Figura 3.1.3 Diagrammi a violino
  • 42. ~ 39 ~ Come è possibile notare, i sinistri ai quali corrispondono in media un numero più elevato di importi (in corone svedesi) sono quelli relativi alla CLASSE 1 sia per la tipologia del veicolo, sia per l’età del veicolo. Per quanto riguarda la gravità dei sinistri relativamente alle zone geografiche svedesi, è possibile affermare che nella Zona 3 si registrano i reclami ai quali corrispondo, in media, sia gli importi più elevati sia quelli più bassi, considerando tutte le 7 regioni svedesi. Al rapporto chiave della gravità dei reclami adattiamo una distribuzione gamma, con una funzione di collegamento logaritmico, quella che abbiamo definito log-link function. Lo si memorizza in un oggetto denominato model.severity e si utilizza sempre la funzione glm() presente in R per ricordurci ai modelli lineari generalizzati. +/- R Codice summary(model.severity <- glm(severity ~ class + age + zone, data = moped[moped$s everity > 0, ], family = Gamma("log"), weights = number)) FASE 4: calcolo del premio puro, combinazione dei due modelli A questo punto bisogna scegliere la cella tariffaria di base. Come già detto, tale scelta si basa esclusivamente sulla decisione dell’analista, per cui è chiaro che è possibile scegliere qualsiasi combinazione delle 28 celle tariffarie. In questo caso la cella di riferimento è la numero 12, quella che corrisponde alla CLASSE 1 in merito alla tipologia del veicolo, alla CLASSE 2 in merito all’età del veicolo e alla Zona 4 relativamente alla regione geografica. A tale cella di riferimento corrisponde un valore normalizzato delle relatività pari ad 1. Il calcolo delle restanti relatività nelle altre celle tariffarie evidenziano la differenza da tale cella base. +/- R Codice rels <- coef( model.frequency ) rels <- exp( rels[1] + rels[-1] ) / exp( rels[1] ) rel$rels.frequency <- c(c(1, rels[1])[rank(-rel$dur[1:2], ties.method = "first")], c(1, rels[2])[rank(-rel$dur[3:4], ties.method = "first")], c(1, rels[3:8])[rank(-rel$dur[5:11], ties.method = "first")]) rels <- coef( model.severity ) rels <- exp( rels[1] + rels[-1] ) / exp( rels[1] ) rel$rels.severity <- c(c(1, rels[1])[rank(-rel$dur[1:2], ties.method = "first")], c(1, rels[2])[rank(-rel$dur[3:4], ties.method = "first")], c(1, rels[3:8])[rank(-rel$dur[5:11], ties.method = "first")])
  • 43. ~ 40 ~ Combinando le relatività delle colonne frequenza e gravità dei reclami otteniamo le relatività del premio puro. +/- R Codice rel$rels.pure.premium <- with(rel, rels.frequency * rels.severity) print(rel, digits = 2) +/- Uscita rating.factor class dur n.claims rels.frequency rels.severity 1 Vehicle class 1 9833 391 1.00 1.00 2 Vehicle class 2 8825 395 0.78 0.55 11 Vehicle age 1 1918 141 1.55 1.79 21 Vehicle age 2 16740 645 1.00 1.00 12 Zone 1 1451 206 7.10 1.21 22 Zone 2 2486 209 4.17 1.07 3 Zone 3 2889 132 2.23 1.07 4 Zone 4 10069 207 1.00 1.00 5 Zone 5 246 6 1.20 1.21 6 Zone 6 1369 23 0.79 0.98 7 Zone 7 148 3 1.00 1.20 rels.pure.premium 1 1.00 2 0.42 11 2.78 21 1.00 12 8.62 22 4.48 3 2.38 4 1.00 5 1.46 6 0.78 7 1.20 Come si può notare, l’indice di relatività del premio puro più elevato corrisponde alla cella tariffaria numero 12, caratterizzato dalla CLASSE 1 per la tipologia del veicolo, dalla CLASSE 2 per l’età del veicolo e dalla Zona 5. Mentre, la relatività del premio puro più basso corrisponde alla cella tariffaria numero 2, caratterizzata dalla CLASSE 1 per la tipologia del veicolo, dalla CLASSE 1 per l’età del veicolo e dalla Zona 2. Si ricorda, ulteriormente, che tali relatività non sono da intendere in senso assoluto ma in termini relativi, ossia come scostamenti dalla cella di riferimento precedentemente scelta, la cella tariffaria numero 11. Per maggiore chiarezza espositiva, si rappresenta la tabella delle 28 celle tariffarie di seguito. Cella tariffaria Classe del veicolo Età del veicolo Zona geografica 1 1 1 1 2 1 1 2 3 1 1 3 4 1 1 4 5 1 1 5 6 1 1 6
  • 44. ~ 41 ~ 7 1 1 7 8 1 2 1 9 1 2 2 10 1 2 3 11 1 2 4 12 1 2 5 13 1 2 6 14 1 2 7 15 2 1 1 16 2 1 2 17 2 1 3 18 2 1 4 19 2 1 5 20 2 1 6 21 2 1 7 22 2 2 1 23 2 2 2 24 2 2 3 25 2 2 4 26 2 2 5 27 2 2 6 28 2 2 7 In questo modo si conclude l’analisi tariffaria del caso pratico oggetto d’analisi.
  • 45. ~ 42 ~ Appendice 1 – Derivazione della funzione di massima verosimiglianza per una distribuzione di Poisson (Claim Frequency) ▪
  • 46. ~ 43 ~ 2 – Derivazione della funzione di massima verosimiglianza per una distribuzione gamma (Claim Severity) ▪
  • 47. ~ 44 ~ Riferimenti bibliografici E. Ohlsson and B. Johansson; Non-life insurance pricing with generalized linear models, volume 21. Springer, 2010. R. Kaas, M. Goovaerts, J. Dhaene, and M. Denuit; Modern Actuarial Risk Theory| Using R. Springer, Heidelberg, second edition, 2008. Tam Ha; Modeling the Premium in Non-Life Insurance, A Comparison of Generalized Linear and Generalized Linear Mixed Models, Master’s Thesis, Autumn 2017. Michal Pešta, Barbora Petrová, Tereza Smolárová, Pavel Zimmermann; EXERCISES FOR NON-LIFE INSURANCE (University of Economics, Prague Faculty of Informatics and Statistics and Charles University in Prague Faculty of Mathematics and Physics). Piet de Jong, Gillian Z. Heller; GLMs for Insurance Data, Cambridge, febbraio 2008 Riferimenti sitografici https://en.wikipedia.org/wiki/General_insurance https://www.r-bloggers.com/r-code-for-chapter-2-of-non-life-insurance-pricing-with- glm-2/ https://rdrr.io/cran/insuranceData/ http://www.imsbio.co.jp/RGM/R_dataset_list?package=insuranceData&init=true