Modélisation prédictive en assurance de personnes

Séminaire RGA / Decavi
Modèles prédictifs :
quelles utilisations pour améliorer les processus de
souscription en assurance de personnes ?
Bruxelles, 29 avril 2014
David Dubois, Actuaire-Expert ERM, CERA
Directeur du Développement, RGA France
Damien Migout, Actuaire
Souscripteur, RGA France

3
Processus par lequel un modèle est choisi et mis en
œuvre pour prédire au mieux la probabilité de réalisation
d’un évènement ou d’un comportement futur
Faciliter la prise en compte et l’interprétation
des « bonnes » informations dans le
processus décisionnel
Disponibilité et qualité de données
factuelles fondamentales au
développement de modèles robustes
Interprétation des résultats préalable au
développement du modèle prédictif
Prédiction d’une probabilité de survenance
en tant qu’aide à la prise de décision dans
un environnement incertain
Qu’est-ce que la modélisation prédictive ?

Amélioration
radicale
(sélection,
tarification,
sinistre)
Expansion
des
informations
disponibles
Stockage et
traitement
des bases
de données
Expertise en
techniques
statistiques
Logiciels de
traitement
Puissance
de
traitement
des
informations
Tests des
modèles à
l’épreuve
des faits
Pourquoi parler de modélisation prédictive ?
4
Innover dans les processus
Pression concurrentielle
Réactivité
Contrôle & discipline
Innovation des processus

Sélection des
risques
• Identification rapide des
facteurs de risque
• Accélération des décisions
• Tri en amont des propositions
• Compréhension des résultats
de souscription (taux
d’acceptation et de refus)
Sinistre
• Scoring
• Détection de la fraude
• Détection des comportements
anormaux / atypiques
Développement
produit
• Variables de tarifications
• Meilleure intégration des
corrélations
• Optimisation du prix
• Identification du meilleur
modèle de tarification
5
Ventes et Marketing
• Amélioration des taux de
retour client
• Recommandations par cible
• Recrutement des réseaux
Analyse de
l’expérience
• Facteurs discriminants de la
sinistralité
• Moins de crédibilité aux
analyses univariées
• Tables d’expérience
Gestion
• Gestion de la relation client
(fidélisation)
Quelques exemples d’application dans l’assurance

Tarification en assurance de personnes
6
Trop souvent résumée en un problèmeunivarié
dans un universadditif !
+
CSP Risque
aggravé
SEXE
X

 Classiquement, à l’aide de tests statistiques dans les modèles
« classiques »
 Scores obtenus par régression logistique ou analyse discriminante
 Modèle de Poisson
 Modèles linéaires généralisés
 Inconvénients
 Liste souvent restreinte à des indicateurs classiques
 Tests peu informatifs sur de grands jeux de données (tout est significatif !)
 Nécessité de nouvelles méthodes de validation (échantillons test, bootstrap)
7
Recherche de variables tarifaires : problème multivarié
Comment choisir les bonnes variables ?

 Corrélation
 Colinéarité entre prédicteurs numériques ou dépendance entre prédicteurs
qualitatifs (2)
 Eviter de garder des variables corrélées
 Possibilités de « proxy »
 Interaction
 Action différenciée sur la réponse (sinistralité) d’une variable selon les valeurs
d’une autre
 Effet d’atténuation des effets d’une variable sur une autre
 Amélioration de la prédictibilité des modèles
 Omission d’une variable explicative
 Situation fréquente (mauvaise identification ou réglementation)
 Effets statistiques +/- dommageables (estimateurs biaisés, moindre efficacité,
tarif moyenné)
Recherche de variables tarifaires : problème multivarié
Nécessité d’étudier les liens entre les variables
8

Modélisation prédictive
9
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring

10
Identifier les
objectifs
Identifier les
motivations
 Pourquoi mettre en place le modèle ?
 A quelles questions cherche-t-on la
réponse ?
 Quelles en seront les applications
concrêtes ?
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring

1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
11
Comprendre
Nettoyer
Transformer (?)
Répartir entre
données-test et
modélisation
Collecter
 Inclusion de variables explicatives et de
variables “à expliquer”
 Compilation et agrégation de données issues
de sources différentes
 Quantité et qualité des données
 Importance de la prise en compte des “bonnes”
variables

12
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Sélection du
type
Estimation
Test
Validation
Attentes
satisfaites ?
Identification
contraintes
 Importance de la phase de
sélection des variables explicatives
 Processus itératif
 Choix du modèle dépendant de la
structure des données et des
résultats attendus
 Risques de modèle
Quelques exemples de modèles :
 Régression
 Modèles linéaires généralisés
(Binomial / Multinomial, Poisson,
Logistique, Gaussien, Gamma,
Inverse Gaussien, etc.
 Séries chronologiques
 Arbres de décision (CART, MARS)
 Algorithme d’apprentissage
(réseaux neuronaux, clusters, …)

13
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Interprétation
Création de
règles
Diffusion
Déploiement du
modèle
Communication
 Difficultés d’interprétation des résultats
 Implication du “management” notamment
si les résultats
 Iraient à l’encontre des “conventions”
 Amèneraient à changer radicalement le
point de vue
 Réviseraient profondémentcertains
processus établis
 Déploiement du modèle délicat

14
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Performance du
modèle
Test des résultats
Mise à jour des
données
Evolutions du
modèle
 Analyse de la performance du
modèle pour en tester l’efficacité
 Validation du modèle au fur et à
mesure de la mise à jour des
données
 Recalibration du modèle

 Etude développée sur le portefeuille d’un bancassureur en Asie
 Objectifs
 Prévision des décisions médicales sur ses clients existants
 Allègement du processus de souscription en réduisant le nombre de cas
nécessitant une sélection médicale traditionnelle
 Avantages
 Identification des meilleurs risques
 Accéleration de la sélection
 Augmentation des ventes
 Réduction des coûts d’acquisition
 Moyens
 Construction d’un modèle mathématique (GLM) répliquant les décisions
médicales de la sélection traditionnelle
Exemple n°1 – Predictive Underwriting
15
Présentation

 Méthodologie
 Calibrage du modèle sur le portefeuille d’assurés ayant bénéficié d’une sélection
médicale traditionnelle
 Application du modèle à l’ensemble du portefeuille du bancassureur
 Portefeuille utilisé pour le calibrage
 Environ 9 000 assurés ayant fait l’objet d’une sélection médicale traditionnelle
 Environ 8 700 avec une “acceptation standard”
 Environ 300 avec une “non acceptation standard” (refus ou surprime)
16
Présentation

17
Statistiques
Portefeuille sélectiontraditionnelle

 Logit (E[Yi]) = 𝛽 𝑘
𝑝
𝑘=1 *Xi,k
 E[Yi] : espérance de la variable Y (“acceptation standard”) pour l’individu i
 Logit : fonction de lien, logit (x) = ln [x /( 1-x)]
 𝛽 𝑘
𝑝
𝑘=1 *Xi,k : facteurs explicatifs (prédicteurs)
 11 facteurs explicatifs retenus sur les 65 variables initiales dans le
modèle optimal, dont:
 Age à la souscription
 Sexe
 Statut marital (marié, célibataire)
 Statut “bancaire” du client (advance, premier, non-premier)
…
 Regroupement des individus en 10 groupes de taille égale et calcul
du pourcentage d’acceptation “standard” pour chaque groupe
18
Modèle Linéaire Généralisé (GLM)

19
Résultats

 Les 20% les meilleurs (vert) sont éligibles à un produit sans sélection médicale
 Les 20% suivant (rouge) à un produit avec une sélection simplifiée
 Les 60% restant auront une sélection traditionnelle
20
Résultats

 Objectif
 Détermination de facteurs d’ajustements à des tables de mortalité de base
utilisées pour la tarification
 Tables de mortalité de base fonction de/du
 Sexe
 Age atteint
 Duration de la police
 Statut fumeur / non fumeur
 Ajustements
 Utilisation d’un Modèle Linéaire Généralisé (GLM)
Exemple n°2 – Bases de Mortalité
21
Présentation

 Données d’expérience disponibles
 5 années d’expérience: 2005-2009
 Nombre de décès durant la période d’étude: environ 18,000
 Nombre de combinaisons clients / canal de distribution: 21
 Trois facteurs d’ajustements retenus par le modèle
 Canal de distribution
 Somme assurée
 Statut marital: célibataire, marié
22
Ajustements

Model1<-glm(Deaths ~ Channel + SABand + SingleorJoint +
offset(log(Expected)),family=poisson(log), data=DataSet1)
Deaths = eChannel(i)eSABand(i)eSingleorJoint(i)elog(Expected)
= eChannel(i)eSABand(i)eSingleorJoint(i)Expected
Link Function - log
Modelling Number of deaths
Poisson DistributionOffset term – expected deaths
Co-Variates
Modèle Linéaire Généralisé

24
Résultats

 Exemple 1
 Somme assurée 150,000 €
 Channel Supermarket
 Célibataire
 Exemple 2
 Somme assurée 600,000 €
 Channel IFA
 Marié
25
Résultats
=> Coefficient d’ajustement: 92,4%*106,7%*103,9%*96,4% = 98,7%
=> Coefficient d’ajustement: 79,9%*100,0%*100,0%*96,4% = 77,0%

Modélisation prédictive en assurance de personnes

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Modélisation prédictive en assurance de personnes

Similar to Modélisation prédictive en assurance de personnes (20)

Modélisation prédictive en assurance de personnes