La modélisation prédictive est un processus par lequel on cherche à identifier le meilleur modèle qui va permettre d'estimer la probabilité de survenance d'un événement ou d'un comportement. En ce sens, elle est un outil d'aide à la décision.
1. Séminaire RGA / Decavi
Modèles prédictifs :
quelles utilisations pour améliorer les processus de
souscription en assurance de personnes ?
Bruxelles, 29 avril 2014
David Dubois, Actuaire-Expert ERM, CERA
Directeur du Développement, RGA France
Damien Migout, Actuaire
Souscripteur, RGA France
3. 3
Processus par lequel un modèle est choisi et mis en
œuvre pour prédire au mieux la probabilité de réalisation
d’un évènement ou d’un comportement futur
Faciliter la prise en compte et l’interprétation
des « bonnes » informations dans le
processus décisionnel
Disponibilité et qualité de données
factuelles fondamentales au
développement de modèles robustes
Interprétation des résultats préalable au
développement du modèle prédictif
Prédiction d’une probabilité de survenance
en tant qu’aide à la prise de décision dans
un environnement incertain
Qu’est-ce que la modélisation prédictive ?
5. Sélection des
risques
• Identification rapide des
facteurs de risque
• Accélération des décisions
• Tri en amont des propositions
• Compréhension des résultats
de souscription (taux
d’acceptation et de refus)
Sinistre
• Scoring
• Détection de la fraude
• Détection des comportements
anormaux / atypiques
Développement
produit
• Variables de tarifications
• Meilleure intégration des
corrélations
• Optimisation du prix
• Identification du meilleur
modèle de tarification
5
Ventes et Marketing
• Amélioration des taux de
retour client
• Recommandations par cible
• Recrutement des réseaux
Analyse de
l’expérience
• Facteurs discriminants de la
sinistralité
• Moins de crédibilité aux
analyses univariées
• Tables d’expérience
Gestion
• Gestion de la relation client
(fidélisation)
Quelques exemples d’application dans l’assurance
6. Tarification en assurance de personnes
6
Trop souvent résumée en un problèmeunivarié
dans un universadditif !
+
CSP Risque
aggravé
SEXE
X
7. Classiquement, à l’aide de tests statistiques dans les modèles
« classiques »
Scores obtenus par régression logistique ou analyse discriminante
Modèle de Poisson
Modèles linéaires généralisés
Inconvénients
Liste souvent restreinte à des indicateurs classiques
Tests peu informatifs sur de grands jeux de données (tout est significatif !)
Nécessité de nouvelles méthodes de validation (échantillons test, bootstrap)
7
Recherche de variables tarifaires : problème multivarié
Comment choisir les bonnes variables ?
8. Corrélation
Colinéarité entre prédicteurs numériques ou dépendance entre prédicteurs
qualitatifs (2)
Eviter de garder des variables corrélées
Possibilités de « proxy »
Interaction
Action différenciée sur la réponse (sinistralité) d’une variable selon les valeurs
d’une autre
Effet d’atténuation des effets d’une variable sur une autre
Amélioration de la prédictibilité des modèles
Omission d’une variable explicative
Situation fréquente (mauvaise identification ou réglementation)
Effets statistiques +/- dommageables (estimateurs biaisés, moindre efficacité,
tarif moyenné)
Recherche de variables tarifaires : problème multivarié
Nécessité d’étudier les liens entre les variables
8
10. 10
Processus en 5 étapes
Identifier les
objectifs
Identifier les
motivations
Pourquoi mettre en place le modèle ?
A quelles questions cherche-t-on la
réponse ?
Quelles en seront les applications
concrêtes ?
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Modélisation prédictive
11. 1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Modélisation prédictive
11
Processus en 5 étapes
Comprendre
Nettoyer
Transformer (?)
Répartir entre
données-test et
modélisation
Collecter
Inclusion de variables explicatives et de
variables “à expliquer”
Compilation et agrégation de données issues
de sources différentes
Quantité et qualité des données
Importance de la prise en compte des “bonnes”
variables
12. Modélisation prédictive
12
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Sélection du
type
Estimation
Test
Validation
Attentes
satisfaites ?
Identification
contraintes
Importance de la phase de
sélection des variables explicatives
Processus itératif
Choix du modèle dépendant de la
structure des données et des
résultats attendus
Risques de modèle
Quelques exemples de modèles :
Régression
Modèles linéaires généralisés
(Binomial / Multinomial, Poisson,
Logistique, Gaussien, Gamma,
Inverse Gaussien, etc.
Séries chronologiques
Arbres de décision (CART, MARS)
Algorithme d’apprentissage
(réseaux neuronaux, clusters, …)
13. Modélisation prédictive
13
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Interprétation
Création de
règles
Diffusion
Déploiement du
modèle
Communication
Difficultés d’interprétation des résultats
Implication du “management” notamment
si les résultats
Iraient à l’encontre des “conventions”
Amèneraient à changer radicalement le
point de vue
Réviseraient profondémentcertains
processus établis
Déploiement du modèle délicat
14. Modélisation prédictive
14
Processus en 5 étapes
1
Objet
2
Données
3
Estimation
4
Analyse
5
Monitoring
Performance du
modèle
Test des résultats
Mise à jour des
données
Evolutions du
modèle
Analyse de la performance du
modèle pour en tester l’efficacité
Validation du modèle au fur et à
mesure de la mise à jour des
données
Recalibration du modèle
15. Etude développée sur le portefeuille d’un bancassureur en Asie
Objectifs
Prévision des décisions médicales sur ses clients existants
Allègement du processus de souscription en réduisant le nombre de cas
nécessitant une sélection médicale traditionnelle
Avantages
Identification des meilleurs risques
Accéleration de la sélection
Augmentation des ventes
Réduction des coûts d’acquisition
Moyens
Construction d’un modèle mathématique (GLM) répliquant les décisions
médicales de la sélection traditionnelle
Exemple n°1 – Predictive Underwriting
15
Présentation
16. Méthodologie
Calibrage du modèle sur le portefeuille d’assurés ayant bénéficié d’une sélection
médicale traditionnelle
Application du modèle à l’ensemble du portefeuille du bancassureur
Portefeuille utilisé pour le calibrage
Environ 9 000 assurés ayant fait l’objet d’une sélection médicale traditionnelle
Environ 8 700 avec une “acceptation standard”
Environ 300 avec une “non acceptation standard” (refus ou surprime)
Exemple n°1 – Predictive Underwriting
16
Présentation
17. Exemple n°1 – Predictive Underwriting
17
Statistiques
Portefeuille sélectiontraditionnelle
18. Logit (E[Yi]) = 𝛽 𝑘
𝑝
𝑘=1 *Xi,k
E[Yi] : espérance de la variable Y (“acceptation standard”) pour l’individu i
Logit : fonction de lien, logit (x) = ln [x /( 1-x)]
𝛽 𝑘
𝑝
𝑘=1 *Xi,k : facteurs explicatifs (prédicteurs)
11 facteurs explicatifs retenus sur les 65 variables initiales dans le
modèle optimal, dont:
Age à la souscription
Sexe
Statut marital (marié, célibataire)
Statut “bancaire” du client (advance, premier, non-premier)
…
Regroupement des individus en 10 groupes de taille égale et calcul
du pourcentage d’acceptation “standard” pour chaque groupe
Exemple n°1 – Predictive Underwriting
18
Modèle Linéaire Généralisé (GLM)
20. Les 20% les meilleurs (vert) sont éligibles à un produit sans sélection médicale
Les 20% suivant (rouge) à un produit avec une sélection simplifiée
Les 60% restant auront une sélection traditionnelle
Exemple n°1 – Predictive Underwriting
20
Résultats
21. Objectif
Détermination de facteurs d’ajustements à des tables de mortalité de base
utilisées pour la tarification
Tables de mortalité de base fonction de/du
Sexe
Age atteint
Duration de la police
Statut fumeur / non fumeur
Ajustements
Utilisation d’un Modèle Linéaire Généralisé (GLM)
Exemple n°2 – Bases de Mortalité
21
Présentation
22. Données d’expérience disponibles
5 années d’expérience: 2005-2009
Nombre de décès durant la période d’étude: environ 18,000
Nombre de combinaisons clients / canal de distribution: 21
Trois facteurs d’ajustements retenus par le modèle
Canal de distribution
Somme assurée
Statut marital: célibataire, marié
Exemple n°2 – Bases de Mortalité
22
Ajustements
23. Model1<-glm(Deaths ~ Channel + SABand + SingleorJoint +
offset(log(Expected)),family=poisson(log), data=DataSet1)
Exemple n°2 – Bases de Mortalité
Deaths = eChannel(i)eSABand(i)eSingleorJoint(i)elog(Expected)
= eChannel(i)eSABand(i)eSingleorJoint(i)Expected
Link Function - log
Modelling Number of deaths
Poisson DistributionOffset term – expected deaths
Co-Variates
Modèle Linéaire Généralisé