Elaboration des mod eles de Scoring pour les particuliers Lamrani Alaoui Youssef propos’ e par: Mme AKDIM Universit ‘ e Cadi Ayyad,Facult e des Sciences et Techniques de Marrakech,lng• enieurie en Actuariat et Finace 24 octobre 2014 Lamrani Alaoui Youss e par: Mme AKDIM Elaboration des mod eles de Scoring pour Plan Introduction 2 le cr• edit Scoring 3 4 OF46 Swip page l’exploration et le traitement des donn ees am ericaine en se basant sur les techniques classiques de data mining comme la r egresslon logistique et les arbres de d’ ecision ainsi que les nouvelles m thodes de l’intelligence artificielles • a savoir :les r • eseaux de neurones ,les vecteurs ‘a support machine et les for » ets al’ eatoires et ‘a la fin compar- e ces diff erents mod• eles gr- ace ‘a des indicateurs de performance comme le taux de bon classement, la courbe ROC et l’aire sous cette courbe Lamrani Alaoui Youssef propos ‘ Elaboration des mod’ eles de Scoring pour les particuliers Cr’ edit Scoring ? D ‘ efinition un des probl emes principaux auxquels font face les banques c’est leur incapacit’e ‘a d’ eterminer avec certitude si le client va honorer es engagements et rembourser l’emprunt en totalit ‘ e, ou s’il va simplement faire d’ efaut. Le scoring a ‘et’ e d’ evelopp’e dans cette optique, avec des outils de plus en plus pointus. Selon le langage courant, le terme score peut signifier « classement », « r’ esultat » , « marque » etc. En statistique, c’est Fid’ ee de « classement » qui est surtout retenue. ar Le scoring (statistique) se r’ esente en effet comme un ensemble de m ‘ ethodes un classement d’individus 2 4E Scoring pour les particuliers Classement et Classification quelle diff’ erence ? la classification signifie en effet la mise en evidence de roupements inconnus dans une population. En revanche, un classement d’ esigne toute m ethode d’affectation des individus d’une population dans des groupes d’ efinis a priori. Une m ethode de scoring c’est une technique statistique permettant de classer un individu dans l’un des quelques groupes d’ efinis ‘a priori et ce au vu de certaines caract eristiques de cet individu. type de score dans la gestion des entreprises Le Score d’app ‘ etence, Utilis • e notamment en marketing le score d’app etence est une mesure de la propension d’acheter d’un client.
En pratique, on utilise notamment ce type de score pour appr ecler la probabilit’e d’un client d’Aetre int’ eress• e par un nouveau produit. Le Score de risque ou de comportement est une mesure de la probabilit•e pour un client de subir un certain • eva enement d • efavorable pou l’entreprise. Cexemple typique est le c utilis’ e par les banques 4E par: Mme AKDIM l’exploration et le traitement des donn ‘ ees Pr esentation des donn ees dans cette partie on va analyser un • echantillon de 5960 Individus 13 variables import ees de la bblioth ‘eque SAS de la base de onn ‘ ees SAMPSIO. HMEQ,il y a des variables qui sont propres clients et des autres relatives au cr ‘ edit. ‘est une base qui concerne une entreprise de services financiers qui offre ‘a ses clients qui ont un Pr -et hypoth ‘ ecaire avec elle,la possibilit•e davoir un Cr’ edit variable BAD CLAG CLNO DEBTINC DELINQ DEROG JOB LOAN YOJ VALUE 4 E Traitement des valeurs manquantes Les donn ees manquantes constituent un probl eme majeur, puisque l’information • a disposition est Incompr ete et donc moins fiable. ll est n ecessaire de traiter correctement les DM avant d’effectuer es analyses statistiques. Les donn ‘ ees manquantes (DM) ont de multiples causes : non r’ eponse totale :ll peut Aetre impossible de contacter une personne s ‘ electionn ‘ ee pour faire partie d’une enqu- ete non-r- eponse partielle : un r’ epondant peut refuser de r epondre a une ou plusieurs questions . Une mauvaise saisie de l’information peut ‘ egalement g’ en ‘ erer des DM. des DM peuvent aussi « etre caus ‘ es par rexistence de donn ‘ ees aberrantes qui doivent « etre supprim ees avant d » effectuer des analyses.
M ‘ ethodes de traitement de donn • ees manquantes Exclure du fichier de donn ees tous les individus ayant au moins une donn ee manquante l’imputation simple qui co s E lacer chaque donn ‘ ee imputations afin d’obtenir m valeurs pour chaque donn • ee manquante, et • a combiner ensuite les statistiques calcul ees ind’ ependamment sur les m jeux de donn ‘ ees. Lamrani Alaoui Youssef propos dans notre etude on a opt’e pour l’imputation multiple et cela revient ‘a plusieurs raisons : Sous l’hypoth ese MAR, MI produit des estimations non biais es ainsi que des variances non biais • ees M’ ethode tr’ es flexible Large disponibilit ‘ e des techniques de Ml dans les logiciels de statistique Statistiques discr ‘ eptives l’examen des statistiques univari ‘ ees des variables nous permet de d etecter les valeurs manquantes et de s’assurer SI la distribution des variables comporte des valeurs extr•emes ou aberrantes. es statistiques bivari ‘ ees 6 E d’ etecter les liaisons AKDIM Statistiques discr eptives Un aper,cu global de notre base de donn ‘ ees nous r’ ev• ele que pourcentage des donn ees manquantes est entre 1 % et 9% pour toutes les variables ‘a l’exception de la variable DEBTINC dont le ourcentage des donn ees manquantes d • epasse 21 le pourcentage des donn ees manquantes pour ladite variable d eppasse 15% alors on va renoncer ‘a l’exploiter. pour les autres variables fait appel au package (mice) de R et qui va nous permettre de faire une imputation multiple par equation en chaine RAISON 1000 1 ooo E 15 Oe+OO 60000 4e+05 NINQ 10 0 30 600 70 CLAC Figure: bonite • a moustaches des diff’ erentes variables continues d’aplatissement(test de Jarque Bera). e+05 1500 4 e + 05 oe+00 8e+05 20 30 6 Theoretical Quantiles Figure: repr- esentation du qq-plot pour les diff’ erentes variables estes de Normalit ‘ e et Normalisation des variables Interpr• etation Les figures qui pr ec• edent en haut nous indique que la totalit ‘ e variables ne sont pas normale cette constatation est confirm ee par un teste de Lillifors comme p value est tr • es petite ;inf• erieur • a 0. 05 ce qui rejette l’hypoth ese de normalit•e pour toutes les variables, le m -eme r’ esultat obtenu par le teste de jarque Bera du package « tseries » de R, d’O u la n • ecessit• e de l’utilisation du Th eor eme Centrale Limite. etude de d’ ependance entre variables 0 6