Acp

ANALYSE DES DONNEES Rachid Jahidi Définition L’analyse des données est un processus qui permet de transformer une masse d’informations en information structurée permettant la prise de décision 10/1 1/2014 cours ADD R. JAHIDI 2 or 13 Sni* to View méthodes de l’analyse des donn es les méthodes pour décrire les méthodes pour expliquer R. Jahidi Le programme simples et multiples • M. Tenenhaus : Méthodes statistiques en gestion • Y. Evrard ; B. Pras Roux : Market étude et recherche en marketing. 0/11/2014 7 sold 2305 1 5259 1236 8241 6210 871 1 580 9630 4230 3620 10258 23698 3698 231 501 3693 963 1 5802 502 7896 27896 5687 1269 13 • Ensemble de techniques multivariées qui ont pour but principal de réduire et de résumer les données. • Une technique d’interdépendance dans laquelle toutes les variables sont considérées simultanément. R. JAHIDI Les objectifs de l’analyse en composantes principales Décrire un tableau individusnvariables Résumer le tableau à Paide d’un petit nombre de composantes – Visualiser les corrélations entre les varlables – Interpréter les composantes

Visualiser le positionnement des individus les uns par rapport aux autres 12 L’ACP permet une analyse des diverses varlables statistiques définies sur les caractères étudiés. Elle permet de construire des variables artificielles ( car non mesurées mais calculées à partir des données ui « expliquent  » l’ensemble d PAGF 13 représentation d’une population afin – de repérer des groupes d’individus, homogènes VIS à vis de l’ensemble des caractères. – de révéler des différences entre individus ou groupes d’individus, relativement ? l’ensemble des caractères. e mettre en évidence des individus au comportement atypique. – de réduire l’information qui permet de décrire la position d’un individu dans l’ensemble de la population. 16 Visualisation des données F2(i) FI (i) 3 -,467 -,241 MDEC -,277 722 I ,OOO -,123 -,048 -,306 -,357 -,063 NBPR -,393 1 ,ooo 775 ,503 297 766 NEMP -,290 -,179 , 775 333 -,211 -,331 PAGF s 3 caractéristiques de cet individu. • Chaque individu peut être représenté par un point défini par p coordonnées et être considéré comme un élément dun espace F appelé espace des individus. ??? L’ensemble des n individus est alors un nuage de points de F noté N 30 Un premier point est de calculer la distance entre individus. La distance entre deux individus sera donc la longueur du segment joignant les deux points de l’espace qui représentent les deux individus. 31 32 • La dispersion du nuage autour de son centre de eravité est opération de projection. L’inertie du nuage projeté est donc maximale. 35 36 C) principe de l’ACP Réduction de l’espace de représentation des individus par la définition de nouvelles variables « synthétiques » pour esquelles la variance (inertie) est maximale : les composantes principales. 7 • La première composante principale est celle pour laquelle la variance des individus est maximale. • La deuxième composante est cherchée sous deux conditions : – Avoir une corrélation nulle avec la première composant 7 3 la première composante et les variables initiales permet de donner un sens à la composant • Mesure de la qualité globale de la première composante : part d’inertie expliquée 42 4- Qualité de représentation des individus sur le premier axe principal ?? Est mesurée par le cosinus carré de l’angle formé par Vindividu et le premier axe principal. ?? Plus le cosinus est proche de 1 plus le point est proche de l’axe Dl . 43 E) Recherche du deuxième axe principal et de la deuxième composante principale 3 par le cosinus carré deuxième axe principal. • plus le coslnus est proche de 1 plus le point est proche de l’axe D2. 48 Le processus se déroule jusqu’? l’obtention des p axes principaux et des p composantes principales 49 propriétés • Les composantes principales sont centrées et non corrélées entres elles. ?? L’inertie expliquée par chaque axe principale = variance de la composante associee. ?? Les composantes sont classées par ordre décroissant des varlances. 50 représenté suivant ces coordonnés selon les deux premières composantes prlncpales. • Il sera bien représenté lorsque le point est proche du plan principal. 53 • La variable est représentée selon ces corrélations avec les deux premières composantes. • Elle sera bien représentée lorsque le point est proche du cercle de corrélation. 54 Matrice des composantes a Composant e SOLD ,603 , 541 213 N DEC -,762