avec introduction Bernard CLÉMENT, PhD Copyright C Génistat Conseils Inc. , 2013, Montréal, Canada TABLE des MATIÈRES Data Mining = forage (fouille) des données Partie 1 INTRODUCTION Définition – Applicati Méthodes – Référenc partie 2 or 8 to View ANN : Artificial Neural Network Partie 3 Partie 4 MARS : Multivariate Adaptative Regression Splines : Classification and Regression Tree 2 «confession» 4 Copyright C Génistat Conseils Inc. , 2010, Montréal, Canada LES DONNÉES SONT PARTOUT ! on est dans l’air du BIG DATA Base données relationnelles — commodité de toute entreprise Cl Construction d’immense entrepôt de données (data warehouses) Cl Base de données transactionelles : point de vente (Point Of Sale) immense quantité de données (terabytes) Cl Base de données orientées objet, relationnelles, distribuées, hétérogènes et historiques Cl Base de données spatiales (GIS), remote sensing Base de données scientifiques / ingénierie Cl Données temporelles (e. g. transactions boursières) Text (documents, emails), base de données multimedia Cl WEB: immense, hyperliens, dynamique, système d’information global D Miner ce que les engins de recherche trouvent Web Mining rontière du Data Mining Classification automatique des documents Web D Découvertes de pages Web de référence autoritaire Cl Analyse des structures Web et réseaux Miner l’usage du Web Copyright C Génistat Conseils Inc„ 2010, Montréal, Canada bayesiens, classification, cartes de Kohonen, règles d’association, 6 QUELQUES ÉLÉMENTS DISTINC IFS L’inférence statistique classique ne fonctionne plus pour les très grands ensembles de données: toute hypothèse nulle est rejetée. II faut remplacer les tests de signification par de la validation croisée : on testera si une structure reste valable dans une utre partie des données que celle qui a été explorée pour la définir. Les structures sont-elles valides? Cl Vérifier l’utilité de ce que l’on découvre: corrélation n’est pas causalité D Enjeu majeur: la qualité des données, données manquantes, données aberrantes (outliers) . 7 Copyright @ Génistat Conseils Inc. 2010, Montréal, Canada NAISSANCE du DATA MINING Cl L’évolution des SGBD vers l’informatique décisionnelle avec les entrepôts de données (Data Warehouse). C] La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés: erabytes de données recueillies automatiquement. Développement de la Gestion de la Relation Client (CRM) marketing client au lieu de marketin roduit, attrition, satisfaction, fidéli ité des campagnes pac;F3CFB Réseaux de neuronnes de classement – Segmentation Régression Classification automatique Description synthétique Recherche de dépendances Détection de déviations Méthodes de régression Classification automatique hiérarchique Partitionnement – Réseaux de neuronnes Stat. ?lémentaire (histogramme, moy, écart-type) Outils d’interpréta de classes Méthodes factorielles (ACP) Corrélations Analyse factorielles des corr. (AFC) Réseaux bayésiens Test stat sur les écarts Intelligence artificielle Apprentissage supervisé/ex. règles d’arbre de décision PAGF Conseils Inc , 2010 Montréal, Canada Kantardzic et Zurada (2005) Mining Wafer Fabrication Damage Detection Sensor Array Data Processing Car Driver Assessment Discovery of Patterns in Earth Science Detection in Digital Imagery Experiences in Mining from Computer Simulation Gene Mapping Microarray Data Analysis Gene Expression profiles for the Diagnosis of Diseases Pattern Recognition for Biomarker Discovery
Mining the Cystic Fibrosis Data Learning Strategies for Web Crawling Data Mining for Crime Fighting Data Mining for Intrusion Detection Using Fractals in Data Mining C] Robotics Pattern recognition Image and speech analysis Medical diagnostics and monitorin Loan or credit solicitatio anciens crédits crédits anciens modèle demandes de crédit pour prévoir la solvabilité des demandeurs de crédit solvabilité des demandeurs de crédit? données historiques nouvelles Montant crédit Taux cédit (%) profession Etat civil revenus solvabilité Bootstrap, Forêts aléatoires, SVM, règles d’association 9 Monographies & Articles Berry, M„ Jr, A. , & Linoff, G„ S„ (2000). Mastering Data Mining. New York: Wiley D. Hand (1999): Why data mining is more than statistics write large, ISI,Helsinki, http://www. stat. fi/isi99/index. html D. Hand (2000): Methodological Issues in Data Mining, in Compstat 2000, Physica-Verlag, 77-85, 2000 Edelstein, H„ A. (1999). Introduction to Data Mining and Knowledge Discovery (3rd ed).
Potomac, MD: Two Crows Corp. Fayyad, IJ. M. , Piatetsky-Shapiro, G. , Smyth, P. , & Uthurusamy, R. (1996). Advances ln Knowledge Discovery & Data Mining. cambridge, VIA: MIT press. Friedman J. (1997): Data Mining and Statistics, What’s the Connection? http://www-stat. stanford. edu/-jhf/ftp/dm-stat. ps Friedman J. (1999): The role of Statistics in Data Revolution, ISI, Helsinki, http://www. stat. fi/isi99/index. html Friedman J. (2009): première heure du cours STAT31 SB (Stanford Univ. ) sur le Data Mining (donné à l’hiver 2009) http://myvideos. stanford. edu/ la in Data : An Introduction to Data Mining . John Wiley & Sons. Nisbet R. , Elder, J. Miner, G. (2009) Handbook of Statistical Analysis & Data Mining Apllications, Academic press. ISBN 978-0-1 2-374765-5 Pregibon, D. (1997). Data Mining. Statistical Computing and Graphics, 7, 8. StatS0ft : 35 vidéos de 8-10 minutes sur YouTube http://www. statsoft. com/support/download/video-tutorials/ Tufféry, S. (2007). Data Mining et statistique décisionnelle, Éditions TECHNIP, Paris. Weiss, S. M. , & Indurkhya, N. (1997). Predictive Data Mining: A practical Guide. New York: Morgan-Kaufman. Westphal, C. , Blaxton, T. (1998). Data Mining Solutions. New York: Wiley. Witten, l. H. , & Frank, E. (2000). Data Mining. New York: Morgan- Kaufmann. 0 Monographies sur les réseaux de neurones Bishop, C. (1995). Neural Networks for pattern Recognition. Oxford: University Press. Carling, A. (1992). Introducing Neural Networks. Wilmslovv, LJK: Sigma Press. Fausett, L. (1994). Fundamentals of Neural Networks. New York: Prentice Hall. Haykin, S. (1994). Neural Networks: A Comprehensive Foundation. New York: Macmillan Publishing. Kohonen, T. (1982). Self-organized formation of topologically correct feature maps. Biological Cybernetics, 43:59-69. Patterson, D. (1996). Artificial Neural Networks. Singapore: Ripiey, B. D. (1996). pattern and Neural Networks. Ripley, B. D. (1996). Pattern Recognition and Neural Networks.