Cours 6 : Les statistiques avec R XVII- Généralités XVIII- Les formules XIX- Les sorties XX- Les fonctions génériques Fonctions d’analyse statistique disponibles Package « stats » : contient les fonctions d’analyse statistique classiques (tests d’hypothèses classiques, modèles linéaires, distributions, résumés statistiques, séries temporelles, analyses multivariées). II est c packages spécifiques statistiques sont disponibles, dist Exemples : essibles avec éthodes arger. lass : fonctions pour classification boot : fonctions bootstrap stats4: fonctions stats utilisant S4 survival : analyse de survie Quelques fonctions dans « stats Modélisation sslogs aov glm lm manova ksmooth (en particulier les fonctions de modélisation) travaillent sur des formules (? formula): fonction (formula=, data formula= de type réponse — prédicteurs data= tableau de données éventuel dans lequel se trouvent les variables dans la formule. éponse = variable à expliquer predicteurs=ensemble des variables explicatives, séparées par des symboles arithmétiques qui ont ici une signification particulière. Exemple de formules • : prédicteur a y-a+b : prédicteurs a et b : autant de modèles que de predicteurs dans M (matrice) — x- 1 ( ou y — 0+ x) : modèle sans terme constant. -log(b) y — a + l(b+c) : predicteurs a et (b+c) y-a:b : interactions de a et b y-a*b : a+b+a:b effets principaux et interaction entre a et b : effets prlnclpaux a et b et interactions du second ordre a+b y=a*b-a:b : a+b Exemples de fonctions travaillant sur des formules Exemple 1 : Régression linéaire simple (RLS) de y sur x ( x et y quantitatives) Exemple 2 : Régression linéaire multiple (RLM) de la fertilité sur l’éducation données) Exemples de fonctions ne travaillant pas sur les formules Exemple 4 : Test du chi2 .
On veut tester le lien existant entre de variables qualitatives X et Y à partir d’un échantillon sous forme de table de contingence (de croisement) > colnames(O)=c(« homme », »femme »); rownames(O)=c(« voyant », »aveugle ») Exemple 5 : Test de student : on veut tester Pegalité entre deux moyennes au vu d’un échantillon de chaque sous-population (XI, . . , Yn2) : . , Xnl) et #Test de student (resp. de Welch) dégalité de moyennes si variances des #variables égales (resp. ff érentes) = rnorm(100, 1 ,1); #avec sous populations identifiées par un facteur à deux niveaux # de stratification >st2=t. test(x—z) XIX- Les Sorties Pour afficher un bref résumé de l’analyse , taper le nom de l’objet créé par la fonction: >regression #exemple 1 call: lm(formula = Y — X) Paramètres estimés. t-test T v. a. de loi T(178. 446) data: x and y t = -0. 2178, 178. 446, p-value = 0. 8278 alternative hypothesis: true difference in means is not equal to 95 percent confidence interval: -0. 648092 0. 2121 608 sample estimates: mean of x : 0. 9544127 mean of y : 0. 9807369 x et y Les fonctions statistiques de R retournent un objet de classe empruntée au nom de la fonction (aov retourne un objet de classe « aov », lm retourne un objet de classe « lm » , les tests retournent bjets de classe « htest » Cet objet contient les résultats de l’analyse. C’est généralement une liste dont l’affichage est déterminé par sa classe (aov() et lm() produisent des listes différentes).
On peut regarder les éléments de l’objet liste crée et afficher les noms de la liste associée par les fonctions attributes() et names(). >names(regression) #ou names(fit) [1] « coefficients’ « residuals » « effects » « rank’ (5] « fitted. values » « assign » « qr » « df. residuali’ PAGF 68. 544191 15. 157573 20 21 -90. 788796 50. 403354 26 27 94. 606969 28210454 4 64. 91 6267 133. 420840 10 -57. 501492 -124. 808049 17 84. 833735 -8. 562422 22 23 39877642 -53. 584722 28 29 21. 132875 -162. 464691 6 84. 429343 2 1 66. 22648 18 -85. 613688 24 8. 778597 « summary. lm » « summary. manova » [7] « summary. mlm » « summary. stepfun » « summaryRprof » [10] « summary’ « summary. connectioni’ i’summary. data. framei’ [13] « summary. Date » « summary. default » « summary. factoff’ [16] « summary. matrix » « summary. POSIXct » « summary. POSIXlt » [19] « summary. table » > summary(regression) Call: Residuals: Min IQ -206. 89 -76. 47 Median 12. 28 Coefficient de détermination (=r2) 61 . 42 Max 192. 04 Tests de student de nullité des coefficients Coefficients: