Projet R

or 10 Sni* to View INTRODUCTION…. pARTlE I LOGICIEL R.. 4 PARTIE 2 AFFICHAGE DES DONNE… . accomplissant chacun une tâche spécifique. R est ainsi à la fois un logiciel et un langage de programmation, permettant de combiner les outils fournis dans des analyses poussées, voire de les utiliser pour en construire de nouveaux. Dans un premier temps on va essayer d’aborder l’utilité du logiciel et en second temps on va voir comment il traite les données ? Pourquoi choisir l’utilisation du logiciel R ?

Mon choix du logiciel R relève de plusieurs considérations parmi esquelles : la gratuité ; L’utilisation de plus en plus répandue dans l’enseignement supérieur et les organismes de Recherche (INRA, INSERM, CNRS… ) ; un langage de programmation interactif facile ? Apprendre, permettant aussi bien la mise en œuvre des méthodes de la description statistique Et de l’inférence, même les plus récentes, que la programmation de simulations probabilistes Simples ou complexes ; une bibliothèque de fonctions très fournie, rassemblées dans des « Packages » et proposées sur internet par une communauté de développeurs, spécialistes des

Méthodes qu’ils proposent ; la possibilité de construire ses propres fonctions ; des graphiques D’une grande qualité et d’une grande variété ; des outils mathématiques comme le calcul Matriciel, l’intégration numérique, l’optimisation… R est un logiciel de développement scientifique spécialisé dans Le calcul et l’analyse statistique.

R est aussi- 1 -un langage, 2- un environnement, 3- un projet open source (pro’et GNLJ 4- un loeiciel multiplatefor PAGF 10 c, Windows), Mac, Windows), R est un logiciel libre basé sur le logiciel commercial S (Bell Laboratoires), Il est aussi un environnement dédié aux tatistiques et à l’analyse de données. Le terme environnement signifie, que l’ensemble des programmes disponibles forme un tout cohérent, modulable et extensible au lieu d’être une simple association de programmes accomplissant chacun une tâche spéciale.

R est ainsi à la fois un logiciel et un langage de programmation, permettant de combiner les outils fournis dans des analyses poussées, voire de les utiliser pour en construire de nouveaux. Un autre avantage est qu’il est tres facile de se constituer sa propre boîte à outils que l’on utilisera sur plusieurs jeux de données, et e sans avoir à réinventer la roue à chaque fois. R est disponible pour beaucoup de plates-formes, dont Unix/l_inux, MacOs et Windows.

R est un logiciel de la famille ; Les logiciels GNU sont nombreux et divers comme les compilateurs C, C++ et fortran (gcc), les librairies, Les éditeurs de textes (Emacs), les environnements (GNOME), les logiciels de calcul scientifique (Octave), l’édition (TEX, LATEX) les jeux d’échec (chess) etc. R (ou GNLJ-R) est un logiciel de statistiques interactif et interprété. Il fournit un langage de commande Très souple et qui est ouvert : il possède des interfaces vers ‘autres programmes comme C et Fortran. En outre il est le proche cousin de Splus qui est un logiciel payant.

Il permet entre autre – la manipulation de données, les opérations mathématiques classiques (cos, sin etc… ), les nombres complexes, les données discrètes, l’algèbre linéair 10 mathématiques classiques (cos, sin etc… ), les nombres complexes, les données discrètes, l’algèbre linéaire – les techniques statistiques comme, la régression, les modèles GLM, la régression non-linéaire, le Bootstrap, les arbres hiérarchiques, les arbres de régression, les techniques multi ariées, les nombres Aléatoires et les distributions, les séries chronologiques etc… les représentations graphiques histogrammes, diagrammes en bâton, box plot, camemberts, lissage, -Arbres, dessins 2D et 3D, courbes de niveaux, dessins conditionnels etc… Pour visualiser les données, je peux taper le nom de robjet dans lequel Je les ai mises : >mydat Mais il y en a beaucoup et je ne vois plus le début. Je peux utiliser la Commande Head pour voir juste les premières lignes : >head (mydat) HeureObs pH Temp 1 12. 68083 3 10 2 3 10 3 40. 44077 3 10 640. 60031 3 10 12 65. 31 6533 10 4 67. 8254 3 10 Affichage (1) Affichage de chaînes de caractères : fonction cat >cat (prénom [l], »est l’ami 0 fonction s’adapte au type d’objet considéré. Pour une matrice : 47 258 (3,1 369 On verra que ce sera le cas aussi pour des objets plus complexes (Résultats de tests, objet résultant de procédures statistiques,… ). Affichage (3) Le résultat de printpeut être renvoyé vers un autre objet (comme Souvent dans R). Essayez : ye-print(x) pour écrire directement dans une chaine de caractères, on dispose de la Fonctionpaste: >nomfich<-paste ("dataset", >nomfich [1] « datasetl . t » Là encore, un ou plusieurs éléments peuvent être des vecteurs : 1 B, sep= » L ») [1] « data. l » « data. 2 ‘ « data. 3″ Affichage (4) La syntaxe de pasteest la suivante paste(.. „ sep –  » collapse = NUL L) Les ‘ ‘ représentent autant d’arguments que l’on veut, que la fonction va Coller en les séparant par le ou les caractères spécifiés dans sep. Avec collapse, il est possible de demander à ce que le résultat soit Concaténé dans une seule chaîne de caractères, séparées ? chaque fos Dans la chaîne finale par un ou plusieurs caractères : « data 1 [1] « datal +data2+data3 » e-i’ ‘ [1] « dataX1… ataX2… data PAGF s 0 84 5 25 45 65 85 6 26 46 66 86 LI] [2] [3] L4] 1,5] (15,] 15 35 55 75 95 [16,] 16 36 56 76 96 [17,] 17 37 57 77 97 [18,] 18 38 58 78 98 [19,] 19 39 59 79 99 [20,] 20 40 60 80 100 #description data=lJSArrests attach(data) data #les noms Names(USArrests) [1] « Murder » « Assault » #les moyenne mean(Murder) [l] 7. 788 mean(Assault) [1] 170. 76 mean(LJrbanpop) [1] 65. 54 mean(Rape) [1] 21. 232 #variable *variance de assasinat var(Murder) (1] 1897047 #variableAssault var(Assault) [1] 6945. 66 « UrbanPop » « Rape » 6 0 median : Calcul de la médiane d : Calcul de l’écart-rype (standard déviation en anglais) var : Calcul de la variance La variable x désigne un vecteur contenant les données que l’on souhaite traiter. Les données consistent en des nombres entiers, réels ou complexes, le calcul étant également possible sur des dates. Ces fonctions disposent de paramètres dont la description complète est donnée dans la documentation de R. Par exemple, le plus fréquemment x est un vecteur, c’est le cas de l’exemple ci-dessous. [1]4. 833333 [1]5 [1]7. 766667 >sd(x) [1]2. 86874 La fonction median() ne peut pas être utilisée sur un data. rame. pour les autres fonctions, voilà ce que l’on obtient • 2, 7,4), B 2,4, 1)) 3. 53. 0 Svar(df) A B A 7. 0000000-0. 3333333 B -0. 33333333. 3333333 2. 645751 1 -825742 La moyenne a donc été calculée sur chacune des colonnes du data. Frame, le résultat est un vecteur, indexe par le nom des colonnes de df. Si m lors = rn[‘A’] = 3,5. PAGF 7 0 des matrices > m 3,4, 5, 6, 7, 7, 8), 4, 2) (2,137 [4,158 [1]5. 125 >median(m) [1]5. 5 (1. ]2. 9166671 _3333333 I . 3333330. 6666667 >sd(m) [1]1. 70782510. 164966 La moyenne et la médiane ont été calculées sur l’ensemble des coefficients de la matrice. La fonction varo calcule la matrice de covariance, et la fonction sd() calcule le vecteur des écart-type de chacune des colonne de m. Que faire si des valeurs sont absentes ? Le paramètre na. rm est un paramètre qui peut prendre les valeurs TRUE ou FALSE, par défaut sa valeur est FALSE. na. rm = TRUE : force le calcul en ne tenant compte que des valeurs présentes ; na. rm = FALSE : interdit le calcul lorsque des valeurs sont absentes. 6, 3, NA, 9, 6) (11163 NA 96 >mean(x) >mean(x, na. m = TRUE) 0 combiner un langage de Programmation avec la possibilité de réaliser des graphiques de ualité. Les Graphiques usuels s’obtiennent aisément au moyen de fonctions pruderies. Ces dernières possèdent de très nombreux paramètres permettant par exemple D’ajouter des titres, des légendes, des couleurs, etc. Mais il est _également possible D’exécuter des graphiques plus sophistiques permettant de représenter des Données complexes telles que des courbes de surface ou de niveau, des volumes Aches avec une et 3D, des courbes de densité, et bien d’autres choses encore.

Il vous est _également possible d’y ajouter des formules mathématiques. Vous Pouvez aussi agencer ou superposer plusieurs graphiques sur une même fenêtre, Et utiliser de nombreuses palettes de couleur par exemple ; Plot(x) Trace le graphe des valeurs de x ordonnées sur faxe des abscisses plot(x,y) sunflowerplot(x. y) Trace le graphe de y en fonction de x Idem mais les points superposés sont dessinés sous forme de fleurs Dont le nombre de pétales correspond au nombre de points Pie(x) Boxplot(x) moustaches » de x Stripplot(x) sur une ligne Trace un graphe en camembert Trace le graphe en « boîtes et interaction. lot(fl ,f2,x, fun=mean) Trace le graphe des moyennes e x en fonction des valeurs des facteurs f1 (sur l’axe des abscisses) et f2 (plusieurs graphes) coplot(x_yjz) Trace le ra he bivarié dexetypo et f2 (plusieurs graphes) race le graphe bivarié de x et y pour chaque valeur de z (ou un petit intervalle de valeurs de z) R Est un logiciel libre offrant un panel d’outil statistique de visualisation et d’analyse très Complet.

La communauté des utilisateurs de augmente très rapidement si bien que les Méthodes les plus récentes sont disponibles très vite via les packages fournit par le CRAN. Le site du CRAN recueille également toutes les informatlons utiles ? la compréhension et L’utilisation de. On peut y trouver une liste de publications (livres et articles) liées ? Ainsi que des documents d’explications des méthodes statistiques développées : www.

R-project. org/doc/bib/R-publications. html et www. cran. r project. org/other-docs. html On trouve également sur le site du CRAN un FAQ (Frequently Asked Questions). Le – FAQ! » est régulièrement mise à jour et est consultable à l’adresse suivante: www. cran. r-project. org/doc/FAQ/R-FAQ. html Les listes de discussions de -hel ! » sont une source intéressante d’informatio 11)