Application des logiciels à l’analyse informatisée des données en sciences sociales et humaines

CODESRIA METHODOLOGIQUE sous-REGIONAL SUR LES SCIENCES SOCIALES POUR L’AFRIQUE CENTRALE ET L’AFRIQUE DE L’OUEST FRANCOPHONES YAOUNDÉ / CAMEROUN, 11 – 15 AOUT 2014 COMMUNICATION Application des logici sciences sociales et humaines Dr Affo Fabien Sociologue, PhD Enseignant-Chercheur, ée des données en or 13 Sni* to View Université de Parakou (Bénin) Email. affofabien2000@yahoo. fr Plan de la communication Introduction 1 . Critères de validation d’une recherche quantitative 2.

Généralités sur les logiciels d’analyse informatisée 3. Application du logiciel Sphinx. Plus2 Conclusion D’une manière générale, on distingue deux types de traitement des données d’enquête dans les sciences sociales et humaines. Il s’agit du manuel. Cette évolution peut s’expliquer par le fait que l’élaboration d’une enquête statistique est un travail relativement long. Jadis, les chercheurs en sciences sociales et humaines louaient les services des statisticiens.

En réponse au coût élevé de ces services, à la spécialisation des statisticiens en méthode qualitative, à la concurrence entre chercheurs, et au court délai souvent accordé pour la présentation des résultats de recherche, tout chercheur ontemporain est obligé ? maîtriser quelques logiciels d’analyse. Cela est-il aussi une exigence de certains commanditaires d’enquêtes (les administrations d’Etat, les collectivités locales, les entreprises, etc. ) qui cherchent à mieux comprendre des situations complexes faces auxquelles le traitement manuel se trouve inapproprié.

Il convient d’essayer d’être au plus près des caractéristiques de la population initiale afin d’éviter les biais liés à une sur-ou à une sous représentation de certaine caractéristiques de la population mère. L’analyse manuelle est en train e faire place aux logiciels qui présentent des atouts et quelques ressemblances. 1. 1 Echantillonnage On appelle « populatlon l’ensemble des personnes auxquelles les résultats de l’enquête pourraient s’appliquer.

Le choix des personnes ? enquêter et de leur effectif est une préoccupation fondamentale dans les recherches quantitatives en 13 critères d’inclusion dépendent de l’enquête, des hypothèses et de la technique de l’échantillonnage. Pour extraire un échantillon valide dans une « population le chercheur doit répondre à deux principales questions : combien d’individus enquêtés et quelle technique La taille 2 de Péchantillon peut être déterminée manuellement ou avec Epi- Info. 1 . 1. 1 Détermination manuelle de la taille de l’échantillon La formule de Swart est souvent utillsée pour determiner la taille de l’échantillon. = Z2P(1 — P)/e2 n = taille de l’échantillon 1,96 P = fréquence du phénomène étudié e marge d’erreur tolérée (en sciences sociales, e doit être inférieur à 10%). Cette formule donne souvent, un résultat proche de la détermination informatisée de la taille de réchantillon. 1 . 1. 2 Détermination informatisée de la taille de l’échantillon (Epi- Info) – Ouvri Epi Info ouvnr statcal – Ouvrir Sample Size $ Power – Ouvrir Population Survery – Répondre aux questions que pose le logiciel (Introduction de données) – Validez un tableau s’affiche et propose les différentes tailles de l’échantillon avec leur degré de confiance. . 2 Choix des enquêtés de prédéterminer les intervalles de sélection (pas ou raison = population cible/taille de l’échantillon). Le tirage systématique peut permettre déterminer le taux sondage taille l’échantillon/population cible * 100). Le taux de sondage permet de calculer la proportion de l’échantillon étudié. 1. 2. 4 Tirage stratifié La stratification est une technique de classification en sous- populations relativement homogènes. L’échantillon final est composé des échantillons prélevés indépendamment dans cha ue strate. . 2. 5 Tirage par grappe 3 seuil (ou degré) de confiance. Moins l’échantillon est biaisé, plus grand est le seuil de confiance. 2. Généralités sur les logiciels d’analyse informatisée de données d’enquêtes Dans la recherche de sens ou d’explication des faits, le chercheur produit souvent des données chiffrées ou des données lexicales. Quelle que soit la nature des informations collectées, le chercheur se trouve, à terme, onfronté à des chiffres ou bien à des mots.

Mais qu’il s’agisse d’une base statistique ou lexicologique, le chercheur doit falre à peu près les mêmes exercices intellectuels. Il doit classer, ordonner et surtout comparer. un résultat chiffré, une explication apportée par un interviewé, une observation n’ont de sens que si 4 on les compare avec d’autres éléments. Donc, du point de vue des fondements de l’analyse, il ny a pas de différence entre les deux types de matériaux ? traiter. En revanche, analyser des mots ou des chiffres demande de mobiliser des compétences spécifiques.

Dans le premier cas, il faut être capable de prendre de la distance par rapport aux discours, de faire preuve d’esprit de synthèse ; dans le second, il faut bien entendu, maitriser certaines techniques statistiques et informatiques. Cela devient impérieux lorsque le chercheur a une base importante de données à anal ser. A artir de 10 questionnaires déià, il devient PAGF s 3 2. 1 Conception d’une base de données Une base de données est un ensemble d’informations rassemblées par le chercheur, traduites et stockées dans un langage informatique approprié aux logiciels de statistiques ou de description.

La construction d’une base de données est une opération intellectuelle contrainte en amont par la question de recherche et par la problématique de recherche et, en aval, par le formalise statistique et informatique. Les sources d’une base de données en sciences sociales sont soit des questionnaires, soit des fichiers administratifs, soit des documents discursifs, archives, récits, etc. en nombre suffisamment important. La construction d’une base de donnees clôture en quelque sorte le processus d’élaboration d’un objet de recherche et de constatation du phénomène social.

Les données qu’elle réunit ortent donc en elles-mêmes les traces des choix problématiques et méthodologiques de l’enquête réalisée. 2. 2 Remplissage d’une base de données Que l’on soit amené à élaborer sa propre base de données pour en faire l’analyse principale, ou que l’on utilise une base déjà constituée pour faire de l’analyse secondaire, il est essentiel de connaitre les principes de sa construction. C’est un moyen de se remémorer les choix qui ont présidé à la collecte et l’enregistrement des don PAGF 6 3 e se les approprier et de systématique souvent standardisée une série d’individus.

Ces opérations ermettent de remplir les cases de la base de données. pour réaliser une analyse, il faut disposer d’observatlons en nombre suffisamment important. Il est donc indispensable de sérier les entités étudiées. Le plus souvent, il s’agit de répertorier ou de lister les individus observés, c’està-dire les personnes interrogées ou les dossiers consultés. L’entité ainsi mise en base constitue un nouvel individu statistique, non seulement réduit, simplifié, mais aussi figé. Par convention, il est généralement décrit horizontalement.

Chaque ligne de base de données représente une entité qui peut être repérée par un uméro de code appelé identifiant. Le nom n’étant souvent pas une variable statistique d’analyse. L’identifiant permet de repérer chaque individu de façon complètement anonyme et d’effectuer par exemple des appariements de base de données en toute confidentialité. Il permet également de compléter ultérieurement sa base de données par d’autres informations en s’assurant qu’il documente bien chacun de ses individus, sans en dévoiler ni en connaître personnellement l’identité.

Pour que cette série d’informations soit utile, il faut en systématiser l’observation. Tous les individus doivent être étudiés suivant la ême grille et décrit suivant les mêmes caractéristiques. ‘analyse statistique repose toujours en effet sur l’étude de crit ralement le principe du 7 3 du questionnement de passer une population au crible d’une même série d’interrogations. Par convention, les différents critères étudiés appelés aussi variable dans le langage statistique, sont décrits verticalement. Il est nécessaire que chaque attribut de chaque individu entre dans une case.

L’attribut n’est pas donné de manière extensive, mais le plus souvent standardisé : réduit à quelque modalités d’une catégorie, elles mêmes traduite en angage simplifié par le codage. Celui-cl facilite le stockage des données et 6 l’analyse statistique ultérieure en procédant par simplification formelle des attributs. Malgré ces enrichissements possibles, une base de données est toujours une simplification des faits sociaux qui ne doit pas être perçue uniquement comme une contrainte : l’analyse de la complexité est difficile. ne base de données a le mérite de circonscrire précisément ce qui est pris en compte 2. 3 Quelques logiciels d’analyse de données quantitatives et qualitatives Un logiciel est un programme ou un ensemble de programmes nformatiques assurant un traitement particulier de finformation. Les logiciels d’analyse sont conçus pour faciliter la production et l’exploitation de nombreuses et volumineuses données d’en uêtes. L’analyse des données ne peut plus être PAGF 13 évoluer l’enseignement de l’analyse des données primaires et mêmes secondaires, pour le meilleur mais aussi, parfois, pour le pire.

Il s’agit entre autre du SPSS, du NVivo, du Sphynx. Plus, SPSS dont le sigle anglais signifie « Statistic Package for the Social Sciences est un programme informatique d’analyse de données statistiques Créé par deux étudiants de l’université de Sanford, Norman Nie et Tex Bull, (Administrateurs de SPSS) pour analyser des données en recherche sociale dans les années 60. S p S S est utilisé aussi bien par des chercheurs en économie, qu’en statistique, science de la santé, des compagnies d’études, des chercheurs de l’éducation nationale, sociologie, etc.

Son utilisation comme tout autre progiciel statistique présente des avantages et des limites. L’un de ses avantages est que le SPSS permet une analyse approfondie des données ? travers les tris croisés, les régressions, son principal défaut est u’il n’analyse que des données chiffrées. Par conséquence, toutes les données doivent être codifiées. Ce logiciel offre peu de chance aux analyses de contenu chère aux sciences humaines notamment la sociologie qualitative et l’anthropologie. NVIVO est un logiciel d’assistance pour l’analyse des données qualitatives. C’est un outil qui présente plusieurs capacités innovantes quant ? sa facilité études comparées à très grande échelle. Ce logiciel est très indiqué aux analyses qualitatives. NVivo présente deux défauts majeurs. D’une part, il est trop coûteux (1. 800. OOOfcfa pour deux rdinateurs). Sphinx. Plus2 la présente présentation s’intéressera à l’un des logiciels d’analyse dont l’accès libre est possible et moins coûteux à Fachat (1. 00. OOOfcfa à l’achat à installer sur 6 ordinateurs). Sphynx. Plus2 est facile ? utiliser et peut analyser les données aussi bien quantitatives que Pour les raisons ci-dessus évoquées, Sphynx. Plus2 est en train dêtre adopté par plusieurs chercheurs en sciences sociales et humaines. 3. 1 Installation du Sphinx. Plus2 : théorie et pratique Copier le fichier Sphinx. Plus2 sur le bureau, – Ouvrir ce fichier, – Cliquez sur Sphinx. Plus2, Sélectionnez Sphinx statistlque puis validez. Faites OK NB : sélectionner « nouveau dossier » puis validez, mais ne pas l’ouvrir. 3. 2 Étapes de l’analyse des données avec Sphynx. Plus2 Trois différentes tâches sont nécessaires dans l’analyse informatisée de donnees d’enquête. II s’agit de la conception du masque de saisie, de la saisie de données pour rendre disponible une base de données et de l’analyse des données à travers la consultation des tableaux (à plat, croisés ou multivariés). 3. 2. 1 Masque de saisie Les différentes phases qui ermettent d’analyser les données qualitatives par le