LabbeLille2014

Identification de l’auteur d’un texte (Hugo, Lamartine, Musset et Vigny) Dominique Labb • e To cite this version: Dominique Labb e. Identification de fauteur d’un texte (Hugo, Lamartine, Musset et Vigny). L’œuvre et son auteur : probl emes d’attribution, May 2014, Lille, France. HAL Id: hal-00995998 https://hal. archives-ouvertes. fr/hal-00995998 Submitted on 26 May Snipe to View HAL is a multi-dlscipli ry archive for the depos documents, whether may come from cientific research t. The documents teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destin  » ee au d’ ep•ot et ‘a la diffusion de documents scientifiques de niveau recherche, publi ‘ es ou non, emanant des etablissements d’enseignement et de recherche franscais ou ‘ etrangers, des laboratoires publics ou priv’ es. Université de Lille-Nord de la France Ecole doctorale – Science de l’homme et de la société Séminaire three authors are clearly identifiable both in their vocabularies as their styles. This helps answering the question « ‘What is an author?  » establishing a kind of « identity card ».

The introduction, in this trial, f Vigny illustrates also how this method can highlight similarities between contemporary authors. Résumé La statistique lexicale permet-elle d’identifier fauteur d’un texte ? En 1988, E. Brunet avait répondu par la négative en utilisant des pièces de théâtre, des romans et des poésies d’Hugo, Lamartlne et Musset. Nous proposons de revisiter cette expérience : débarrassée de ses biais et de ses présupposés, elle montre que ces trois auteurs sont clairement identifiables tant au niveau de leurs vocabulaires que de leurs styles.

Cela permet de répondre ? a question « qu’est-ce qu’un auteur ? » en identifiant les caractéristiques particulières de son vocabulaire et de son style par rapport à ses contemporains. L’introduction de Vigny permet en outre de mettre en valeur des proximités et des influences entre auteurs. Avec quelle force une idée s’empare de nous, comme elle nous fait sa dupe, et combien il faut de temps pour l’user ! (Alfred de Vigny. Servitude et grandeur militaires. Chapitre 1 Pourquoi j’ai rassemblé ces souvenirs).

Répondre à la question « Qu’est-ce qu’un auteur ? » c’est d’abord l’identifier. Notre cerveau ‘a pas cette capacité de même que notre œil n’est pas équipé pour voir les bactéries ou les galaxies lointaines… Faute de l’é uivalent du télescope ou du microscope, la théorie litt PAGF OF ag proposer des critères susceptibles de l’identifier. Quelques cas célèbres comme celui de R. Gary — évoqué par V. Chepiga lors de cette journée d’étude (voir aussi Chepiga 2009) – montrent qu’il s’agit d’une cécité généralel .

De telle sorte qu’une convention s’est imposée : de même que le père d’un enfant est l’époux de la mère, le père d’un texte est celui qui a son nom sur a couverture et, en cas de doute, celui que désignent les éditeurs, les critiques, les universitaires, l’opinion commune… Certains ont déduit de cette impuissance que l’auteur d’un texte anonyme ou d’origine douteuse est définitivement impossible à connaître. Dans les années 1960-70, on a conclu que, pour la critique, l’auteur est mort (Barthes 1968), ou que c’est un lieu vide (Foucault 1969).

Depuis, cette idée – de l’auteur impossible à identifier – s’est emparée de la critique littéraire et des universitaires et – comme le dit A. de Vigny à propos du militarisme – elle les a dupés à tel oint qu’elle ne semble pas prête d’être dissipée. D’autant plus que, en 1988, cette position a reçu un renfort inattendu de la part de deux spécialistes de statistique lexicale (Brunet & Muller 1988), grâce à une expérience présentée comme décisive. Nous allons reprendre cette expérience et montrer que, non seulement, elle permet d’identifier les auteurs mais aussi de les mieux connaitre. . Expérience décisive ou artefact ? En 1988, Brunet et Muller se sont posé la question suivante : la statistique appliquée et l’ordinateur peuvent-ils reconnaître rauteur d’un texte ? La remière partie de l’article, écrite par C. Muller, bien que pessimiste laissait rudemment la porte ouverte, mais E. Brunet la PAGF ag pessimiste, laissait prudemment la porte ouverte, mais E. Brunet la refermait à l’aide d’une expérience présentée comme décisive. Cette expérience portait sur des romans, poésies et pièces de théâtre de trois auteurs (Hugo, Lamartine et Musset).

Selon Brunet l’ordinateur se « trompait » en attribuant systématiquement les romans à un auteur unique, les poésies à un deuxième lui aussi unique et les pièces à un troisième. Il en concluait que l’auteur est mpossible à reconnaitre tant le poids du genre est grand. Depuis lors, E. Brunet n’a cessé de répéter cette conclusion et, après lui, la quasi-totalité des littéraires, de telle sorte qu’aujourd’hui, la cause semble entendue : l’auteur serait impossible ? reconnaitre par informatique.

Cette affirmation correspond si bien à la doxa ambiante que personne ne s’est rendu compte que l’expérience de Brunet n’a pas la portée que lui attribue son auteur. D’une part, la formule utilisée par Brunet ne mesure pas seulement la distance entre les textes mais aussi et surtout leurs différences de longueur. Il en convenait d’ailleurs lui-même dans un autre article contemporain de son expérience où il avouait, ? propos de sa méthode : « on ne peut pas être aveugle à l’inégalité de traitement qui frappe les textes longs et les textes courts. (1 988b, p. 99). En effet, dans cet article, Brunet signalait clairement la dépendance de son indice ? la longueur des textes (p. 83-84). C’est pourtant ce calcul qu’il a appliqué aux trois auteurs. Il est Par exemple, pour le théâ XVIIe, on ienore les 2014). donc logique que l’expérience groupe ensemble les poésies, plus courtes que les pièces de théâtre, lles-mêmes plus courtes que les romans…

D’autre part, personne ne conteste que le genre s’impose aux auteurs – mêmes romantiques et contrairement à ce qu’Huga affirme dans sa préface ? Cromwell (1827) – et que changer de genre c’est un peu changer de langue. L’expérience de Brunet ne fait que confirmer ce lieu commun. Mais elle laisse en suspens la question cruciale : dans un genre donné, n’y aurait-il rien qui singularise un auteur par rapport aux autres écrivains contemporains ? Nous proposons de répondre à cette seconde question en reprenant les mêmes auteurs que ceux sélectionnés par Brunet. Il.

Le corpus pour des raisons qui seront dévoilées au cours de l’exposé, on y a ajouté Vigny qui est exactement contemporain des trois autres, qui a également donné des romans, des pièces de théâtre et de la poésie et qui appartient au même courant littéraire romantique. Nous supposons connus le climat intellectuel de l’époque, la vie et l’œuvre de ces quatre auteurs (voir brève bibliographie à la fin de cet exposé). Le corpus Tableau 1. Le corpus des « quatre auteurs » Auteurs Hugo Victor (1802-1885) Poésie : Les Contemplations 1830-1855) Théâtre (en vers) : Hernan PAGF s 9 (1829-1835)

Théâtre (prose) : Lorenzaccio (1834) André del Sarto (1833) Roman : Confession d’un enfant du siècle (La, 1836) Total Musset Vigny Alfred de (1797-1863) Poésie Livre mystique et livre antique (1826) Livre moderne (1826) Théâtre (prose) : Maréchale d’Ancre (La, 1831) Chatterton (1835) Roman : Cinq-rvtars (1826) Servitude et grandeur militaires (1835) Total Vigny Longueur (mots) 4 Vocabulaire 91 890 17 361 21 080 185 483 564 292 880 106 5 942 2 024 2 668 10 752 17 387 28 283 16 259 OF ag notamment par son roman fleuve (Les Misérables).

Nous avons vu que, dans Pexpérience Brunet, ce déséquilibre joue n rôle important. En pratique, le calcul présenté ci-dessous exige que les longueurs des textes soient comprises dans une échelle de 1 : 7. Les 564 292 mots des Misérables ne sont donc pas directement comparables avec les 12 000 d’André del Sarto. Par découpages et regroupements, on a ramené les dimensions des textes dans la fourchette 5 000-35 000 mots, en respectant les segmentations naturelles : par exemple, les lyres et les tomes des Contemplations, les livres de Notre-Dame de Paris, les tomes et les livres des Misérables, etc.

A titre d’exemple, le tableau 2 donne le détail de ces découpages our Contemplations. Tableau 2. Détail des Contemplations (V. Hugo) Tome 1 Autrefois (1830-1843) 2 Aujourd’hui (1843-1855) Livre 2 6 Titre Aurore L’âme en fleur Les luttes et les rêves Pauca meae En marche 7 OF ag en quelques secondes par l’ordinateur. Mais, pour lui permettre d’effectuer ces opérations, un certain nombre de traitements préalables sont indispensables. Traitements préalables des textes. Ces opérations sont décrites dans : Labbé & Labbé 2013b, Labbé 2002, Labbé 1990.

Elles comportent : Le balisage. En tête du texte, on place les références bibliographiques, la source ?lectronique, la date des traitements. Puis, dans le cœur du texte, des balises isolent tout ce qui n’est pas le texte proprement dit. Par exemple, pour le théâtre, les « didascalies » : noms des acteurs, numéro des actes et des scènes, indications scéniques… Ainsi l’analyse ne porte que sur ce qu’entend le spectateur, selon un principe admis par tous mais rarement appliqué ! – Correction orthographique et standardisation des graphies. ar exemple : M. , Mr. , Monsieur, monsieur… un automate peut reconnaître le même mot dans les trois dernières formes mais la première doit être identifiée à la main : monsieur, Marcel, Maurice, Marie, mètre(s)…? La question n’est pas anecdotique : dans les Misérables, il ya 1 507 « M.  » (soit 2,6 pour mille mots). En fait, il s’agit toujours de « monsieur ». C’est le deuxième substantif. Si l’on n’avait pas attaché à chacun de ces « M.  » une étiquette indiquant sa véritable identité, on aurait fait une cascade d’erreurs : V.

Hugo n’emploie pas « monsieur », la phrase de V. Hugo est plus courte qu’on le pensait, etc… Ide iuscules initiales de vers PAGF BOF ag les noms communs affublés d’une majuscule qui sont très courants dans la poésie). Etiquetage : chaque mot du texte se voit doter dune étiquette où figure sa graphie standard, son entrée de dictionnaire et sa catégorie grammaticale. A « M.  » on associe une étiquette « monsieur, nom masculin ». Ou encore « est » peut recevoir deux étiquettes : « être, verbe indicatif présent » au « est, nom masculin ».

Ces étiquettes ne se substituent pas au texte, elles s’y ajoutent et servent à établir le vocabulaire d’un texte, d’une œuvre, d’un auteur, d’une époque, d’un genre.. et à identifier l’auteur en cas d’origine douteuse ou inconnue. Ill. L’attribution d’auteur par ordinateur Rappelons qu’un lecteur est désarmé quand il lui faut identifier l’auteur d’un texte. De plus, les érudits ne parviennent pas à fonder leurs intuitions – parfois exactes mais toujours invérifiables – sur des critères précis.

Les lunettes pallient à la myopie, le télescope et le microscope permettent à l’œil de voir plus loin ou plus près. De même, l’ordinateur peut reconnaître l’auteur, là où notre cerveau est désarmé. En effet, le cerveau humain a de grandes capacités mais pas celle de garder simultanément en mémoire des centaines de milliers de mots, pour comparer un grand nombre e textes, ce que l’ordinateur peut faire aisément. Cette idée est ancienne (résumé dans Love 2002). Beaucoup de méthodes et d’indlces ont été proposés (présentation d’ensemble dans : Stamatatos 2009 ; Kappel & Al. 009). Nous avons présenté une méthode originale pour la première fois il ya 13 ans (Labbé & Labbé 2001 et en français: é 2003). Un exposé PAGF q OF Un exposé détaillé – en français et destiné aux non-mathématiciens – est disponible en ligne dans Images des mathématiques, revue des mathématiciens du CNRS destinée à un large public (Labbé & Labbé 201 la). Voir également : avoy 2012. Méthode Soit deux écrivains (A et B). On demande à l’ordinateur de comparer chaque texte de A avec chaque texte de B et de compter les différences au sein de chacun des couples ainsi formés.

Le nombre des différences forme la distance qui varie uniformément entre 0 (tous les mots sont communs) et 1 (aucun mot commun). Par exemple, une valeur de 0,20 signifie qu’un mot sur cinq est différent ou encore que des mots sont communs. Cette distance est une réalité physique, comme le nombre de kilomètres séparant deux villes. Elle présente les propriétés d’une distance dans un espace uclidien : identité, symétrie, inégalité triangulaire (ce qui permet un certain nombre d’opérations qui seront évoquées dans la suite de cet exposé).

En dessous d’une certaine distance, on peut conclure que les deux textes ont été écrits par le même auteur et que – s’ils ont publié sous des noms différents – l’un des deux a été la plume de l’ombre de l’autre. Cette méthode a été mise au point selon les protocoles les plus rigoureux. comportant notamment de nombreuses expériences en aveugle (les textes sont choisis par des tiers, anonymés, l’auteur étant ‘expérience). Plusieurs de