V bis Ils pass¨rent commande   Dumouchel d’un .3 Ils se content¨rent de ce qu’ils purent glaner

  • View
    214

  • Download
    0

Embed Size (px)

Text of V bis Ils pass¨rent commande   Dumouchel d’un .3 Ils se content¨rent...

  • http://www.univ-rouen.fr/flaubert

    1

    V bis5

    Ils passrent commande Dumouchel dun ordinateur, identique celui quils avaient vu chez

    M. de Faverges. Si personne naimait la Littrature, ils allaient, eux, lui faire rendre gorge.

    Lobjet arriva, accompagn de quelques traits techniques, quils cartrent. Ils prfrrent se10

    risquer tout de suite sur le Rseau, pour des navigations sans fin, o ils se perdaient.

    Sais-tu que je suis cit deux cents seize fois dans

    ? demandait Pcuchet.

    Bouvard ne ltait que deux fois, et dix-huit dans les exemples fournis par . Il en

    conut un peu de rancune.15

    Ton dictionnaire ne sait mme pas traiter correctement les caractres accentus. Il lui

    montrait !"#!$, transforms en !"%%&!$, empchant ainsi

    toute recherche daboutir.

    Et Flaubert ? Combien de fois est-il cit ?

    Le logiciel ouvrait une fentre spciale pour prciser que ' ()'#20

    et que '*!!)'#puis en restait l. Ce rsultat leur parut bte.

    Un jour, ils dcouvrirent le site de +*'!$, et tlchargrent

    le texte de -,". Nous allons pouvoir le dissquer, et sans doute le comprendre.

    Ils demandrent / une analyse statistique il fallait dabord vrifier lorthographe, la25

    grammaire, et refuser toutes les propositions saugrenues.

    Il y avait 113 923 mots en 21 941 phrases ; la longueur de mot tait de 4,7 (lettres, sans

    doute); la longueur de phrase de 5,2 (mots, srement) ; les substantifs monosmiques

    reprsentaient 70 % ; les *' 57,9 % ; les *** 42,1 %.

    Le total des * fait bien 100 % ! se rjouit Bouvard.30

    La moiti des mots taient signifiants, dont 44,9 % de substantifs, 11,1 dadjectifs, 28,8 de

    verbes et 15,2 dadverbes. Les verbes taient 17,5 % au prsent, 77,9 limparfait ou au

    pass, 1,7 au futur et 3 au conditionnel.

    Mais ce ntait pas tout ! La machine avait effectu delle-mme une analyse qui, aprs

    quelques observations comme la complexit smantique est moyenne ; le style est enlev ;35

    les phrases ont une structuration grammaticale simplifie ; le texte offre un niveau

  • http://www.univ-rouen.fr/flaubert

    2

    dabstraction assez lev , donnait un coefficient de lisibilit de 88 % et dclarait le roman

    du niveau cours lmentaire.

    Essayons avec 0'1!

    100 760 mots et 18644 phrases ; 68,1 % de substantifs monosmiques ; 16,2 % de noms40

    propres. Il ny en a que 12,1 dans ,", lcha Bouvard 8,7 % de prsent, 88 %

    dimparfait / pass ; 1,2 % de futur et 2% de conditionnel. On voyait bien que le roman se

    passait dans lantiquit ! Le texte tait galement conseill pour le cours lmentaire.

    Ils rdigrent un programme : il fallait effectuer des traitements ordonns, mais dabord se45

    constituer un Corpus

    Qutait-ce quun corpus ? Etait-ce une simple collection ? Ou bien fallait-il choisir daprs

    des critres de reprsentativit ? Sinclair avait distingu entre les corpus spcialiss,

    parallles, de suivi, de rfrence et les corpus comparables. Reinert constatait trois moments

    logiques dans llaboration dun corpus : celui de l'hypothse ou dsir de voir posture de50

    tmoin ; celui de l'acte ou dsir de prendre posture de l'acteur ; et celui du constat ou

    dsir de comprendre posture du patient -.

    Bouvard voulait tudier lensemble de luvre de Flaubert, mais Pcuchet les limita celles

    qui avaient t publies en volume Tant pis pour les scnarios, tant pis pour les manuscrits,

    dailleurs, lexception dune petite partie de +* , ils navaient pas55

    encore t numriss.

    Ils cherchrent les textes disponibles en ligne. Tantt lon ne trouvait quune partie des

    uvres, tantt elles taient en mode image impossibles exploiter , tantt assorties de tant

    de fautes de saisie que la dcence aurait d empcher de les publier. Nulle part ntait60

    indique ldition de rfrence. Il y avait tous les formats.

    On trouvait partout ,", souvent * et l*, parfois 0'1 ou le livre

    qui parlait deux.

    Certaines bases, comme ou l, qui paraissaient les plus compltes, taient

    , ,. Pcuchet attaqua les impts. Bouvard se demandait65

    sil tait si difficile de sparer les textes du domaine public, afin de les rendre interrogeables

    par tous.

    '! vendait un CD-ROM, mais presque un an aprs le changement, il tait toujours

    affich en ancienne monnaie. Un courriel envoy pour senqurir du prix en Euros nobtint

    pas de rponse.70

  • http://www.univ-rouen.fr/flaubert

    3

    Ils se contentrent de ce quils purent glaner. Dailleurs le mme problme se posait pour les

    versions imprimes. Il y avait les erreurs de copistes, les lectures hasardeuses de manuscrits,

    les multiples ditions, dont il aurait fallu pouvoir comparer automatiquement les diffrences.

    Fallait-il lemmatiser ? Daprs Bernard, la lemmatisation des textes qui ramne toutes les75

    formes leur forme canonique, telle quelle figure dans le dictionnaire tait depuis

    longtemps un point dachoppement thorique et pratique. Brunet avait rsum la querelle et

    conclu que, chaque fois quil tait possible, il tait prfrable de disposer dun double rseau

    de dcomptes, en formes graphiques et en lemmes. Il ajoutait quil tait de toutes faons

    difficile de trouver un standard pour les corpus lemmatiss, chacun proposant ses propres80

    rgles. Il stait dabord consol en dclarant que la statistique aimait les grands nombres et

    ne rpugnait pas limpuret, avant de se raviser quelque peu pour prfrer les donnes plus

    pures et plus sres.

    Il est vrai que Kastberg avait obtenu des rsultats similaires en comparant une version

    graphique et trois versions des mmes textes lemmatiss selon des mthodes diffrentes.85

    Seuls ces derniers offraient des possibilits danalyses morphologique et syntaxique, les

    corpus graphiques permettant la comparaison des travaux de diffrents chercheurs sur un

    mme ensemble duvres. Peu importait Bouvard le procd. Il voulait sinstruire,

    descendre plus avant dans la connaissance.

    90Comment fallait-il encoder les textes ? Il y avait les bons vieux formats 2 ou 03,

    assimilables par nimporte quelle machine sauf pour les caractres accentus , le , et

    aussi +4- simple langage descriptif de mise en page. Lunification promise par 2-

    qui ntait quune grammaire descriptive devant tre dcline pour chacun de ses usages

    semblait encore trs lointaine. La *, avait dfini des recommandations,95

    mais dans le cadre strict du 2-, qui empchait lutilisation simple de balises chevauchantes.

    Le centre Kolb-Proust sen servait nanmoins pour publier certains de ses documents.

    De quelle manire fallait-il encoder, manuellement ou automatiquement ? Le codage humain

    pouvait sembler le plus sr, mais Fortier avait prouv que dans la plupart des cas, une dizaine100

    de codeurs ne suffisaient pas pour garantir un accord statistiquement significatif entre les

    rsultats. En cela il rejoignait Brudigou et , qui dfinissaient les textes comme des

    donnes, de ce fait justiciables de processus dobjectivation et de formalisation, fruits

    dintentions signifiantes de la part des acteurs et objets de parcours interprtatifs de la part

  • http://www.univ-rouen.fr/flaubert

    4

    des analystes. Celles-ci se retrouvaient jusque dans le choix dun logiciel de codage et de son105

    paramtrage.

    La principale source derreur provenait du processus de codage lui-mme, et risquait de noyer

    toute possibilit de certitude dans une mare d'erreurs prsente dans les donnes de base et

    renforce par l'action des procds statistiques.

    110

    Ce dfaut de certitude les contrariait.

    Et puis, il aurait fallu catgoriser les donnes pour pouvoir les tiqueter, de manire sparer

    les verbes des noms, les prsents des passs, les articles des pronoms. Labb avait

    brillamment plaid pour un tiquetage massif et rigoureux, permettant, en outre, de combiner115

    les formes graphiques et lemmatises. On pourrait enfin disposer de corpus de rfrence, o le

    zro faute serait imprieux.

    - Dire que les anglais disposent dj dun tel outil, riche de 100 millions de mots, se lamentait

    Bouvard.

    Plus sceptique que Labb sur la possibilit dviter toute erreur, Hug nen dveloppait pas120

    moins une mthode pour dsambigiser automatiquement les homographes verbe/nom. Dister

    proposait le traitement des formes homographiques en analysant leur contexte au moyen de

    grammaires locales

    Sais-tu quun tiers des mots de la langue franaise est constitu dhomographes : Je porte

    une porte ; cette bte est bte.125

    Mme si Vronis avait montr que la technique tait encore loin dtre oprationnelle, il y

    avait des perspectives : selon Habert, 3* pouvait aider la correction de textes

    catgoriss. Chaque mot pouvait porter plusieurs tiquettes lemme, catgorie morpho-

    syntaxique, catgorie smantique . Le travail par concordances permettait de regrouper des

    contextes similaires et de propager aisment des corrections. On obtenait une plus grande130

    cohrence.

    Pour linstant, ils dcouvraient le corpus public sur Balzac et Rabelais constitu partir

    d4"!'. Ils savaient que se prparait une version Flaubert. Ils rvaient aux rsultats

    quallaient bientt produire le 5* $*$(# le ' ' 135

    (*# l ,*' $! # le ' +** *# le

    mme en ,, la 5* * et son " *, l4

    ,!!.

  • http://www.univ-rouen.fr/flaubert

    5

    Ils tlchargrent la version de dmonstration. Sans se laisser rebuter par linterface fruste, ils

    y introduisirent le texte du )'", le logiciel gnrant des messages derreur en140

    anglais quand on voulait lui faire absorber le texte complet du roman.

    Ils