94
SYLED - CLA2T Université de la Sorbonne Nouvelle - Paris 3 Explorations textométriques Volume 2 : séries textuelles chronologiques Sous la direction de André Salem et Serge Fleury A. Salem, J-M. Leblanc, Li-Chi Wu, S. A. de Sousa 2009

Explorations textométriques. Volume 2

Embed Size (px)

DESCRIPTION

Nous avons rassemblé plusieurs compte-rendus d'expériences réalisées avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassemblées ici ont été choisies pour mettre en évidence la très vaste gamme des domaines d'application des méthodes textométriques.

Citation preview

  • SYLED - CLA2T Universit de la Sorbonne Nouvelle - Paris 3

    Explorations textomtriques

    Volume 2 : sries textuelles chronologiques

    Sous la direction de

    Andr Salem et Serge Fleury

    A. Salem, J-M. Leblanc, Li-Chi Wu, S. A. de Sousa

    2009

  • 2 Explorations textomtriques

  • 3 Explorations textomtriques

    Nous avons rassembl plusieurs compte-rendus d'expriences ralises avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassembles ici ont t choisies pour mettre en vidence la trs vaste gamme des domaines d'application des mthodes textomtriques ainsi que les fonctionnalits des logiciels Lexico3 et mkAlign. Elles sont publies sous la forme de trois volumes (volume 1 : corpus et problmes, volume 2 : sries textuelles chronologiques, volume 3 : corpus multilingues). Lexico3 http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/ mkAlign http://tal.univ-paris3.fr/mkAlign/

    Lexicometrica http://www.cavi.univ-paris3.fr/lexicometrica/

  • 4 Explorations textomtriques

    Fonctionnalits de Lexico3

    Tableau des fonctionnalits

    Pour prsenter les fonctionnalits mises en uvre dans les sections suivantes, nous avons runis ci-dessous les diffrentes icnes associes aux fonctionnalits vises dans leur contexte dutilisation :

    Fentre/barre principale

    Fentre carte des sections Fentre PCLC

    Fentre groupe de formes

    Le tableau ci-contre rassemble, nomme et prsente brivement lensemble des fonctionnalits du logiciel Lexico3 utilises pour mener bien l'exploration textomtrique propose dans les sections suivantes. On pourra aussi se reporter aux diffrents manuels du logiciel disponibles en ligne.

  • 5 Explorations textomtriques

    N Nom Paramtres Localisation icne 1

    SEGMENTATION

    Liste de dlimiteurs Par dfaut : .,:;!?/_-\"'()[]{}$

    Barre principale

    3 CONCORDANCE Forme (ou Type Gnralis) Barre principale

    4 SEGMENTS REPETES

    Barre principale

    5

    PCLC

    Une fois la partition construite, on peut accder au tableau prsentant les Principales Caractristiques lexicomtriques de la partition.

    Barre principale

    6

    PARTITION

    Une cl dfinissant une partition dans le corpus original est du type : Cest le nom de la cl qui est donn ici pour construire la partition vise

    Barre principale

    6 VENTILATION Forme ou groupe de formes 7 CARTE DES

    SECTIONS dlimiteur de section Barre principale

    8

    GROUPE DE FORMES

    Cette fonctionnalit produit des listes de formes quil est possible de mmoriser, dexporter ou de projeter sur les graphiques construits par Lexico3. Elle permet surtout de faire des recherches de formes ou de groupes de formes en utilisant la notion dexpression rgulire.

    Barre principale

    5.3 AFC Fentre des PCLC

    5.1, 7.2

    SPECIFICITES (POSITIVES NEGATIVES)

    Partie ou section du corpus

    Fentre des PCLC

    Carte des sections

    Lexico3, Tableau des Fonctionnalits

  • 6 Explorations textomtriques

    Glossaire segmentation - opration qui consiste dlimiter des units minimales dans un texte. Les units minimales (pour un type de segmentation) - units que lon ne dcompose pas en units plus petites pouvant entrer dans leur composition (ex : dans la segmentation en formes graphiques les formes ne sont pas dcomposes en fonction des caractres qui les composent) caractres dlimiteurs / non-dlimiteurs : distinction opre sur l'ensemble des caractres qui entrent dans la composition du texte, permettant aux procdures informatises de segmenter le texte en occurrences (suite de caractres non-dlimiteurs borne ses extrmits par des caractres dlimiteurs). On distingue parmi les caractres dlimiteurs: - les caractres dlimiteurs d'occurrence (encore appels "dlimiteurs de forme") qui sont en gnral : le blanc, les signes de ponctuation usuels, les signes de pranalyse ventuellement contenus dans le texte. - les caractres dlimiteurs de squences : sous-ensemble des dlimiteurs d'occurrence correspondant, en gnral, aux ponctuations faibles et fortes contenues dans la police des caractres.

    - les caractres sparateurs de phrase : (sous-ensemble des dlimiteurs de squence) qui correspondent, en gnral, aux seules ponctuations fortes. forme ou "forme graphique" : archtype correspondant aux occurrences identiques dans un corpus de textes, c'est--dire aux occurrences composes strictement des mmes caractres non-dlimiteurs d'occurrence partition (d'un corpus de textes) : division d'un corpus en parties constitues par des fragments de texte conscutifs, n'ayant pas d'intersection commune et dont la runion est gale au corpus. ventilation (des occurrences d'une unit dans les parties du corpus) : La suite des n nombres (n = nombre de parties du corpus) constitue par la succession des sous-frquences de cette unit dans chacune des parties, prises dans l'ordre des parties motif : un ensemble d'objets possdant une proprit reconnaissable. analyse factorielle : famille de mthodes statistiques d'analyse multidimensionnelle, s'appliquant des tableaux de nombres, qui visent extraire des "facteurs" rsumant approximativement par quelques sries de nombres l'ensemble des informations contenues dans le tableau de dpart. spcificit positive : pour un seuil de spcificit fix, une forme i et une partie j donnes, la forme i est dite spcifique positive de la partie j (ou forme caractristique* de cette partie) si sa sous-frquence est "anormalement leve" dans cette partie. De faon plus prcise, si la somme des probabilits calcules partir du modle hypergomtrique pour les valeurs gales ou suprieures la sous-frquence constate est infrieure au seuil fix au dpart spcificit ngative : pour un seuil de spcificit fix, une forme i et une partie j donnes, la forme i est dite spcifique ngative de la partie j si sa sous-frquence est anormalement faible dans cette partie. De faon plus prcise, si la somme des probabilits calcules partir du modle hypergomtrique pour les valeurs gales ou infrieures la sous-frquence constate est infrieure au seuil fix au dpart partie (d'un corpus de textes) : fragment de texte correspondant aux divisions naturelles de ce corpus ou un regroupement de ces dernires. section : portion de texte comprise entre deux dlimiteurs de section (exemple : le paragraphe, etc.). segment rpt (ou polyforme rpte) : suite de forme dont la frquence est suprieure ou gale 2 dans le corpus.

  • 7 Explorations textomtriques

    Les expressions rgulires avec Lexico3 Dans les sections qui suivent on utilisera plusieurs reprises la notion dexpression rgulire en particulier travers la fonction GROUPE DE FORMES . Nous rappelons ci-dessous brivement cette notion et les diffrents oprateurs disponibles avec Lexico3 pour crire de telles expressions. Les expressions rgulires permettent de reprsenter de manire gnrique des motifs textuels : un motif est un ensemble d'objets possdant une proprit reconnaissable, par exemple tous les mots termins par le suffixe able ou commenant par le prfixe pr . Les expressions rgulires permettent ainsi de dcrire des portions de texte laide doprateurs particuliers. Le tableau suivant rassemble lensemble des oprateurs disponibles avec Lexico3 pour crire des motifs sous la forme dexpression rgulire :

    Oprateur Fonction Application

    . (le point) Reprsente n'importe quel caractre L'expression "m.l" reprsente des squences comme : mal, mol

    * 0 ou n occurrences du caractre qui prcde L'expression "com*e" reprsente des squences comme : coe, come, comme, commme

    + 1 ou n occurrences du caractre qui prcde L'expression "com+e" reprsente des squences comme : comme, commme,

    \b Reprsente un dbut de mot L'expression "\bcapital" reprsente des squences comme : capital, capitale, capitalisme

    \b Reprsente une fin de mot L'expression ".*isme\b" reprsente des squences comme : syndicalisme, capitalisme

    [ ] Reprsente un ensemble de caractres

    L'expression "[aeiou]" reprsente des squences comme : un des caractres de l'ensemble des voyelles minuscules. L'expression "[a-z]" reprsente un des caractres minuscules compris entre a et z.

    [^ ] Reprsente la ngation du contenu de l'ensemble

    de caractres

    L'expression "[^aeiou]" reprsente un des caractres parmi ceux qui ne sont pas ceux de l'ensemble des voyelles minuscules

  • 8 Explorations textomtriques

    Sommaire Fonctionnalits de Lexico3 ...................................................................................................... 4

    Tableau des fonctionnalits .................................................................................................... 4 Glossaire ................................................................................................................................. 6 Les expressions rgulires avec Lexico3 ................................................................................ 7

    Tutoriel n2 : Sries textuelles chronologiques...................................................................... 9 1 Lanalyse des sries textuelles chronologiques : analyses de la srie textuelle Duch8M ... 9 2 Rechercher les formes prototypiques de lvolution ......................................................... 13 3 Faire varier lchelle danalyse ......................................................................................... 22 4 Organiser le retour au contexte ......................................................................................... 23 5 Proposer une interprtation ............................................................................................... 25 6 Conclusion ......................................................................................................................... 26 7 Rfrences ......................................................................................................................... 26 8 Principales fonctionnalits Lexico3 utilises ..................................................................... 27

    Vux prsidentiels ................................................................................................................. 29 1 Contexte de la recherche ................................................................................................... 29 2 Affinits et contradictions lexicales .................................................................................. 29 3 Loriginalit Gaullienne ? ................................................................................................. 30 4 Analyse factorielle et temps lexical. ................................................................................. 32 5 Des ethos fortement contrasts - Spcificits des marques nonciatives ......................... 32 6 Registres personnels ou chronologie ? .............................................................................. 33 7 Rfrences ......................................................................................................................... 37 8 Fonctionnalits Lexico3 utilises dans cette navigation .................................................... 37

    Essai de textomtrie politique chinoise ................................................................................. 38 1 Contexte de la recherche ................................................................................................... 38 2 Recueil des donnes, prparation du corpus ..................................................................... 40 3 La srie chronologique 1921-2007 .................................................................................... 44 4 Explorer les dimensions chronologiques du corpus .......................................................... 52 5 Faire varier les chelles de lanalyse : un corpus restreint (1982-2007) ........................... 60 6 Conclusion ......................................................................................................................... 67 7 Rfrences ......................................................................................................................... 67

    Le discours de Fidel Castro. Essai de lexicomtrie politique. ............................................ 68 1 Contexte de la recherche ................................................................................................... 68 2 Le corpus ........................................................................................................................... 70 3 Exploration lexicomtrique ............................................................................................... 72 4 Conclusion ......................................................................................................................... 94 5 Rfrences ......................................................................................................................... 94

  • 9 Explorations textomtriques

    Tutoriel n2 : Sries textuelles chronologiques

    [STC] Andr Salem

    [email protected]

    Apprendre : 1. Constituer une srie textuelle chronologique 2. Reprer la structure chronologique 3. Reprer les formes prototypiques de lvolution 4. Utiliser les outils danalyse chronologique 5. Organiser le retour au texte

    Les sries textuelles chronologiques sont des corpus constitus par la runion de textes similaires produits par une mme source textuelle au cours dune priode de temps. Comme nous allons le voir, la prise en compte de la dimension chronologique de tels corpus permet de mettre en vidence des variations qui surviennent au cours du temps dans lemploi du vocabulaire, de mettre en vidence des moments importants dans lvolution de celui-ci1. Lanalyse des sries textuelles chronologiques sappuie sur une srie de mthodes tout particulirement adaptes ces objectifs. Les 96 livraisons qui constituent le corpus Duchn constituent un dcoupage en units trop tnues pour permettre aux analyses quantitatives de mettre en vidence des variations chronologiques. Comme nous lavons vu plus haut, les analyses opres partir de ce type de dcoupage font ressortir des oppositions qui concernent avant tout des diffrences stylistiques dans la confection des diffrents numros. Nous allons voir dans ce qui suit que ds que lon regroupe les livraisons publies au cours de la mme semaine, de la mme quinzaine ou du mme mois les analyses textomtriques mettent en vidence des volutions chronologiques lies lvolution du vocabulaire au cours du temps.

    1 Lanalyse des sries textuelles chronologiques : analyses de la srie textuelle Duch8M

    La partition du corpus Duchn en huit parties regroupant chacune les livraisons parues au cours dun mme mois permet de centrer plus prcisment nos observations sur lvolution du vocabulaire au cours de la priode couverte par le corpus.

    1 Sur lanalyse des sries textuelles chronologiques on consultera, par exemple [Salem 1993].

  • 10 Explorations textomtriques

    1.1 Typologie sur les 8 priodes LAFC ralise partir de ce regroupement en 8 parties met en vidence met clairement en vidence la proximit relative des priodes conscutives et leur chelonnement dans le temps.2

    Figure 1 AFC sur le corpus Duchn

    8 priodes dun mois x 1420 formes de frquence 10 1.2 Interprtation des analyses chronologiques

    ==== Repre mthodologique ==== leffet Guttman

    LAFC ralise partir des sries textuelles chronologiques produit souvent des figures particulires, dont linterprtation doit tre faite selon des rgles spcifiques. Lexistence dune volution progressive du vocabulaire au fil des parties dun corpus chronologique induit un systme de distances particulier sur lensemble des parties soumises lanalyse : les parties conscutives dans les temps se rvlent plus proches entre elles

    que les parties spares par une priode de temps plus important.

    2 Les traits rouges qui relient les parties conscutives dans le temps on t rajouts par nous sur le rsultat de fournis par lanalyse. Signalons que lon rencontre trs rgulirement ce genre de rsultats lorsquon analyse des corpus chronologiques (cf. [Salem 19xx]).

  • 11 Explorations textomtriques

    La dcomposition de ces distances selon les diffrents axes de la reprsentation factorielle constitue alors une suite dapproximations progressive plutt plus complexes que le phnomne relativement simple dont elles rendent compte.

    Le schma thorique correspondant une telle volution est le suivant : le premier facteur rend compte dune volution linaire. les facteurs suivants sont des fonctions de degr plus lev (2, 3, 4, etc.)

    de ce premier facteur.

    Lanalyse des corpus chronologiques rels relve pour partie de ce schma mme si dautres oppositions peuvent venir perturber le schma thorique dcrit plus haut. :

    Pour en savoir plus : P on consultera par exemple : Salem, A. : Approches du temps lexical , in Histoire et mesures, XXXXX, Klincksieck, 19xx Guttman 1941]. On trouvera un expos plus accessible dans [Benzcri 1973] p 192-196, et des applications dans [Van Rijckevorsel 1987]..

    Figure 2 Les facteurs issus de lanalyse du scalogramme 20 x20

  • 12 Explorations textomtriques

    Guide de lecture pour la figure 2

    On voit sur cette figure les valeurs prises par les cinq premiers facteurs issus de lanalyse du scalogramme 20x20. Les points dessinent une parabole sur le plan des deux premiers facteurs si on les relie dans cet ordre. L'tude des facteurs suivants montre que ces derniers sont galement des fonctions, de degr suprieur, du premier facteur. La prise en compte de facteurs supplmentaires apporte, dans ce cas, une information d'ordre systmatique qui est peu intressante.

    Tableau 1

    Scalogramme de dimension 20 x20

    C C C C - C C C 1 2 3 4 - 18 19 20 L1 1 1 0 0 - 0 0 0 L2 1 1 1 0 - 0 0 0 L3 0 1 1 1 - 0 0 0 L4 0 0 1 1 - 0 0 0 ............................... L18 0 0 0 0 - 1 1 0 L19 0 0 0 0 - 1 1 1 L20 0 0 0 0 - 0 1 1

    Le modle de leffet Guttman nous fournit un clairage important pour comprendre la disposition des parties sur la courbe prsent la figure 1. Devant des rsultats de ce type on vitera donc de commenter sparment les oppositions constates sur chacun des axes factoriels pris isolment. Le schma classique de l'interprtation d'une typologie que l'on affine au fur et mesure par la prise en compte de nouveaux axes factoriels doit faire place la reconnaissance d'une situation caractristique globale lie l'existence et la dominance d'une gradation progressive. Au del de cette mise en vidence, le modle danalyse attire notre attention sur les moments particuliers de lvolution lexicale. La particularit de lvolution constate ici propos de lvolution de la srie Duch8M tient au fait que la priode M7 ne sinscrit pas totalement dans lvolution densemble. 1.3 Retour lanalyse des tableaux lexicaux A la diffrence du scalogramme soumis lAFC dans la section qui prcde, les tableaux lexicaux tels que celui que nous avons soumis lAFC la section 1 comptent en gnral plusieurs dizaines de milliers de cellules. De plus, ces tableaux rsultent de dcomptes rels effectus sur des textes et non dune construction formelle comme ctait le cas pour le scalogramme. Si les rsultats issus de lanalyse factorielle applique ces deux tableaux prsentent des similitudes, ils prsentent aussi des diffrences profondes. Dans les tableaux lexicaux, la proprit dautocorellation des facteurs ne concerne pas tous les facteurs issus de lanalyse bien que les premiers facteurs possdent en gnral cette proprit. De plus, comme on a pu le vrifier sur la figure 1, le schma des distances que lon construit sur la base dun tableau lexical ne prsente pas la rgularit de celui que lon obtient partir dun scalogramme. Comme dans le cas du scalogramme, les premiers facteurs issus de lAFC du corpus Duch8M possdent la proprit de rapprocher les priodes conscutives dans le temps. Cette proprit dune variable sappelle lautocorrlation. On vrifie sur la figure XX que tel est bien le cas pour le premier facteur issus de lanalyse du tableau (1420 formes x 8 priodes).

  • 13 Explorations textomtriques

    Lexprience prouve que dans le cas de lanalyse des tableaux raliss partir de sries chronologiques

    -0,4

    -0,3

    -0,2

    -0,1

    0

    0,1

    0,2

    0,3

    M1 M2 M3 M4 M5 M6 M7 M8 F1

    Figure 3

    Le premier facteur issu de lanalyse du tableau 8 priodes dun mois x 1420 formes de frquence 10

    1.4 Mesures de contigut

    ==== Repre mthodologique ==== le coefficient de Geary

    Parmi dautres coefficients du mme type, le coefficient de Geary permet de mesurer lautocorlation dune srie de nombres : x1, x2, xn. Une valeur faible du coefficient indique que les valeurs successives sont en moyenne plus proches Pour en savoir plus : Lebart, L., Salem, A. : Statistiques textuelles, Paris, Dunod, 1994.

    2 Rechercher les formes prototypiques de lvolution

    La disposition des 8 parties que lon voit sur la figure 1, nous laisse penser que lvolution dans le temps de la srie Duch8M nest pas compltement rgulire. Des formes voient leur importance crotre au cours du temps mais on peut penser que cette croissance connat un ralentissement en M7 pour reprendre dans la huitime priode. Une des premires questions qui se posent est celle de mettre en vidence tout ou partie de lensemble des formes lexicales dont le profil ressemble cette volution. Plusieurs mthodes statistiques peuvent nous aider mettre ces formes en vidence3. Dans ce qui suit nous avons 3 A partir des rsultats de lAFC, les formes possdant une coordonne factorielle positive et galement pourvues dune forte contribution relative au facteur constituent de bons candidats pour ce type de slection.

  • 14 Explorations textomtriques

    slectionn une classe de formes construite par une mthode de classification hirarchique partir des profils des formes.

    Figure 4

    Quelques formes prototypiques de lvolution de la srie Duchn8M

    Dans une classe plus large qui contient : patriotes, meilleurs, complots, surplus, accusent, victoire, rjouissance, modrs, revient, tricherie. 2.1 Calcul des spcificits chronologiques Le calcul des spcificits chronologiques permet de mettre en vidence les formes qui ont une ventilation particulirement centre sur une priode ou un groupe de priode conscutives du corpus.4 Ce calcul signale comme le fait le plus saillant, sur lensemble du corpus, la rpartition de la forme patriotes centre sur la priode M6.

    Tableau 2 : Spcificits chronologiques majeures du corpus Duchn

    4 Sur le calcul des spcificits chronologiques, on consultera [Salem 1993] et [Lebart & Salem 1994]

  • 15 Explorations textomtriques

    Guide de lecture pour le tableau 2 Le tableau fournit les spcificits chronologiques majeures calcules pour le corpus Duchn muni de la partition en 8 priodes dun mois. La premire colonne du tableau indique le terme pour lequel le diagnostic de

    spcificit chronologique a t calcul ; la seconde F. donne la frquence du terme dans lensemble du corpus ; la troisime f la frquence de ce mme terme dans la priode considre ; la quatrime Coeff. fournit le coefficient de spcificit chronologique calcul pour

    le terme et la priode ; on trouve dans la dernire colonne la priode pour laquelle le diagnostic a t

    calcul.

    ==== Repres mthodologiques ==== Spcificits chronologiques Accroissements spcifiques

    Pour chaque unit textuelle (forme, segment rpt, etc.) dun corpus divis en priodes, le calcul des spcificits chronologiques permet de dterminer lintervalle temporel (priode ou groupe de priodes conscutives) au cours duquel cette unit connat un emploi spcifique maximal (positif ou ngatif). Les spcificits ainsi calcules sont ensuite tries par coefficient de spcificit dcroissant (i.e. les plus remarquables en tte) afin de mettre en vidence les distorsions les plus remarquables dans lemploi des termes par les diffrentes priodes (ou groupes de priodes conscutives). Pour chaque priode du corpus ( partir de la seconde), le calcul des accroissements spcifiques permet de mettre en vidence le vocabulaire et les segments dont lutilisation connassent un accroissement particulirement

  • 16 Explorations textomtriques

    important au cours de la priode (accroissements spcifiques positifs) ou au contraire ceux dont lutilisation se rarfie brutalement aprs une utilisation plus intensive accroissements spcifiques ngatifs).

    Pour en savoir plus : Pour un expos et des exemples dapplication de lanalyse des spcificits ltude des corpus de textes, on consultera par exemple : Salem, A. : Approches du temps lexical , in Histoire et mesures, XXXXX, Klincksieck, 19xx Lebart, L., Salem, A. : Statistiques textuelles, Paris, Dunod, 1994.

    Les diagnostics suivants concernent, dans lordre dcroissant dimportance : labondance des formes constitution et paris dans les deux premires parties du corpus puis, plus loin dans la liste, dautres diagnostics dont plusieurs concernent nouveau la priode M6 (phlippotin, nouvelle, etc.)

    ==== Lexico3 ==== Liste des spcificits chronologiques

    9 Slectionner licne PCLC (5 me icne partir de la gauche) 9 Slectionner une partie ou un groupe de parties 9 Appuyer sur le bouton SpecDia ( droite de la fentre) 9 Les rsultats apparaissent dans un onglet spcifique dans la fentre centrale. On peut

    trier ces diagnostics en cliquant sur le titre de chaque colonne.

    2.2 Calcul des accroissements spcifiques

    Tableau 3 Spcificits majeures pour les formes et les segments rpts

    dans la priode M6 du corpus Duch8M

    Terme Frq. Tot. Frquence Coeff. patriotes 152 60 18 *phlipotin 13 13 13 les patriotes 91 36 11 nouvelle 46 21 9 c est l que 10 8 7 *vincent 15 10 7 est l 36 15 6 l que 12 8 6 c est l 28 13 6 conspirateurs 48 18 6 ai 202 48 6 les 4748 687 6 accuser 10 7 5 diviser 16 9 5 mes 120 30 5 contre 298 60 5 les meilleurs 31 13 5gnraux *sans culottes 10 7 5 aristocrates 133 32 5

  • 17 Explorations textomtriques

    Forme Frq. Tot. Frquence Coeff.patriotes 111 60 21

    les patriotes 68 36 13 *phlipotin 13 13 11

    *vincent 10 10 9 nouvelle 42 21 8

    les 3667 687 8 conspirateurs 35 18 7

    *camille 8 8 7 gnraux *sans culottes 7 7 7

    *bouchotte 9 8 7 c est l 24 13 6 diviser 13 9 6

    aristocrates 94 32 6 *phlipotins 6 6 6

    est l 30 15 6 c est l que 10 8 6 les meilleurs 22 13 6

    ai 179 48 5 victoires 7 6 5 victoire 20 11 5

    mes 101 30 5 contre 243 60 5 l que 12 8 5

    accuser 9 7 5 en rjouissance de 8 6 5

    meilleurs 29 13 5 rjouissance 8 6 5

    les conspirateurs 19 10 5 en rjouissance 8 6 5

    des patriotes 10 7 5

  • 18 Explorations textomtriques

    Figure 5

    2.3 Un vocabulaire offensif Lanalyse des spcificits positives (units textuelles particulirement abondantes dans chacune des parties du corpus) montre que le caractre le plus marquant de cette volution lexicale rside dans laugmentation progressive, particulirement remarquable dans la sixime partie M6, dun vocabulaire dont on peut remarquer quil est li au conflit politique et que nous appellerons, dans le cadre de cette tude, vocabulaire offensif. Ce vocabulaire, relativement sous-utilis dans les premires parties du corpus (M1, M2, M3) connat par la suite une utilisation croissante qui trouve un paroxysme en M6. Du point de vue de cette volution densemble, la priode M7 marque un net recul dans lutilisation de ce vocabulaire qui sera nouveau utilis en M8. On trouve la figure 6 la ventilation dans les 8 parties du corpus de quelques-unes des formes les plus caractristiques de cet ensemble : les formes patriotes, nouvelle, conspirateurs5. Comme on le voit sur cette figure, le schma de lvolution frquentielle de ces formes, exprim la fois en terme de frquence relative ( gauche) et en termes de spcificit ( droite), correspond bien au type dvolution chronologique que nous avons dcrit plus haut.

    5 J.C Deroubaix a propos dappeler ces formes, particulirement reprsentatives dun type de distribution remarquable des parangons de leurs classes respectives.

  • 19 Explorations textomtriques

    Figure 6 Ventilation des formes patriotes, nouvelle, conspirateurs

    dans les 8 priodes du corpus Duch8M

    ==== Lexico3 ==== Statistiques par parties

    9 Slectionner licne Statistique par parties (6 me icne partir de la gauche) 9 Slectionner une cl pour crer une partition du corpus (ici : mois) 9 Traner sur la fentre ainsi cre une ou plusieurs forme ou un groupe de formes 9 Choisir le mode de reprsentation (frquence relative, absolue ou spcificit)

    en slectionnant sous le graphique le bouton correspondant.

    2.4 Vers une smantique de corpus Examinons maintenant la liste des formes les plus spcifiques de la partie M6 (tableau 3). Pour plusieurs de ces formes : conspirateurs, accuser, diviser, fripons, etc., lappellation vocabulaire offensif parat tout fait lgitime dans la mesure ou ces termes vhiculent dans leur dfinition et dans tous leurs emplois discursifs une charge polmique vidente. Pour des termes comme aristocrates ou phlipotins (partisans dun certain Phlipot), une connaissance, mme superficielle, de la priode historique permet de reconstituer la charge polmique que ces termes ont pu revtir dans le contexte de la lutte rvolutionnaire. La situation est plus dlicate lorsquil sagit dexpliquer lappartenance cet ensemble de formes comme nouvelle, meilleurs, etc. auxquelles on a pas coutume dattacher de valeur polmique dans la langue courante. Pour comprendre la raison de la prsence de ces formes dans des situations de conflit, il nous faut retourner lensemble des contextes de leur utilisation. Sur le tableau 4, les contextes de la forme nouvelle lintrieur de la partie M6 du corpus ont t tris en fonction de la forme qui suit le ple. Un rapide examen de ces contextes permet de vrifier que, si lon excepte les quelques occurrences de la forme qui renvoient la forme substantivale une (bonne/mauvaise) nouvelle, la majorit des contextes renvoie la forme adjectivale une nouvelle X. Dans un second temps, on peut vrifier que les contextes droits de cette forme adjectivale renvoient le plus souvent des entits auxquelles le contexte

  • 20 Explorations textomtriques

    historique permet dattribuer une valeur ngative, ex : une nouvelle *vende6, soit des entits prsentes comme ngatives par lemploi de formes explicitement dprciatives (une nouvelle clique daristocrates, une nouvelle clique de modrs).7 Dans ces contextes, les entits auxquelles on fait allusion renvoient des ennemis X dont on pensait stre dbarrass dans un pass rcent. Ladjectif nouvelle X introduit lide que la lutte nest pas termine et quil convient de la poursuivre.

    Tableau 4 Concordances pour les formes nouvelle et meilleurs

    dans la priode M6 du corpus Duch8M

    Partie : 06, Nombre de contextes : 21 lipoterie ; s ' il propose de former une nouvelle *vende en mettant en libert ses bons recruter tous les brigands et former une nouvelle *vende en proposant d ' ouvrir les pri e est venu son secours . " formons une nouvelle *vende , lui a dit l ' animal cornu , andelle ; je savais qu ' il existait une nouvelle clique d ' aristocrates , de modrs , colre du *pre *duchesne . de voir une nouvelle clique de modrs , de feuillants , d ' gtemps que je furetais pour dcouvrir la nouvelle conspiration qui est maintenant sur le courriers extraordinaires ont apport la nouvelle d ' une nouvelle victoire , on a annonc lus . la convention vient de recevoir la nouvelle de la destruction totale des brigands ; bonnets rouges . ces *sans - culottes de nouvelle fabrique se sont rpandus dans les sect l dbite gratis . au dnouement de cette nouvelle farce contre - rvolutionnaire , nous d ont unis , ne sera pas le jouet de cette nouvelle intrigue . aprs avoir sauv la *france ' est pas assez , il faut savoir quelle nouvelle liste civile paye les rhapsodies qu ' i a *vende , ou plutt pour en former une nouvelle , mais suivons pied boule notre endor rahisons , serait le conntable de cette nouvelle majest gorgeante ; *brissot serait so urs desseins . quand je dcouvre quelque nouvelle manigance contre les *sans - culottes , : victoire , vive la rpublique . grande nouvelle , mes amis , leur ai je dit ; femmes , ommres , en rjouissance de cette bonne nouvelle , qui donne le coup de grce aux aristo parole . voil , mon vieux , une grande nouvelle qui va faire gueuler , dans tous les co uronns , quand ils vont apprendre cette nouvelle . sa grande colre contre certains jean dinaires ont apport la nouvelle d ' une nouvelle victoire , on a annonc que les lignes dtruire , lui donnent au contraire une nouvelle vie . ils tiennent les patriotes en hal Partie : 06, Nombre de contextes : 13 vention mme ; cries , gueule contre les meilleurs *montagnards , accuse le comit de sal s manigances des *phlipotins contre les meilleurs citoyens , et surtout contre les gnr u plus d ' audace ? celui qui traite les meilleurs patriotes de bourreaux , d ' assassins s osent lever la crte , et accusent les meilleurs patriotes de tous les coups de chien q nt de sauver la rpublique ; dnonce les meilleurs patriotes . " le monstre *phlipotin la porte de ce comit pour accuser les meilleurs patriotes . les amis de la royaut , l artes la convention , en dnonant les meilleurs patriotes pour faire revenir sur l ' e elle branches se raccrocher accusent les meilleurs patriotes pour qu ' on les oublie , ou , et tous les nains qui asticotaient les meilleurs patriotes sont rentrs cent pieds sous ents de *pitt et *cobourg , accusent les meilleurs rpublicains , et les *sans - culottes vu les plus vils intrigants accuser les meilleurs rpublicains ; je me doutais bien que s sa fureur de mordre et de dchirer les meilleurs rpublicains on l ' touffera comme un ssassiner la patrie , qui ont gorg les meilleurs rpublicains subirent tous le supplice

    Lexamen des contextes de la forme meilleurs dans cette mme partie M6, montre que cette forme introduit une distinction, particulirement insistante dans la priode M6, parmi des catgories dactants prsents jusqualors comme positives dans leur totalit. Lapparition de ladjectif meilleurs devant chacun de ces groupes induit la question de lhtrognit de la catgorie et la possibilit de lexistence dintrus parmi les gens susceptibles de sen rclamer. Pour plus de clart, les meilleurs X sont dailleurs prsents comme faisant lobjet dintrigues,

    6 La Vende est une province franaise qui a connu un soulvement arm contre le pouvoir rvolutionnaire. Ce soulvement fait lobjet dune rpression trs dure, qui apparat comme termine lpoque o sont produits ces textes. 7 Un examen similaire sur les contexte de la forme nouveau montre un fonctionnement identique de la forme (nouveau complot, nouveau coup de chien), cette fois dans la partie M5 du corpus.

  • 21 Explorations textomtriques

    de manigances, daccusations diverses de la part dennemis plus difficiles identifier. Dans ce sens, la spcificit de la forme meilleurs dans la partie M6 peut tout fait tre rattache au vocabulaire offensif signal plus haut. 2.5 Le cas de la forme les La forme les, que la mthode des spcificits signale comme particulirement reprsente dans la priode M6 du corpus Duchn8M, mlange, compte tenu de la mthode de segmentation en formes graphiques utilise depuis le dbut de cette exprience, les occurrences de larticle dfini pluriel les et celles du pronom personnel homographe. De plus, comme dans la plupart des textes rdigs en franais que nous avons tudis, cette unit est trs frquente dans le corpus (4 748 occurrences). Quelle signification peut-on accorder la prsence abondante des occurrences de cette forme dans les parties qui recourent fortement au vocabulaire que nous avons qualifi doffensif ? Lanalyse des segments les plus frquents commenant par la forme les nous donne quelques indications. Comme on pourra le vrifier en annexe B, en se reportant une liste plus fournie de ces segments, larticle dfini les introduit souvent les actants, en majorit hostiles, que nous avons voqus plus haut en les constituant comme des groupes dont lunit ne peut pas tre remis en cause au moment de lnonciation : les patriotes (91 occ.), mais aussi : les tratres (86 occ.), les aristocrates (75 occ.), les fripons (64 occ.), les brigands (63 occ.), etc.. Par consquence, la condensation des occurrences de , la ventilation de cette forme graphique constitue galement un indicateur de laccroissement du discours offensif que nous avons voqu lus haut. Ce que lon peut vrifier dans le paragraphe prsent ci-dessous titre dexemple.

    [ 487] // les *brissotins, comme les jean-foutres de conseillers de *capet, ont perscut les patriotes et les ont accus galement d'tre des anarchistes. on se sert aujourdhui d'un autre mot pour avilir les ardents rpublicains. on les appelle des ultra-rvolutionnaires, parce que les mots de factieux et de dsorganisateurs sont uss; mais foutre, le peuple ne prendra pas le change, ce sont encore les aptres du modrantisme, les amis de la royaut et les aristocrates dguiss qui les accusent. //

    Figure 7

  • 22 Explorations textomtriques

    Ventilations des termes patriotes, les et tous les dans les 8 priodes du corpus Duch8M

    3 Faire varier lchelle danalyse

    Comme on la vu plus haut, la division du corpus Duchn en 8 priodes dun mois permet de mettre en vidence une volution du vocabulaire employ au fil du temps qui ntait pas reprable sur le corpus dcoup en units trop fines (les 96 numros). On peut voir sur la figure XX, le rsultat dune analyse portant sur le mme corpus dcoup cette fois en 16 parties correspondant chacune un intervalle de temps de deux semaines. Les quinzaines ont t numrotes laide de deux chiffres. Le premier de ces chiffres correspond au mois de parution galement mentionn dans lanalyse en 8 parties. Le second indique sil sagit de la premire ou de la seconde quinzaine.

    .

    Figure 8 AFC sur le corpus Duchn

    16 priodes dune semaine x 1420 formes de frquence 10

    Comme on le voit sur cette seconde analyse, la partition du corpus en units plus fines amne des rsultats un peu moins lisibles, du fait de la plus grande variabilit de ces parties. En revanche, lanalyse permet cette fois de porter des jugements sur des priodes de temps plus courtes et par la mme de tenter de produire un commentaire qui colle de plus prs la chronologie des vnements. Tout le problme devient alors de faire le dpart entre les variations qui traduisent des modifications chronologiques survenues sur des priodes courtes, hautement pertinentes pour le chercheur, et des variations qui sont mettre sur la rduction de la taille des units

  • 23 Explorations textomtriques

    statistiques dans lesquelles sont effectues les dcomptes.8 On note que pour cette seconde analyse opre sur le dcoupage en quinzaines, les parties proches dans le temps occupent toujours des positions voisines sur le premier plan factoriel. Si lon conserve le modle dinterprtation chronologique propose partir de lanalyse en 8 parties, on peut prciser le scma dvolution propos plus haut en situant dsormais ds la premire quinzaine de la partie 7 le repli opr par le Pre Duchesne par rapport lvolution chronologique densemble du vocabulaire.

    4 Organiser le retour au contexte

    Il nous reste vrifier en retournant au contexte que lhypothse de la monte dun vocabulaire offensif rend bien compte de lvolution lexicale au sein du corpus tudi. Sur le tableau XX nous avons projet le type constitu par les formes les plus spcifiques de la partie M6. Le logiciel a ensuite calcul, pour chaque section, la spcificit attache ce type dans chacun des paragraphes du corpus. Un seuillage de ce diagnostic a permis de colorier de manire diffrencie les paragraphes. Les paragraphes en couleur sombre contiennent en principe un nombre important de formes et de segments appartenant au type tudi (ici, le type : formes les plus frquentes du vocabulaire spcifique de la partie M6). Remarquons quin certain nombre de ces parangons nappartiennent pas la partie M6. on en conclura que ces parangons extrieurs anticipent (pour ceux qui sont situs dans la priode M5, par exemple) lexpression particulire qui va avoir lieu dans la priode M6. Le parangon situ dans la priode M8 constitue au contraire un cho de cette expression Parmi dautres parangons signals en couleur sombre, le paragraphe slectionn au tableau XX rvle une tonalit particulirement offensive. Aux formes qui ont servi construire le type viennent sajouter plusieurs formes comme : rebelles, malveillants, bourreaux, assassins, ecraser que leur faible frquence a cart de notre slection mais qui auraient tout fait leur place dans liste des termes polmiques.

    ==== Lexico3 ==== Reprage des parangons pour un type donn

    9 Construire le type que lon dsire spatialiser (forme, groupe de formes, liste ...) 9 Construire une carte des sections en fixant un dlimiteur de section ( 2.1) 9 Traner le type sur la carte des sections 9 Cocher la case seuillage (en haut sur la carte des sections) aprs avoir

    ventuellement modifi le niveau des seuils (bouton gauche de cette case)

    8 Plusieurs modles statistiques ont t proposs par les statisticiens pour aider les chercheurs face ce type dinterrogation.

  • 24 Explorations textomtriques

    Tableau 5 : Reprage des parangons pour un type donn

    H328 [ 447] celui qui traite les meilleurs patriotes de bourreaux, d' assassins, et qui en mme temps s' apitoye sur le sort des aristocrates, n' est il pas un conspirateur, qui veut rallier tous les malveillants, encourager tous les tratres pour les armer contre la rpublique? n'est il pas un rebelle contre les dcrets de la convention /.../ les faux patriotes, les fripons qui ne savent plus quelle branche s'accrocher, ttent les modrs et les aristocrates; ils cherchent faire cause commune pour craser ensemble les hommes purs qui les pourchassent.

    4.1 Les types caractristiques Une slection ou zone textuelle est un ensemble doccurrences slectionnes dans le corpus. Une zone peut tre constitue par un ensemble de partie, de paragraphes ou de phrases conscutives ou non ou encore par une slection arbitraire doccurrences parpilles dans le texte. Pour une zone donne, on appellera type caractristique, ou type spcifique toute liste des formes constitues par les formes les plus caractristiques de la zone. Dans lexemple ci-dessus, les formes les plus caractristiques prleves parmi les spcificits majeures de la partie M6, dont nous avons analys la ventilation dans les paragraphes du corpus constituent donc un type spcifique pour la zone M6. Le type caractristique prsent plus haut nous a permis de localiser les parangons de la partie M6 (paragraphes particulirement saturs en formes spcifiques de la partie M6). Le graphique prsent la figure 9 permet dapprcier lvolution de ce que nous avons appel le vocabulaire offensif dans un dcoupage plus fin du corpus.

  • 25 Explorations textomtriques

    Figure 9 :

    Ventilation dans les 32 semaines du corpus Duchn du type spcifique T5 (M6) (formes de spcificit

  • 26 Explorations textomtriques

    priode couverte par le corpus. En dautres termes, desquisser une tentative dinterprtation au plan historique des phnomnes constats9. Les premires priodes du corpus (M1-Mx) voient un renforcement des positions dfendues par lauteur du Pre Duchesne au dtriment des ennemis politiques quil ne cesse de dnoncer (Brissotins, i.e. partisans de Brissot, etc.). Les 31 dputs girondins qui constituent le parti des modrs, parmi lesquels Brissot, seront excuts le xxx qui correspond la priode Mxx du corpus. Aprs cette victoire politique, Hbert entre en opposition avec le mouvement jacobin et plus particulirement avec les montagnards du Comit de salut public (Robespierre, St Just, etc.). Dans le but dinfluencer laction du Comit de salut public, il redouble dardeur dans la dnonciation des conspirateurs, des faux patriotes, des nouvelle(s) clique(s) de modrs, de ceux qui veulent allumer une nouvelle Vende et appelle lunion des meilleurs patriotes. Les jacobins ragiront dabord par la voix de Camille Desmoulins qui attaquera Hbert dans son journal Le vieux cordelier (priode M7)10. Le Pre Duchesne tentera dans un premier temps de reprendre loffensive en faisant nouveau appel aux thmes qui ont assur sa popularit des premires priodes : lutte pour la dchristianisation, lutte contre la prsence de nobles la tte des armes. Devant lchec de cette tentative, il reprendra, sans succs au cours de la dernire priode M8 qui verra son arrestation et son excution, loffensive amorce en M6.

    6 Conclusion

    Lexploration du corpus Duchn, laide des mthodes textomtriques met en vidence une importante volution du vocabulaire au cours des huit mois sur lesquels stend le corpus. Les analyses quantitatives sur la partition en 96 livraisons, mettent en vidence des diffrences stylistiques lies une alternance de genre entretenue par lauteur du corpus. De ce fait, elles ne permettent pas dapprcier lvolution lexicale du corpus. Un regroupement des livraisons en priodes de 30 jours conscutifs permet par sa part de cerner lvolution lexicale de manire nettement plus satisfaisante. Les mthodes quantitatives permettent alors tout la fois : de mettre en vidence un vocabulaire offensif qui trouvera un emploi particulirement remarquable dans la priode M6. Le retour au contexte permet de prciser ces analyses.

    7 Rfrences

    Lamalle C., Salem A., Types gnraliss et topographie textuelle dans lanalyse quantitative des corpus textuels , in actes des 6emes journes danalyse statistique des donnes textuelles, Inria, St Malo, 2002

    http://www.cavi.univ-paris3.fr/lexicometrica, 1997

    9 Cette tentative dinterprtation est ne dans le cadre dune collaboration troite et ancienne entre lauteur de ces lignes, nullement spcialiste de ces problmes et des historiens spcialistes de la priode concerne, tout particulirement J. Guilhaumou, connaisseur des langages de la Rvolution franaise. 10 On trouve dailleurs, dans le journal de Hbert, des traces de cette polmique en M6 et M7 qui concernent, le /gentil /rengat/ bent/ niais/ Camille.

  • 27 Explorations textomtriques

    8 Principales fonctionnalits Lexico3 utilises

    N Fonctionnalit Rsultat 2 Partition (cl a, pour anne) 5 Principales car lexicom (PCLC) Tableau 2

    5.6 Accroissement du vocabulaire (corpus) Figure 1 5.6 Accroissement du vocabulaire (P92, P93) Figure 2 4 Segments Rpts (seuil minimal =2) 8 Slection dun Type (occurrence de SR long>10) 7 Carte des sections (paragraphes, prsence SR de long>10) Figure 3

  • 28 Explorations textomtriques

    Annexe

  • 29 Explorations textomtriques

    Vux prsidentiels [Vux]

    Jean-Marc Leblanc [email protected]

    Rsum : Un corpus de vux prsents franais loccasion de la nouvelle anne par les diffrents prsidents de la cinquime rpublique permet dtudier les volutions lexicales survenues dans ce type dintervention au cours des quarante dernires annes. On esquisse ensuite une tude de lnonciation de chacun des locuteurs notamment du point de vue de lemploi des pronoms personnels.

    Abstract : A corpus of New Year addresses by the French President of the Republic offers an opportunity to study the lexical evolutions in this type of speech during the last forty years. An analysis can then be carried out on each speakers enunciation particularly regarding the use of personal pronouns.

    1 Contexte de la recherche Le corpus rassemble les quarante-trois messages de vux adresss loccasion de la nouvelle anne par les cinq prsidents qui se sont succds la tte de la cinquime Rpublique de 1959 2001. Ce corpus lexicomtrique compte 41 125 occurrences pour 5 200 formes qui se rpartissent de la manire suivante entre les diffrents chefs dtat.

    Partie occurrences formes hapax Frq. Max Forme De Gaulle 11498 2407 1440 531 de Pompidou 2850 890 577 118 de Giscard 6066 1360 833 262 de Mitterrand 11991 2521 1490 546 de Chirac 8720 1798 1048 421 de

    Tableau 1

    Principales caractristiques de la partition locuteur

    2 Affinits et contradictions lexicales

    Lanalyse factorielle ralise selon la partition locuteur caractrise les grandes oppositions du corpus. Sur le deuxime axe, un clivage essentiellement diachronique oppose le lexique des trois premiers prsidents aux deux derniers. Sur le premier axe, De Gaulle soppose lensemble de ses successeurs. On observe par ailleurs des proximits entre Giscard et Pompidou dune part et Mitterrand Chirac par ailleurs, dont on peut penser quelles sont dues en partie la chronologie et lvnementiel, dautant que lopposition la plus forte, matrialise par la diagonale de lanalyse factorielle rside entre De Gaulle et les deux derniers prsidents de la Rpublique.

  • 30 Explorations textomtriques

    Figure 1 : AFC du corpus vux selon la partition locuteur.

    La reprsentation factorielle ne laisse en rien prsager dune quelconque affinit entre De Gaulle et Mitterrand, qui lon prte souvent volontiers quelques analogies dans leur faon de concevoir la fonction et quelques traits communs dans leur vision de la France. A cela plusieurs explications peuvent tre avances : vingt trois annes sparent la premire intervention du gnral De Gaulle de celle de Franois Mitterrand qui clt le corpus. Il est donc probable que les usages lexicaux aient subi une importante mutation au cours de cette priode. Dautre part lanalyse factorielle met en vidence les seules oppositions relevant de la distribution du stock lexical. Cest pourquoi il convient de pousser plus avant lanalyse avant de tirer des conclusions que pourrait inspirer une interprtation htive de la configuration de la reprsentation factorielle. Celle-ci nen a pas moins le mrite de susciter des interrogations, dorienter lanalyse.

    3 Loriginalit Gaullienne ?

    La position particulire quoccupent les textes produits par le gnral De Gaulle sur la reprsentation factorielle soulve quelques questions. On peut se demander sil nest pas plus proche discursivement et lexicalement des pratiques de la quatrime Rpublique. Pour tenter de rpondre cette interrogation, nous avons, titre exprimental, intgr les seuls messages de vux existants des prsidents de la Quatrime Rpublique. (Vincent Auriol, dcembre

  • 31 Explorations textomtriques

    1946, 1948, 1953). tonnamment ces discours se placeraient au voisinage de Pompidou et Giscard, de Gaulle conservant la singularit quon a pu observer. Ainsi, la chronologie et lvnementiel ne seraient pas les seuls facteurs explicatifs de ce phnomne. Sagit-il alors dune opposition relevant de registres personnels ? Il est probable que la personnalit des locuteurs soit pour beaucoup dans la configuration de lanalyse factorielle. Une seconde A.F.C, ralise selon la partition anne conforte cette hypothse.

    Figure 2 : AFC du corpus vux selon la partition anne.

    Points superposs :93(88), 90(83), 62(60). De cette deuxime reprsentation on retiendra la configuration remarquable de lAFC o la disposition des annes permet didentifier aisment les locuteurs. Lensemble des interventions du gnral De Gaulle se trouve regroup dans une zone restreinte du plan, en marge de toutes les autres annes du corpus. Il en ressort que son discours est la fois trs diffrent des autres dans le lexique et trs stable dune anne sur lautre. La faible dispersion des annes 1996-2001 et 1981-1995 nous conduit tablir une conclusion identique : Bien que proches lun de lautre, les deux derniers prsidents affichent une grande stabilit lexicale. Le constat est quelque peu diffrent pour Giscard et Pompidou. Lamplitude est beaucoup plus importante. On y verra peut-tre la volont novatrice de Giscard dans sa stratgie de communication et la recherche de compromis de Pompidou, entre rupture et continuit, fidlit au gnral De Gaulle et volont de renouvellement. Si la premire reprsentation illustre les affinits et divergences des locuteurs, la seconde souligne la grande stabilit des prsidents, plus particulirement de Gaulle, Mitterrand et Chirac. Au-del de laspect chronologique, les A.F.C semblent mettre en vidence des oppositions de registres personnels.

  • 32 Explorations textomtriques

    4 Analyse factorielle et temps lexical.

    La diachronie semble cependant constituer un facteur dterminant de ces reprsentations factorielles. LAFC sur les locuteurs en particulier reprsente leur succession selon lordre chronologique. Pour autant, ces reprsentations ne reproduisent pas prcisment le modle de leffet Guttman relatif au phnomne de temps lexica11l. En effet, daprs ce phnomne de temps lexical, si le seul facteur de modification du lexique tait le temps, les points ports sur les deux axes factoriels seraient ordonns selon une courbe idale, incurve en son centre. Ainsi, les annes ou priodes contigus seraient proches sur le graphique. Le facteur chronologique est pourtant nettement visible. A cela plusieurs explications. Les messages sont relativement courts, ce qui rend difficile lmergence de faits lis la chronologie, en particulier sur la partition par anne. De plus, bien que les conditions dnonciation soient quasiment identiques, on ne peut considrer quon est en prsence dun locuteur collectif mais bien dune succession de locuteurs. Il est donc probable que les ethos diffrents viennent brouiller le phnomne chronologique. Notons par ailleurs que bien que la priodicit soit rgulire, le corpus se place plutt dans la ponctualit que dans la continuit.

    5 Des ethos fortement contrasts - Spcificits des marques nonciatives

    La personnalit des locuteurs transparat au travers de profils nonciatifs contrasts. Le tableau qui suit synthtise la rpartition des emplois des pronoms personnels et adjectifs possessifs en termes de spcificits.

    Figure 5 : Spcificits des pronoms personnels et adjectifs possessifs.

    11 Cf., sur ce problme du temps lexical le tutoriel n2 du prsent volume.

    De Gaulle Pompidou V.G.E Mitterrand Chirac nous +E02 -E02 -E04 +E03 je -E16 +E05 +E02 j' -E06 +E05 vous -E25 +E03 +E20 on -E02 -E03 +E10 -E03 notre +E03 -E02 -E05 +E02 nos +E02 -E03 -E04 +E03 mes -E08 +E03 +E03 votre -E09 +E03 +E11 -E02 -E02 vos -E06 +E11 -E03 moi +E02 -E02 me -E02 +E02 +E02 -E03 m' -E03 +E02 ma -E02

  • 33 Explorations textomtriques

    Figure 6 : Pronom personnels et adjectifs possessifs. Histogramme des spcificits

    Ces oppositions relvent-elles uniquement de la personnalit du locuteur o trouvent-elles galement leur origine dans une modification plus profonde du genre vux prsidentiels au cours des annes que nous tudions ?

    6 Registres personnels ou chronologie ?

    Les spcificits chronologiques font apparatre un phnomne gnral qui nest pas simplement le fait de personnalits diffrentes mais tmoigne dune volution du discours politique, et de la conception de la fonction prsidentielle. Il semblerait quau fil du temps le prsident de la Rpublique assume son nonc, simplique davantage dans son propre discours. Le tableau des spcificits volutives de la premire personne du singulier montre une tendance la personnalisation du discours centre sur le je qui ne semble pas cependant se poursuivre chez Chirac avec la mme intensit. Lobservation des frquences relatives de la premire personne du singulier chez le dernier prsident de la Rpublique affine ce constat.

  • 34 Explorations textomtriques

    Figure 7 : Frquences relatives des marques de la premire personne du singulier.

    On note une diminution sensible des marques de la premire personne du singulier (le pronom personnel suivant globalement la mme volution que le groupe je, j mon, ma, mes, me, m, mien(s), mienne(s)). La personnalisation du discours na cess de dcrotre sur lensemble de la priode considre, malgr un pic important en 1997. Cette priode concidant avec le dbut de la cohabitation, doit-on en dduire que le chef de ltat sest alors personnellement impliqu dans le discours pour revenir sur les raisons de la dissolution, pour redfinir son rle, se prsenter comme le garant des institutions, lgitimer sa prsence dans la nouvelle configuration politique qui se prsente lui ? Autour du je prsidentiel Examinons maintenant le statut du je prsidentiel rduit sa forme graphique en explorant ses espaces cooccurrentiels dans les messages de vux aux Franais.

    Figure 8 :

    Carte des sections (paragraphe) de la forme je sur la partition locuteur. Loutil carte des sections tablit la distribution de la forme personnelle dans la linarit du texte, dlimit en paragraphes. Dans cette topographie textuelle , [Lamalle, Salem, 2002] chaque carr du tableau 5 reprsente un paragraphe du texte. Les units colores indiquent les paragraphes qui cotiennent au moins une fois la forme recherche. Au moyen de cette cartographie, on

  • 35 Explorations textomtriques

    apprhende des usages, des positionnements nonciatifs en termes de frquences mais aussi de rythme, de cadence. Entre de Gaulle et Giscard, par exemple, on note deux configurations : de longues successions de paragraphes contenant je chez Giscard, de rares lots chez De Gaulle. Le calcul des cooccurrents spcifiques met en vidence, partir des sections dlimites par cette cartographie, les formes spcifiques des paragraphes attestant le je. La liste produite porte sur l'ensemble du corpus et ne prsente que les formes dont la valeur absolue de lindice de spcificit est suprieure 2. Les seuils sont de 5%, la frquence minimale des formes considres est de deux occurrences. Ce calcul ne diffre pas du modle de spcificit si ce nest que les parties sur lesquelles porte la comparaison ne sont plus constitues sur la base dune partition en locuteurs mais partir de la prsence ou de labsence du pronom personnel je. Le diagnostic de spcificit est alors tabli sur la base dune partition binaire : lensemble des sections dans lesquelles la forme analyse est prsente par rapport lensemble du corpus. Les coefficients indiqus au tableau qui suit correspondent donc des indices de spcificit. Une spcificit positive signifie quune forme considre a tendance apparatre de faon plus importante que le modle thorique ne le laissait prvoir dans les contextes du ple analys, par rapport aux autres sections du corpus, une spcificit ngative indiquera un rejet ou un sous-emploi. En dautres termes, ce calcul appliqu aux sections permet de reprer les frquences remarquables au voisinage de la forme ple.

    Tableau 9 : Cooccurrents spcifiques majeurs de la forme je

    Les spcificits positives montrent la forte proportion des verbes qui gravitent autour du rfrent-locuteur. (Tableau 6) : verbes marquant la volition (souhaite, voudrais, forme [le vux], veux), le jugement (pense crois), factifs (fais +3), verbes dtat et auxiliaires (suis, ai), nonciatifs (dis), verbes marquant la connaissance (sais, vois ), quelques infinitifs (dire, adresser), constituent lessentiel du systme verbal restitu par la recherche des cooccurrents spcifiques. On note aussi de faon plus inattendue la prsence dun verbe la troisime personne du pluriel : vivent (+3), dont on trouve les occurrences dans de frquentes adresses aux Franais qui vivent ltranger (De Gaulle, 1967), qui vivent dans la solitude (V.G.E,

    F o r m e F r q . T o t . F r q u e n c e C o e f f . F o r m e F r q . T o t . F r q u e n c e C o e f f .j e 3 4 4 3 4 4 5 1 j 8 8 5 1 3s o u h a i t e 6 5 6 4 2 3 g r a n d e u r 7 7 3v o u s 3 2 6 2 2 7 2 3 s o i r 4 2 2 8 3v o e u x 8 0 6 2 1 0 a d r e s s e r 7 7 3m e s 1 0 2 7 5 1 0 m a 2 0 1 5 3s a i s 1 9 1 9 8 n o m 3 0 2 1 3v o u d r a i s 1 9 1 9 8 m o n 2 9 1 9 3p e n s e 2 2 2 1 7 a m i s 1 1 1 0 3s u i s 2 6 2 4 7 f r a t e r n i t 1 9 1 4 3f o r m e 1 7 1 6 5 s e u l s 1 4 1 2 3v i v e 6 0 4 2 5 f r a n c e 3 0 2 1 5 0 3h e u r e u s e 2 2 1 9 5 v i v e n t 1 0 9 3b o n n e 7 6 5 1 5 m 2 3 1 7 3v e u x 1 1 1 1 5 v o i s 6 6 3c r o i s 1 1 1 1 5 m i n i s t r e 6 6 3q u e 6 7 7 3 3 6 5 f a m i l l e 2 5 1 7 3d i r e 4 8 3 5 5 t r s 2 7 1 8 3d i s 1 2 1 2 5 f a i s 6 6 3c o m p a t r i o t e s 6 2 4 3 5 f r a n a i s e s 4 1 2 7 3a i 4 1 3 1 5 d o i v e n t 1 4 1 - 3a n n e 2 0 5 1 1 0 4 q u e l 1 2 0 - 3v o s 3 9 2 7 4 l a 1 3 9 7 5 4 6 - 3c h e r s 5 5 3 7 4 a l g r i e 2 1 3 - 3m e 2 2 1 7 4 c o n o m i q u e 4 6 1 0 - 3f r a n a i s 1 4 2 8 0 4 q u 3 1 3 1 0 8 - 3v o t r e 5 9 3 8 4 p e u t 5 0 1 1 - 3c h a c u n e 2 5 2 0 4 e u r o p e 9 9 2 8 - 3m e r 1 9 1 4 3 p a r t 3 2 3 - 5

    n o u s 6 5 5 2 1 7 - 7

  • 36 Explorations textomtriques

    1978), qui vivent dans la peine (Mitterrand, 1986), qui vivent dans la difficult quotidienne (Mitterrand, 1988). Ces messages sont donc particulirement marqus par des verbes de circonstance , (souhaiter, adresser former), par des volitifs et des verbes exprimant la connaissance. Cependant, cette interprtation smantique a priori doit tre corrige par lexamen des contextes. Une analyse approfondie indique que la forme voudrais est intimement lie au rfrent de linterlocuteur, sur-employe chez les locuteurs qui prcisment multiplient les marques nonciatives en direction des Franais. La valeur nest donc que rarement purement volitive, les emplois tant essentiellement mtadiscursifs, modalisateurs, intervenant dans des annonces de plan o bien souvent le locuteur sadresse une certaine catgorie de Franais (Je voudrais dabord exprimer ma sympathie toutes celles et tous ceux qui vivent ces derniers jours de 1999 dans lpreuve. [Chirac, 1999]). Giscard et Pompidou qui entretiennent un lien plus troit avec les Franais emploient cette forme dans une modalit directive qui intensifie la relation (Je voudrais que vous sentiez, que vous compreniez). Les contextes de veux montrent galement une tendance vers des emplois mtadiscursifs ou explicatifs (Je veux dire), mme si la volition apparat parfois chez Chirac et Mitterrand dans une faible mesure. Quant aux verbes exprimant le jugement, on remarque que penser intervient essentiellement dans des noncs numratifs (Je pense aux artisans, je pense aux agriculteurs, je pense certaines petites entreprises) mais bien souvent affectifs et empathiques, lis lvnementiel (Et je pense aussi nos compatriotes de Toulouse[Chirac, 2001]) ou plus gnralement destins adresser un geste en direction des Franais les plus dmunis, vocation qui devient systmatique partir de Pompidou. (Je pense spcialement ceux de nos ans qui vont franchir seuls le cap du nouvel an. [Chirac, 2000], Je pense celles et ceux dentre vous qui connaissent le deuil, les chagrins, le poids de la maladie et de la solitude, qui souffrent du chmage. [Mitterrand, 1981]). Parmi les verbes exprimant la conscience et la connaissance, lexamen des contextes montre que la forme sais entre essentiellement dans des modalits allocutives. Les emplois sont avant tout des renforateurs dempathie, plus particulirement chez Chirac, parfois constitutifs dun procd argumentatif. Cette marque dempathie introduit dans de nombreux cas chez Chirac une relance incitative et mobilisatrice, que lon peut synthtiser dans le tableau 10.

    Tableau 10 : Marques de l'empathie chez J. Chirac et relances incitatives.

    Lempathie dans les messages de vux, les cognitifs

  • 37 Explorations textomtriques

    Lexamen des verbes associs la premire du singulier rvl une caractristique importante des messages de vux : lempathie et la compassion, au moins partir des annes Pompidou. Ces emplois saccompagnent souvent de procds argumentatifs articuls autours de deux schmas essentiels : Je sais donc, je sais maisCeci nous engage explorer deux pistes nouvelles : quelles autres traces de lempathie peut on relever au sein des vux prsidentiels ? Les cognitifs y tiennent ils une place particulire comme on la constat avec le verbe savoir ?

    Groupe de formes sais, vois, constate, .distribution par locuteur et par anne.

    7 Rfrences

    Lamalle C., Salem A., Types gnraliss et topographie textuelle dans lanalyse quantitative des corpus textuels , in actes des 6emes journes danalyse statistique des donnes textuelles, Inria, St Malo, 2002

    8 Fonctionnalits Lexico3 utilises dans cette navigation N Fonctionnalit Rsultat 2 Partition (cl a, pour anne) 5 Principales car lexicom (PCLC) Tableau 2

    5.6 Accroissement du vocabulaire (corpus) Figure 1 5.6 Accroissement du vocabulaire (P92, P93) Figure 2 5.6 Accroissement du vocabulaire ([P92,P93] et [P89,P90]) Figure 4 4 Segments Rpts (seuil minimal =2) 8 Slection dun Type (occurrence de SR long>10) 7 Carte des sections (paragraphes, prsence SR de long>10) Figure 3

  • 38 Explorations textomtriques

    Essai de textomtrie politique chinoise Les congrs du Parti Communiste Chinois (1921-2007)

    [Congrs PCC] Andr Salem, Li-Chi Wu12

    [email protected], [email protected]

    Rsum : Lanalyse textomtrique dune srie de discours prononcs par les principaux dirigeants du Parti communiste chinois, loccasion des congrs survenus depuis sa cration, permet dtudier lvolution du vocabulaire employ au cours de son histoire. Des typologies densemble permettent de vrifier le caractre progressif de cette volution. Lanalyse des spcificits majeures pour chacune des priodes permet den dgager le vocabulaire caractristique. Lanalyse des chroniques spcifiques permet de localiser des moments importants de lvolution autour desquels on peut ensuite organiser avec prcision le retour au contexte. Les mmes mthodes appliques ltude dune srie plus restreinte (1982-2007) permettent de dcrire plus prcisment les volutions survenues dans la dernire priode. Mots-cls : Textomtrie, sries textuelles chronologiques, discours politique chinois Abstract : The textometric analysis of a series of speeches made by the main leaders of the Chinese Communist Party during its Congress provides insight into the evolution of vocabulary used since the party's creation. Global typologies of the text show the progressive character of this evolution while the study of major specificities for each one of these periods yields its characteristic vocabulary. The analysis of specific chronicles helps locate important moments in the evolution of these speeches and points out precise areas of contextual interest. The same methods when applied to a narrower period (1982-2007) help describe more precisely the evolutions which occurred in the last chronological period. Keywords : Textometrics, textual time series, Chinese political discourse : (1982-2007) : ; ;

    1 Contexte de la recherche

    Il y a peu de temps, ltude que nous prsentons aujourdhui, avec des dfauts et des lacunes que nous esprons provisoires, naurait pu tre envisage. En effet, si la textomtrie des sries chronologiques connat depuis une dizaine dannes de nombreuses applications portant sur des corpus rassembls dans des sphres dactivits diverses, le traitement textomtrique de larges sries chronologiques de textes chinois restait, pour plusieurs raisons, totalement inaccessible tout au long de ces dernires annes. Dabord les difficults inhrentes la prise en charge informatique des textes rdigs dans des langues qui, linstar du chinois et la diffrence des langues occidentales, ncessitent pour leur transcription un trs grand nombre de signes graphiques. En second lieu, limpossibilit 12 Les auteurs remercient Miao Jun, Serge Fleury et Cdric Lamalle pour leur aide et leurs conseils prcieux dans la ralisation de ce travail.

  • 39 Explorations textomtriques

    quil y avait jusqu ces derniers temps se procurer, des fins danalyse textomtrique, des matriaux textuels concernant une longue priode chronologique, librement utilisables et prsents sur support informatis avec une homognit suffisante. Toutes ces limites sont brusquement tombes dans la dernire priode du fait dun dveloppement rapide et parallle de deux sries dactivits. Dune part, des systmes dencodage et de restitution des textes adapts la grande varit des systmes dcriture existant dans le monde ont t adopts par lensemble de la communaut des informaticiens. Paralllement, des standards de prsentation se sont progressivement imposs tous les internautes dsireux de manifester une prsence sur le web (organisations internationales, partis politiques, institutions gouvernementales et indpendantes, entreprises commerciales, etc.). La ncessit de mettre disposition du public un certain nombre darchives textuelles prsentant le primtre de lactivit de lintervenant, permettant galement dapprhender son histoire, a progressivement t intgre au nombre de ces standards. Ces circonstances nous ont permis de recueillir sans trop de difficults un vaste corpus de textes politiques chinois qui stend sur prs dun sicle afin de le soumettre des analyses textomtriques dont les rsultats font lobjet du prsent article. Avant de passer lexpos des rsultats obtenus, il convient de prciser notre propre vision critique du type dactivit auquel nous sommes livrs propos de ces textes. Notre sentiment est que nous avons eu la chance dtre parmi les premiers projeter, sur une masse de textes produits dans des conditions historiques que nous connaissons de manire insuffisante, un clairage textomtrique que nous avions appris matriser sur dautres sries textuelles chronologiques rassembles selon les mmes principes dans des langues et des poques diffrentes. Nous sommes conscients que cet avantage mthodologique ne nous a pas transforms, pour autant, en spcialistes de la priode historique considre. Tout au long de cette tude, nous avons tent de rsister aux tentations de rintroduire par un biais ou un autre, afin dexpliquer les variations les plus importantes constates au plan textomtrique, les quelques lments dhistoire de la priode connus de tous. Dans certains cas cependant, il nous a sembl indispensable, pour la comprhension du lecteur, dtablir un lien entre des rsultas obtenus de manire formelle et certains lments du contexte historique dans lequel les textes avaient t produits. Pour souligner le caractre htrogne des remarques de ce dernier type par rapport aux rsultats que nous avions obtenus en utilisant des mthodes de traitement formalises et automatises, nous avons fait prcder ces tentatives dinterprtation de la mention commentaire. Ces commentaires constituent dans notre esprit autant dincitations adresses aux spcialistes de ltude des textes politiques chinois prolonger, en se servant de leur connaissance du contexte sociopolitique, lindispensable processus dinterprtation des constats obtenus laide des procdures textomtriques formalises. Ainsi, nous nous sommes efforcs de prsenter nos analyses de la manire la plus vrifiable possible et de proposer des modes de description comprhensibles par dautres chercheurs. Notre but serait que les constats que nous avons oprs puissent leur tre utiles, quils confirment certaines de leurs connaissances, en infirment dautres, quils suggrent surtout de nouvelles pistes de recherche multidisciplinaires dans un cadre de description stabilis. Nous esprons que lexpos qui suit pourra convaincre le lecteur que nous ne nous sommes pas trop carts de ces principes poss au dpart.

  • 40 Explorations textomtriques

    2 Recueil des donnes, prparation du corpus

    Pour cette premire tude sur lvolution du discours politique chinois, nous avons choisi de rassembler des textes produits dans les congrs du Parti communiste chinois (PCC), organisation politique cre Shanghai en 1921 et au pouvoir en Chine populaire depuis 1949. Pour chacun des dix-sept congrs, qui se sont tenus durant cette priode, nous avons slectionn le discours prononc par le principal responsable du parti. Nous avons appel CongPCC ce corpus chronologique qui stend sur prs de 90 ans. Lensemble du corpus compte 331 239 occurrences de 2 336 caractres (hanzi) diffrents. Le corpus peut tre divis en dix-sept parties qui correspondent chacune un des congrs dont on trouvera la liste au tableau 3.

    2.1 Rappels sur le chinois et son systme dcriture13 Le chinois possde un systme dcriture dans lequel chaque caractre correspond plus ou moins un morphme et une syllabe de loral. Les caractres (appels aussi sinogrammes ou hanzi) utiliss par ce systme dcriture se comptent en milliers (parfois en dizaines de milliers, si lon tente dinclure des graphies rares ou tombes en dsutude)14. Cette profusion de signes graphiques a longtemps constitu un obstacle majeur au traitement des textes chinois sur ordinateur. Lavnement du systme Unicode permet dsormais de coder lensemble des caractres chinois, aussi bien sous leur version traditionnelle que sous la forme simplifie adopte en 195015. Bien que lcriture chinoise nintgre pas despace entre les units lexicales16, la notion de mot est prsente dans la grammaire chinoise. Pour apprhender un texte, le lecteur chinois dcoupe la chane textuelle en units distinctes, partir de sa connaissance du lexique. Les mots chinois sont composs dun ou de plusieurs sinogrammes. Les textes scrivent sans que des espaces ne viennent sparer les mots (cf. tableau 1, infra). Un mme mot peut avoir diffrentes fonctions grammaticales en fonction du contexte dans lequel il entre (ex : lai hui verbe : aller et venir17 ; substantif : un aller-retour ; proposition adverbiale : en allant et revenant). La plupart du temps, le genre et le nombre des noms ne sont pas marqus explicitement (ex : gong ren ouvrier / ouvriers / ouvrire/ ouvrires).

    2.2 Segmentation du texte Les comparaisons textomtriques supposent que lon dfinisse des units de dcompte dont on tudiera les variations de frquence au sein des diffrentes parties du corpus. 13 On trouvera une description rapide du systme dcriture chinois et des problmes du dpouillement automatique des corpus de textes chinois dans [Miao et Salem 2008] pour une description plus complte du systme dcriture chinois, on se reportera par exemple [Alleton 1997]. 14 Le Kangxi zidian (Dictionnaire de Kangxi), labor sur commande impriale en 1716, compte au total 47 035 caractres, intgrant des rarets, des variantes et des sinogrammes obsoltes. Le Xinhua zidian (Dictionnaire Xinhua), la rfrence actuelle pour ce qui est des dictionnaires de caractres, en compte environ 10000. 15 A partir de 1952, le gouvernement de la Rpublique Populaire de Chine commence promouvoir un systme dcriture en caractres simplifis, appels remplacer les caractres traditionnels. Un comit pour la rforme de lcriture est cr pour superviser cette tche. En 1964, une liste de caractres simplifis, qui sera plusieurs fois mise jour par la suite, est publie dans un document intitul Table intgrale des caractres chinois simplifis ( jianhua zi congbiao). 16 A linstar de nombreux systmes dcritures de lantiquit grco-latine. 17 Dans ce qui suit, nous nous efforcerons de respecter les conventions typographiques suivantes : les squences textuelles cites en chinois sont suivie de leur transcription pinyin (en italique) ainsi que de leur traduction franaise, ex : gong ren ouvrier.

  • 41 Explorations textomtriques

    Tableau 1 Extrait du discours du secrtaire gnral du PCC au 17e congrs (2007)

    reproduit sur le site web de lagence Xin Hua 18

    Pour pouvoir mettre en uvre des comparaisons textomtriques, on utilise dans un premier temps des outils informatiques qui permettent de dcouper automatiquement au fil du texte les units dont on pourra ensuite dcompter les occurrences. Plusieurs logiciels ralisent dsormais des segmentations automatiques des textes chinois en mots. Pour dpouiller notre corpus, nous avons utilis un seul de ces logiciels dans le but dobtenir une cohrence maximale pour lensemble du dpouillement19. On peut voir, dans le haut du tableau 2, un extrait de ce mme texte segment automatiquement. On trouve une traduction de ce dernier extrait dans le bas du mme tableau. Des caractres # ont t insrs pour dlimiter les divisions qui correspondent aux paragraphes que lon peut reprer dans le texte original20. 18 Tlchargeable sur : http://news.xinhuanet.com/ziliao/2004-11/24/content_2255749.htm. 19 Dans le prsent travail, nous avons utilis exclusivement le logiciel : ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System), mis au point par Kevin Zhang lInstitute of Computing Technology, Chinese Academy of Sciences. Signalons que lobservation de la ventilation des units ainsi dcoupes dans le corpus nous a quelquefois conduits corriger des erreurs manifestes produites par la segmentation automatique du texte (segmentations diffrentes pour une mme squence de caractres dans diffrentes portions du texte). 20 Lcriture chinoise possde ses propres signes de ponctuation. Pour faciliter le traitement informatique par des logiciels qui ne prennent pas encore en compte la ponctuation chinoise, nous avons remplacs les principales ponctuations du chinois par leurs quivalents occidentaux. Le caractre de ponctuation demi-virgule qui sert en chinois sparer les

  • 42 Explorations textomtriques

    Tableau 2 Corpus textomtrique CongPCC

    Le dbut du discours de 2007 balis et segment en mots suivi de sa traduction franaise

    # # # # - - # ( 2007 10 15 ) # # : # , . # , . : , " " , , , , , , . # , , . , , & , , .

    # texte intgral du rapport de hu jintao prononc au xviie congrs du pcc # lever bien haut l'tendard du socialisme a la chinoise et lutter pour raliser de nouveaux succs dans le dveloppement gnral d'une socit de moyenne aisance # -- rapport au xviie congrs du parti communiste chinois # (15 octobre 2007) # hu jintao # camarades, # au nom du xvie comit central, j'ai l'honneur de prsenter ici le rapport d'activit au xviie congrs du parti. # le xviie congrs du parti communiste chinois est un congrs particulirement important d au fait qu'il s'est tenu dans une phase cruciale de la rforme et du dveloppement de notre pays. le thme de ce congrs se dfinit comme suit : en brandissant bien haut l'tendard du socialisme la chinoise et en nous guidant sur la thorie de deng xiaoping et sur la pense importante de triple reprsentativit, appliquons le concept de dveloppement scientifique de faon approfondie, continuons manifester une grande libert d'esprit, poursuivons la rforme et l'ouverture sur l'extrieur, encourageons le dveloppement scientifique, favorisons l'harmonie sociale et luttons pour raliser de nouveaux succs dans le dveloppement gnral d'une socit de moyenne aisance. # l'tendard du socialisme la chinoise est un drapeau qui guide la chine contemporaine vers le dveloppement et le progrs, et qui exhorte tout le parti et tout le peuple multiethnique se livrer la mme lutte dans une parfaite union. pour le dveloppement du socialisme la chinoise, l'mancipation d'esprit est une arme particulirement efficace, la rforme et l'ouverture sur l'extrieur une force motrice puissante, et le progrs scientifique et l'harmonie sociale une exigence fondamentale. quant la construction in extenso d'une socit de moyenne aisance, elle constitue un objectif que notre parti et notre pays devront atteindre d'ici 2020, et qui reflte les intrts fondamentaux de notre peuple multiethnique.

    diffrents termes dune numration a t remplac par le caractre &. Ajoutons que dans lattente de la prise en compte des fichiers unicode par les futures versions du logiciel Lexico3 que nous avons utilis, le corpus a t stock dans lencodage GB2312 (Windows-936).

  • 43 Explorations textomtriques

    2.3 Caractristiques quantitatives du corpus CongPCC

    Dans ce qui suit nous avons choisi de travailler sur des textes dpouills en occurrences de mots dcoups par le segmenteur automatique ICTCLAS. Le corpus ainsi dcoup compte 179 447 occurrences de 10 680 formes graphiques diffrentes. On recense 4 272 formes hapax, la forme la plus frquente (la particule de) compte 15 273 occurrences. ==== Repres chronologiques sur la priode (1921-2007) ====

    1921 Fondation Shanghai du Parti Communiste Chinois. Formation d'un gouvernement nationaliste dirig par Sun Yat-sen. 1925 Mort de Sun Yat-sen - Chiang Kai-shek la tte du Guomindang. 1927 Chiang Kai-shek crase la rvolution Shanghai et cre un gouvernement. 1931 Les communistes tablissent la Rpublique sovitique chinoise Jiangxi. 1934 Longue Marche de l'Arme rouge, pour chapper aux nationalistes. 1937 Dbut de la guerre contre le Japon. 1946 Guerre civile entre nationalistes et communistes. 1949 Les communistes fondent de la Rpublique populaire de Chine. Le gouvernement nationaliste du Guomindang se rfugie Taiwan. 1950 Trait d'amiti sino-sovitique. Guerre de Core (1950-1953). 1953 Plan quinquennal, priorit l'industrie lourde. Collectivisation agraire. 1957 Campagne des Cent fleurs, suivie dune rpression en juin. 1958 Lancement du Grand bond en avant et des communes populaires. 1960 Catastrophe alimentaire, crise sino-sovitique. 1966 Dbut de la Rvolution culturelle. 1975 Campagne des quatre modernisations (arme, science, agriculture, industrie) 1976 Mort de Zhou Enlai et de Mao Zedong. Fin de la rvolution culturelle, arrestation

    de la bande des quatre. 1978 Les rnovateurs au pouvoir avec Deng Xiaoping. 1979 Cration de zones conomiques spciales. 1984 Relance des rformes conomiques. 1987 Reprise des relations entre la Chine populaire et Taiwan. 1989 Rpression de la contestation tudiante sur la place Tian'anmen. 1992 Deng Xiaoping lance l'conomie socialiste de march. 1993 Jian Zenmin chef de lEtat et secrtaire gnral du PCC. 1997 Mort de Deng Xiaoping. Rtrocession de Hong Kong la Chine. 2004 Hu Jintao dirige le PCC.

  • 44 Explorations textomtriques

    3 La srie chronologique 1921-2007

    Comme nous lavons signal plus haut, la srie des dix-sept congrs du PCC survenus entre 1921 et 2007, bien quelle ait t produite par une mme organisation politique tout au long des 90 annes couvertes par le corpus, ne prsente pas une homognit totale du point de vue des conditions de production. Nous tenterons, dans un premier temps, dtablir une typologie sur lensemble des textes afin de mettre en vidence les principaux clivages dans lvolution du vocabulaire. Nous analyserons, dans un second temps des groupes constitus sur une base plus homogne afin daffiner les premiers constats. Tableau 3

    Principales caractristiques lexicomtriques du corpus CongPCC

    Anne Lieu occurrences formes hapax Frq. Max Forme 1921 Shanghai 1441 481 276 158 1922 Shanghai 5067 1529 882 467 1923 Guangzhou 467 251 172 28 1925 Shanghai 1543 562 328 127 1927 Wuhan 3786 991 545 416 1928 Moscou 4284 1017 534 485 1945 Yanan 22130 3038 1403 2046 1956 Pkin 23132 3005 1330 2432 1969 Pkin 11002 2254 1155 988 1973 Pkin 5003 1440 806 418 1977 Pkin 15375 2783 1399 1251 1982 Pkin 16501 2840 1419 1556 1987 Pkin 16114 2785 1300 1375 1992 Pkin 12868 2605 1335 984 1997 Pkin 13827 2617 1305 1023 2002 Pkin 13669 2545 1261 948 2007 Pkin 13238 2587 1276 571

    Les textes ainsi rassembls correspondent ce que nous appelons une srie textuelle chronologique21. En effet, ces textes ont t produits au cours du temps, dans une mme langue, par une mme source institutionnelle, dans un cadre qui sest toujours appel congrs. Cependant, la longueur de la priode considre (plus de 90 ans), le statut de lorganisation politique responsable de ces textes, laquelle sest transforme, durant la priode que nous considrons, dun petit groupe dintellectuels opposants en un parti politique dominant durablement la vie politique du pays, nous permet de questionner lhomognit relle de conditions de productions qui peuvent sembler proches au premier abord.

    21 Pour de plus amples informations sur les sries textuelles chronologiques, on consultera par exemple [Salem 94] et [Lebart & Salem 94, p.197-240].

  • 45 Explorations textomtriques

    En outre, lexamen du volume des textes produits au cours de la priode montre que la production na pas t rgulire. Aux textes trs courts, entre 500 occurrences de mots graphiques (1923) et 5000 occurrences (1922), produits dans la premire priode ont succd de longues priodes pendant lesquelles aucun congrs na t convoqu. Les congrs de 1945 et de 1956 qui se sont tenus des intervalles de 10 13 ans avec le congrs prcdent ont donn lieu des textes trs volumineux (respectivement de 22 000 et de 23 000 occurrences). A partir de 1982, aprs la fin des troubles lis la rvolution culturelle, le congrs est convoqu rgulirement cinq ans aprs le congrs prcdent. Le discours du principal responsable se prsente dsormais sous la forme dun texte qui compte entre 13 000 (1992) et 16 000 (1982) occurrences. La srie des derniers congrs (1982-2007) constitue du point de vue de lensemble de ces critres une srie textuelle chronologique nettement plus homogne que la srie complte des dix-sept congrs rassembls dans le corpus.

    0

    5000

    10000

    15000

    20000

    25000

    1921

    1922

    1923

    1925

    1927

    1928 _ _ _ _

    1945 _ _

    1956 _ _

    1969

    1973

    1977

    1982

    1987

    1992

    1997

    2002

    2007

    Figure 1 Les 17 congrs du PCC entre 1921 et 2007

    et leur taille exprime en nombre doccurrences aprs segmentation en mots

    3.1 Typologie densemble Nous commencerons par analyser lensemble des textes runis dans la srie complte (1921-2007) afin de mettre en vidence les principaux changements survenus dans lemploi du vocabulaire entre le dbut et la fin de la priode couverte par notre corpus. Dans un second temps, nous analyserons une srie plus restreinte et nettement plus homogne constitue par les textes produits dans les dernires annes du corpus (1982-2007) afin de cerner plus prcisment les volutions survenues dans la dernire priode. Comme cest souvent le cas lorsquon analyse une srie textuelle chronologique, lanalyse factorielle (AFC, cf. infra) ralise partir du corpus constitu par le dcompte des formes de frquence suprieure dix dans les dix-sept congrs rassembls dans le corpus CongPCC nous amne au constat dune forte dpendance du vocabulaire par rapport la priode dans laquelle sest tenue le congrs22. Les congrs spars par une priode de temps courte se

    22 Dans les analyses textomtriques, on a pris lhabitude dasseoir ce genre de typologie sur les formes dont la frquence dpasse un certain seuil afin de restreindre le nombre des units lexicales. Notons que les typologies du mme type appuyes sur les dcomptes faisant intervenir la totalit des formes conduisent des rsultats trs similaires.

  • 46 Explorations textomtriques

    trouvent placs proximit les uns des autres sur les synthses factorielles alors que ceux qui sont spars par un intervalle de temps plus long se trouvent plus distants23. On retrouve sur la gauche du graphique, dans un ordre strictement chronologique les congrs survenus entre 1982 et 2007. Les textes, nettement moins longs, qui correspondent aux congrs survenus entre 1921 et 1945 se situent sur la droite du graphique, dans un ordre proche de lordre chronologique mme si on peut remarquer quelques anomalies, de ce strict point de vue. Un troisime groupe est constitu par les trois congrs survenus entre 1969 et 1977, ce qui tmoigne dune certaine homognit de ces groupes pour ce qui concerne lemploi du vocabulaire. Les congrs de 1945 et 1956 constituent des cas particuliers la fois par labondance des matriaux textuels auxquels ils ont donn lieu et par les trs longues priodes de temps qui se sont coules entre les congrs. Un examen attentif des coordonnes factorielles su