La linguistique textuelle à lorée du numérique Jean-Marie Viprey Maison des Sciences de lHomme de...

Preview:

Citation preview

La linguistique textuelle à l’orée du numérique

Jean-Marie Viprey

Maison des Sciences de l’Homme de Franche-Comté

UMR Bases Corpus Langages CNRS-Nice

jean-marie.viprey@univ-fcomte.fr

La linguistique textuelle à l’orée du numérique Jean-Marie Viprey

1996 Thèse de IIIème cycle : Dynamique du vocabulaire des Fleurs du malDir. : Jean Peytard

Jury : Jean-Michel Adam, Etienne Brunet, Claude Condé, Pierre Malandain, Jean-Philippe Massonie

2002 : HDR Jury : Jean-Michel Adam, Claude Blum, Claude Condé, Georges Molinié, André Salem, Max Silberztein

•Linguistique informatique•Linguistique textuelle

•Philologie•Statistique

•Statistique textuelle•Stylistique littéraire

_____________________________________________________________

Dir.Adjoint de l’Equipe d’Accueil 3817 Archives, Textes, Sciences des Textes (ATST)Membre associé de l’EA 2181 Laboratoire de Sémio-linguistique, Didactique, Informatique (LASELDI)

Coordonnateur du pôle Archive, Bases, Corpus de la MSHE de Franche-Comté (USR CNRS)En délégation (2007-8 -9?) au CNRS, UMR Bases Corpus Langages – Nice.

Lausanne, 2004 :

Sciences du Texte et Analyse de Discours

Adam J.-M. & Heidmann U. (2005). Sciences du texte et analyse de discours. Slatkine

J.-M. Adam, 2005 :

Introduction à l’ Analyse Textuelle du Discours

ATD

Adam J.-M. (1997). Linguistique textuelle : des genres de discours aux textes. Nathan

Adam J.-M. (2005). La linguistique textuelle : introduction à l’analyse textuelle des discours. Colin

Redéfinir le texte ?

Le texte [est-il] le véritable objet de la linguistique [?]

(Rastier Sens et textualité – 1989)

Rastier François 1989 : Sens et textualité, Paris, Hachette

Redéfinir le texte ?

Si oui, la linguistique textuelle n’aurait guère lieu d’être. La linguistique serait constamment textuelle…

Le texte est-il l’objet de la linguistique textuelle ?

Redéfinir le texte ?

L’objet de la linguistique textuelle, telle qu’elle s’est développée historiquement, c’est l’ énoncé suivi.

cf Halliday & Hasan, Weinrich, le premier Rastier, Adam 1999.

Le principal point d’appui de la LT historique, c’est la critique de la linguistique de la phrase

cf Benveniste 1974.

Benveniste E. (1974) Problèmes de linguistique générale. Gallimard.

Redéfinir le texte ?

Malgré l’autorité de la tradition grammaticale, tout engage la linguistique à prendre les textes pour objet : elle affronte alors des phénomènes

d’une tout autre échelle, en vraie grandeur pourrait-on dire.

Rastier (2001 : 13)(souligné par nous)

Rastier François 2001 : Arts et sciences du texte, Paris, Seuil

Redéfinir le texte ?

[…] un texte est une suite linguistique empirique attestée, produite dans une pratique sociale

déterminée, et fixée sur un support quelconque. Rastier (2001 : 21)

Objectivité, écologie, empirie

Redéfinir le texte ?

Un texte est-il un « être » ?Avons-nous intérêt à lui donner une

définition « ontique » ?Par qui/quoi est-il « attesté » ?

Redéfinir le texte ?

Textuel(le)(s)

Textualité(s)

Dimension(s) textuelle(s)

Configuration(s) textuelle(s)

Redéfinir le texte ?

Déficit philologique

de l’Analyse du Discours

>>>>

Analyse Textuelle du Discours

Redéfinir le texte ?

Le texte serait un DISPOSITIF construit pour être une voie d’accès au discours qu’il matérialise, non pas a priori ou par « production », mais par construction.

Redéfinir le texte ?

Ainsi, il n’est pas « produit » par le discours. Il est construit en vue de

permettre un accès second à l’activité discursive (accès répétable et/ou critique,

(re)mise en discours, ordinaire ou savante)

Redéfinir le texte ?

Adam à partir de 1999 et surtout de 2004 modifie le positionnement de la LT.

La phrase n’est pas un constituant du texte.•Certains constituants ne sont pas des phrases, voire pas des organisations verbales. •Surtout : il y a (au moins) un palier intermédiaire.

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

de phrases ?

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

de phrases ?

d’énoncés (plurisémiotiques : miniatures, tableaux… )

Redéfinir le texte ?

Texte (étymologiquement parlant) :

assemblage, couture, configuration…

d’énoncés eux-mêmes assemblés dans des documents

(plurisémiotiques : miniatures, tableaux, touches sonores des livres pour enfants… notes de bas de pages, liens intertextuels, listes,

figures…)

Redéfinir le texte ?

Ainsi la séquence pourrait être considérée comme un cas particulier, un type d’énoncé

(partie logico-rhétorique)

assemblé selon un type de modalité (séquentielle).

Redéfinir le texte ?

Question fréquemment posée :(dans l’optique lexicométrique, notamment)

« Le titre fait-il partie du texte ? Et les notes de bas de page ?... »

Redéfinir le texte ?

Question fréquemment posée :(dans l’optique lexicométrique, notamment)

« Le titre fait-il partie du texte ? Et les notes de bas de page ?...

- Oui, et du document aussi. Mais ce sont des énoncés distincts. »

(comme peuvent l’être, selon les angles d’approche, les répliques des personnages en discours direct, mais aussi des parties

successives que toute analyse est susceptible de distinguer)

(et nous ne sommes plus ici dans une optique strictement lexicométrique !)

Redéfinir le texte ?

Les variantes…En édition scientifique :

indication/indexation, dans l’appareil critique,

de lieux où deux documents divergent

variation « écrasée », décontextualisée(cf Adam 2005, Paveau-Sarfaty 2006)

Redéfinir le texte ?

Les variantes…En édition scientifique :

indication/indexation, dans l’appareil critique, de lieux où deux documents divergent

variation « écrasée », décontextualisée

« en droit » :Mise en parallèle de N documents du texte

considéré, et observation de cette variation en multi-contexte

Redéfinir le texte ?

Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte :

réécritures, intertexte, traduction bien sûr… mais aussi…

Redéfinir le texte ?

Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte :

réécritures, intertexte, traduction bien sûr… mais aussi…

transcription de l’oral, productions colingues…sans oublier…

Redéfinir le texte ?

Même chose à propos de tous les aspects de cette variation ramifiée qu’est le texte :

réécritures, intertexte, traduction bien sûr… mais aussi…

transcription de l’oral, productions colingues…sans oublier…

feuilleton, séries, rubriques de presse, performances théâtrales, tests de lecture

Redéfinir le texte ?

Conclusion ?

Un texte serait une constellation de documents eux-mêmes constitués d’

énoncés agencés.

Constellation ouverte.

Redéfinir le texte ?

Foucault (Dits et écrits – 1994 : 708)« J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses »

Cité par Paveau & Serfati (2005 : 199)

Redéfinir le texte ? Foucault (Dits et écrits – 1994 : 708)

« J’appellerai archive, non pas la totalité des textes qui ont été conservés par une civilisation […] mais le jeu des règles qui déterminent dans une culture l’apparition et la disparition des énoncés, leur rémanence et leur effacement, leur existence paradoxale d’événements et de choses »

Cité par Paveau & Serfati (2005 : 199)

Où l’on peut lire (sans solliciter à l’excès) que le texte ne vaut (en AD) qu’en tant qu’il

(recueille) sertit l’énoncé (authentique objet de la quête de sens et d’histoire),

configure et archive ses rapports avec l’ensemble des autres énoncés.

Paveau M.-A., Sarfati G.E. 2003 : Les grandes théories de la linguistique, Paris, Colin

Redéfinir le texte ?

TEXTE / CORPUS ?

Redéfinir le texte ?

TEXTE / CORPUS ?

TEXTE / BASE / CORPUS !

Redéfinir le texte ? TEXTE / CORPUS ?

TEXTE / BASE / CORPUS !

Habert, Nazarenko, Salem ( 1997 : 11) :

Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus

est une collection de données langagières qui sont sélectionnées et organisées selon des critères

linguistiques explicites pour servir d’ échantillon du langage ». […] A cette aune, nombre de ressources

textuelles perdent cette dénomination. Il s’agit souvent de collections ou de rassemblements de textes

électroniques plutôt que de corpus à proprement parler.

Habert Benoît, Nazarenko Adeline, Salem André 1997 : Les linguistiques de corpus, Paris, Colin.

Redéfinir le texte ? TEXTE / CORPUS ?

TEXTE / BASE / CORPUS !

Habert, Nazarenko, Salem (Les linguistiques de corpus. 1997 : 11) :

Nous employons le mot corpus dans une acception restreinte empruntée à J.Sinclair (1996 : 4) : « un corpus

est une collection de données langagières qui sont sélectionnées et organisées selon des critères

linguistiques explicites pour servir d’ échantillon du langage ». […] A cette aune, nombre de ressources

textuelles perdent cette dénomination. Il s’agit souvent de collections ou de rassemblements de textes

électroniques plutôt que de corpus à proprement parler.

Redéfinir le texte ?

Le texte est donc un élément constitutif d’archive, matérialisable

dans une base sous forme de documents reliés abstraitement et/ou

matériellement. Son principe constitutif est d’ordre

culturel (mythe, loi, rite, histoire, biographie, didactique, etc…)

Redéfinir le texte ?

Le corpus est un prélèvement d’archive, constitué d’énoncés.

Son principe constitutif est d’ordre hypothético-déductif ou mieux dit réflexif

(Guilhaumou, Mayaffre)

Mayaffre D. (2002) « Les corpus réflexifs : entre architextualité et hypertextualité » in Corpus n°1.

Guilhaumou J. (2002) « Le corpus en analyse de discours. Perspective historique » ibid.

Revue Corpus en ligne : http://corpus.revues.org/sommaire49.html

Redéfinir le texte ?

La textualité ?

Redéfinir le texte ?

La textualité ?

L’ensemble des aspects de « cet » agencement d’énoncés en un texte,

qui en font une unité cohésive et cohérente

= texture (H & H) ?

Halliday m.a.k., Hasan Ruqaiya 1976 : Cohesion in English, London, Longman

Redéfinir le texte ?

La textualité ?L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui

en font une unité cohésive et cohérente

= texture (H & H) ?

Oui, à condition d’en faire une lecture critique :

*Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing more than one

sentence is perceived as a text […] C.i.E. : 2)souligné par nous

Redéfinir le texte ?

La textualité ?L’ensemble des aspects de « cet » agencement d’énoncés en un texte, qui

en font une unité cohésive et cohérente

= texture (H & H) ?

Oui, à condition d’en faire une lecture critique :*Un texte n’est pas « directement » constitué de phrases ([…] If a passage of English containing

more than one sentence is perceived as a text […] C.i.E. : 2)

*La texture ne relève pas intrinsèquement des ressources propres à une langue particulière

( What we are investigating […] are the resources that English has for creating texture. ibid.)

souligné par nous

Redéfinir le texte ?

Excursus :

Langue et discours,

langue(s) et texte(s)

R.Balibar (1983, 85, 93)

Redéfinir le texte ?

La textualité ?Les rapports entre les divers documents du texte relève

en droit de la textualité, tout autant que les rapports entre énoncés dans l’hypothèse d’un texte « simple » (à

un document).

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.

Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de

ces unités entre elles.

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.

Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités entre elles.

C’est ce que, relisant Rastier (1989) nous avons projeté d’appliquer aux unités de très petite dimension, mots (Viprey 1997) et

« phonèmes » (Viprey 1998) notamment.

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités

entre elles.

Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris).

Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et

comme « configuration ».

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités

entre elles.

Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris).

Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ».

C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de traduction ; pour H&H texture désigne

l’ensemble des effets de champ :

The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2)

Redéfinir le texte ?

La textualité ?

Le texte ainsi défini est un champ.Cela règle son rapport (multilatéral) à ses unités de toute échelle et les rapports de ces unités

entre elles.

Un mot (une occurrence) interagit certes avec l’énoncé (perspective distributionnelle « classique », Harris).

Mais l’interaction productrice de sens s’exerce et s’analyse au niveau du texte, comme « masse » et comme « configuration ».

C’est ce que nous avions cru pouvoir nommer texture, négligeant l’emploi H&H et l’effet de traduction ; pour H&H texture désigne l’ensemble des effets de champ :

The concept of TEXTURE is entirely appropriate to express the property of ‘being a text’ (C.i.E. : 2)

macro/méso/micro –textualité ?

Redéfinir le texte ?

Qu’est-ce qu’un texte à l’ère numérique ?

ou bien :

Que nous dit l’ère numérique du statut du texte ?   

Brève histoire (très orientée !) de l’informatisation des « textes »

[EXCURSUS]A toute « origine », la discrétisation graphique.

cf Goody 1997 et 2007

Brève histoire (très orientée !) de l’informatisation des « textes »

Aux « origines » de l’informatique « moderne » : des problèmes d’espace…

Codage sur un octet (8 bits) :

pas de distinction majuscules/minuscules, caractères accentués/non accentués

perte de la disposition spatiale et de la mise en forme des caractères

Brève histoire (très orientée !) de l’informatisation des « textes »

Mais aussi (surtout ?) :

élimination de tout élément de complexité textuelle :« Choix » de l’édition

Délimitation texte / « péritexte » (élimination de ce dernier)

Valorisation de la seule surface graphique

De ce point de vue, « TLF » et « Saint-Cloud » - par exemple –

se rejoignent

(et l’ensemble des entreprises de l’époque)

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :

Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :

Navigabilité (viabilisation) > HTML, XML.

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :Navigabilité (viabilisation) > HTML, XML.

Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se

rencontrer les sciences et techniques du texte…

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :Navigabilité (viabilisation) > HTML, XML.

Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte…

Exemple : les immenses ressources des grandes bibliothèques publiques sont

longtemps numérisées et mises en ligne en mode image (PDF) à l’exclusion du

mode texte (Gallica-BNF).

Brève histoire (très orientée !) de l’informatisation des « textes »

Facteurs d’évolution :

[sur fond de l’évolution technologique]

* La demande liée au traitement de texte :

Mise en forme et interopérabilité > RTF

* La demande liée au Web et à l’hypertexte :

Navigabilité (viabilisation) > HTML, XML.

Paradoxe : ces évolutions atteignent TARDIVEMENT le domaine encore inconstitué et innommé où vont se rencontrer les sciences et techniques du texte…

Exemple : les immenses ressources des grandes bibliothèques publiques sont longtemps numérisées et mises en ligne en mode image (PDF) à l’exclusion du mode texte (Gallica-BNF).

et leur océrisation contrôlée n’est toujours pas considérée comme une priorité des

politiques publiques.

Brève histoire (très orientée !) de l’informatisation des « textes »

Text Encoding Initiative (TEI)

http://www.tei-c.org/index.xml

Brève histoire (très orientée !) de l’informatisation des « textes »

Text Encoding Initiative (TEI)

Représentation XML exhaustive, standardisée, cumulative, interopérable, coopérative.

Brève histoire (très orientée !) de l’informatisation des « textes »

Un document TEI comporte :

Un en-tête (header) dédié aux métadonnées communes :

Instanciation, autorités, signatures, déclaration DTD

Un corps (body) dédié au stockage des énoncés et de leurs annotations fines.

La répartition de l’annotation entre en-tête et corps est souple ;

de même que la segmentation du texte en documents TEI.

Brève histoire (très orientée !) de l’informatisation des « textes »

<title><w forme="Au" lemme="À_prep" ><w forme= lemme="le_artdef" flex="ms">Au <w forme="Lecteur" lemme="lecteur_sm" flex="s">Lecteur</title><BR><BR><verse><w forme="La" lemme="le_artdef" flex="fs">La <w forme="sottise" lemme="sottise_sf" flex="s">sottise<pct forme="," lemme="vrgl">, <w forme="l'" lemme="le_artdef" flex="xs">l'<w forme="erreur" lemme="erreur_sf" flex="s">erreur<pct forme="," lemme="vrgl">, <w forme="le" lemme="le_artdef" flex="ms">le <w forme="péché" lemme="péché_sm" flex="s"><pct forme="," lemme="vrgl">, <w forme="la" lemme="le_artdef" flex="fs">la <w forme="lésine" lemme="lésine_sf" flex="s">lésine<pct forme="," lemme="vrgl">,<format d'appel de note vers Pichon-Pléiade></verse>

Brève histoire (très orientée !) de l’informatisation des « textes »

Philologie numérique :Préparation et établissement des documents TEI

décrivant un manuscrit (une paléographie), une édition, une annotation, un ensemble de signets,

dans la perspective de leur intégration à un réseau de documents pouvant :

-être reliés à la définition informatique (par adresses, arborescente) d’un texte

-être critiqués et commentés par d’autres-être identifiés (historicisés)-… être explorés en corpus

Applications…

Pôle Archive, Bases, Corpus :

*Développement DIATAG : établissement et annotation de textes en français moderne et contemporain

*Développement ASTARTEX : environnement d’analyse textuelle et d’exploration assistée

*Ressources textuelles (acquisition + préparation) :

Base « Presse comtoise 1850-1950 »Base « Aveux de détenus politiques en RD de Guinée sous Sékou Touré »Base « Socialisme utopique – Proudhon, Fourier, Considérant… »Base « Claudel – théâtre, poésie, correspondance »Base « Presse vernaculaire contemporaine en Région – commandite Europe-Région »Base « Littérature orale des phnong du Cambodge »Base « Presse coloniale francophone en Indochine »

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

historique :

La MSHE de Franche-Comté et ses tutelles financières; le SGAR

Commandite / mise à l’épreuve :

« pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au referendum TCE de mai 2005 ? »

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en

Franche-Comté

historique :

La MSHE de Franche-Comté et ses tutelles financières; le SGAR

Commandite / mise à l’épreuve :

« pourquoi notre région, copieusement arrosée de fonds structurants européens, vote-t-elle à 57% ‘non’ au referendum TCE de mai 2005 ? »

Notre réponse (proposition du pôle ABC) :A côté d’un sondage classique d’opinion,

un volet d’ analyse du discours de presse.

Recueillir l’ensemble des publications déposées au dépôt légal régional entre avril 2004 et mai 2006

Les océriser, les disposer en une base textuelle

Constituer un corpus d’étude et le soumettre à une analyse exploratoire débouchant sur quelques conclusions

Inscrire cette opération dans une durée (suivi des représentations)

Applications… [excursus « qui n’a rien à voir ?...]

Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous

conduisent à réduire (provisoirement) la base projetée aux dimensions du corpus adapté à

l’enquête en cours (commande institutionnelle, publication, thèse…)

Applications… [excursus « qui n’a rien à voir ?...]

Bien souvent, dans le contexte universitaire contemporain, les moyens réduits nous conduisent à réduire (provisoirement) la base projetée aux

dimensions du corpus adapté à l’enquête en cours (commande institutionnelle, publication, thèse…)

Ce n’est pas une raison pour le « théoriser ».

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

942 titres de presse déposés (base)

282 titres « filtrés » par mots-clés

692 articles de longueurs variables (corpus)

Applications… Représentations de l’Europe à travers la presse

« vernaculaire » en Franche-Comté

corpus :

692 fichiers PDF océrisés, corrigés, instanciés

Applications… Représentations de l’Europe à travers la presse

« vernaculaire » en Franche-Comtécorpus :

692 fichiers balisés « mot à mot » (pseudo xml)

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

316 500 « mots » (occurrences, tokens)

20 800 formes graphiques (types)

Opération de lemmatisation (étiquetage lexical et morphologique)

Alternance

d’applications automatiques de ressources (dictionnaires et scripts de levée contextuelle d’ambiguïtés graphiques)

de phases de décision interactive pour les cas indécidables par automates

Maintenance et enrichissement des ressources linguistiques

(système DiaTag)

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

corpus :

310 000 occurrences

13 800 lemmes (types)

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « exogène » : une base contemporaine (2002) de 5 quotidiens nationaux d’information générale sur 5 mois – 30 millions de mots. Non lemmatisée.

Occurrences, puis écarts-réduits à l’équidistribution.

Muller Ch. (1992). Initiation aux méthodes de la statistique linguistique. Champion

Applications…

Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « endogène » : la distribution d’un item lexical repéré comme « mot-clé » parmi les parties structurelles du corpus.

Perspective discursive. Ouvre sur l’interprétation.

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Le tableau de la distribution générale des vocables dans les sous-corpus par groupes d’énonciateurs se présente comme suit.

L’Analyse Factorielle des Correspondances (AFC) permet de classer les profils des lignes et des colonnes d’un tel tableau, et de projeter cette classification en un nuage de points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère).

Lebart L. & Salem A. (1994). Statistique textuelle. DunodCibois Ph. (1994). L’Analyse factorielle. PUF

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux parmi les parties structurelles du corpus. (AFC projection 3 facteurs)

Applications… Représentations de l’Europe à travers la presse « vernaculaire » en Franche-Comté

Une comparaison « endogène » généralisée : la distribution d’un grand nombre d’items lexicaux parmi les parties structurelles du corpus. Zoom.

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence).

On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

On peut « exprimer » le vocabulaire comme liste des vocables (avec indication de leur fréquence).

On peut même utiliser ce « dictionnaire élémentaire » comme répertoire (cliquable en hypertexte).

Mais on peut aussi concevoir qu’un vocable est une série d’occurrences.

Il détermine une série de contextes (phrases e.g.)

Cette série de contextes est une espèce particulière

- et particulièrement intéressante -

de « sous-ensemble » textuel.

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Nous pouvons déterminer si, dans le contexte total – discontinu – d’un vocable, tel autre vocable est significativement plus présent que dans

l’ensemble du texte.

(écart-réduit > 2)

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Nous pouvons déterminer, pour un vocable, quels

sont ses cooccurrents les plus forts.

(exemple : concurrence_SF)

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Nous pouvons généraliser cette observation, en comparant les profils de cooccurrence des principaux vocables d’un ensemble textuel.

On recueille les données dans une matrice lignes/colonnes :

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

L’Analyse Factorielle des Correspondances (AFC) permet de classer les profils cooccurrentiels et de projeter cette classification en un nuage de points (ici, un nuage dans l’espace 3D d’une boule, repris en planisphère)

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

La proximité (angulaire) des points du nuage est une fonction approchée de leur parenté de profil « (micro-)distributionnel ».

Cette proximité définit ce que nous nommons ISOTROPIE.

PAUSE… Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

L’ ISOTROPIE, rapport d’ équivalence distributionnelle au sens harrissien, structure le vocabulaire en éclairant la signification (en contexte) d’items lexicaux pluri-occurrents.

Elle donne à la fois un aperçu « thématique » sur l’ensemble et un aperçu « sémantique » sur le détail.

Elle s’oppose conceptuellement à l’ ISOTOPIE, avec laquelle elle peut opérationnellement être en rapport de complémentarité.

Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Plus sophistiqué.

On peut repérer dans le nuage les items sur-employés dans une partie discursive du corpus. Ici, en bleu, les vocables privilégiés par les syndicats d’agriculteurs (princ. Confédération Paysanne )

Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

On peut même affecter 4 couleurs distinctes aux vocables privilégiés par les 4 principaux groupes énonciateurs.

Est-ce réellement encore… une PAUSE ? Structures textuelles non séquentielles.

Qu’est-ce que le vocabulaire (vs lexique) ?

Qu’est-ce qu’un vocable (vs lexème)

Ce n’est pas toujours le cas, mais ici la structure isotropique est fortement homologue de la répartition par groupes d’énonciateurs.

Ce fut même un élément-clé de notre rapport d’interprétation.

Révisons…

Profils micro-distributionnels

Révisons…

Profils micro-distributionnels

Comparaison par paires : deux profils voisins.

Révisons…

Profils micro-distributionnels

Comparaison par paires : deux profils opposés.

Révisons…

Analyse multidimensionnelle (AFC) de l’isotropie.

(plan des 2 premiers facteurs)

Avançons…

Une autre application : le lexique en discours.

Eléments de description lexicologique d’un vocable : REGARD,Nm

Balzac,

La Comédie humaine

Avançons…

Une autre application :

le lexique en discours.

Balzac,

La Comédie humaine

Viprey 2005A

Avançons…

Une autre application :

le lexique en discours.

Avançons…

Une autre application : le lexique en discours.

Eléments de description lexicologique différentielle d’un vocable : REGARD,Nm éclairé par REGARDER,V

Balzac,

La Comédie humaine

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

Un « grand » corpus, ce peut être des centaines de millions de mots (étude d’un discours de presse)… mais aussi bien 300 000 mots s’ils se répartissent dans 700 articles parfois très fastidieux (notre exemple au service du SGAR de Franche-Comté).

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

« Traiter » un grand corpus, c’est bien sûr une question statistique. On fait monter ses régularités, ses saillances, on le cartographie.Cela, en vue d’une meilleure pénétration d’un discours.

La question souvent éludée en sciences humaines, c’est le choix des attestations. L’expertise de l’expert se mord un peu la queue…

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

Certains logiciels prétendent extraire les phrases les plus représentatives, fabriquer des résumés, le tout automatiquement (« boîtes noires »).

L’ambition d’une ATD « outillée » est d’aider le chercheur à explorer son corpus au plus près de ses compétences et de ses hypothèses, par un « retour au texte » aussi plénier que possible.

Par l’alternance des « états de texte » (plein texte, dictionnaires, listes, cartes, formules de requête…)

Généralisons…

CONSTITUER, TRAITER… LIRE LES [GRANDS] CORPUS ?

L’ambition d’une ATD « outillée » est de VIABILISER les corpus en vue d’un travail constitutif, descriptif, réflexif et interprétatif élargi et approfondi.

Cette ambition se rencontre avec le développement des concepts et des techniques de l’ HYPERTEXTE, dont HTML et XML sont les langages.

Hyperbase depuis quinze ans, Astartex-DiaTag plus modestement, préfigurent cet environnement un peu « intégral » où se rejoignent le philologue et l’herméneute.

Bibliographie…

La bibliographie est donnée en notes sur les diapositives, à l’exception des références de l’auteur, qui suivent :

● 2008 avec Virginie Lethier (coordonnateurs) Semen n°25, Le Discours de presse au XIXème siècle : pratiques socio-discursives émergentes. – Besançon, Presses Universitaires de Franche-Comté● 2008 avec Virginie Lethier «Annotation linguistique de corpus : vers l’exhaustivité par la convialité.» in JADT’09, 9èmes Journées internationales d'Analyse statistique des Données Textuelles. – Lyon, Presses Universitaires de Lyon● 2006 (coordonnateur) JADT’06 , 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté.● 2006 « Philologie numérique et herméneutique intégrative » in Sciences du texte et analyse de discours : enjeux d’une interdisciplinarité dir. Jean-Michel Adam & Ute Heidman. – Genève : Slatkine (pp. 51-68)● 2006 « About Labbé’s intertextual distance » in Journal of Quantitatie Linguistics vol.13 n° 2-3 Août-Décembre 2006, Routledge (pp.164-284)● 2006 « …un de ces syntagmes qui… » in Corpus n°5, Corpus et stylistique, 2006, CNRS-UNSA.● 2006 « Quelle place pour les sciences des textes dans l’Analyse de Discours » in Semen n° 21 Catégories pour l’analyse du discours politique, Besançon, Presses Universitaires de Franche-Comté (pp.167-182)● 2006 « Ergonomiser la visualisation AFC dans un environnement d’exploration textuelle : une projection ‘géodésique’ » in JADT’06, 8èmes Journées internationales d'Analyse statistique des Données Textuelles. – Besançon, Presses Universitaires de Franche-Comté.● 2005 « Méthodes pour la lecture des corpus » in Sémantique et corpus dir. Anne Condamines. – Hermès● 2005 « Structure non séquentielle du texte » in Langages n° 161, Unité(s) du texte dir. Dominique Legallois. – Paris : Larousse. (pp. 65-82)● 2002 Analyses textuelles et hypertextuelles des Fleurs du mal - Champion, Paris.● 1997 Dynamique du vocabulaire des Fleurs du mal - Champion, Paris. (Prix International de la Fondation Paul-Robert 1998).

Recommended