44
Genres et sous- domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine . poudat @ univ - orleans . fr

Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans [email protected]

Embed Size (px)

Citation preview

Page 1: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Genres et sous-domaines scientifiques dans un corpus

d’articles de linguistique

Céline Poudat

CORAL – Orléans

[email protected]

Page 2: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Objectif

Exploration en corpus des revues de linguistique française et de leurs

genres et objets spécifiques

Page 3: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Corpus d’articles de revues linguistiques (ASL)

Représentation par année de publication Représentation par revue et numéro

Page 4: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

ASL: années de publication

0

10

20

30

40

50

60

70

1995 1996 1997 1999 2000 2001 2002 2003

Année

Page 5: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

ASL: répartition des revues

0

5

10

15

20

25

30

35

40

LANGAGEHEL

SEMIO

CIEL

SYNSEM

PRAX LFRSP

SCOLIA

VERBUMLIN

X

Nb articlesNb numéros

Page 6: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Méthodologie d’analyse générale...

1. Première exploration par Analyse en Composantes Principales (ACP) Classification Ascendante Hiérarchique (CAH)

2. Exploration des spécificités et caractérisation différentielle Analyse des spécificités (des correspondances)

3. Exploration conceptuelle ACP sur co-occurrents (S. Loiseau) avec corpus

Reader

Page 7: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

et jeux de descripteurs utilisés Descripteurs lexicaux

Mots non vides

140 descripteurs morphosyntaxiques Parties du discours traditionnelles Descripteurs spécifiques au discours scientifique

linguistique IL impersonnel vs. anaphorique, ON, modaux,

connecteurs (opposition, causalité, conséquence, etc.), marqueurs de structuration textuelle, éléments étrangers (non français), etc.

Marqueurs de formalisation linguistique (SN, SV, ? et *, morphèmes, etc.)

Page 8: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Les trois genres de la revue de linguistique française

L’article de recherche La présentation Le compte rendu

Page 9: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Corpus

0

50

100

150

200

250

Articles Présentations Comptesrendus

Nb textes

Page 10: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Exploration et caractérisation différentielle des trois genres

Corpus d’articles Textes entiers Textes sans exemples Textes sans exemples ni citations

Première exploration Analyse en Composantes Principales (ACP) +

Classification Ascendante Hiérarchique (CAH)

Caractérisation Analyse des spécificités

Lexicales Morphosyntaxiques

Page 11: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

CAH en 12 classes: répartition des trois genres

0

10

20

30

40

50

60

1 2 3 4 5 6 7 8 9 10 11 12

Articles

Comptes rendus

Présentations

Page 12: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr
Page 13: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Caractérisation lexicale des 3 genres: en positif

Articles Comptes rendus

Présentations

Chiffres 1 et 2

> 12 ouvrage, chapitre

> 23.5 numéro > 19

Pronoms ON, JE et NOUS

> 11 auteur > 16.5 articles > 15

Symbole x

> 11.5 et > 15 linguistique > 11

p > 13.5 réflexion > 9

Page 14: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Caractérisation lexicale des 3 genres: en négatif

Articles Comptes rendus

Présentations

Chapitre, ouvrage

< -19 nous < -11 Chiffres 1, 2 et 3

< -9

auteur < -18 Pronoms ON et JE

< -9 Symbole x < -8

Articles, numéro

< -16 Chiffres 1 et 2

< -8 est < -8

peut < -8

Page 15: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

SynthèseArticles vs. présentations

P: ‘articles’ et ‘numéro’ A: symboles et chiffres

Articles vs. comptes rendus A: pronoms NOUS, ON et JE + chiffres CR: ‘chapitre’, ‘ouvrage’ et ‘auteur’

Page 16: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Spécificités morphosyntaxiques Articles vs. CR et présentations

A: longueur, structuration, modaux présent, deux points, connecteurs de conséquence...

CR et P: noms propres, connecteurs d’addition, numéraux ordinaux...

Articles vs. présentations A: symboles, négations

Articles vs. comptes rendus CR: déterminants définis

Page 17: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Sous-domaines et thématique scientifique linguistique

Corpus: 224 articles

Page 18: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Comment caractériser la thématique et les sous-domaines du corpus?

Exploration par ACP Descripteurs morphosyntaxiques Descripteurs épistémiques

Analyse des exemples et des citationsAnalyse des spécificités des revues et

des numéros thématiquesAnalyse des concepts linguistiques

Exemple de LINGUISTIQUE

Page 19: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Première exploration du corpus d’articles

ACP

140 descripteurs morphosyntaxiques

Examen des deux premiers axes factoriels

Page 20: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr
Page 21: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

La parole intérieure

Genres et intertexte

Histoire, Epistémologie, Langage

La langue des signes

Page 22: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Spécificités lexicales du corpus

Page 23: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr
Page 24: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr
Page 25: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Exemples et citations

Typologie des exemples Répartition par revue et numéro

Page 26: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Répartition des exemples dans l’ensemble du corpus

littéraire

journalistique

construit

cité

attesté

NSP

varia

Page 27: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Répartition des exemples par numéro de revue

0

50

100

150

200

250

300

350

400

P1 P3 C2 R2 R4 H2 LA LF2 X1 X3 SC1 S1 V1 V3 V5 T1

ex.attesté

ex. journalistique

ex. littéraire

ex.cité

ex. varia

ex.construit

PRAX RSP LF

SCOLIA

VERBUM

HEL

CIEL

LANG

LINX

SEMIO

SYNT

Page 28: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Répartition des citations par numéro de revue

0

10

20

30

40

50

60

70

80

Citations

PRAX

RSP

LF SCOLIA

VERBUM

HEL

CIEL

LANG

LINX SEMIO SYNT

Page 29: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Rapport exemples/citations par numéro

0

50

100

150

200

250

300

350

400

450

P1 P2 P3 C1 C2 R1 R2 R3 R4 H1 H2 H3 LA LF1 LF2 LF3 X1 X2 X3 X4 SC1 SC2 S1 S2 V1 V2 V3 V4 V5 V6 T1 T2

Citations

Exemples

HEL

LF

PRAX

Page 30: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Spécificités des numéros et des revues

Page 31: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

IntérêtÉvaluation de l’homogénéité des

articles d’un même numéro/d’une même revue

Détermination des concepts et objets caractéristiques des numéros/des revues

Page 32: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Numéros lexicalement homogènes

17 numéros thématiques sur 30 Spécificités positives Objets:

intertexte, dénomination, prépositions, dialogue, participe, parole intérieure, langues des signes, hypothétique, contexte(s), impossible, futur, référence discursive, référence pronominale plurielle, relations de discours, sémantique des verbes, syntaxe au-delà de la phrase, sémantique verbale

Page 33: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Gain en précision

Autour du futurVerbum

Futur 37.9Visée 17.37

Présent 16.88

Linguistique de la dénominationCahiers de Praxématique

Dénomination 44.3Dénominations 23.9

Famille 18.44Nom 14.7

Verbe -7.6Verbes -6.5

Préposition -6,49Texte -6.54

Page 34: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Gain en précision

L’hypothétiqueLINX

q et p 26.7si 23,24

condition 18.62énonciateur (17,8)

Référence discursive etaccessibilité cognitive

Verbum CR 26.6segment 25.6

référent 24centrage 22.2énoncé 18.1

langue -9.9verbe -8.4verbes -7,8sens -7.5

Page 35: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Numéros moins homogènesCauses:

Hétérogénéité du numéro Spécificités d’un ou deux textes

Horizons de la grammaireAlexandrine

HEL

Surface 28.5Côté 7.9

Nombre 7.5Commun 7.4Quatre 6.5

contexte -4.6français -4.07

interprétation -3,6langues -3.4

MAIS

Page 36: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Analyse des concepts linguistiques

Deux exemples d’analyse avec CR (S. Loiseau)

Exemple de LINGUISTIQUE

Page 37: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Fréquence de linguistique par revue

PRAX

HEL dialogue LF lexique

Scolia Sémiotiques

RSPNT

Page 38: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

ACP Individus: 50 premiers co-occurrents

de LINGUISTIQUE

Variables: fréquences dans les segments des textes délimités par la variable ‘indice de structuration’

Page 39: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

50 premiers co-occurrents de ‘linguistique’

num | lemme | rate | freq | subfreq

1 | système | 1.00000000000000000 | 727 | 296 2 | sponsoring | 1.00000000000000000 | 37 | 37 3 | sens | 1.00000000000000000 | 2368 | 822 4 | mots | 1.00000000000000000 | 1296 | 495 5 | mot | 1.00000000000000000 | 958 | 391 6 | linguistiques | 1.00000000000000000 | 660 | 353 7 | linguistique | 1.00000000000000000 | 1331 | 1206 8 | langue | 1.00000000000000000 | 2037 | 835 9 | langage | 1.00000000000000000 | 1184 | 563 10 | idiome | 1.00000000000000000 | 74 | 59 11 | grammaire | 1.00000000000000000 | 308 | 161 12 | discours | 1.00000000000000000 | 1830 | 672 13 | des | 1.00000000000000000 | 21203| 6343 14 | Saussure | 1.00000000000000000 | 97 | 76 15 | Jakobson | 1.00000000000000000 | 44 | 40 16 | ' | 1.00000000000000000 | 2688 | 905 17 | terminologie | 0.99999999999999989 | 185 | 102 18 | conception | 0.99999999999999989 | 309 | 150 19 | Vygotskij | 0.99999999999999989 | 72 | 53 20 | contexte | 0.99999999999999967 | 1568 | 559 21 | texte | 0.99999999999999956 | 1313 | 479 22 | traducteur | 0.99999999999999944 | 120 | 74 23 | Jakubinskij | 0.99999999999999667 | 48 | 39 24 | représentations | 0.99999999999999256 | 312 | 146 25 | extra- | 0.99999999999998512 | 65 | 47

26 | recherches | 0.99999999999998324 | 188 | 99 27 | analyse | 0.99999999999994549 | 1302 | 465 28 | relations | 0.99999999999993983 | 960 | 358 29 | la | 0.99999999999950795 | 35232 | 9889 30 | études | 0.99999999999941214 | 259 | 122 31 | sélection- | 0.99999999999923739 | 21 | 21 32 | linguistes | 0.99999999999917411 | 179 | 92 33 | habere | 0.99999999999905631 | 24 | 23 34 | sémiotique | 0.99999999999893030 | 81 | 52 35 | traduction | 0.99999999999873723 | 242 | 115 36 | théorie | 0.99999999999761136 | 625 | 244 37 | unité | 0.99999999999664757 | 547 | 218 38 | les | 0.99999999999640732 | 19686 | 5618 39 | [ | 0.99999999999580502 | 1287 | 450 40 | ] | 0.99999999999374434 | 1287 | 449 41 | scientifique | 0.99999999999013101 | 128 | 70 42 | dialogue | 0.99999999998670397 | 338 | 146 43 | traitement | 0.99999999998612410 | 344 | 148 44 | communauté | 0.99999999998441302 | 109 | 62 45 | phonèmes | 0.99999999997350364 | 72 | 46 46 | WordNet | 0.99999999996460620 | 77 | 48 47 | concepts | 0.99999999994672506 | 223 | 104 48 | intérieur | 0.99999999988978017 | 519 | 203 49 | unités | 0.99999999988648036 | 669 | 251 50 | sciences | 0.99999999986778498 | 91 | 53

Page 40: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr
Page 41: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Histoire, Epistémologie, Langage

La parole intérieureGenres et intertexte

Contexte(s)

Page 42: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Conclusion et perspectives(1/2)

Intérêt des méthodes statistiques pour cartographier le champ linguistique français

Détermination des propriétés formelles et différentielles des genres de la revue

Détermination de potentiels mots-clés

Expérimentations complémentaires (analyse plus précise des thèmes des numéros de revue et des concepts les plus discriminants)

Page 43: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Conclusion et perspectives(1/2)

Analyse plus précise des exemples selon la cartographie obtenue

Analyse contrastive interlangue Comparaison avec un corpus de 200

articles de revues linguistiques anglo-saxonnes

Page 44: Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans celine.poudat@univ-orleans.fr

Genres et sous-domaines scientifiques dans un corpus

d’articles de linguistique

Céline Poudat

CORAL – Orléans

[email protected]