Upload
amaline-favre
View
105
Download
1
Embed Size (px)
Citation preview
Genres et sous-domaines scientifiques dans un corpus
d’articles de linguistique
Céline Poudat
CORAL – Orléans
Objectif
Exploration en corpus des revues de linguistique française et de leurs
genres et objets spécifiques
Corpus d’articles de revues linguistiques (ASL)
Représentation par année de publication Représentation par revue et numéro
ASL: années de publication
0
10
20
30
40
50
60
70
1995 1996 1997 1999 2000 2001 2002 2003
Année
ASL: répartition des revues
0
5
10
15
20
25
30
35
40
LANGAGEHEL
SEMIO
CIEL
SYNSEM
PRAX LFRSP
SCOLIA
VERBUMLIN
X
Nb articlesNb numéros
Méthodologie d’analyse générale...
1. Première exploration par Analyse en Composantes Principales (ACP) Classification Ascendante Hiérarchique (CAH)
2. Exploration des spécificités et caractérisation différentielle Analyse des spécificités (des correspondances)
3. Exploration conceptuelle ACP sur co-occurrents (S. Loiseau) avec corpus
Reader
et jeux de descripteurs utilisés Descripteurs lexicaux
Mots non vides
140 descripteurs morphosyntaxiques Parties du discours traditionnelles Descripteurs spécifiques au discours scientifique
linguistique IL impersonnel vs. anaphorique, ON, modaux,
connecteurs (opposition, causalité, conséquence, etc.), marqueurs de structuration textuelle, éléments étrangers (non français), etc.
Marqueurs de formalisation linguistique (SN, SV, ? et *, morphèmes, etc.)
Les trois genres de la revue de linguistique française
L’article de recherche La présentation Le compte rendu
Corpus
0
50
100
150
200
250
Articles Présentations Comptesrendus
Nb textes
Exploration et caractérisation différentielle des trois genres
Corpus d’articles Textes entiers Textes sans exemples Textes sans exemples ni citations
Première exploration Analyse en Composantes Principales (ACP) +
Classification Ascendante Hiérarchique (CAH)
Caractérisation Analyse des spécificités
Lexicales Morphosyntaxiques
CAH en 12 classes: répartition des trois genres
0
10
20
30
40
50
60
1 2 3 4 5 6 7 8 9 10 11 12
Articles
Comptes rendus
Présentations
Caractérisation lexicale des 3 genres: en positif
Articles Comptes rendus
Présentations
Chiffres 1 et 2
> 12 ouvrage, chapitre
> 23.5 numéro > 19
Pronoms ON, JE et NOUS
> 11 auteur > 16.5 articles > 15
Symbole x
> 11.5 et > 15 linguistique > 11
p > 13.5 réflexion > 9
Caractérisation lexicale des 3 genres: en négatif
Articles Comptes rendus
Présentations
Chapitre, ouvrage
< -19 nous < -11 Chiffres 1, 2 et 3
< -9
auteur < -18 Pronoms ON et JE
< -9 Symbole x < -8
Articles, numéro
< -16 Chiffres 1 et 2
< -8 est < -8
peut < -8
SynthèseArticles vs. présentations
P: ‘articles’ et ‘numéro’ A: symboles et chiffres
Articles vs. comptes rendus A: pronoms NOUS, ON et JE + chiffres CR: ‘chapitre’, ‘ouvrage’ et ‘auteur’
Spécificités morphosyntaxiques Articles vs. CR et présentations
A: longueur, structuration, modaux présent, deux points, connecteurs de conséquence...
CR et P: noms propres, connecteurs d’addition, numéraux ordinaux...
Articles vs. présentations A: symboles, négations
Articles vs. comptes rendus CR: déterminants définis
Sous-domaines et thématique scientifique linguistique
Corpus: 224 articles
Comment caractériser la thématique et les sous-domaines du corpus?
Exploration par ACP Descripteurs morphosyntaxiques Descripteurs épistémiques
Analyse des exemples et des citationsAnalyse des spécificités des revues et
des numéros thématiquesAnalyse des concepts linguistiques
Exemple de LINGUISTIQUE
Première exploration du corpus d’articles
ACP
140 descripteurs morphosyntaxiques
Examen des deux premiers axes factoriels
La parole intérieure
Genres et intertexte
Histoire, Epistémologie, Langage
La langue des signes
Spécificités lexicales du corpus
Exemples et citations
Typologie des exemples Répartition par revue et numéro
Répartition des exemples dans l’ensemble du corpus
littéraire
journalistique
construit
cité
attesté
NSP
varia
Répartition des exemples par numéro de revue
0
50
100
150
200
250
300
350
400
P1 P3 C2 R2 R4 H2 LA LF2 X1 X3 SC1 S1 V1 V3 V5 T1
ex.attesté
ex. journalistique
ex. littéraire
ex.cité
ex. varia
ex.construit
PRAX RSP LF
SCOLIA
VERBUM
HEL
CIEL
LANG
LINX
SEMIO
SYNT
Répartition des citations par numéro de revue
0
10
20
30
40
50
60
70
80
Citations
PRAX
RSP
LF SCOLIA
VERBUM
HEL
CIEL
LANG
LINX SEMIO SYNT
Rapport exemples/citations par numéro
0
50
100
150
200
250
300
350
400
450
P1 P2 P3 C1 C2 R1 R2 R3 R4 H1 H2 H3 LA LF1 LF2 LF3 X1 X2 X3 X4 SC1 SC2 S1 S2 V1 V2 V3 V4 V5 V6 T1 T2
Citations
Exemples
HEL
LF
PRAX
Spécificités des numéros et des revues
IntérêtÉvaluation de l’homogénéité des
articles d’un même numéro/d’une même revue
Détermination des concepts et objets caractéristiques des numéros/des revues
Numéros lexicalement homogènes
17 numéros thématiques sur 30 Spécificités positives Objets:
intertexte, dénomination, prépositions, dialogue, participe, parole intérieure, langues des signes, hypothétique, contexte(s), impossible, futur, référence discursive, référence pronominale plurielle, relations de discours, sémantique des verbes, syntaxe au-delà de la phrase, sémantique verbale
Gain en précision
Autour du futurVerbum
Futur 37.9Visée 17.37
Présent 16.88
Linguistique de la dénominationCahiers de Praxématique
Dénomination 44.3Dénominations 23.9
Famille 18.44Nom 14.7
Verbe -7.6Verbes -6.5
Préposition -6,49Texte -6.54
Gain en précision
L’hypothétiqueLINX
q et p 26.7si 23,24
condition 18.62énonciateur (17,8)
Référence discursive etaccessibilité cognitive
Verbum CR 26.6segment 25.6
référent 24centrage 22.2énoncé 18.1
langue -9.9verbe -8.4verbes -7,8sens -7.5
Numéros moins homogènesCauses:
Hétérogénéité du numéro Spécificités d’un ou deux textes
Horizons de la grammaireAlexandrine
HEL
Surface 28.5Côté 7.9
Nombre 7.5Commun 7.4Quatre 6.5
contexte -4.6français -4.07
interprétation -3,6langues -3.4
MAIS
Analyse des concepts linguistiques
Deux exemples d’analyse avec CR (S. Loiseau)
Exemple de LINGUISTIQUE
Fréquence de linguistique par revue
PRAX
HEL dialogue LF lexique
Scolia Sémiotiques
RSPNT
ACP Individus: 50 premiers co-occurrents
de LINGUISTIQUE
Variables: fréquences dans les segments des textes délimités par la variable ‘indice de structuration’
50 premiers co-occurrents de ‘linguistique’
num | lemme | rate | freq | subfreq
1 | système | 1.00000000000000000 | 727 | 296 2 | sponsoring | 1.00000000000000000 | 37 | 37 3 | sens | 1.00000000000000000 | 2368 | 822 4 | mots | 1.00000000000000000 | 1296 | 495 5 | mot | 1.00000000000000000 | 958 | 391 6 | linguistiques | 1.00000000000000000 | 660 | 353 7 | linguistique | 1.00000000000000000 | 1331 | 1206 8 | langue | 1.00000000000000000 | 2037 | 835 9 | langage | 1.00000000000000000 | 1184 | 563 10 | idiome | 1.00000000000000000 | 74 | 59 11 | grammaire | 1.00000000000000000 | 308 | 161 12 | discours | 1.00000000000000000 | 1830 | 672 13 | des | 1.00000000000000000 | 21203| 6343 14 | Saussure | 1.00000000000000000 | 97 | 76 15 | Jakobson | 1.00000000000000000 | 44 | 40 16 | ' | 1.00000000000000000 | 2688 | 905 17 | terminologie | 0.99999999999999989 | 185 | 102 18 | conception | 0.99999999999999989 | 309 | 150 19 | Vygotskij | 0.99999999999999989 | 72 | 53 20 | contexte | 0.99999999999999967 | 1568 | 559 21 | texte | 0.99999999999999956 | 1313 | 479 22 | traducteur | 0.99999999999999944 | 120 | 74 23 | Jakubinskij | 0.99999999999999667 | 48 | 39 24 | représentations | 0.99999999999999256 | 312 | 146 25 | extra- | 0.99999999999998512 | 65 | 47
26 | recherches | 0.99999999999998324 | 188 | 99 27 | analyse | 0.99999999999994549 | 1302 | 465 28 | relations | 0.99999999999993983 | 960 | 358 29 | la | 0.99999999999950795 | 35232 | 9889 30 | études | 0.99999999999941214 | 259 | 122 31 | sélection- | 0.99999999999923739 | 21 | 21 32 | linguistes | 0.99999999999917411 | 179 | 92 33 | habere | 0.99999999999905631 | 24 | 23 34 | sémiotique | 0.99999999999893030 | 81 | 52 35 | traduction | 0.99999999999873723 | 242 | 115 36 | théorie | 0.99999999999761136 | 625 | 244 37 | unité | 0.99999999999664757 | 547 | 218 38 | les | 0.99999999999640732 | 19686 | 5618 39 | [ | 0.99999999999580502 | 1287 | 450 40 | ] | 0.99999999999374434 | 1287 | 449 41 | scientifique | 0.99999999999013101 | 128 | 70 42 | dialogue | 0.99999999998670397 | 338 | 146 43 | traitement | 0.99999999998612410 | 344 | 148 44 | communauté | 0.99999999998441302 | 109 | 62 45 | phonèmes | 0.99999999997350364 | 72 | 46 46 | WordNet | 0.99999999996460620 | 77 | 48 47 | concepts | 0.99999999994672506 | 223 | 104 48 | intérieur | 0.99999999988978017 | 519 | 203 49 | unités | 0.99999999988648036 | 669 | 251 50 | sciences | 0.99999999986778498 | 91 | 53
Histoire, Epistémologie, Langage
La parole intérieureGenres et intertexte
Contexte(s)
Conclusion et perspectives(1/2)
Intérêt des méthodes statistiques pour cartographier le champ linguistique français
Détermination des propriétés formelles et différentielles des genres de la revue
Détermination de potentiels mots-clés
Expérimentations complémentaires (analyse plus précise des thèmes des numéros de revue et des concepts les plus discriminants)
Conclusion et perspectives(1/2)
Analyse plus précise des exemples selon la cartographie obtenue
Analyse contrastive interlangue Comparaison avec un corpus de 200
articles de revues linguistiques anglo-saxonnes
Genres et sous-domaines scientifiques dans un corpus
d’articles de linguistique
Céline Poudat
CORAL – Orléans