29
La base textuelle FRANTEXT www.frantext.fr INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

La base textuelle FRANTEXT INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Embed Size (px)

Citation preview

Page 1: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

La base textuelle FRANTEXT

www.frantext.fr

INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S.

Denitsa Daynovska 2009

Page 2: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Présentation

• Un important corpus de textes français, du XVI ème au XX ème siècle, saisis sur support informatique.

• Environ 3500 œuvres• 80% d'oeuvres littéraires• 20% d'ouvrages techniques de diverses disciplines

scientifiques.

• Un logiciel de consultation.

Page 3: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Pourquoi Frantext?

Recherches utiles pour l’analyse linguistiquePar exemple: étude des emplois du verbe sortir,étude des emplois du verbe sortir suivi d’une préposition,étude de la construction [Verbe + Préposition + Nom]etc.

Recherches utiles pour l’analyse littérairePar exemple: Chercher les passages où Balzac parle d’amour paternel dans « le Père

Goriot »

Page 4: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Présentation de Frantext

Version catégoriséemoins de textes (1940 textes),étiquettes de catégories: nom, adjectif, adverbe, verbe,

préposition…

Version non catégorisée (Frantext intégral)Plus de 3 952 textes (avril 2009),Sans étiquetage.

Page 5: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Présentation de Frantext

Page 6: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Le corpus de recherche

Définir son corpus de travail, c'est choisir sur quels textes vous voulez travailler.

Un choix selon les critères suivants: Auteurs, Titres, Date, Genre littéraire.

Vous pouvez à tout moment: modifier le choix de textes, visualiser le détail de la bibliographie.

Page 7: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Notion de session

Lorsque vous ouvrez FRANTEXT, vous avez initialisé une session de travail. La session sera fermée et les fichiers seront effacés au bout de douze heures à compter du début de la session;

Si vous revenez à la page d'accueil et cliquez à nouveau sur "ACTIVATION DE FRANTEXT", vous initialisez alors une nouvelle session. Vous êtes alors considéré comme un nouvel utilisateur, et les fichiers que vous avez créés dans la session précédente deviennent inaccessibles;

Il est conseillé de ne pas ouvrir Frantext dans plusieurs fenêtres pendant une même session.

Page 8: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Définir le corpus de recherche

Page 9: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Avec ou sans Menus déroulants?

Page 10: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Sans « Menus déroulants »

Page 11: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Recherche dans le corpus(avec « Menus déroulants »)

Page 12: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Recherche dans le corpus

Une graphie simplemaison blanche

Un verbe conjugué (toutes ses formes) &c&caimer

Substantif ou adjectif fléchi (toutes ses formes) &m

&mfleur &mvert

Page 13: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Recherche dans le corpus

Page 14: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Co-occurrence de séquences

Page 15: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Recherche d’une expression

Une expression de choix:maison ( blanche | bleue)(maison|palais)d'un(blanc(immaculé|sale)|bleu(d'azur|

profond))

[maison d'un blanc immaculé, palais d'un blanc immaculé, maison d'un blanc sale, palais d'un blanc sale, maison d'un bleu d'azur, palais d'un bleu d'azur, maison d'un bleu profond, palais d'un bleu profond ]

Expression optionnelle &?un &?grand hommeun (homme | grand homme)

[un homme, un grand homme]

Page 16: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Recherche d’une expression

une ou plusieurs fois &+un &+très grand homme

zéro ou plusieurs fois &*un &*très grand homme

zéro ou une fois &?un &*très grand homme

négation ^un ^très grand homme

Page 17: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Recherche d’une expression

0, 1 ou plusieurs mots quelconques

&q(n1,n2) [n1 ≥0, n2> n1, n2-n1≤7]

un &q(0,2) homme (0, 1 ou 2 mots entre un et homme)[un homme, un grand homme, un très petit homme,…]

un &q homme un &q(1,1) homme (1 mot entre un et homme)[un grand homme, un jeune homme,…]

Page 18: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Entités catégorisées

Uniquement dans la version catégorisée

Recherche d’une catégorie:&e(g=XX) &e(g!=XX)

Recherche de contenu textuel dans une catégorie&e(c=XX)&e(c!=XX)

Page 19: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Entités catégorisées 2

Quelques codes de catégories:A adjectif (sauf cas Aca, Apr, Aps) Adv Adverbe Cc Conjonction coordination Cs Conjonction subordination D Déterminant (sauf cas Dca, Dg) Dca car. dét (cardinal ayant le rôle d'un déterminant : deux pigeons

s'aimaient) Dg amalgamés (au/aux/du/des) Inf infinitif Np Nom propre P Pronom (sauf cas Per, X) Per Pronom personnel Pp Préposition S Substantif V Verbe (sauf participes et infinitif)

Page 20: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Exemple de recherche de mot catégorisé

&e(g=A) &e(g=A) &e(g=A) &e(g=S)Cherche la suite Adj Adj Adj Nom[RESULTATS: pauvre chère petite enfant, mauvaise petite vieille maison, pauvre petit jeune homme, etc.]

&e(g!=A) [RESULTATS: tout ce qui N’EST pas adjectif!!!]

&e(c=tire-)[RESULTATS: tire-bouchon, tire-jus, tire-ligne]

Page 21: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Étude du voisinage d’un mot

Page 22: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Calcul de fréquences

Fréquence absolue: le nombre d'occurrences de cette forme dans le corpus.

Fréquence relative: la fréquence absolue de cette forme divisée par la somme des fréquences absolues de toutes les formes graphiques du corpus.

Page 23: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Définition de listes

Créer une liste manuellement. Créer une liste automatiquement:

Création d'une liste par flexion d'un lemme Création d'une liste à partir des graphies du corpus de

travail

Appel d’une liste dans la recherche &l

Page 24: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Définition de grammaires

Une grammaire a un nom: XXX Elle comporte des règles YYY Une règle a la forme suivante:

Nom:

Expression à chercher

Appel d’une règle &r&rYYY,XXX

Page 25: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Exemple de grammaire

Chercher les dates dans un texte (du type: 1 janvier 2005):

jour:1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18|19|20|21|22|23|24|25|26|27|28|29|30|32 mois:janvier|février|mars|avril|mai|juin|juillet|août|septembre|octobre|novembre|décembre annee:(1|2)(0|1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9) date:&rjour &rmois &rannee

Page 26: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Sauvegarder

Sauvegarder les résultats d’une recherche Sauvegarder une liste Sauvegarder une grammaire

Page 27: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Exercices 1

1. Définir un corpus de travail (après 1950)

2. Chercher les emplois du verbe filer, conjugué, dans n’importe quelle forme.

3. Chercher le verbe filer et le mot coton dans le contexte de la même phrase.

4. Créer une liste de déterminants (le, des, un, deux, mon, …)

5. Chercher les constructions V dans Déterminant N par exemple entrer dans la chambre

Page 28: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

Denitsa Daynovska, décembre 2009

Exercices 2

6. Créer une grammaire qui cherche des dates du format mardi, 5 janvier 1999 dans les textes.

7. Chercher combien de fois on trouve le mot amour dans « Le père Goriot » de Balzac.

8. Etudier le voisinage du mot amour dans dans « Le père Goriot » de Balzac (contexte: 1 mot avant et 1 mot après).

Page 29: La base textuelle FRANTEXT  INSTITUT NATIONAL DE LA LANGUE FRANCAISE, C.N.R.S. Denitsa Daynovska 2009

FIN

Merci de votre attention!

Contact: [email protected], 02/9461075