15
Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas d’homographie (en précisant la catégorie grammaticale du mot recherché). Avant de lancer une recherche sur un mot (ou une séquence) dans la base non catégorisée, il faut s’assurer ce mot (ou cette séquence) ne possède pas une forme homographe appartenant à une autre catégorie grammaticale (ex : pouvoir n.m. vs pouvoir v.inf). Pour les deux bases de Frantext, le formulaire de recherche se présente de la même manière. On accède au formulaire depuis le menu déroulant :

Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Embed Size (px)

Citation preview

Page 1: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Les recherches dans Frantext

ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas d’homographie (en précisant la catégorie grammaticale du mot recherché). Avant de lancer une recherche sur un mot (ou une séquence) dans la base non catégorisée, il faut s’assurer ce mot (ou cette séquence) ne possède pas une forme homographe appartenant à une autre catégorie grammaticale (ex : pouvoir n.m. vs pouvoir v.inf). Pour les deux bases de Frantext, le formulaire de recherche se présente de la même manière. On accède au formulaire depuis le menu déroulant :

Page 2: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Recherches dans la base non catégorisée

Malgré le problème de l’homographie, la base non catégorisée de Frantext peut être utilisée pour rechercher des graphies données (mots ou séquences de mots).

Toute recherche intervient après avoir défini un corpus de travail.

Pour rechercher une forme donnée d’un mot, il suffit de « taper » cette forme dans le formulaire de recherche. Exemple : Recherche du mot maison dans La Peau de chagrin

1. Rechercher une graphie donnée

Page 3: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

On obtient alors le nombre de résultats, que l’on peut ensuite visualiser :

La visualisation des résultats permet de vérifier si la formule utilisée répond bien à la requête.

Si ce n’est pas le cas, on peut retourner au formulaire pour corriger la formule, en utilisant l’icone du navigateur.

Page 4: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Ce mode de rédaction permet également de rechercher une séquence donnée.

Exemple : Recherche de la séquence maison blanche

La recherche d’une graphie donnée constitue la manière la plus simple de faire une requête sur Frantext.

Page 5: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

2. Intégrer des expressions de choix

Admettons à présent que l’on veuille chercher les séquences suivantes : petite maison, grande maison, jolie maison et vieille maison, qui mettent chacune en jeu un adjectif qualificatif différent.

On doit construire une formule qui intègrera un choix entre les différents adjectifs.L’expression de ce choix se note : (choix1|choix2|choix3|….)

Pour cet exemple, la formule sera donc :(petite|grande|jolie|vieille) maison

On peut, sur ce principe, combiner plusieurs expressions de choix.

Question : à quelles séquences correspond la formule suivante ?homme (riche(et généreux|et célèbre)|pauvre)

Réponse : homme riche et généreux, homme riche et célèbre, homme pauvre.

Page 6: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

3. Intégrer une séquence « quelconque »

La notation &q(n1,n2) désigne une suite quelconque de mots dont le nombre est compris entre n1 et n2.

Le signe &q peut également être employé seul (sans indication numérale) mais dans ce cas il équivaut à &q(1,1).

Exemple : la formule un homme &q riche correspond uniquement aux cas ou un mot quelconque s’intercale entre homme et riche (cette formule exclue donc la séquence un homme riche).

La formule pour cet exemple serait donc :un homme &q(0,1) riche

Ce paramètre est très utile lorsque l’on recherche par exemple les occurrences de un homme riche et que l’on ne veut pas pour autant exclure les séquences du type un homme très riche ou un homme assez riche.

Si l’on voulait également inclure les exemples du type un homme bon et riche, on noterait la formule suivante :

un homme &q(0,2) riche

Page 7: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

4. Intégrer une séquence facultative

Le symbole &? placé devant une expression signifie que cette expression est facultative.

Exemples :

a- une &?toute petite voix permettra de rechercher les occurrences de une petite voix et de une toute petite voix.

b- une &?(toute petite) voix

c- une &?(&?toute petite) voix

d- une &?(petite|grosse) voix

une voix et une toute petite voix.

une voix, une petite voix, une toute petite voix.

une voix, une petite voix, une grosse voix.

Page 8: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

5. Le symbole de négation

Le symbole ^ exprime la négation (ou plus exactement, l’exclusion). On le place devant l’expression que l’on veut rejeter.

On peut combiner le symbole de négation à une expression de choix : un homme très ^(gros|vieux|intelligent)

Cette formule permet de rechercher toutes les occurrences de un homme très XXX dans lesquelles XXX n’est ni égal à gros, ni à riche, ni à intelligent.

Exemple : un homme ^très riche

Cette formule permet de rechercher toutes les occurrences de un homme XXX riche dans lesquelles XXX n’est pas égal à très. On trouvera donc des occurrences telles que un homme excessivement riche.

Page 9: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Dans tous les exemples précédents, la recherche portait sur une séquence donnée. Les formes fléchies des mots n’étaient donc pas prises en compte.

6. Formes fléchies

Codes utilisés pour désigner les formes fléchies :

Verbes : &cXXX (exemple : &caimer)

Noms et adjectifs : &mXXX (exemples : &mmaison, &msale)

Or, il est possible, dans la base non catégorisée de Frantext, de rédiger des formules intégrant les formes fléchies des verbes, noms et adjectifs.

ATTENTION : ces formules permettent de rechercher toutes les occurrences des formes qui s’écrivent comme une des formes du verbe, du nom ou de l’adjectif spécifié, sans aucune garantie qu’elles appartiennent à la même catégorie grammaticale. Si on lance une recherche &caimer dans la base non catégorisée, on obtiendra également le nom aimant (forme homographe du participe présent du verbe).

Page 10: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Rédigez une formule permettant de rechercher toutes les occurrences de l’expression faire peur  tout en intégrant les occurrences de faire très peur, faire drôlement peur, etc. (FAIRE + adverbe + peur)

Formule :&cfaire &q(0,1) peur

Il est vivement conseillé d’utiliser les symboles de formes fléchies pour des recherches portant sur des séquences lexicalisées plutôt que sur des mots isolés afin de limiter les problèmes d’homographie, et d’effectuer les recherches portant sur les formes fléchies d’un mot à partir de la base catégorisée.

Exercice d’application

Page 11: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Recherches dans la base catégorisée

La base catégorisée de Frantext permet de construire des formules dans lesquelles on spécifie la catégorie grammaticale d’un ou plusieurs mots.

Pour reprendre l’exemple d’aimer, la base catégorisée va donner la possibilité de spécifier que l’on recherche uniquement les formes fléchies du verbe et permettre ainsi d’exclure les occurrences du nom aimant.

On va également pouvoir rechercher des constructions nues (sans contenu lexical).

Exemple : Nom + adverbe + adjectif

homme très riche, femme assez sympathique…

L’utilisation des fonctions de la base catégorisée nécessite une connaissance du code attribué à chaque catégorie grammaticale.

Page 12: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

1. Principes généraux

Les entités catégorisées (entités dont on va préciser la catégorie grammaticale) sont introduites par &e et suivies du code grammatical correspondant entre parenthèses.

La plupart des règles d’écriture utilisées dans la base non catégorisée sont réutilisables dans la base catégorisée. Il faut seulement combiner les éléments de la requête en respectant certains principes.

Exemples de notations : 1- Pour une recherche de substantifs : &e(g=S) 2- Pour une recherche de verbes : &e(g=V)3- Pour une recherche de substantifs ou de noms propres : &e(g=S Np)

Le signe ! accolé à g signifie que l’on ne veut pas que l’entité catégorisée appartienne à la catégorie grammaticale spécifiée.

Exemple : &e(g!=V) désigne une entité catégorisée qui n’est pas un verbe.

Page 13: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Reprenons à présent l’exemple du verbe aimer et supposons que nous ayons à construire la formule précisant que seules les occurrences verbales nous intéressent.

Il va falloir mentionner le mot dont on va préciser la catégorie grammaticale.

2. Préciser la catégorie grammaticale d’un mot

Formule pour l’exemple du verbe aimer :&e(c=&caimer g=V)

La mention d’un mot se note c=MOT

A l’inverse, si seules les occurrences du nom aimant nous intéressent :&e(c=&maimant g=S)

On peut, sur le même principe, rechercher une forme particulière d’un mot (et non les formes fléchies) :

&e(c=pouvoir g=S)

Page 14: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

Exercices

1. Déchiffrer des formules

Proposez un exemple d’occurrence que l’on obtiendrait avec chacune des formules suivantes :

a- &e(g=S) &e(g=Adv) &e(g=Apr)

b- comment &e(c=&cpouvoir g=V) - (tu|vous) &e(g=Inf) cela

c- &e(g=S Np) &e(g=V) &?(&e(g=D)) &e(g=S Np) à &e(g=Inf)

Nom + Adverbe + Adjectif participe présent histoire très amusante

Comment + verbe pouvoir + - + tu ou vous + 1 verbe à l’infinitif + cela Comment pouvez-vous dire cela

1 Nom ou 1 Nom propre + 1 verbe (+ 1 déterminant) + 1 Nom ou 1 Nom propre + à + 1 verbe à l’infinitif

Pierre incite Marie à partir patron pousse les employés à démissionner

Page 15: Les recherches dans Frantext ATTENTION : Seule la version catégorisée de Frantext permet de désambiguïser les cas dhomographie (en précisant la catégorie

2. Rédiger des formules

Proposez une formule permettant de rechercher les occurrences de :

a- Venir de faire quelque chose (formes fléchies de venir + de + vb infinitif)

&e(c=&cvenir g=V) de &e(g=Inf)

b- Prendre part à quelque chose (formes fléchies de prendre + part + à + nom)

ATTENTION : pour cette expression, on peut rencontrer : prendre part à / au / aux&e(c=&cprendre g=V) part (à|au|aux) &?(&e(g=D)) &e(g=S)