14
http:// www.atilf.fr [email protected] http:// www.atilf.fr Titre de la diapositive http:// www.atilf.fr Unité mixte de recherche 7118 Accueil diaporama Apport et usages des dictionnaires électroniques : l’exemple du TLFi Jean-Marie Pierrel

Http:// [email protected] Titre de la diapositive Unité mixte de recherche 7118 Accueil diaporama

Embed Size (px)

Citation preview

Page 1: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.fr [email protected]://www.atilf.fr

Titre de la diapositive

http://www.atilf.fr

Unité mixte de recherche 7118Accueil diaporama

Apport et usages des dictionnaires électroniques :

l’exemple du TLFi

Jean-Marie Pierrel

Page 2: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Dictionnaires informatisés et dictionnaires informatiques

• Dictionnaires informatisés : version électronique d’un dictionnaire papier– Très adaptés à des usages humains

– Des possibilités d’applications informatiques

• Dictionnaires informatiques : la version informatique est la version de base, le plus souvent il n’existe pas de version papier– Très adaptés à des traitements informatisés

– Des possibilités d’exploitation par un humain

Page 3: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Avantages de dictionnaires informatisés

• La même qualité qu’un dictionnaire papier• Des parcours complètement nouveaux au

sein de dictionnaires informatisés– Accès tolérant : trouver un mot que je ne sais pas

orthographié– Accès à un mot dont je connais que le sens mais

dont j’ai oublié la forme « Maigreur extrême »– Des recherches de mots liés à un même champ

lexical

Page 4: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Un exemple : Le TLFi : Trésor de la Langue Française informatisé

• Suite logique du Trésor de la Langue Française

• Une base de données lexicales en même temps qu’une base de connaissances finement structurée sur le lexique de notre langue

• Une disponibilité de l’ensemble du TLF– 100 000 Mots « Vedettes »

– 300 000 définitions (avec les mots cachés)

– 430 000 exemples d’usage

Page 5: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Spécificités du TLFi

• 40 objets méta textuels différents– vedettes, codes grammaticaux, indications de

domaines– définitions, exemples avec leurs sources, etc. – indicateurs stylistiques, sémantiques

• Structuration et hiérarchisation des objets textuels

• Grande diversité des rubriques proposées – synchronie, diachronie,– étymologie, – Usage, prononciation, – bibliographie…

Page 6: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Du TLF au TLFi

• TLF TLFi : retro conversion • Un respect complet de la version papier

– Le TLFi est la version informatisée du TLF papier

• Un balisage fin de l’ensemble du texte – Repérage des divers objets textuels du dictionnaire

– 36,5 Millions de balise XML introduites dans le texte du dictionnaire

– Texte initial (L’image du document papier)

– Texte Balisé (le fichier XML correspondant

Page 7: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Des ressources spécifiques développées pour l’interface du TLFi

• Les ressources spécifiques, développées pour l’accès au contenu du TLF :– Une base de données phonétiques (+ de 500 000 entrées)– Un « phonétiseur » (module de type Text To Speech)– Une base de données lexicales– Un module d’analyse morphologique

• Exemple de fonctionnement : de  jenero à général– jenero -> jénéro (module de correction des accents)– jénéro -> forme phonétique (module TTS)– forme phonétique -> généraux (base de données

phonétiques)– généraux -> général (base de données lexicales)

Page 8: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Conséquences sur les usages

• Accès à très haut niveau de tolérance :– Insensibilité aux accents

– Insensibilité aux fautes courantes d’orthographe

– Traitement phonétique de la demande de l’utilisateur

– Traitement morphologique

– Correction automatique ou forcée des fautes

• Possibilité d’accès à partir de formes et non plus uniquement de lemmes ou de vedettes

Page 9: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Spécificités d’accès au TLFi

• Procédures d’accès diversifiées pour une consultation humaine– Consultation simple

• Par vedette, avec possibilité de mise en évidence d’objets

– Requête élémentaire• Exploitant la structure du dictionnaire

– Requête complexe• Croisement de multiples critères

• Hyper navigation simplifiée à l’intérieur du dictionnaire et avec d’autres ressources

• requêtes XML pour une intégration dans une chaîne de traitement automatique

Page 10: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Exemples de recherches dans le TLFI (1)

• Recherche d’un mot – Système de correction automatique (forcée ou non)

Exemple : etique -> étique ou éthique– A partir d’une forme : Sussiez -> savoir

• Recherche d’une expression– Ex. : « droit d’aînesse », « le trompette » ; – les expressions avec « queue » (24 réponses)

• Exploitation de la structure du dictionnaire– Les syntagmes construits avec droit (174 dont 87

syntagmes définis) [domaine : droit ; syntagme : droit]– Les verbes ayant un sens spécifique en marine et

concernant le maniement des voiles

(61 verbes ayant une définition spécifique en marine)

[code grammatical : verbe ; domaine : marine ;

définition : &mvoile (voile ou voiles)]

Page 11: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

• Une vision concrète par l’exemple :

• www.atilf.fr/tlfi

• www.cnrtl.fr/portail/

Page 12: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Disponibilité du TLFi

• Une version Cédérom chez CNRS Editions www.tlfi.fr

Version PC Windows Version Mac OS X– Avec un intégration aux outils bureautiques

• Une version internet– www.atilf.fr/tlfi

Page 13: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Augmentation considérable des accès

• Actuellement sous le Web : – Plus de 500 000 requêtes servies par jour

• Dont 300 000 via le CNRTL

• Diffusion du Cédérom– Plus de 15 000 exemplaires vendus

• Plusieurs dizaines de milliers de référencements sous le web

Page 14: Http:// prenom.nom@atilf.fr  Titre de la diapositive  Unité mixte de recherche 7118 Accueil diaporama

http://www.atilf.frhttp://www.atilf.fr

Quels sont les utilisateurs ?

• Les objectif initiaux du dictionnaire papier– « le témoin objectif et impartial du vocabulaire français, ;

un exemple de lexicographie scientifique moderne ».

• La perception du TLF papier– Un dictionnaire réservé pour une élite

• 16 volumes à un coût d’environ 1500 €

• Le TLFi et ses usages aujourd’hui– 1/3 professionnels de l’écrit

– 1/3 enseignants et chercheurs

– 1/3 Monsieur tout le monde

– Plus un attrait ludique pour les jeunes