39
Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS 12 Janvier 2006

Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

Embed Size (px)

Citation preview

Page 1: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

Repérage automatique de nouvelles formes lexicales sur le Web

Franck SAJOUS, Ludovic TANGUYERSS / UTM

Séminaire TAL IRIT-ERSS 12 Janvier 2006

Page 2: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

2

Plan

• Créations lexicales : pour quoi faire ?• Repérage des créations sur corpus "classique"• Repérage sur le Web via un moteur de

recherche• Méhode inductive vs hypothético-déductive• Exemples de campagnes

• Les difficultés du Web• Un moteur dédié : Trifouillette

• Parcours du web• Analyse• Résultats

Page 3: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

3

Quelques trouvailles en vrac

• Termes techniques• Aquamarquage, hémaglutination,

immunofixation• Créations récentes

• Pacser (se), surencadrement, intermédiation• Langue populaire

• Baisage, poilade• Diverses créations transparentes

• Pêchable, japonisation, europhobie, googler

Page 4: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

4

Intérêt du repérage de créations lexicales• L'évolution de la langue : un objet d'étude en

soi• Étude des mécanismes morphologiques

• Deux types de clients• Linguistique traditionnelle : morphologie,

lexicologie, terminologie• Traitement automatique : analyse (morpho)-

syntaxique, traduction, etc.

Page 5: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

5

Approches ciblées ou non

• Ciblage sur un procédé de création :• Dérivation morphologique (préfixation,

suffixation)• Emprunts

• Ciblage sur un domaine :• Terminologie, traductions spécialisées• Scientifique, technique, juridique, etc.

• Couverture maximale sans ciblage :• Extension de lexiques génériques

Page 6: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

6

Exemples d'études à l'ERSS

• Etude de suffixes particuliers • -able, -esque, -este, -ien, -ouill-, etc.• Recensement de formes puis analyses• M. Plénat, M. Roché, N. Hathout, S. Lignon

• Noms déverbaux d'action• Famille de suffixes : -age, -ment, -tion, -erie, -ance,

-ence, -ure• Recensement et analyse : repérage de couples

nom/verbe• Extension du lexique Verbaction utilisé par des

analyseurs de corpus• N. Hathout, L. Tanguy

Page 7: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

7

Approches sur corpus classiques

• A partir d'une liste de référence• Dictionnaire de langue (formes fléchies)• Repérage de toute forme non référencée• Mathieu et al, 1998

• Sans liste de référence• Repérage des formes rares (hapax)• Janicijevic & Walker 1997

• Par accumulation• Repérage des apparitions sur corpus évolutif• Renouf et al.

• Problèmes communs : • Noms propres, fautes d'orthographe, mots collés, etc.

Page 8: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

8

Le cas de la dérivation morphologique• Phénomène de création d'un lexème à partir

d'un autre• Divers mécanismes : préfixation, infixation,

suffixation, conversion• Le procédé le plus productif repéré par les

approches générales• Permet une caractérisation aisée du mot créé

• Notamment un calcul du lexème base

Page 9: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

9

La tentation du Web

• Le plus gros des corpus (A. Kilgariff) …• … ou la "poubelle planétaire" (F. Rastier)• Dans les deux cas :

• De grandes quantités de données• Une créativité et une spontanéité débordante• Une représentation de nombreux types de

textes, domaines, niveaux de langue• Une absence totale d'organisation, de

représentativité• Des modes d'accès très spécifiques pensés

pour d'autres usages

Page 10: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

10

L'accès au Web

• Trois méthodes envisageables :• Constitution d'un corpus• Utilisation d'un moteur de recherche généraliste• Parcours du Web (crawling)

• Méthode la plus directe et la moins coûteuse : les moteurs de recherche généralistes

• Couverture importante• Accès simple et automatisable

Page 11: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

11

Utilisation des moteurs de recherche

• Deux approches : hypothético-déductive ou inductive

• Hypothético-déductive : • Construire un mot-candidat en appliquant des

processus de création lexicale• Google -> googlisation ?• Vérifier son existence sur le Web

• Inductive :• Utilisation de patrons• *isation

Page 12: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

12

Le point sur les moteurs de recherche

• De 1995 à 2003 : de nombreux moteurs aux caractéristiques variées

• Depuis 2003 : Deux compagnies et des caractéristiques similaires

• La cas AltaVista• Un des tout premiers moteurs• Recherches complexes : jokers (*), proximité (NEAR)• Comportement fiable et pas de traitements cachés• Pas de paranoïa ni de protection contre les robots

• Racheté par Yahoo en 2003 avec modification complète de la base de données et des modes d'accès

Page 13: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

13

La situation actuelle

• Deux moteurs majeurs : Google et Yahoo• Des grosses bases de données mal quantifiées• Des modes d'interrogation (très) basiques• Des traitements opaques (pseudo-

lemmatisation, mots vides, etc.)• Des accès contrôlés et rationnés

• APIs permettant environ 1000 requêtes par jour, sur une base de données restreinte

Page 14: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

14

Les travaux avant 2003

• Possibilités d'interrogation d'AltaVista et Northern Light par patrons

• Méthode inductive : • *esque• Découpage du problème en sous-requêtes• aba*esqueabr*esque –abracadabrantesque…

• Un programme : Webaffix (Hathout & Tanguy)

Page 15: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

15

Webaffix en quelques mots

• Pour un suffixe donné :• Construction des sous-requêtes

correspondantes avec élimination des mots connus (TLFi + Grand Robert)

• Lancement des requêtes et analyse des pages• Récupération des formes et filtrage des

résultats : • Vérification de la langue• Corrections orthographiques diverses• Élimination de contextes bruités

Page 16: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

16

Analyse des créations

• Calcul des différentes bases possibles• Programme DeCor (N. Hathout)• Exemple : jospinisation -> jospiniser• Fonctionnement par analogie sur la base d'un

lexique existant• Vérification des hypothèses

• Recherche de pages Web contenant à la fois le lexème dérivé et le lexème base

• Bon taux de précision : 70% pour les suffixes principaux

Page 17: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

17

Méthode hypothético-déductive

• Processus de prévision – vérification• Adapté aux créations dérivées à partir de

bases connues• Exemple : verbe -> nom par suffixation

• Système Walim (F. Namer)• gratiner -> ?gratinage ?gratination ?gratinement• Après vérification : gratinage

• Limites de l'approche : • Bases connues• Procédés morphologiques connus

Page 18: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

18

Exemples de campagne

• Adjectifs en –este• 1 attestation avant 1997, 14 en 2004

• Adjectifs en –able• 1145 nouveaux adjectifs (1641 dans les

dictionnaires généraux)• Extension du lexique Verbaction

• Au total, 9400 couples noms/verbes dont 2000 trouvés sur le Web

• Etude des noms déverbaux concurrents• 1150 couples Xage/Xment dont une des formes

n'est pas recensée dans les dictionnaires

Page 19: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

19

Les difficultés du Web

• Noms propres• ABCVoyage, Nuisement, GLevesque

• Fautes d'orthographe• Abbatage, adminstration, rélaisation, requiquition

• Mots collés/découpés• "…tellement absurdesque je…", "la dé nonciation de…"

• Codes informatiques ou autres• Tifimage, clientstable, myhachage

• Autres langues que le français• Niederschlagstation, cabbage, diversidade

• Faux documents• Traductions automatiques, linguistes, pornographes, etc.

Page 20: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

20

La recherche continue face à l'adversité : Trifouillette• Objectif : détection automatique de "formes

rares"• indépendante des moteurs de recherche

→ mise en oeuvre d'un crawler

• recherche non ciblée→ l'utilisateur définit ses requêtes a posteriori

• stockage des pages pertinentespertinente ≈ contient au moins une forme rarerare ≈ nombre d'occurrences recontrées < seuil

donné

Page 21: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

21

Architecture

base dedomaines

Superviseurde Crawl

Gestionnairede données

base demots

cache(pagespertinentes)

mot M contenudans pages P

CRAWL

DONNÉESUTILISATEUR

urlsdomainei

Crawlerdomainei

urlsdomainek

Crawlerdomainek

nom de domaine

nom de domaine

Analyseur Pagei,n

collecteurde liens

collecteurde mots

Analyseur Pagek,m

collecteurde liens

collecteurde mots

url page

url page

liens collectés

{mots, pages}

liensinternes

nouveauxdomaines

requête (eg. *esque)1

2

abracadabrantequecuisinesquemicaretesque

ratounesque rolesque...

contextes de"cuisinesque" ?

3

4bla bla...cuisinesque...blabla

Page 22: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

22

Crawl (parcours du web)

• Noms de domaines : exhaustivité impossible• → germe + suivi de liens

/ (arpa)

fr orgcomca ...

cnrs.fr univ-tlse2.fririt.fr

dr14.cnrs.fr dsi.cnrs.fr atlas.irit.fr dilan.irit.fr... ...

Page 23: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

23

Suivi de liens : principe• <a href="http://trifouillette.org/">

Page sur Trifouillette</a>

• Simple, mais insuffisant :• www.univ-tlse2.fr/erss/ : 1 page• www.alstom.com : 1 page• www.femina.fr : 1 page

• Traiter aussi :• frames• images mappées• javascript• redirections

Pagesur

Trifouil-lette

trifouillette.org

Page 24: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

24

Suivi de liens : filtrage

• sélectionner l'information pertinente a priori• langue• type de contenu (textuel ou autre)

base dedomaines

.uk

.mil

.gov

...

exte

nsio

n de

dom

aine

s

.exe

.mp3

.swf

...

exte

nsio

n de

fichi

ers

.fr

.ca

.org

.com

...

.html

.htm

.txt

.jsp

.asp

...

lang=en,charset=kio8content-type=x-application/swf...

head

erHTT

P

lang=en,charset=kio8content-type=x-application/swf...

head

erHTM

L

lang=frlatin1, latin9iso-8859-1iso-8859-15utf-8...

Pagecandidate

Page 25: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

25

Suivi de liens : filtrage (2)

• Headers souvent absents• traiter la page/ignorer ?• polluer la base/rater une information pertinente

• Parfois incorrects• Content-Type: text/html;

character=8859-1(http://www.femina.fr/feminav2/www/index.php)

• Content-Type: text/html; character=iso-8859-1Content-Language: pl; (http://pageperso.free.fr/showtheme?theme=...)

Page 26: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

26

Analyse de la page• Sélectionner les contextes pertinents

(contenu : texte)• Segmenter, filtrer (encore)• Compter• Pertinence locale, filtrer (toujours)

scripts,headers,urls, e-mails

cont

exte

Pagecandidate

segmenteur(unicode)

{języka,créée,años...}

{créée}

języka,años

latin

1

compteur

segmenteurlatin1{j, zyka,

créée,a, os...}

segmen-teur html

tu<span>es...tu<div>es...

{tues}{tu, es}

convertisseurunicode

&eacute;

&#233;&#xE9;é

é unicode\u00E9

Page 27: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

27

Détection globale de la langue

• Eliminer les autres langues• Ignorer certaine pages en français• recours à des lexiques• si %mots-vides < Seuilmots-vides

ou%mots-connus < Seuilmots-connus la page n'est pas analysée

• bien mais insuffisant

Page 28: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

28

Détection globale de la langue :problèmes

page en françaisdont on aimeraitse passer

%mots-vides : OK

%mots-connus : OK

Page 29: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

29

Détection globale de la langue :problèmes (2)

mots vides :24%

mots connus :42%

a, de, en, entre, et,

la, nos, par, que,

se, un, y

digital, sus, pistas, culas, montés, sociales, formas, entrante, bigouden, société, los, si, vida, locales, su, principales, sobre, poco, palabras, chronique, final, alain, partir, vil, art, claire, total, capturas, ajuste, claves, tic, grand, os, embargo, alan, pertinentes, bien, son, culturales, hip, mai, da, inversion, culturelle, pays, dos, gracias, salas, as, texto, participantes, récit, jean, demanda, cargo, esther, micas, sciences, local, conforme, coordonné, an, migrantes, ventas, flexible, sala, historia, dossier, para, area, intenta, existe, las, barbés, con, han, dernier, est, varias, stria, mas, es, strias, démocratisation, pues, internas, probable, fin, thomas, fabricantes

Page 30: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

30

Détection de la langue en contexte

?

contexte OK :'-(

Mêmes seuils appliqués au voisinage d'un "mot"

+ recherche des

mots vides de

langues "proches"

Page 31: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

31

ThiviersDécision de l'assemblée des habitants concernantles mesures de sûreté pendant la Fronde20 juin 1652 Sur l'advis donné à la communaulté qu'ily a plusieurs personnes mal intantionées contre le général etle particuilher et qui se prévallent du dézordre du tempspour leur nouire tant en leurs personnes,bestiaux, que grains, la communaulté ayantesté dhuement assamblée en corps de jurade, lacloche sounant à la mode acoustumée, aesté délibéré que líon continuera de seguarder dans les mesmes de[s]sains et délibérationscy devant prinses et avec les mesmesprécaultions, ou plus grandes sy besoingest, quíy[l] sera pontuellement et sans contredy au...http://www.perigord.tm.fr/archives/

gutenber/mazzarin/thiviers/thivier.htm

Détection de la langue en contexte

• ancien français• latin• occitan• catalan• provençal• etc.

Page 32: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

32

Filtrage des erreurs

• recoller les morceaux :

mot1 mot2 trifo uilletteuillette mais :

il arrive d Angers

(apostrophe oubliée)

angers

the company to itsitsgave

chairmancontexte :

anglais?a present

• séparer les mots collés :• "tellesque" : des technologies d'accès sans fil tellesque IEEE802 → telles que• idem : "pâquestes" → pâques tes ?

inconnu inconnu

mot1mot2 connu !

Page 33: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

33

Non-Filtrage des erreurs

• on ne traite pas : les consonnes doubblées, les invesrions de lettres, etc.

• juste pour rire :A bon ch bon r A bon chapitre, bon rapitreA bon chascal, bon rascalA bon chapin, bon rapinA bon chapon, bon rapon.[...]A bon chabougri, bon rabougriA bon chorizo, bon rorizoA bon checul, bon reculA bon choyaume, bon royaume

(Boris Vian,Lettre au provéditeur-éditeur

sur quelques équations morales)

Page 34: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

34

Pollution difficilement évitable

• Formes présentes dans la base :• aabcabcababaaa, aaaaccbbabc, abcaaab, ... • aacdefjllpy

http://www.irit.fr/ACTIVITES/MasterPro_IIN/RESSOURCES/Annales_Corriges/99_RF.htm

http://www.irit.fr/ACTIVITES/EQ_TCI/ENSEIGNEMENT/CetSHELL/TD/td13.html

Page 35: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

35

Premiers résultats

• En une semaine, chaque jour :• 100 000 à 700 000 pages - 2 à 35 millions de "mots"• 2000 à 70000 nouvelles entrées (dont déchets)• 3,5 millions de pages stockées

• -ette : rhône-alpettes, bambousette, bisounette...• -esque : downesque, kamasutresque, ratounesque• -ouil- : festouille, jazzouillant, pizzouille...• -iste : gnomoniste, informatiste, terreuriste, ViWiste• -isme : warriorisme, entomoterrorisme, beaufisme• merci l'IRIT : agentifié/en agentifiant, questionnabilité,

repositoires

Page 36: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

36

Coté utilisateur...

requête

résultats

annotations

contextes

Page 37: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

37

Coté utilisateur : contextes

Page 38: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

38

Coté utilisateur : personnalisation

à venir : - utilisation d'anti-lexiques - alertes e-mails

Page 39: Repérage automatique de nouvelles formes lexicales sur le Web Franck SAJOUS, Ludovic TANGUY ERSS / UTM Séminaire TAL IRIT-ERSS12 Janvier 2006

39

Conclusion

• Bilan : trop tôt, mais encourageant

• Dans l'immédiat :• laisser tourner• faire utiliser (interne)• mettre à disposition les résultats

• Perspectives :• diachronie/veille• caractérisation des trouvailles (marqueurs discriminants)• degré de nettoyage réglable suivant les applications