46
Xavier Tannier [email protected] Normalisation - Pondération Extraction d’Information dans les textes I

Xavier Tannier [email protected] Normalisation - Pondération Extraction dInformation dans les textes I

Embed Size (px)

Citation preview

Page 1: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Xavier [email protected]

Normalisation -

Pondération

Extraction d’Information dans les textes I

Page 2: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Rappels des épisodes précédents

Page 3: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Les acteurs de la Recherche d'Information

Utilisateur : un besoin

d'information et/ou une tâche

à accomplir

Collection : un ensemble de

documents

Les systèmes de RI doivent pouvoir traiter :

• De grandes masses d'information• En langage naturel (et créée pour

des humains)• De façon rapide et pertinente

3

Page 4: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation-

Normalisation

Page 5: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Recherche d'Information

5

Collections dynamiquesvs. statiques

Requête

Indexation(modèle de document)

Modèle derecherche Évaluation

Page 6: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Indexation : pourquoi ?

• L’idée principale du moteur de recherche est de retrouver les documents qui « parlent de » la requête.

• On utilise ce qu’on a sous la main : les mots– Qu’est-ce qu’un mot ?– Que faire lorsqu’un mot est « proche » d’un mot de la requête ?

• Le parcours complet de l'ensemble des documents avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif.

• On passe par un traitement préalable : l'indexation :Le but de l'indexation automatique : "transformer des documents en substituts capables de représenter le contenu de ces documents" (Salton et McGill, 1983)

6

Page 7: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Indexation libre et contrôlée

• Indexation libre :– Mots, termes des documents

• Indexation contrôlée– Listes de termes prédéfinies– Vocabulaire contrôlé (évite polysémie,

synonymie et problèmes de granularité)– Thésaurus

7

exemple : thésaurus UMLS

Page 8: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Construction de l’index : vue générale

8

TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

TERMES

Rien ne sert de

courir il faut

partir à point

TERMES NORMALISÉS

rien sert

courir faut

partir point

DOCUMENTS INDEX

aujourd’huid’un

S.N.C.F.Le Mans

14/07/1789…

Quels choix ?

On verra çaplus tard

Page 9: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Construction de l’index : exemple

9

TEXTE

TERMES

I did enact Julius

Caesar I was

killed i’ the

TERMES NORMALISÉS

DOCUMENTS INDEX

I did enact JuliusCaesar I was killedi' the Capitol;Brutus killed me.

Doc #1

So let it be withCaesar. The nobleBrutus hath told youCaesar was ambitious

Doc #2 I did enact julius

caesar I was

killed i’ the

Page 10: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Dans quels documents cherche-t-on ?

• Formats :– HTML (menus, tableaux, publicité, rendu)– Texte brut (structure ?)– pdf (problèmes d’encodage, rendu)– Word (format propriétaire, structure)– Excel (gestion des tableaux)– OpenOffice (XML)– …

• Il est assez simple de détecter le type d’un document• Des heuristiques spécifiques à chaque format pour extraire le texte• Les moteurs de recherche utilisent très rarement la structure des

documents

10

Page 11: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Dans quels documents cherche-t-on ?

• Langues– Identification de langues, un problème difficile– Des documents multilingues– De la recherche d’information multilingue

• Encodages– Vu en TD…– Des erreurs dans la gestion de l’encodage peuvent

conduire à des résultats erronés

« président du Pérou »

11

Page 12: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Dans quels documents cherche-t-on ?

• « Unité » document– Un fichier ?– Un e-mail ?

• Avec ses entêtes ?• Avec ses attachements ?

– Un groupe de fichiers ?• Site Web• Document en plusieurs

fichiers– Etc.

12

Page 13: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Du texte aux termes

13

TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

TERMES

Rien ne sert de

courir il faut

partir à point

TERMES NORMALISÉS

rien sert

courir faut

partir point

DOCUMENTS INDEX

aujourd’huid’un

S.N.C.F.Le Mans

14/07/1789…

Page 14: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

La segmentation

• Identification des unités élémentaires (phonèmes, morphèmes, mots, etc.). Pour l'écrit, des mots et des phrases.

• Un problème très complexe dans certaines langues (chinois...)

• L’étape initiale indispensable pour tout travail sur le texte• On obtient des mots, ou des termes, ou des tokens

• Ces unités seront les candidats à l’indexation et à la recherche dans une requête

14

Page 15: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

La segmentation

• Dans les langues "européennes" :– Les délimiteurs de mots et de phrases peuvent être ambigus

• etc. T.A.L. 21.3 www.sncf.com• l'illusion aujourd'hui jusqu'à• Jean-Louis donne-t-il 1914-1918 06-13-23-33-12

– Les mots (noms propres en particulier) peuvent avoir des variantes :• Etats-Unis États-Unis• France Inter France-Inter

– Même l’espace n’est pas toujours un bon délimiteur• San Francisco ?• « Ni putes ni soumises » ?

15

Page 16: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

La segmentation

• Dans les langues "européennes" :– Les nombres, les dates

• 14/07/1789 Mardi 12 mars• B-52• (+33) 6 45 65 13 95• Les anciens systèmes de RI retiraient tout simplement les nombres• Toujours source de beaucoup d’erreurs dans les systèmes de RI modernes

• Les langues agglutinantes– Lebensversicherungsgesellschaftsangestellter

(employé d’une compagnie d’assurance-vie)– Un segmenteur de mots composés est alors utile

16

Page 17: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

La segmentation

• En Japonais, Chinois, etc. il n’y a pas d’espace entre les mots– 情报信息检索中用于对信息分类或索引的词。– La segmentation n’est pas toujours unique

• En Japonais, on ajoute au problème plusieurs types d’alphabets !県災害対策本部が11日現在で発表した被害状況によると、計19市町の201カ所に7299人が避難している。

• En Arabe ou en Hébreu, on écrit de droite à gauche, mais certains éléments sont écrits de gauche à droite

لعام المعظم رمضان شهر عن الفطر زكاة أن األربعاء هجري 1432يومل قدرتب 2011الموافق دينار 100ميالدي

17

Page 18: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Normalisation

18

TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

TERMES

Rien ne sert de

courir il faut

partir à point

TERMES NORMALISÉS

rien sert

courir faut

partir point

DOCUMENTS INDEX

aujourd’huid’un

S.N.C.F.Le Mans

14/07/1789…

Page 19: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Mots vides

• Les mots « outils » n’apportent pas de sens au textedéterminants : « le », « la », pronoms : « je », « nous »,prépositions : « sur », « contre », …

• Ce sont les mots les plus fréquents de la langue– Les 30 mots les plus fréquents représentent 30 % des occurrences de mots– Les supprimer permet d’économiser beaucoup de place dans l’index

• Mais :– On en a besoin pour des requêtes multi-termes

« pomme de terre », « les Chevaliers du Zodiaque »– Ils sont parfois porteurs de sens dans des cas particuliers

« Let it be », « The Who », « ça », « être ou ne pas être »– La compression permet finalement de conserver les mots vides dans peu

d’espace (nous verrons cela plus tard)

19

Page 20: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Normalisation de mots « identiques »

• Dans les documents comme dans la requête• On veut par exemple normaliser :

– « U.S.A. » et « USA » USA– « morpho-syntaxe » et « morphosyntaxe » morphosyntaxe– « Tuebingen », « Tübingen » et « Tubingen » Tubingen– « Gorbatchov » et « Gorbatchev » Gorbatchev

• Mais pas :– « sur » et « sûr », – « pêche » et « péché »– En allemand, « mit » (avec) et « MIT »– En anglais, « C.A.T. » (Caterpillar) et « cat »

• Sans oublier les fautes de frappe / d’orthographe (voir plus tard)

20

Page 21: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Formes d'un mot, famille d'un mot

• Flexion – Verbale : montrer, montreras...– Nominale : cheval, chevaux...– forme canonique (lemme) et formes fléchies

• Dérivation– penser/V + able = pensable– in + pensable/A = impensable– base et dérivé

• Composition– appendice + ectomie = appendicectomie– éléments de formation, mot composé

21

Page 22: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Lemmatisation

• Obtention de la forme canonique (le lemme) à partir du mot :– Pour un verbe : sa forme à l'infinitif (sans les flexions)

montrer, montreras, montraient montrer– Pour un nom, adjectif, article, ... : sa forme au masculin singulier

vert, vertes, verts vert

• La lemmatisation demande des ressources et un traitement linguistique– En particulier pour les nombreuses exceptions– Long et donc difficile à mettre en œuvre pour des grandes collections– Dépendant de la langue

• Elle n’agrège que des variantes flexionnelles– cheval = chevaux– cheval ≠ chevalier

22

Page 23: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Racinisation (stemming)

• Obtention de la racine, une forme tronquée du mot, commune à toutes les variantes morphologiques – Suppression des flexions– Suppression des suffixes – Ex : cheval, chevaux, chevalier, chevalerie, chevaucher

"cheva"(mais pas "cavalier")

• La racinisation est généralement à base de règles– Rapide – Dépendant de la langue

• Elle agrège beaucoup plus que la lemmatisation– Index plus petit

23

Page 24: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Racinication : algorithme de Porter

• 5 phases de réduction par règles (pour l’anglais, adapté ensuite au français)

• Si deux règles de réduction s’appliquent, on choisit celle qui supprime le plus long suffixe

24

• sses ss• ies i• ational ate• tional tion• Si m > 1 alors cement ""

replacement replaccement cement

Page 25: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Étiquetage

• Associer aux mots leur catégorie morphosyntaxique (nom, verbe, adjectif, etc.)

• Peut être utile en recherche d'information pour :– Supprimer les mots inutiles– Opérer des regroupements en termes complexes– Rechercher des mots ambigus

avec plus de précision (vers, or, pouvoir…)

• Mais :– Un processus plus long– 96 % de précision = une erreur par phrase en moyenne !

25

Page 26: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

La morphosyntaxe

• Des analyses différentes pour des besoins différents :– Lemmatisation : pour rechercher/extraire de l'information, accéder au sens

d'un lemme en faisant abstraction des flexions.– Racinisation (stemming) : pour agréger les dérivations morphologiques à peu

de frais, sans souci de la perte du sens et des lemmes initiaux.– Étiquetage : pour appliquer des techniques de TAL sur les catégories

grammaticales plutôt que sur les mots eux-mêmes.– Types de flexions, de dérivations : pour appliquer des traitements plus fins

en vue d'une analyse syntaxique et/ou sémantique.

• Des techniques assez bien maîtrisées : un pourcentage d'erreurs faible mais difficilement compressible.

26

Page 27: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Indexation

27

TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

TERMES

Rien ne sert de

courir il faut

partir à point

TERMES NORMALISÉS

rien sert

courir faut

partir point

DOCUMENTS INDEX

aujourd’huid’un

S.N.C.F.Le Mans

14/07/1789…

Page 28: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Matrice d'incidence

28

Antoine & Cléopâtre

Jules César

La Tempête

Hamlet Othello Macbeth

Antoine 1 1 0 0 0 0

Brutus 1 1 0 1 0 0

César 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0

Cléopâtre 1 0 0 0 0 0

pitié 1 0 1 1 1 1

pire 1 0 1 1 1 0

Page 29: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Matrice d'incidence

29

Antoine & Cléopâtre

Jules César

La Tempête

Hamlet Othello Macbeth

Antoine 1 1 0 0 0 0

Brutus 1 1 0 1 0 0

César 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0

Cléopâtre 1 0 0 0 0 0

pitié 1 0 1 1 1 1

pire 1 0 1 1 1 0

Brutus ET Cléopâtre ET PAS Calpurnia

Vecteurs d'incidence

Calpurnia 1 0 1 1 1 1

1 0 0 0 0 0

ET "bit à bit"

Page 30: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Matrice d'incidence

• On ne peut pas utiliser une telle matrice d'incidence en pratique

30

Pourquoi ?

Indices

• Considérons une collection d'un million de documents• Environ 1000 mots par document en moyenne• Un vocabulaire total de 500 000 mots distincts.

• Combien y'a-t-il de cases dans la matrice ?• Combien de 1 ?• Combien de 0 ?

Page 31: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Fichier inverse

31

Page 32: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Indexation : le fichier inverse

• Notion "classique" de l'index• Un fichier inverse associe des index aux documents qui les

contiennent. Chaque document possède un identifiant unique.– a d1, d2, d3, d4, d5...▸– à d1, d2, d3, d4, d5...▸– abaissa d3, d4...▸– abaissable d5▸– abandon d1, d5▸– abandonna d2▸– abasourdi d1▸– …

32

• Quelle structure de données pour cet index ?

• Que se passe-t-il si on ajoute le mot « abandon » au document d3 ?

Page 33: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Sac de mots

• Modèles « sac de mots » pour l’indexation et la recherche :– On oublie l’ordre des mots

(« Jean est plus rapide que Marie » = « Marie est plus rapide que Jean »)– On raisonne en termes de présence / absence des termes dans un document,

ou en terme de fréquence de ces termes

33

Page 34: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Pondération des termes

Page 35: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Taille du vocabulaire

• Le vocabulaire grandit quand la collection grandit.

• Loi de Heaps : M = kTb

– M : taille du vocabulaire– T : nombre de tokens dans la collection– b et k : constantes (typiquement, b = 0,5 et k = 30 à 100)– Loi empirique

• Et c’est bien pire pour le Web !

35

Pourquoi ?

Pourquoi ?

Page 36: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Fréquence des termes

• Peu de mots fréquents, et beaucoup de mots rares

• Loi de Zipf : le nème mot le plus fréquent a une fréquence proportionnelle à 1/n

36

rang des termes

fréquence des termes RappelEn RI, "fréquence" = "nb d’occurrences"

Page 37: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Le tf

• Dans une requête comme dans un document, les termes n'ont pas tous la même importance

• Intuition #1 : plus un document contient d'occurrences d'un terme, plus il est "à propos" de ce terme (plus il sera pertinent par rapport à une requête contenant ce terme)

• On va donc conserver dans l’index le nombre d’occurrences de chaque terme dans le document

37

Rien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

nombre d ′ occurrencesdu terme 𝑡 dans≤document𝑑

Page 38: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

La matrice des fréquences

38

Antoine & Cléopâtre

Jules César

La Tempête

Hamlet Othello Macbeth

Antoine 1 1 0 0 0 0

Brutus 1 1 0 1 0 0

César 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0

Cléopâtre 1 0 0 0 0 0

pitié 1 0 1 1 1 1

pire 1 0 1 1 1 0

Antoine & Cléopâtre

Jules César

La Tempête

Hamlet Othello Macbeth

Antoine 157 73 0 0 0 0

Brutus 4 157 0 1 0 0

César 232 227 0 2 1 1

Calpurnia 0 10 0 0 0 0

Cléopâtre 57 0 0 0 0 0

pitié 2 0 3 5 5 1

pire 2 0 1 1 1 0

Chaque document est un vecteur v dans

Page 39: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

Variante du tf

• Hamlet est plus pertinent pour le terme « pitié » qu’Antoine & Cléopâtre, mais pas 5/2 = 2,5 fois plus pertinent

• Jules César n’est pas 157/4 = 39 fois plus pertinent qu’A & C pour le terme « Brutus »

• 0 0 ; 1 1 ; 2 1,3 ; 10 2 ; 1000 4 ; etc.« pitié » : Hamlet 1,7 ; A & C 1,3« Brutus » : Jules César 3,2 ; A & C 1,6

39

Page 40: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

tf

• Première proposition pour le score de similarité d’un document D en fonction d’une requête Q

• Ce score est entre 0 et l’infini.• On ne le conservera pas !

40

𝑠𝑖𝑚𝑄 ,𝐷= ∑𝑡∈𝑄∩ 𝐷

𝑡𝑓 𝑡 ,𝐷

Page 41: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

idf

• Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants)

• On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df)

41

𝑑 𝑓 𝑡=¿nombre de documentsqui contiennent≤terme 𝑡

𝒊𝒅 𝒇 𝒕=𝒍𝒐𝒈𝟏𝟎𝑵𝒅𝒇 𝒕

(𝑁=nombre total dedocuments)

Page 42: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

tf.idf

• Le poids d’un terme (tf.idf) est la combinaison de ces deux intuitions pour rendre compte du caractère discriminant d’un terme dans un document

• Le poids d’un terme t : – augmente avec sa fréquence dans le document– augmente avec sa rareté dans la collection

42

¿𝒕𝒇 𝒕 ,𝒅× 𝒍𝒐𝒈𝟏𝟎𝑵𝒅𝒇 𝒕

𝒘 𝒕 ,𝒅=𝒕𝒇 𝒕 ,𝒅× 𝒊𝒅𝒇 𝒕

𝒘 𝒕 ,𝒅=𝒍𝒐𝒈𝒕𝒇 𝒕 ,𝒅× 𝒍𝒐𝒈𝟏𝟎𝑵𝒅𝒇 𝒕

ou

Page 43: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Indexation et Recherche d'InformationXavier Tannier

Normalisation, pondération

Antoine & Cléopâtre

Jules César

La Tempête

Hamlet Othello Macbeth

Antoine 157 73 0 0 0 0

Brutus 4 157 0 1 0 0

César 232 227 0 2 1 1

Calpurnia 0 10 0 0 0 0

Cléopâtre 57 0 0 0 0 0

pitié 2 0 3 5 5 1

pire 2 0 1 1 1 0

La matrice des poids

43

Chaque document est un vecteur v dans

Antoine & Cléopâtre

Jules César

La Tempête

Hamlet Othello Macbeth

Antoine 13,1 11,4 0 0 0 0

Brutus 3,0 8,3 0 1 0 0

César 2,3 2,3 0 0,5 0,3 0,3

Calpurnia 0 11,2 0 0 0 0

Cléopâtre 17,7 0 0 0 0 0

pitié 0,5 0 0,7 0,9 0,9 0,3

pire 1,2 0 0,6 0,6 0,6 0

Page 44: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

tf.idf

• Deuxième proposition pour le score de similarité d’un document D en fonction d’une requête Q

• On ne la conservera pas non plus !(voir cours sur les modèles de recherche…)

44

𝑠𝑖𝑚𝑄 ,𝐷= ∑𝑡∈𝑄∩ 𝐷

𝑤𝑡 ,𝐷

Page 45: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

tf.idf

• Il y a un tf par terme et par document dans une collection• Il y a un idf par terme dans une collection• Attention à ne pas confondre :

45

𝑑 𝑓 𝑡=¿nombre de documentsqui contiennent≤terme 𝑡

𝑐 𝑓 𝑡=¿nombre d ′ occurrencesdu terme 𝑡 dans la collection

Pourquoi ? cf dfassurance 10440 3997essayer 10422 8760

Page 46: Xavier Tannier xavier.tannier@limsi.fr Normalisation - Pondération Extraction dInformation dans les textes I

Extraction d’Information dans les Textes I

Normalisation, pondérationXavier Tannier

La semaine prochaine

• Construction de l’index

• Requête dans un index

• Structures de données

46