15

Recherche d'informationn, lemmatisation

Embed Size (px)

Citation preview

Page 1: Recherche d'informationn, lemmatisation

République Algérienne Démo ratique et Populaire

Université M'Hamed Bougara-Boumerdes

Fa ulté des s ien es

département d'informatique

RECHERCHE D'INFORMATION

Boukellouz Wafa

Groupe : ILTI

1

Page 2: Recherche d'informationn, lemmatisation

Table des matières

0.1 INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

0.1.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

0.1.2 Obje tif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

0.2 La re her he d'information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

0.2.1 dé�nition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

0.2.2 System de re her he d'information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

0.2.3 L'indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

0.2.3.1 L'algorithme de Lemmatisation : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

0.3 Démar he de resolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

0.3.1 Langage de programmation Perl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

0.3.2 Programme ommenté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

0.3.3 Résultat d'éxé ution et a� hage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

0.4 Con lusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2

Page 3: Recherche d'informationn, lemmatisation

Table des �gures

1 SRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Pro essus Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Logo de Perl 5.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Interfa e Perl Builder 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

5 Le � hier do ument.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

6 Fi hier tokens.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

7 Fi hier tokens_�xed.txt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3

Page 4: Recherche d'informationn, lemmatisation

0.1 INTRODUCTION

Les systèmes d'information do umentaires ont pour but de répondre à une telle demande d'information en

fournissant les do uments adéquats que le système retrouve grâ e à une indexation .

Les bases de données do umentaires ont l'ambition de mémoriser des informations sur les ontenus des do uments

en fon tion de plusieurs ritères et dimensions. A�n de répondre aux interrogations des usagers, ette base leur

fournit une séle tion de do uments.

0.1.1 Problématique

le probleme qui se pose est : omment representer les do uments a�n de fa iliter la re her he de l'information

sur la base es do ument ?

0.1.2 Obje tif

Appli ation des algorithmes est des apro hes sur les do uments a�n d'avoir une representation exploitable par

le system de la RI.

faire appel à l'algorithme de lemmatisation.

4

Page 5: Recherche d'informationn, lemmatisation

0.2 La re her he d'information

0.2.1 dé�nition

est une bran he de l'informatique qui s'intéresse à l'a quisition, l'organisation, le sto kage, la re her he et la

séle tion d'information �salton1968�, le me anisme de la re her he d'information se fait en suivant des étapes

permettant de representer les inforamtions à sto ké sous forme d'une liste des indi ateurs.

L'obje tif de la re her he d'information (RI) est de on evoir des systèmes apables de retrouver parmi un

ensemble de do uments eux qui répondent pré isément au besoin d'un utilisateur. Ce besoin est généralement

formulé par le biais d'une requête en langage naturel. La prin ipale di ulté des SRI est d'établir un lien qui soit

pertinent entre les do uments et la requête.

0.2.2 System de re her he d'information

Un Système de Re her he d'Information (SRI) est un programme (ensemble de programmes) informatique qui

a pour but de séle tionner des informations pertinentes répondant à des besoins utilisateurs.

Figure 1: SRI

la lassi� ation des données se fait par des étapes permettant de produir des liste d'index surlesqulles la re her he

est basée.

0.2.3 L'indexation

l'indexation est un mé anisme dont le but est de transformer des do uments en substituts apables de représenter

leur ontenu [Salton et M Gill, 1983℄.

Les te hniques basiques d'indexation se font selon les étapes suivantes:

1. simpli� ation du texte:

(a) suppression des mots de fortes fréquen es, généralement en référen e à une stop list,

(b) regroupement des formes morphologiquement liées par la ra inisation (lemmatisation),

2. séle tion des meilleurs index, généralement basés sur des ritères de fréquen e tels que la valeur de dis rimi-

nation,

5

Page 6: Recherche d'informationn, lemmatisation

3. pondération des termes qui re�ète l'importan e des termes pour la re her he d'information. Les termes utilisés

traditionnellement en re her he d'information sont des mots simples.

L'analyse morphologique des mots pour la re her he d'information permet prin ipalement de simpli�er les textes

en remplaçant les mots par leur ra ine ou leur lemme .

Figure 2: Pro essus Indexation

0.2.3.1 L'algorithme de Lemmatisation :

Garder toutes les lettres depuis e debut du mot jusqu'à :

� La troisiéme onsonne du mot in luse.

� Epuisement des lettres si la régle pré édente n'a pu étre satisfaite.

Seul ompte une onsonne non pré édé d'une autre onsonne.

6

Page 7: Recherche d'informationn, lemmatisation

0.3 Démar he de resolution

Le but de e tp est de programmer l'algorithme de Lemmatisation en Perl.

0.3.1 Langage de programmation Perl

Perl est un langage de programmation réé en 1987 par

Larry Wall. À l'origine,

il était surtout utilisé pour le développement de s ripts

d'administration système

sous UNIX, mais, ave les années, et après plusieurs révi-

sions importantes du

langage,

Perl est rapidement devenu un outil polyvalent, puissant

et extrêmement pratique.

Figure 3: Logo de Perl 5.0

Figure 4: Interfa e Perl Builder 2.0

7

Page 8: Recherche d'informationn, lemmatisation

0.3.2 Programme ommenté

le programme permettant de faire les étapes de tokenistion et de la lemmatisation.

8

Page 9: Recherche d'informationn, lemmatisation

9

Page 10: Recherche d'informationn, lemmatisation

10

Page 11: Recherche d'informationn, lemmatisation

11

Page 12: Recherche d'informationn, lemmatisation

0.3.3 Résultat d'éxé ution et a� hage

le test sur le programme a été fait sur un � hier texte (do ument.txt) omportant un texte en français,et il

omprends des mots qui ont une méme ra ine,et d'autres mots qui n'ont p de ra ine.

e programme permet d'éliminner les ara téres spé iaux (, . ; : ...et ) et les mots vides tel que (le,la,les,un,une,des...)

en repérant à une stoplist.

le résulat de la tokenisation est mis dans un � hier texte tokens.txt

et le resultat de la ra inisation dans un � hier tokens_�xed.txt.

Figure 5: Le � hier do ument.txt

12

Page 13: Recherche d'informationn, lemmatisation

Figure 6: Fi hier tokens.txt

13

Page 14: Recherche d'informationn, lemmatisation

Figure 7: Fi hier tokens_�xed.txt

14

Page 15: Recherche d'informationn, lemmatisation

0.4 Con lusion

La lemmatisation est l'un des niveaux de traitement linguistique dans le pro essus d'indexation.

De nombreux travaux se sont intéressés à l'utilisation de la lemmatisation en RI, mais son impa t sur les per-

forman es de SRI est ependant très variable selon les expérimentations. Les expérien es de Lennon et Harman

mesurant l'inuen e de la ra inisation pour l'anglais aboutissent à des on lusions globalement dé evantes puisqu'au-

une amélioration de résultats n'est onstatée par rapport à un SRI traditionnel.

15