21
Méthode de modélisation et d’extraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays de l’Adour RTE2011, 16 mai 2011, Chambéry

Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Embed Size (px)

Citation preview

Page 1: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Méthode de modélisation et d’extraction des informations géographiques contenues dans des textes

Van Tien NGUYENMauro GAIO

Université de Pau et des Pays de l’Adour

RTE2011, 16 mai 2011, Chambéry

Page 2: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Introduction

Récits de voyage

• Contexte : projet ANR GEONTO• Objectif : Enrichir une ontologie

topographique existante

Traitement automatique

(Notre travail)

Ontologie géographique de l’IGN

2

Termes candidats

BD Topo BD carto

Page 3: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Plan d’exposé

• Problématique & état de l’art• Proposition d’un modèle• Chaîne de traitement automatique• Expérimentation & évaluation• Conclusion

3

Page 4: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Problématique

[...] Après avoir contemplé, avec une admiration mêlée d’effroi, la charpente altière des

Monts-Maudits, nous songeâmes bientôt à descendre sur le territoire aride au

sud de la région d’Aragon. Le temps était menaçant : de légers brouillards parcouraient les hauteurs, et précédaient des nuages d’une teinte grisâtre, qui roulaient vers nous, venant de l’ouest des Pyrénées, un orage s’amoncelait : il ne tarda pas à éclater. Ayant renvoyé nos chevaux et payé le tribut accoutumé à la complaisance des carabineros (douaniers) espagnols, nos guides chargèrent nos provisions sur leurs épaules, et nous descendîmes, assez lestement, vers le pied de la Maladetta, laissant à notre droite les roches calcaires de la Pèna-Blanca. Arrivés au fond de la vallée du Plan-des-Etangs, qui est plus élevée que sa voisine, la vallée latérale de l’hospice de Bagnères, de 446 mètres, nous laissâmes derrière nous une cabane habitée pendant l’été par des bergers espagnols, pour remonter, par un plan rocailleux, jusqu’au gouffre de Tourmon, qui absorbe les eaux d’un torrent rapide, descendant de la partie orientale du glacier de la Maladetta [...].

Un exemple sur des termes à extraire

Comment filtrer les termes ?

4

Page 5: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Représentation formelle des concepts spatiaux dans la langue

• Entités nommées géographiques

• Connecteurs spatiaux

• Verbes de mouvement

• Représentation de la connaissance

5

État de l’art (1)

Page 6: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

État de l’art (2)

6

Concepts spatiaux La localisation dans l'espace (entité concrète, repère

spatial) (Borillo 1998, Vandeloise 1986) : • « Vallée d’Ossau »

• « Roches calcaires de la Pèna-Blanca »

• Mais « jambon de Bayonne » ou « maire de Chambéry » ?

Relations spatiales:• Relations topologiques : adjacence à, à l'intérieur de, … (Egenhofer

& R.D. (1991))

• Relations directionnelles : au sud de, au nord de, …(Ligozat (1998))

• Relations métriques : à 10 km de, à 10mn d'ici…

Page 7: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

État de l’art (3)

7

Expression du déplacement Verbes de mouvement (Boons (1987), Laur (1991), Sarda (2000)) :

• Verbes initiaux : quitter, partir, sortir, s’échapper, s’éloigner, etc.• Verbes finaux : arriver à, atteindre, entrer dans, regagner, etc.• Verbes médians : traverser, descendre, franchir, parcourir,

passer par, se déplacer dans, etc. Verbes de perception (déplacement virtuel, mouvement du regard)

Problème plus général des entités nommées•Nom de personne, Nom d'entreprise, Nom de Lieu, …•Ressources de Nom de lieux, les gazetteers : Geonames, BDNyme, Word Gazetteer, GEOnet Names Server (GNS), etc.

Page 8: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Représentation de la connaissance

• Le modèle générique des Relations n-aire du W3C – J'ai remonté la vallée en me promenant jusqu'à Luz.

– Je vais me rendre à la ville de Pau en passant par Dax.

– Nous prenons le chemin du port de la Picade, en passant devant le trou du Toro.

• Cas particulier des relations n-aires (triplet VPT)– J’ai traversé le gave de Pau

– Nous regagnâmes nos logements respectifs à Bagnères-de-Luchon

– Nous sommes arrivés au sud de la vallée du Plan-des-Etangs

– Nous songeâmes bientôt à descendre sur le territoire aride au sud de la région d’Aragon

État de l’art (4)

8

Page 9: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Proposition d’un modèleTriplet VPT (Verbe, Préposition, Toponyme)

Comment marquer les triplets VPT afin d’extraire des informations géographiques ?

9

(*) : Composant pourra figurer de zéro à plusieurs fois dans le modèle VPT.

Page 10: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Chaîne de traitement• Objectif:

– Marquer les triplets VPT– Extraire des termes ayant une connotation géographique

• Methode:– Patterns lexico-syntaxiques définis par des grammaires hors contextes– Diverses ressources lexicales

10

Page 11: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Chaîne de traitement

Page 12: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Grammaire hors contexteDéfinition

– L’ensemble des règles qui permettent de remplacer plusieurs entités consécutives par une seule de plus haut niveau

label(X) –> label1(X1), label2(X2), ...., labeln(Xn)

Notre grammaire• Marquage des groupes de nom commun (4 cas) :

– groupeNomCommun(G) --> nom(N) + adjectif(A) (territoire aride) (territoire) (aride)

• Marquage des groupes de nom propre (14 cas) :– groupePropre(GP) --> nomPropre(NP) (Aragon) (Aragon)– groupePropre(GP) –> nomPropre(NP1), de, nomPropre(NP2) (Mont de Marsan) (Mont) (de) (Marsan)

• Marquage des toponymes (10 cas) : toponyme(T) –> groupeNC(G1), indirection(I), groupeNC(G2), de, nomToponymique(NT).(territoire aride (territoire aride) (au sud de) (région) (Aragon) au sud de la région d’Aragon)

12

Page 13: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Marquage des VPT

13

1 cas typique parmi 15 cas traités :

VPT(verbe :V...pre :P...toponyme :T) → Verbe(V), Preposition(P), Toponyme(T). (descendre) (sur)

Quelques cas complexe bien marqués•Je suis parti à cheval pour Gavarnie à 7 heures, cas où se trouvent également exprimés le temps et la manière de se déplacer ;

•J’ai remonté à pied la vallée d’Ossau jusqu’à Laruns, cas où le Toponyme est composé de plusieurs noms toponymiques ;

•Je partis en conséquence pour Bagnères de Luchon une seconde fois et, passant par le Tourmalet, un beau village près de la Hourquette d’Arreau et un autre au sud de la belle vallée de Louron, cas où sont impliqués plusieurs VPT dans une même phrase.

« descendre sur le territoire aride au sud de la région d’Aragon »

(territoire aride au sud de la région d’Aragon)

Page 14: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Ressources utiliséesGazetteer

• BDNyme (http ://www.ign.fr) : 44315 noms de lieu

• Geonames (http ://geonames.org) : 118301 noms de lieu

Verbe de déplacement|perception

• 47 verbes de déplacement à partir des travaux de (Talmy (2000), Boons (1987), Laur (1991), Sarda (2000))

• 50 verbes de perception (selon notre obersvation des corpus)

Ontologie/thésaurus

• Ontologie de l’IGN

• Thésaurus RAMEAU de la BnF

14

Page 15: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Un paragraphe étiqueté

15

Page 16: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Expérimentation(1)

16

Logiciel : Linguastream, Java, TreeTagger

Corpus : 12 récits de voyage numérisés et fournis par la médiathèque de Pau

Résultats: 1390 triplets VPT marqués283 termes extraits dont 178 validés par expertsLa précision :

Type de verbe Nb de termes validés a (*)

Nb de termes extraits b (*)

Précision(a/b)

Verbe de déplacement 627 775 0,81

Verbe de perception 178 229 0,78

Tous 809 1004 0,81

Verbe de perception apporte un gain

(*) : Les termes peuvent être identiques pour les triplets VPT différents

Page 17: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Expérimentation(3)Des verbes plus fréquents dans les corpus

18

Page 18: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Bruit

La polysémie du verbe : « […] j’ai quitté le confort de la vie de Bordeaux » 

L’inexactitude de la sortie de l’analyseur morphologique : « Il serai devenu un peu fier vis-à-vis de ses camarades d’Arrens[...] » 

19

Terme Nombre de fois extrait

camarades 1

direction 1

jour 1

minutes 1

vie 2

maire 2

profondeur 2

suite 2

marbière 1

enfance 1

Page 19: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Silence Les gazetteers incomplets :

•"...nous grimpons sur le plateau d’Esquierry"

La structure verbale passive : •"...le pic de Néthou , n’a été encore gravi par personne... "

Erreur d’étiquetage de l’analyseur morphologique : •"...Arrivés au fond de la vallée du Plandes-Etangs, ... "

Aucune indication ne permet de filtrer le syntagme à extraire : •"Pour ce qui est des variations du niveau du gouffre, il y a, en effet, une crue et une baisse..."

Des triplets VPT implicites : •"Jusqu’à cette ville, nous avons longé la Garonne".

20

Page 20: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

Conclusion & perspective

21

Un modèle opérationnel permettant d’extraire et de représenter des concepts spatiaux

Notre méthode offre les avantages suivants :Modulaire, et extensible : chaque élément du modèle est marqué par un moduleCapacité à traiter des configurations complexes

Autres applications du modèle VPTReconnaissance d’entités nommées géographiques

Perspective : les autres Relations n-aireJe vais me rendre à la ville de Pau en passant par Dax.Nous prenons le chemin du port de la Picade, en passant devant le trou du Toro.J'ai remonté la vallée en me promenant jusqu'à Luz.

Page 21: Méthode de modélisation et dextraction des informations géographiques contenues dans des textes Van Tien NGUYEN Mauro GAIO Université de Pau et des Pays

22

Merci de votre attention!