View
223
Download
0
Category
Preview:
DESCRIPTION
Ceci est un état de l'art synthétique des techniques et méthodes de reconnaissance et de classification des entités nommées.
Citation preview
Entités nomméesIA03 A08
Sébastien Heymann – Laurine Sailly
Résumé
Ce rapport est un état de l'art synthétique des techniques et méthodes de reconnaissance et de classification des entités nommées. Soustâche de l'extraction d'informations, elle traite des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques. Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.
Motsclés
Traitement automatique du langage naturel, information retrieval, pattern matching, casebased reasonning, machine learning, ingénierie documentaire, ontologie, web
Table des matièresPlan de travail.........................................................................................................................4Problématique........................................................................................................................4Entités nommées : définition..................................................................................................5Méthodes................................................................................................................................5
NER....................................................................................................................................5Définition........................................................................................................................5Quelques exemples.......................................................................................................6Limites...........................................................................................................................6
NEC....................................................................................................................................7Définition........................................................................................................................7Un exemple....................................................................................................................7Modèle statistique / probabiliste....................................................................................7Modèle linguistique........................................................................................................8Sousclassification.........................................................................................................8Approche modulaire......................................................................................................8Limites...........................................................................................................................8
Normalisation.....................................................................................................................9La problématique des corpus ouverts...............................................................................9Méthodes système.............................................................................................................9
Méthodes symboliques (supervision lourde).................................................................9CaseBased Reasonning (supervision légère)............................................................10Machine Learning (autosupervision)..........................................................................10
Techniques...........................................................................................................................10Extraction de patterns......................................................................................................10Extraction de relations......................................................................................................11Désambiguïsation.............................................................................................................11Classification....................................................................................................................12Correction d'erreur...........................................................................................................12
Evaluation des systèmes......................................................................................................12Quelques exemples..............................................................................................................13Ontologie..............................................................................................................................13Conclusion............................................................................................................................16Bibliographie.........................................................................................................................18
Plan de travailCe rapport est un état de l'art synthétique des techniques et méthodes de reconnaissance et de classification des entités nommées. Il fut réalisé sur la base d'une recherche bibliographique la plus exhaustive et qualitative possible, d'un interview de Julien Carcenac, expert du domaine travaillant à Exalead SA la société éditrice du moteur de recherche éponyme, de la construction de l'ontologie du domaine telle que demandée par les responsables de l'UV IA03, et enfin de la production dudit rapport.
Problématique« Le knowledge management, ou gestion des connaissances, est le processus au cours duquel la bonne information est apportée à la bonne personne afin qu'elle prenne la bonne décision. »[cours IA03]
La première étape de ce processus est la sélection de la bonne information, ou information extraction / information retrieval. L'information est souvent contenue dans des documents en langage naturel, qui la plupart du temps ne comportent aucune métadonnées. Comment, dans ce contexte, traiter les requêtes complexes comme « les entreprises qui ont fusionné dans l'année » ou sélectionner les documents sur Georges Washington et non sur la ville du même nom ? Une recherche sur des motclés s'avère insuffisante, car trop de documents seront sélectionnés, et trop passeront sous silence.
La solution pour la recherche d'information est de s'appuyer sur le Traitement Automatique du Language Naturel (TALN), une discipline qui allie linguistique, informatique et intelligence artificielle. L'enjeu du TALN est de capter l'information contenue dans un texte et de rendre compte de son sens. Pour cela, le TALN étudie les structures grammaticales et syntaxiques dans le texte.
Depuis une dizaine d'année, les chercheurs se sont penchés sur le traitement d'unités linguistiques à forte valeur informative ou référentielle. Ces unités peuvent être des noms propres, qui sont des références à une entité particulière sans l’intermédiaire d’un sens lexical codifié, et qui désignent toujours le même particulier. Bien que largement traités dans la littérature, les noms propres sont insuffisant pour rendre compte de phénomènes de « pluralité interprétative » (changements, transferts et superpositions de sens). C'est pourquoi la notion d'Entité Nommée a été introduite.
Après avoir défini ce qu'est qu'une entité nommée, nous exposerons les méthodes et les techniques construites et utilisées par les chercheurs pour le traitement de ces entités. Nous nous pencherons ensuite sur l'évaluation d'un système de reconnaissance d'entités nommées, puis nous étudierons quelquesuns de ces systèmes en comparant les différentes approches. Enfin, nous présenterons l'ontologie du domaine que nous avons construite à partir de nos recherches.
Entités nommées : définitionLa reconnaissance d'entités nommées est un processus d'identification et de catégorisations de ces unités lexicales particulières que l'on regroupe sous le nom d' « Entité nommée » (« Named Entities »). Ce processus se déroule en trois parties : identification (NER ou « Named Entity Recognition »), classification (NEC ou « Named Entity Classification »), et normalisation.
Traditionnellement, les entités nommées sont des noms (noms propres), mais aussi des expressions temporelles et plus rarement des expressions numériques. Ainsi, la Message Understanding Conferenre de 2007 (MUC7) propose 3 types d'entités nommées :– ENAMEX : noms de personnes, noms de villes– TIMEX : date, heure– NUMEX : montants financiers, pourcentagesL'étude des entités nommées s'étend audelà des frontières de ces trois types : on a inclu par la suite les titres d'oeuvres culturelle (livres, films, etc.), les noms de produits ou de marques, et toute dénomination d'entités spécifiques à un domaine...
Les entités nommées s'inscrivent dans des circonstances d'énonciation, et sont donc sujettes à un contexte. Ainsi, des rôles sont souvent ajoutés pour spécialiser les types d'entités. Les catégories utilisées peuvent être absolues, c'estàdire vraies dans tout corpus de document, comme la division entre personnes, lieux, etc. ; mais elles peuvent être relatives à un domaine, comme le nom des gènes et hormones que l'on trouvera dans les corpus spécifiques à la biologie. De même, les catégories d'entités nommées peuvent être strictement hiérarchisées, ou peuvent correspondre à des tags et se recouper.
MéthodesL'extraction d'entités nommées se divisent en trois soustâches : leur reconnaissance ou identification (connue sous l'expression « Named Entity Recognition » dans la littérature, ou NER), leur classification (« Named Entity Classification », ou NEC) et leur normalisation. On doit ainsi dans un premier temps reconnaître les portions de texte susceptibles d'être des entités nommées pour ensuite essayer de les classer. Cette classification est généralement donnée. Nous traitons de ces trois aspects dans cette partie sur le plan méthodologique.
NER
DéfinitionLa NER traite des méthodes et des techniques de détection des entités. Dans l'analyse d'un texte, elle
indique les expressions à annoter. Elle peut se baser sur un dictionnaire d'expressions (gazetteer) à repérer, ce qui fonctionne sur des corpus maîtrisés et donc fermés. Mais elle peut aussi s'en passer et dans ce cas nécessiter l'exploitation du contexte du ou des termes recherchés, et surtout de la forme des mots (pattern matching). Les critères ne sont pas prédéterminés et leur nombre n'est pas limité. Cette détection repose le plus souvent sur un système à base de règles données par un humain ou apprises (Machine Learning), voire un système raisonnant à partir de cas (CaseBased Reasonning). Le choix est principalement conditionné par l'application sur un corpus documentaire fermé ou ouvert comme le Web, et par le coût admissible d'une intervention humaine, que ce soit pour construire des règles ou pour superviser le système.
Quelques exemples● Un mot composé de lettres en majuscule ou dont la première lettre est une majuscule peut
nous indiquer que nous avons affaire à un nom.● Un nom d'entreprise est le plus souvent recherché dans un dictionnaire.● Une date est identifiable par son formattage.● Un nom de lieu peut être détecté grâce aux particules de la langue indiquant une position
(« à », « vers », « depuis »...) et s'il possède une majuscule.
LimitesLa NER est cependant confrontée à des problématiques de limites, que ce soit au niveau de la définition (portée des règles de reconnaissance) ou de la langue :
● la portée des classes (les frères Coen, les Français, la famille Kennedy)● la coordination (Bill et Hilary Clinton)● l'imbrication (l'Université d'Orléans)● les frontières (la candidate Ségolène Royal)● les variantes, ramené à un problème de normalisation (Zizou)● l'homonymie : deux mots différents ayant la même forme orale et écrite (Les poules du
convent couvent.)● la polysémie : un même mot prenant des sens différents selon le contexte (« hôte » désigne
selon le contexte celui qui reçoit ou celui qui est reçu)● la métonymie : figure de style consistant à remplacer un substantif par un autre ou par un
élément substantivé (« Paris a froid Paris a faim », où Paris désigne les habitants plus que la ville, « boire une bouteille »...), utilisé couramment en prenant la partie pour le tout (« Deux voiles cinglaient vers le couchant »)
● la métaphore● l'autonomase : nom propre utilisé comme nom commun (un watt, un frigo, une poubelle...)● les facettes (Leclerc)
NEC
DéfinitionLa NEC, vue aussi sous le terme de « clustering », traite de la manière de construire une classification lorsque la liste des classes ne préexiste pas à l'extraction des entités. Dans l'analyse d'un texte, elle indique le contenu des balises servant à annoter les expressions. Basée sur une analyse statistique ou probabiliste du contexte du terme trouvé via un système apprenant ou raisonnant à partir de cas. Elle peut requérir l'extraction des relations du terme avec les autres pour identifier sa classe. Certaines études nécessitent même de proposer des sousclassifications (spécialisations de classes génériques comme les dates à des domaines précis comme des dates de séminaires). Notons que l'approche classique consistant à catégoriser (une entité appartient à une classe et une seule) est parfois critiquée au profit de l'annotation modulaire (une entité peut appartenir à plusieurs classes).
La classification est généralement donnée. Elle peut être reprise de thésaurus génériques tels que la hiérarchie étendue Sekine, ou être constituée pour l'étude en fonction des attentes des utilisateurs. Il s'agit d'une liste pour les études les plus simples, d'un hiérarchie dans la plupart des cas, voire d'un système de modules où une entité peut prendre différents rôles.
Un exemplePhrase annotée avec le style de classification MUC (Message Understanding Conference) :
Jim bought 300 shares of Acme Corp. in 2006. =><ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>.
Modèle statistique / probabilisteCe modèle sert à mettre en place une méthode par apprentissage à partir de textes étiquetés à la main. Posons que la reconnaissance d'une entité est conditionnée par la vérification d'un ensemble de caractéristiques (features) pouvant la faire entrer dans une classe. A partir d'un corpus d'apprentissage, le système peut calculer la répartition de l'appartenance d'une entité sur l'ensemble des classes possibles, et ainsi mettre en œuvre une fonction déterminant la probabilité pour chaque nouvelle occurrence de l'entité d'appartenir à une classe donnée. Cette fonction tient compte des caractéristiques de l'occurrence (cf. Extraction de patterns), et repose la plupart du temps sur les chaînes/modèles de Markov cachées (CMC, MMC, ou HMM en anglais). Rappelons qu'un MMC permet de modéliser des processus stochastiques, plus précisément des systèmes dont le comportement n'est que partiellement prévisible : on connaît la séquence de sortie mais pas la séquence produisant cette sortie, une sortie ayant pu être générée par des séquences de production différentes. Elles sont aussi employées en reconnaissance d'image et de la parole, en bioinformatique ou encore en ordonnancement de tâches.
Références : [Bikel, 1998] [Markov]
Modèle linguistiqueC'est un modèle à base de règles écrites manuellement utilisant des informations morphosyntaxiques comme des mots déclencheurs: Mr, Mme, SA, rivière... Il est employé pour extraire des noms, prénoms et noms d'organisation.
Références : [Gazeau, 2008]
SousclassificationIl existe plusieurs classification normalisées, ou tout du moins suffisamment génériques pour convenir à la plupart des besoins, telle que la classification Sekine. Cependant il est parfois nécessairement de classer les entités de manière fine, par exemple en considérant uniquement les « monnaies européennes », ce qui est une spécialisation de la classe « monnaie ». Elle repose sur une analyse du contexte de l'entité, et peut être associée à un algorithme d'apprentissage. Elle est nécessaire lorsque l'on souhaite exploiter les entités nommées dans une application de questionsréponses, de recherche d'informations ou pour la génération automatique d'ontologies.
Références : [Fleischman, 2002] [Sekine, 2002]
Approche modulaireLa catégorisation stricte d'une entité dans une classe n'est pas toujours pertinentes. Certaines équipes de recherche préfèrent expérimer une catégorisation souple sous forme de modules, ou « facettes » d'une même entité. Ainsi l'abandon une approche catégorisante (Jacques Chirac est une personne) permet d'arriver à une annotation modulaire (Jacques Chirac a été maire de Paris ET Président de la République) afin d'être plus précis.
Références : [Ehrmann, 2006]
LimitesLes principaux problèmes portent sur la souscatégorisation et le recouvrement de classes pour une entité détectée, lorsque le contexte ne permet pas de la classer de manière déterminée.
Notons que les méthodes peuvent être combinées pour créer des systèmes hybrides, comme [http://www.limsi.fr/Individu/habert/0405/] qui mêle les approches statistique et sémantique avec les étapes quivantes :
1. Analyse lexicale.2. Reconnaissance des séquences pertinentes par une grammaire dédiée.3. Étiquetage des séquences isolées : mécanisme d'acquisition dynamique.
NormalisationLa normalisation est l'étape de regroupement des entités conceptuellement identiques mais dont l'orthographe varie, par exemple le groupe de musique « Dub Incorporation » est parfois écrit « Dub Inc ». Elle repose sur des expressions rationnelles simples (pattern matching). Elle est optionnelle selon le corpus étudié.
La problématique des corpus ouvertsAvant de poursuivre, nous devons détailler ce que la différence entre un corpus ouvert et un corpus fermé produit en terme de méthode, car elle conditionne à la fois l'approche et les techniques de mise en oeuvre.
Par corpus fermé, nous entendons un corpus statique dont la limite en terme de documents est connue, et qui n'a pas vocation à évoluer dans le temps. Un corpus ouvert est donc soit un corpus dont tous les documents ne sont pas connaissable à l'avance comme le Web, qui évolue au fil du temps, soit un corpus comportant une quantité trop importante de documents pour traiter une thématique précise et se soumettre aux techniques employées sur les corpus fermés.
Fondamentalement, faire face à un corpus ouvert implique :
● de ne pouvoir utiliser de dictionnaire car ils ne seront jamais suffisamment exhaustifs, sauf à prédéfinir un ensemble d'entités recherchées
● de devoir mettre en place un système qui s'adapte aux documents, et donc ne pas posséder de règles statiques
● de s'autosuperviser si possible et apprendre par luimême pour adapter ses règles aux mutations du corpus.
Méthodes systèmeLa reconnaissance et de la classification des entités nommées sont mises en œuvre de différentes façons selon la taille du corpus et la niveau de supervision humaine acceptée, soit une problématique de performances. Par supervision, nous entendrons l'intervention d'un humain au cours du processus d'extraction et de classification des entités nommées.
Méthodes symboliques (supervision lourde)Ce système consiste à produire manuellement des règles d'extraction, généralement des expressions rationnelles, et de disposer d'un dictionnaire pour la classification. Elle est adaptée à des corpus fermés de taille raisonnable et les règles produites ne s'appliquent que pour le corpus donné à un instant donné. Aucune garantie n'est possible sur son application à un corpus modifié ou à un tout autre corpus. Il a cependant l'avantage d'être très efficace et précis : ses taux de précision et de rappel sont les meilleurs (cf. Critères d'évaluation).
CaseBased Reasonning (supervision légère)Le raisonnement à partir de cas nécessite qu'un humain fournisse des bouts de corpus déjà annotés, soit un ensemble de cas à partir duquel le système peut se calibrer pour ensuite fonctionner de manière autonome. En fait il n'a « plus qu'à » annoter des exemples, ce qui est bien plus aisé que d'écrire un extracteur à base de règles. Le système peut posséder un ensemble de règles paramétrées à l'initialisation, voire générer directement ses règles (combinaison de Machine Learning). Bien entraîné, ce système donne de très bons taux de rappels et de précision.
Exemple :
Réutilisation et réponse automatique au courrier électronique d'une entreprise. [Danet, 2006]
Machine Learning (autosupervision)Le système par apprentissage est employé sur des corpus ouverts, lorsqu'il est veillé et qu'il change avec le temps. Il repose sur des algorithmes dont les paramètres évoluent grâce à « l'expérience » acquise. Il est capable de générer et de corriger des règles d'extraction et de classification selon une approche topdown (spécialisation) ou bottomup (généralisation). Les systèmes vus dans la littérature scientifique sont essentiellement non supervisés : ils se servent d'heuristiques, et comportent un bootstrap, où l'émergence des règles à l'initialisation est contrôlée par un individu, conditionnant la suite de son fonctionnement. Ils sont combinables avec les systèmes de raisonnement à partir de cas pour remplacer le boostrap. Ce système est difficilement évaluable de part son terrain d'exploitation, mais semble donner de bons résultats. Il constitue la voie privilégiée en Recherche actuellement.
Exemple :
Système d'extraction et de classification d'entités nommées sur un corpus ouvert de plusieurs millions de documents. [Etzioni, 2004]
TechniquesAbordons maintenant les principales techniques employées en reconnaissance et classification, qui peuvent se combiner selon la méthode utilisée.
Extraction de patternsUne entité est reconnaissable par un ensemble de règles, qui ne sont pas nécessairement des expressions rationnelles. Rappelons qu'en généralisant, on considère qu'une entité doit vérifier un ensemble de caractéristiques (features) pouvant la faire entrer dans une classe. Voici une liste non exhaustive de patterns appliquables sur les termes d'une entité :
● Première lettre du mot en majuscule.
● Premier mot d'une phrase : permet d'éviter que tous les premiers mots d'une phrase soient considérables comme des entités par l'application de la règle précédente.
● Contient des chiffres.● ngrams : permet de détecter les entités comprenant plusieurs mots par accumulation de
statistiques ngrams. C'est un modèle particulier de chaîne de Markov cachée.Et sur le contexte d'une entité :
● TnT POS tagger : annoteur grammatical basé sur les statistiques.● souschaîne, comme les préfixes et suffixes.● abbréviations.● mots précédents et suivants.
Références : [Wasson, 2000] [Etzioni, 2004] [Dingare, 2005]
Extraction de relationsLa détection d'entités peut amener dans une second temps à analyser les relations entre elles, mais l'inverse est aussi possible. Une approche mise en œuvre par [acl04hasegawa.pdf] est la découverte de patterns relationnels pour identifier des sociétés, par exemple une relation « Company A merged with Company B » répétée un nombre de fois suffisant déclenchera l'enregistrement non seulement des entités Company A et Company B, mais aussi la relation de fusion entre les deux. Le système peut rechercher des relations prédéfinies, mais aussi découvrir de nouvelles relations. Une exploitation possible est la mise en place à posteriori d'un système de questionréponse ou de résumé automatique.
Références : [Brin, 2003] [Hasegawa, 2004]
DésambiguïsationLa reconnaissance d'une entité doit faire principalement face aux problèmes d'homonymie et de polysémie. Le problème principal sousjacent être de savoir s'il peut exister une ambiguïté sur une entité. L'identification du sens peut se résoudre par :
● l'usage de ressources lexicosyntaxiques● une analyse grammaticale (PartOfSpeech Tagging) qui marque les termes de chaque phrase
par leur catégorie grammaticale (sujet, verbe, complément, COD...)● des solutions plus originales comme l'utilisation des pages de redirection de Wikipedia pour
savoir s'il peut exister une ambiguïté sur une expression donnée.Exemple :
● « Washington » : ville ou personnage historique ?
Références : [Bunescu, 2006]
ClassificationLa classification repose sur l'exploitation d'une hiérarchie de classes. Elle est parfois générée automatiquement à partir de l'ontologie du domaine étudié, ce qui facilite notamment l'exploitation des entités dans le remplissage automatique de métadonnées pour le Web Sémantique.
Références : [Fleischman, 2002] [Etzioni, 2004] [Valkeapää, 2007]
Correction d'erreurLa correction d'erreur peut amener une amélioration notable de la précision de l'ordre de un à quelques %. Elle consiste à vérifier, pour chaque entité classée, si elle respecte un certain nombre de règles d'assertion.
Evaluation des systèmesLe choix d'un système de reconnaissance d'entités nommées se base sur un compromis entre les performances du système et les contraintes technologiques qu'il pose.
Les performances d'un systèmes sont évaluées à l'aide de trois valeurs : rappel, précision et Fmesure. Le rappel d'une classe C est le rapport entre le nombre d'entités correctement attribuées à cette classe C et le nombre total d'entités appartenant à la classe. On définit le rappel d'un système comme la moyenne des rappels de toutes les classes. La précision est le rapport entre le nombre d'entités correctement attribuées à cette classe C et le nombre total d'entités attribuées à la classe. On définit la précision d'un système comme la moyenne des précisions de toutes les classes. La Fmesure est une combinaison de ces deux critères, que l'on définit par la formule suivante :
Le terme permet de pondérer la précision et le rappel et ainsi de privilégier l'un de ces deux critères. Néanmoins, la mesure F1, qui prend pour la valeur 1, reste la solution la plus souvent utilisée.
Chaque méthode de traitement d'entités nommées présente aussi des contraintes technologiques en terme de coût et de maintenabilité. Le coût d'un système englobe tant le temps de traitement que la puissance et la capacité mémoire du serveur ; la maintenabilité estime combien l'intervention humaine est nécessaire pour le fonctionnement du système pour un corpus donné et pour un changement ou un élargissement du corpus.
Le choix du système à utiliser doit donc se baser sur les caractéristiques du corpus que l'on souhaite étudier et sur le type de résultats de recherche que l'on souhaite obtenir : le corpus estil ouvert ou fermé ? Vatil varier dans le temps ? Privilégieraton l'exhaustivité ou la pertinence des résultats ?
F=1
2× précisionrappel
2×précisionrappel
Quelques exemplesExalead
Les entités nommées sont désormais au coeur des technologies développées par la société Exalead SA, leader européen du Search. Tous les projets de son Labs les utilisent, comme Voxalead, qui permet la recherche textuelle dans les contenus audio et vidéo via la reconnaissance vocale et la transcription de texte. Les entités nommées sont déjà intégrées aux produits en production, comme la barre de contexte du moteur de recherche Web (termes associés proposés et annuaire donnant la classification).
http://labs.exalead.fr & http://www.exalead.fr/search
AMI
AMI est une société éditrice de logiciel de veille et d'intelligence économique. Ses produits permettent d'analyser de grandes quantités de données textuelles et d'en extraire les entités nommées : les personnes et les organisations essentiellement, mais aussi les sujets de discussion, dans le but de traquer des évolutions (importance, émergence et disparition).
http://www.amisw.com
OntologieUne étape préliminaire de la construction de l'ontologie pour le domaine des entités nommées a été la réalisation d'un thésaurus qui rassemble les concepts les plus importants du domaine. Dans ce but, les motsclés les plus cités dans les articles de référence ont été extraits et représentés sur le graphe cidessous.
Ce graphe des relations entre motsclés met en évidence les concepts qui sont le centre des recherches en cours sur le sujet des entités nommées. Dans l'ontologie décrite cidessous, certains points ne sont pas détaillés. Ils sont largement approfondis dans les parties correspondantes du présent rapport.
Illustration 1: Représentation du thésaurus des principaux termes de notre corpus (un lien existe entre deux termes s'ils sont présents au moins 5 fois dans un de nos documents) réalisé avec l'extension Firefox TimmyMiner basée sur les ngrams (http://webmining.fr/technologies/timmyminer)
Figure 1 : Ontologie
L'ontologie du domaine des entités nommées se rassemble autour de deux concepts majeurs : l'entité nommée ellemême, et le système de reconnaissance des entités nommées.
L'entité nommée est une unité lexicale, qui est un objet d'étude du TALN (Traitement Automatique du Langage Naturel). Elle est contenue dans un document, luimême contenu dans un corpus. On définit un document comme l'association unique d'un support d'inscription (dans notre cas, le fichier numérique) et de l'information qu'il contient. Un corpus est un recueil de documents qui ont trait à une même matière.
L'entité nommée est reconnue au cours d'un processus qui comporte trois étapes : identification ou reconnaissance (NER), classification (NEC) et normalisation. La classification peut s'opérer de plusieurs manières : en suivant la hiérarchie MUC, par une annotation modulaire, ou avec une hiérarchie relative au domaine. La hiérarchie MUC divise les entités nommées en trois types : les noms (ENAMEX), les nombres (NUMEX), et les dates (TIMEX). La hiérarchie relative au domaine, comme son nom l'indique, se base sur les concepts clés du corpus et varie en fonction de celuici.
Le processus de reconnaissance des entités nommées dans les documents est mis en oeuvre par un système de reconnaissance des entités nommées. Plusieurs méthodes existent : la méthode symbolique, le casebased reasonning (raisonnement à partir de cas) et le machine learning (apprentissage). La méthode symbolique revient à écrire des règles à la main pour un corpus donné. Le casebased reasonning part d'un corpus déjà annoté pour extraire des cas et les appliquer à d'autres documents. Enfin, le principe du machine learning est de capitaliser l'expérience acquise pour modifier, généraliser ou spécialiser les règles sur lesquelles il se base. Ces deux dernières méthodes peuvent être autonomes ou supervisées, c'estàdire subir ou non une intervention humaine.
Le système de reconnaissance d'entités nommées peut être évalué selon plusieurs critères : sa performance en terme de rapidité de traitement, sa précision, son rappel, et la Fmesure. La Fmesure correspond à un composé de la précision et du rappel.
ConclusionLes entités nommées, initialement étudiées sur des corpus fermés de documents pour identifier des noms, fut étendue à des domaines de plus en plus diverses et requérant plus de précision que les premières classifications génériques. Appliquées à la veille technologique, l'intelligence économique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique. Une voie récemment ouverte est la détection des émotions dans un texte.
Cette synthèse est le fruit d'un travail de veille liant la recherche de littérature scientifique à la prise de contact avec une grande entreprise française exploitant les entités nommées à un stade expérimental [ExaLabs] et aussi en production. Elle fut l'occasion pour nous de plonger au cœur de
ce concept et d'en évaluer les capacités, la portée mais aussi les limites, et de modéliser ce domaine sous la forme d'une ontologie, excepté son langage formel pour l'opérationnaliser. Notons qu'un thésaurus aurait été suffisant puisqu'il n'en sera pas fait d'exploitation informatique.
BibliographieNotez que cette liste ne vise pas l'exhaustivité, beaucoup d'autres travaux sont accessibles sur CiteSeerx.
[Banko, 2008] Banko M. et al., Open Information Extraction from the Web, University of Washington (2008)
[Bikel, 1998] Bikel D. M. et al., Nymble: a HighPerformance Learning Namefinder, Cambridge (1998)
[Brin, 2003] Brin S., 6.891: Lecture 21 Relation Extraction, Stanford University (2003)
[Bunescu, 2006] Bunescu R., Pasca M., Using Encyclopedic Knowledge for Named Entity Disambiguation, University of Texas at Austin & Google Inc. (2006)
[Danet, 2006] Danet L., Réutilisation d'entités nommées pour la réponse au courriel, Université de Laval (2006)
[Dingare, 2005] Dingare S. et al., A system for identifying named entities in biomedical text: how results from two evaluations reflect on both the system and the evaluations, University of Edinburgh & Stanford University (2005)
[Downey, 2007] Downey D. et al., Locating Complex Named Entities in Web Text, University of Washington (2007)
[Ehrmann, 2006] Ehrmann M., Jacquet G., Vers une double annotation des entités nommées, Centre de Recherche Xerox de Grenoble (2006)
[Etzioni, 2004] Etzioni O. et al., Unsupervised NamedEntity Extraction from the Web: An Experimental Study, University of Washington (2004)
[Fleischman, 2002] Fleischman M., Hovy E., Fine Grained Classification of Named Entities, USC Information Science Institute (2002)
[Hasegawa, 2004] Hasegawa T., Sekine S., Grishman R., Discovering Relations among Named Entities from Large Corpora, Nippon Telegraph and Telephone Corporation & New York University (2004)
[Heath, 2005] Heath T. et al., Uses of Contextual Information to Support Online Tasks, The Open University (2005)
[Sekine, 2002] Sekine S. et al., Extended Named Entity Hierarchy, New York University (2002)
[Tjong Kim Sang, 2003] Tjong Kim Sang E. F., De Meulder F., Introduction to the CoNLL2003 Shared Task: LanguageIndependent Named Entity Recognition, University of Antwerp (2003)
[Valkeapää, 2007] Valkeapää O. et al., Efficient Content Creation on the Semantic Web Using Metadata Schemas with Ontology Services, Helsinki University of Technology (2007)
[Wasson, 2000] Wasson M., Largescale Controlled Vocabulary Indexing for Named Entities, LexisNexis (2000)
[Gazeau, 2008] Gazeau MA. et al., Projet Variling Reconnaissance des entités nommées d'un corpus oral transcrit, Université de Tours FrançoisRabelais (2008)
CiteSeerx base de littérature scientifique http://citeseerx.ist.psu.edu
[ExaLabs] Exalead Labs http://labs.exalead.fr
[Sekine hierarchy] Sekine's Extended Named Entity Hierarchy – http://nlp.cs.nyu.edu/ene/
[Wikio] Usage des entités nommées chez Wikio http://aixtal.blogspot.com/2008/04/outilquibuzzeaujourdhui.html
[NER] Wikipedia Named Entity recognition http://en.wikipedia.org/wiki/Named_entity_recognition
[Markov] Wikipédia Modèle de Markov caché http://fr.wikipedia.org/wiki/Mod%C3%A8le_de_Markov_cach%C3%A9
Recommended