Upload
gilfrancopoulo
View
561
Download
2
Embed Size (px)
DESCRIPTION
Natural Language Processing of texts by Tagmatica's tools for English French and Spanish.
Citation preview
Chaîne d'analyse de Chaîne d'analyse de Tagmatica pour les textes Tagmatica pour les textes français, anglais et espagnolsfrançais, anglais et espagnols
Gil Francopoulo, www.tagmatica.com
journée Scribo, 23 novembre 2010
Quoi ?Quoi ?* Détecter les entités nommées, de * Détecter les entités nommées, de manière opérationnelle, sur des manière opérationnelle, sur des milliers de documents par jour, dans milliers de documents par jour, dans le domaine de la Presse et des blogs le domaine de la Presse et des blogs institutionnels.institutionnels.En janvier, gestion de la coréférence En janvier, gestion de la coréférence et extraction des citations.et extraction des citations.
Comment ?Comment ?* Chaîne d'analyse hybride: mi-* Chaîne d'analyse hybride: mi-statistique, mi-symbolique.statistique, mi-symbolique.
Entité nommée:Entité nommée:* la graphie structurée* la graphie structurée* un type* un type* un sous-type* un sous-type
ex#1 "Jacques Dujardin ..." (parfait inconnu)=> on peut juste déterminer que c'est une
personne de sexe masculin, car "Jacques" est un prénom connu et le nom qui suit commence par une majuscule. Donc, le type=individual et le sous-type inconnu.
Deux cas de figure:
ex#2: "Usain Bolt ...", comme il est décrit dans la base de connaissances interne de la chaîne d'analyse => type=individual et sous-type=athleteDonc, en résumé, le type est toujours
déterminé et le sous-type l'est éventuellement.
Les types et sous-types sont organisés selon une ontologie très fine et complète avec 995 noeuds issus de Sekine, IPTC, des encyclopédies et de diverses expériences de veilleurs professionels => décrite en OWL=> types=niveau#1 et sous-types=niveau#>1télécharger www.tagmatica.com/doc/ontology.owl
Coréférence, trois mécanismes:* références pronominales
Nicolas Sarkozy ... il* variantes
Nicolas Sarkozy ... SarkoNicolas Sarkozy ... Sarkozy
* noms de fonctionsNicolas Sarkozy ... le président
Extraction des citations:"Réduisez le déficit" plaide la Commission, avant de se rétracter.
locuteur= "Commission"relateur= "plaider"discours= "réduire le déficit"
Traitements sémantiques, disons, un peu plus subtils:
Comment ?
ConclusionImplémentation:* conception objet de manière industrielle,* conforme aux standards ISO,* entièrement Unicode, * écrit en Java (8 années de dev à tps partiel),* API ou sortie XML Passage++,* fonctionne sur Linux et Windows.
Chaîne automatique opérationnelle qui réalise une analyse morphosyntaxique, une analyse syntaxique complète et un certain nombre de traitements d'interprétation du sens.Merci de votre attention
contact: [email protected]