8
Chaîne d'analyse de Chaîne d'analyse de Tagmatica pour les textes Tagmatica pour les textes français, anglais et français, anglais et espagnols espagnols Gil Francopoulo, www.tagmatica.com journée Scribo, 23 novembre 2010

Text Analysis by Tagmatica

Embed Size (px)

DESCRIPTION

Natural Language Processing of texts by Tagmatica's tools for English French and Spanish.

Citation preview

Page 1: Text Analysis by Tagmatica

Chaîne d'analyse de Chaîne d'analyse de Tagmatica pour les textes Tagmatica pour les textes français, anglais et espagnolsfrançais, anglais et espagnols

Gil Francopoulo, www.tagmatica.com

journée Scribo, 23 novembre 2010

Page 2: Text Analysis by Tagmatica

Quoi ?Quoi ?* Détecter les entités nommées, de * Détecter les entités nommées, de manière opérationnelle, sur des manière opérationnelle, sur des milliers de documents par jour, dans milliers de documents par jour, dans le domaine de la Presse et des blogs le domaine de la Presse et des blogs institutionnels.institutionnels.En janvier, gestion de la coréférence En janvier, gestion de la coréférence et extraction des citations.et extraction des citations.

Comment ?Comment ?* Chaîne d'analyse hybride: mi-* Chaîne d'analyse hybride: mi-statistique, mi-symbolique.statistique, mi-symbolique.

Page 3: Text Analysis by Tagmatica

Entité nommée:Entité nommée:* la graphie structurée* la graphie structurée* un type* un type* un sous-type* un sous-type

ex#1 "Jacques Dujardin ..." (parfait inconnu)=> on peut juste déterminer que c'est une

personne de sexe masculin, car "Jacques" est un prénom connu et le nom qui suit commence par une majuscule. Donc, le type=individual et le sous-type inconnu.

Deux cas de figure:

Page 4: Text Analysis by Tagmatica

ex#2: "Usain Bolt ...", comme il est décrit dans la base de connaissances interne de la chaîne d'analyse => type=individual et sous-type=athleteDonc, en résumé, le type est toujours

déterminé et le sous-type l'est éventuellement.

Les types et sous-types sont organisés selon une ontologie très fine et complète avec 995 noeuds issus de Sekine, IPTC, des encyclopédies et de diverses expériences de veilleurs professionels => décrite en OWL=> types=niveau#1 et sous-types=niveau#>1télécharger www.tagmatica.com/doc/ontology.owl

Page 5: Text Analysis by Tagmatica
Page 6: Text Analysis by Tagmatica

Coréférence, trois mécanismes:* références pronominales

Nicolas Sarkozy ... il* variantes

Nicolas Sarkozy ... SarkoNicolas Sarkozy ... Sarkozy

* noms de fonctionsNicolas Sarkozy ... le président

Extraction des citations:"Réduisez le déficit" plaide la Commission, avant de se rétracter.

locuteur= "Commission"relateur= "plaider"discours= "réduire le déficit"

Traitements sémantiques, disons, un peu plus subtils:

Page 7: Text Analysis by Tagmatica

Comment ?

Page 8: Text Analysis by Tagmatica

ConclusionImplémentation:* conception objet de manière industrielle,* conforme aux standards ISO,* entièrement Unicode, * écrit en Java (8 années de dev à tps partiel),* API ou sortie XML Passage++,* fonctionne sur Linux et Windows.

Chaîne automatique opérationnelle qui réalise une analyse morphosyntaxique, une analyse syntaxique complète et un certain nombre de traitements d'interprétation du sens.Merci de votre attention

contact: [email protected]