Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels

Funded by: European Commission – 6th FrameworkProject Reference: IST-2004-026460

Du texte à la connaissance : annotation sémantique

et peuplement d'ontologie appliqués à des artefacts logiciels

Florence Amardeilh & Danica DamljanovicIC’2009, 27 mai 2009, Hammamet

2

Contexte

Projet européen IST-TAO (2006-2009)Transitioning Applications to Ontologies

www.tao-project.eu

Use-case scenario:Annotation d’artefacts logiciels (documentation technique, code

source, web services, WSDL files…)

http://www.tao-project.eu/

3

Bridging the gap

Contenu hétérogène non

structuré

Contenu structuré+

Connaissance structurée

4

Processus

Text Mining

Structured information

Ontology and vocabulary control

Reasoning engines

User validation

Knowledge population

(knowledge store integration)

Metadata generation

Format transformation

Input documents

Audio Mining

5

Content Augmentation Manager (CA Manager)

Definition du processus en trois étapes principales : Extraction d’informationConsolidation d’informationStockage d’information

Avoir un unique format d’échange entre chaque étape

Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible

Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant

Reposer sur une “Service Oriented Architecture” (SOA)

6

Architecture choisie

Choix de UIMA comme épine dorsale du CA-Manager.framework open-source IBMAvantages :

Capacité à définir un workflow flexibleComposants distribués et pluggablesUne structure de données commune aux

composantsPartage et réutilisabilité de composants open-source

Choix des langages et techniques du Web SémantiqueInteropérabilitéFacilité d’échanger/partager/exploiter les formats et leur

sémantiqueFacilité de créer/appeler de nouveaux services

7

Quels types de données voulons-nous?

3 choses :Connaissance: entités, relations,

attributsOccurrences : offsets/positions des

entités dans le texte analyséAnnotations : ensemble de

métadonnées sur le document soumis (se référant aux entités de connaissance)

Title : « brave new world »

Date : 1954-09-23

Person :

Place :

8

CA Manager pipeline

Extraire ContrôlerDécouper Inférer Sérialise

r StockerNettoyer +Fusionner

1. Extraction d’Information

2. Consolidation d’Information

3. Stockage d’Information

RegExp KCIT ITM SesameITMRDF OWLPellet

9

Cas d’usage : annoter les artefacts logiciels

Key Concept Identification Tool (KCIT) for automatic content augmentation:

produces ontology-aware annotations automatically

deals with term and morphological variations (list of documents, document list)

(

deals with wide range of file formats and differently sized documents

domain independent: easily used with different ontologies

10

Challenges raised by software artefacts

Customisation of generic Tokeniser for processing software artefacts:

e.g. getDocumentName should be separated into get, Document, and Name tokens

Customisation of generic Sentence Splitter

JavaDoc: usually no punctuation marks

11

Extract : Onto Root Gazetteer

12

Validation des résultats

13

KCIT évaluation: corpus

Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE :4 forum posts de la mailing liste GATE3 java classes du source code de GATE7 chapitres du guide utilisateur de GATE3 publications sur la plateforme GATE2 pages Web accessibles depuis le site Web http://gate.ac.uk1 guide du développeur d’applications GATE

14

KCIT évaluation: resultats

15

CA Manager évaluation : résultats Evaluation de la flexibilité et du passage à l’échelle de

l’infrastructure offerte par le CA Manager

Evaluation de la performance des algorithmes de consolidationMême corpus que pour l’évaluation de KCITExemple : “movies.xml”

129 annotations générées par KCIT 46 instances de connaissances créées par le CA

Manager 27 annotations sémantiques crées pour ce

document au final

Difficultés à évaluer la performances en utilisant des mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure

Element type in the ontology

Number of correct elements (A)

Number of missing elements (B)

Number of spurious elements (C)

Recall (A/A+B)

Precision (A/A+C)

F1-measure (R*P)/0.5(R+P)

Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965

16

Conclusion Avantages de cette infrastructure :

Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports

Cache la complexité d’UIMA si ce n’est pas nécessaire Focalise sur la transmission et l’interprétation des résultats

des outils d’extraction d’information aux référentiels sémantiques

Définit un Schéma d’annotation générique Fournit un service (simple, à distance, architecture SOA) Plug&play : possibilité d’écrire facilement un nouveau

connecteur vers un outil externe (IE ou référentiel sémantique)

Démo en libre accès, comme un web service ou une interface de test, accessible à : http://62.210.155.132/ca-test

http://62.210.155.132/ca-test

17

Travaux futurs

SesameFunGen Discovery (INSERM)

PubMed articles

MiRNA ontologyMicrobio

ITMTimeFrame (Modyco, Univ

Paris X)

Touristic web sites

Tourism ontology

Eiffel

ITMLuxid (Temis)PubMed abstracts

Adverse Drug Effect ontology

VigiTermes

ITMDBPedia and Geonames

web services

3D objectsArchitectural ontology (3D

objects)

Terradata

repositoryCA toolcorpusontologyproject

Technology

Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels