Upload
conference-ic-2009
View
1.784
Download
2
Embed Size (px)
DESCRIPTION
Présentation de Florence Amardeilh et Danica Damljanovic à IC 2009
Citation preview
Funded by: European Commission – 6th FrameworkProject Reference: IST-2004-026460
Du texte à la connaissance : annotation sémantique
et peuplement d'ontologie appliqués à des artefacts logiciels
Florence Amardeilh & Danica DamljanovicIC’2009, 27 mai 2009, Hammamet
2
Contexte
Projet européen IST-TAO (2006-2009)Transitioning Applications to Ontologies
www.tao-project.eu
Use-case scenario:Annotation d’artefacts logiciels (documentation technique, code
source, web services, WSDL files…)
3
Bridging the gap
Contenu hétérogène non
structuré
Contenu structuré+
Connaissance structurée
4
Processus
Text Mining
Structured information
Ontology and vocabulary control
Reasoning engines
User validation
Knowledge population
(knowledge store integration)
Metadata generation
Format transformation
Input documents
Audio Mining
5
Content Augmentation Manager (CA Manager)
Definition du processus en trois étapes principales : Extraction d’informationConsolidation d’informationStockage d’information
Avoir un unique format d’échange entre chaque étape
Avoir un ensemble de services de consolidation répondant aux objectifs de l’application cible
Etre open-source et chaque composant doit être indépendant d’une plateforme ou d’un outil existant
Reposer sur une “Service Oriented Architecture” (SOA)
6
Architecture choisie
Choix de UIMA comme épine dorsale du CA-Manager.framework open-source IBMAvantages :
Capacité à définir un workflow flexibleComposants distribués et pluggablesUne structure de données commune aux
composantsPartage et réutilisabilité de composants open-source
Choix des langages et techniques du Web SémantiqueInteropérabilitéFacilité d’échanger/partager/exploiter les formats et leur
sémantiqueFacilité de créer/appeler de nouveaux services
7
Quels types de données voulons-nous?
3 choses :Connaissance: entités, relations,
attributsOccurrences : offsets/positions des
entités dans le texte analyséAnnotations : ensemble de
métadonnées sur le document soumis (se référant aux entités de connaissance)
Title : « brave new world »
Date : 1954-09-23
Person :
Place :
8
CA Manager pipeline
Extraire ContrôlerDécouper Inférer Sérialise
r StockerNettoyer +Fusionner
1. Extraction d’Information
2. Consolidation d’Information
3. Stockage d’Information
RegExp KCIT ITM SesameITMRDF OWLPellet
9
Cas d’usage : annoter les artefacts logiciels
Key Concept Identification Tool (KCIT) for automatic content augmentation:
produces ontology-aware annotations automatically
deals with term and morphological variations (list of documents, document list)
(
deals with wide range of file formats and differently sized documents
domain independent: easily used with different ontologies
10
Challenges raised by software artefacts
Customisation of generic Tokeniser for processing software artefacts:
e.g. getDocumentName should be separated into get, Document, and Name tokens
Customisation of generic Sentence Splitter
JavaDoc: usually no punctuation marks
11
Extract : Onto Root Gazetteer
12
Validation des résultats
13
KCIT évaluation: corpus
Sélection de 20 documents servant de corpus représentatif concernant les artefacts logiciels de la plateforme GATE :4 forum posts de la mailing liste GATE3 java classes du source code de GATE7 chapitres du guide utilisateur de GATE3 publications sur la plateforme GATE2 pages Web accessibles depuis le site Web http://gate.ac.uk1 guide du développeur d’applications GATE
14
KCIT évaluation: resultats
15
CA Manager évaluation : résultats Evaluation de la flexibilité et du passage à l’échelle de
l’infrastructure offerte par le CA Manager
Evaluation de la performance des algorithmes de consolidationMême corpus que pour l’évaluation de KCITExemple : “movies.xml”
129 annotations générées par KCIT 46 instances de connaissances créées par le CA
Manager 27 annotations sémantiques crées pour ce
document au final
Difficultés à évaluer la performances en utilisant des mesures plus adéquates comme la Learning accuracy ou la Balanced Distance Measure
Element type in the ontology
Number of correct elements (A)
Number of missing elements (B)
Number of spurious elements (C)
Recall (A/A+B)
Precision (A/A+C)
F1-measure (R*P)/0.5(R+P)
Kb instances 208 0 64 1 0,765 0,867 Annotations 168 0 12 1 0,933 0,965
16
Conclusion Avantages de cette infrastructure :
Spécialisation d’un workflow UIMA dédié à l’annotation et au peuplement d’ontologies en bénéficiant de ses apports
Cache la complexité d’UIMA si ce n’est pas nécessaire Focalise sur la transmission et l’interprétation des résultats
des outils d’extraction d’information aux référentiels sémantiques
Définit un Schéma d’annotation générique Fournit un service (simple, à distance, architecture SOA) Plug&play : possibilité d’écrire facilement un nouveau
connecteur vers un outil externe (IE ou référentiel sémantique)
Démo en libre accès, comme un web service ou une interface de test, accessible à : http://62.210.155.132/ca-test
17
Travaux futurs
SesameFunGen Discovery (INSERM)
PubMed articles
MiRNA ontologyMicrobio
ITMTimeFrame (Modyco, Univ
Paris X)
Touristic web sites
Tourism ontology
Eiffel
ITMLuxid (Temis)PubMed abstracts
Adverse Drug Effect ontology
VigiTermes
ITMDBPedia and Geonames
web services
3D objectsArchitectural ontology (3D
objects)
Terradata
repositoryCA toolcorpusontologyproject