View
109
Download
0
Category
Preview:
Citation preview
Annotation et métadonnées
Gaëlle Hignette,
AgroParisTech
gaelle.hignette@agroparistech.fr
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 2
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 3
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 4
Définitions: annotation
Langage courant (dictionnaire le Robert): Note critique ou explicative qu’on écrit sur un texte, un
livre En informatique:
Commentaire (libre) rattaché à un document ou une portion de document
Utilisé dans les bases documentaires, les collecticiels…
Concept (prédéfini) rattaché à une portion de document
Utilisé pour la recherche et l’extraction d’information
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 5
Définitions: métadonnées
Langage courant: Néologisme Métalangage: langage qui décrit un autre
langage (dit « primaire ») En informatique:
Données informatives sur les données courantes
ex. auteur, date de modification, …
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 6
Et le web sémantique?
Métadonnées dans le web sémantique Dublin Core
Annotations dans le web sémantique Langages du web sémantique peu adaptés à
l’annotation au sein du texte Annotations stockées en en-tête de document
ou dans un moteur à part, avec pointeurs Annotation de documents provenant du web
En vue d’une application précise Stockage local Format au choix, souvent XML
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 7
Exemple d’annotation Dublin Core
Le document HTML<HTML><HEAD> <TITLE> Dublin Core Metadata Initiative - Home Page</TITLE>
<LINK rel= "meta" href="dcDesc.dcxml"> </HEAD>
<BODY> .......... </BODY> </HTML>
L’annotation en RDF dans le fichier dcDesc.dcxml<?xml version="1.0"?>
<!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD 2001 11 28//EN
"http://dublincore.org/documents/2001/11/28/dcmes-xml/dcmes-xml-dtd.dtd"> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc
="http://purl.org/dc/elements/1.1/">
<rdf:Description rdf:about="http://dublincore.org/">
<dc:title>Dublin Core Metadata Initiative - Home Page</dc:title>
<dc:description>The Dublin Core Metadata Initiative Web site.</dc:description>
<dc:date>1998-10-10</dc:date> <dc:format>text/html</dc:format>
<dc:language>en</dc:language>
<dc:contributor>The Dublin Core Metadata Initiative</dc:contributor>
</rdf:Description> </rdf:RDF>
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 8
Exemple d’annotation utilisant des pointeurs
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 9
Exemple d’annotation à l’intérieur du document
<html><head></head><body><h1>The <b>Semsem</b> team Members</h1><table>
<person> <tr> <td><name>Jack</name></td> <td><email>jack@sem.sem</email></td> <td><theme>KR</theme></td> </tr> </person> <tr> ... </tr> <tr> ... </tr> </table>
</body></html>
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 10
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle
Qui doit annoter? Quelques outils d’aide à l’annotation
Annotation semi-automatique Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 11
Annotation manuelle par l'auteur
Charge de travail supportable Métadonnées: génération automatique
possible Annotation: au fil de la création du texte À condition de disposer d'outils faciles
d'utilisation Mais parfois inutilisable
L'auteur ne sait pas comment on va vouloir utiliser ce qu'il publie => quoi annoter?
Choix de l'ontologie
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 12
Annotation par "l'utilisateur"
Reprendre tout le web existant: impossible en annotation manuelle
Annotation par commentaire libres destinées à la lecture par des humains: nécessairement manuelle, liée à l’utilisation
Annotation manuelle par des concepts prédéfinis indispensable comme base pour les techniques d'apprentissage
Disponibilité de nombreux outils d’aide à l’annotation
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 13
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle
Qui doit annoter? Quelques outils d’aide à l’annotation
Annotation semi-automatique Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 14
Cadixe, annotation en XML
Pour des fichiers texte Annotation au fil de la lecture Insertion des tags XML dans le désordre,
mais tags guidés par une DTD Rendu graphique personnalisable Vérification après-coup de la conformité à la
DTD Stockage local des annotations en XML
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 15
Cadixe: copie d’écran
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 16
CREAM, annotation en RDF
Pour des fichiers HTML 3 modes d’annotation
Indépendamment de la page, directement dans l’éditeur d’ontologie
À la lecture, de l’éditeur de page vers l’éditeur d’ontologie
À l’écriture, de l’éditeur d’ontologie à l’éditeur de page Stockage des annotations dans la page (en-tête en
RDF) et/ou dans un serveur d’annotations permettant le raisonnement
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 17
CREAM: exemple
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 18
CREAM: annotation d’une page existante
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 19
CREAM: création d’une page à partir de l’ontologie
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 20
Annotea, annotations pour le travail collaboratif Outil du W3C Annotations textuelles par des auteurs Stockage des annotations en XHTML,
métadonnées des annotations dans des serveurs RDF ou index local
Intégration directe dans un browser spécifique: Amaya
Intégration dans le browser Mozilla: Annozilla
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 21
Annotea: screenshot
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 22
Et le multimédia...
Vannotea: annotation collaborative de vidéos M-OntoMat-Annotizer: extension de CREAM
pour l’annotation de vidéos outils de Mindswap: annotation d’images,
d’emails, de HTML et texte Open Ontology Forge: outil de création
d’ontologies et d’annotation type CREAM – intégration de l’annotation d’images et de texte
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 23
M-OntoMat-Annotizer: screenshot
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 24
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique
Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique
Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 25
Définition de règles pour l’annotation
Règles spécifiques à un domaine, écrites par un expert
Extraction d’entités nommées (noms de personnes, de compagnies, dates...)
Extraction basée sur une structure de documents redondante
Extraction basée sur des contextes linguistiques
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 26
Extraction d’entités nommées
Généralement basée sur une combinaison de dictionnaire et d’expressions régulières
Tâche de base pour des extractions d’information de plus haut niveau
Proposé dans la plateforme GATE: chaîne de traitement ANNIE tokenizer sentence splitter gazetteer NE transducer
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 27
Mapping de structure avec Lixto
Création d’une classe Choix graphique d’un exemple Création automatique d’un pattern
possibilité de modifier manuellement le pattern Test du pattern
possibilité de montrer d’autres exemples pour affiner le pattern
Eléments définis les uns par rapport aux autres
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 28
Lixto: screenshot
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 29
Règles linguistiques avec EXCOM
Relations linguistiques indépendantes du domaine lien de causalité rencontre entre personnes formulation d’une hypothèse, d’une conclusion etc.
Basé sur la présence d’un indicateur fort, puis d’indices contextuels permettant la désambiguation
Gros effort en linguistique impliqué
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 30
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique
Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique
Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 31
Annotation par apprentissage
Annotation manuelle d'une base d'exemples Application d'un algorithme d'apprentissage Annotation automatique ou semi-automatique
des documents restants Risque d'erreur Minimisation de l'effort d'annotation
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 32
Boosted Wrapper Induction
Freitag & Kushmerick, 2000 Fonctionnement concept par concept Tâche de classification des limites
Début: cet espace entre deux mots est-il le début d'une instance du concept?
Fin: cet espace entre deux mots est-il la fin d'une instance du concept?
Matching début/fin: longueur probable
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 33
BWI: Détecteurs de limites
Un pattern est un motif à repérer dans le texte Ex. [Melle <AlphaCap>] reconnaîtra Melle Dupond,
Melle Chapitre, Melle Hignette… Un détecteur est constitué de deux patterns: avant
limite et après limite Ex. [Melle][<AlphaCap>]
Un détecteur a une confiance
Melle Dupond
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 34
BWI: Définition du wrapper
Le wrapper est constitué de un ensemble de détecteurs de limite de début, un ensemble de détecteurs de limite de fin, une fonction de distribution de longueurH: N [0,1] H(k)=Prob("champ a k mots")
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 35
BWI: Classification
Chaque espace entre deux mots reçoit un score de limite de début et un score de limite de fin: Score = somme des confiances des
détecteurs qui reconnaissent cet espace Une instance est reconnue entre les espaces
i et j siScoredebut(i)*Scorefin(j)*H(j-i)>t
t: paramètre de réglage précision/couverture
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 36
BWI: Boosting
Temps 0: tous les exemples positifs ont le même poids
Boucler tant qu'on a moins de T détecteurs choisir un détecteur changer le poids des exemples: plus de poids
aux exemples positifs non encore couverts ou aux négatifs couverts par erreur
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 37
BWI: choix des détecteurs
Initialement: détecteur sans préfixe ni suffixe À chaque étape on ajoute un mot ou
généralisation au préfixe et au suffixe Maximiser
sqrt(poids vrais positifs) - sqrt(poids faux positifs)
Arrêt quand l'extension ne permet pas d'éliminer plus de faux positifs / longueur max de pattern atteinte
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 38
BWI: avantages
Bonne précision Couverture: l'union fait la force Fonctionne sur texte libre ou structuré Généralisations:
initialement prévu pour des informations de casse
mais peut tenir compte d'un pré-traitement (ex. reconnaissance de prénoms, dates, classe grammaticale, etc.)
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 39
(LP)2
Ciravegna 2001 Algorithme conçu pour tenir compte d'un pré-
processing: forme grammaticale, dictionnaires, entités nommées
Règles d'insertion de tags ouvrants et de tags fermants Meilleures règles Règles contextuelles
Règles de correction Validation: suppression des tags orphelins
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 40
(LP)2: meilleures règles
pour chaque exemple Pattern générateur = w mots avant, w mots après le
tag Retenir les k meilleures généralisations
taux d'erreur = erreur/succès < seuil plus de matches, moins d'erreurs suppression des règles redondantes
retirer les exemples couverts par les règles continuer tant qu'il reste des exemples à couvrir
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 41
(LP)2: règles contextuelles
Seuil de taux d'erreur exigeant Très bonne précision Couverture faible
Augmenter la couverture sans trop perdre de précision Appliquer les "meilleures règles" Utiliser les tags créés pour la génération des patterns Exemples utilisés = ceux qui ne sont pas couverts par
les meilleures règles Typiquement: fermeture d'un tag…
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 42
(LP)2: règles de correction
Tags insérés parfois mal placés Règles permettant de déplacer un tag de
maximum w positions fenêtre de w mots autour du tag mal placé meilleures k généralisations du pattern avec
tags action = déplacement du tag dans la fenêtre
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 43
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique
Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique
Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 44
SemTag
Annotation des instances définies dans une ontologie ex. « Michael Jordan »
Désambiguation par le contexte (n mots avant, n mots après) jugements humains sur certains contextes mesures statistiques sur la fréquence des
mots ex. Michael Jordan, arguably the greatest
player in basketball history ... ≠ Professor Michael Jordan Email: jordan@cs.berkeley.edu
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 45
S-CREAM: Semi-automatic CREAtion of Metadata Creation de la base d'exemples: annotation manuelle
dans CREAM Extraction d'information par Amilcare, basé sur (LP)2
Préprocessing par Annie Détection des phrases Forme grammaticale Dictionnaire Entités nommées
Création des relations entre instances
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 46
De l'extraction d'information aux métadonnées relationnelles
Hôtel de la Chasse13 rue de l'Orée du Bois
22327 TrégoulecTel. 02 96 46 76 23
Bienvenue sur le site de l'hôtel de la chasse. Nous
sommes ouverts du 15 mars au 15 novembre.
Le prix d'une nuit en chambre simple est de 32
euros, une nuit en chambre double vous coûtera 40
euros.
AmilcarehôtelCP
villetelephone
prix
devise
date
CREAM
•Hôtel de la chasse INSTANCE_OF hotel•Hôtel de la chasse LOCALITE ville1•ville1 INSTANCE_OF ville •ville1 NOM Trégoulec•Ville1 CP 22327•Hôtel de la chasse PROPOSE_PRIX p1•Hôtel de la chasse PROPOSE_PRIX p2•p1 INSTANCE_OF prix•p1 VALEUR 32•p1 DEVISE euros•p2 INSTANCE_OF prix•p2 VALEUR 40•p2 DEVISE euros
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 47
De l'extraction d'information aux métadonnées relationnelles Méthode ad-hoc, dépend de la tâche d’annotation à
réaliser Définition du concept maître Création des instances du concept maître Rattachement de toutes les autres instances à
l’instance-maître Par typage Par proximité Par remplissage
Règles ad-hoc d’aggrégation d’attributs
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 48
MnM
Instances et attributs, mais pas de relations entre instances
Interface graphique simple Apprentissage via Amilcare Lien direct entre information extraite et
attributs Correction manuelle
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 49
MnM: screenshot
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 50
Melita
Fonctionne sur le même principe que MnM Permet de régler le degré d’intrusion de
l’automatique par rapport au manuel
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 51
Melita: screenshot
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 52
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée
Utilisation de la redondance sur le web Annotation de tableaux de données
Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 53
Armadillo: principe
Basé sur la redondance de l’information sur le web Reconnaissance des instances d’une classe ambiguë
grâce à sa sur-classe et les classes en relation exemple: classe recherchée = Universitaire
sur-classe = Personne, facile à trouver grâce aux systèmes d’extraction d’entités nommées
classes en relation: Université (relation Travaille dans), Article (relation Ecrit par)
définition: Universitaire = Personne qui Travaille dans une Université, avec au moins un Article Ecrit par cette Personne
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 54
Armadillo: fonctionnement
Point de départ: « oracle » i.e. données certaines sur une classe source, en relation avec la classe à annoter (ex. liste des universités)
Identification des candidats: instances de la sur-classe en lien avec la classe source (ex. personnes dans les pages d’une université)
Classification des candidats par utilisation des autres classes liées (ex. sites bibliographiques)
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 55
KnowItAll
Motifs linguistiques d’extraction indépendants du domaine ex: <GNClass> « such as » <GNList>
great cities such as Paris, London or Berlinphilosophers such as Socrates and Platon
Possibilité d’évaluer la confiance dans les motifs sur une base d’exemples
Augmentation de la couverture en réutilisant les données extraites par ces motifs
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 56
KnowItAll: augmentation de la couverture Par apprentissage de motifs d’extraction
spécifiques au domaine Par extraction des sous-classes
scientists such as mathematicians, physicists and chemists
philiosophical mathematicians such as Leibniz and Lambert
Par extraction de listes
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 57
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée
Utilisation de la redondance sur le web Annotation de tableaux de données
Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 58
Annotation de tableaux dans @WEB
Annotation de tableaux de données Ressources:
une ontologie du domaine des tableaux à annoter
But de l’annotation: Recherche des relations sémantiques
représentées par le tableau Rapprochement des valeurs symboliques du
tableau avec les termes de l’ontologie
06/11/2008 59
Prérequis: l’ontologie
micro-organismes
produitsalimentaires
Escherichia
E. coli
E. coli O157
Bacillus
B. cereus
pathogen
UHT milk pasteurized milk
milk
pasteurized UHT milk
types symboliques
types numériques
pH: pas d’unités,
[0,14]
etc...
Temperature: °C ou °F,
pas d’intervalle de valeurs
relations
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 60
Example de tableau à annoter
Microorganism Minimum Growth Temperature
Maximum Growth Temperature
Bacillus cereus 5°C 55°C
Enterotoxigenic Escherichia coli 7°C 46°C
titres de colonnes
relations sémantiques
colonne symbolique colonnes numériques
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 61
Etapes de l’annotation d’un tableau
Distinction entre colonnes symboliques et numériques
Calcul des scores de similarité entre termes de l’ontologie et termes issus du web
Reconnaissance du type des colonnes numériques
Reconnaissance des relations représentées par le tableau
Reconnaissance du type des colonnes symboliques
Instanciation des relations pour chaque ligne du tableau
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 62
Etape 1: Reconnaissance des colonnes numériques et symboliques Sur chaque cellule, compter le nombre d’indices
numérique sûr: nombre en notation scientifique ou nombre suivi d’une unité
indice numérique: nombre ou unité indice symbolique: mot qui n’est ni une unité ni un
indicateur de résulat absent Déterminer le type de la cellule
numérique si la cellule contient au moins un numérique sûr ou plus d’indices numériques que d’indices symboliques
Déterminer le type de la colonne numérique si au moins la moitié des cellules sont
numériques
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 63
Etape 1: exemple
Products Samples tested
Positive for Campylobacter (%)
Year Reference
Chilled chicken
22 68.2 1984 Gill and Harris, 1984
Chicken products
1320 (approx – not specified)
0.07 1992/1994
Campbell and Gilbert, 1995
symb.
symb.
num.
inconnu
symb. num.
num.
num.
num.
num.
num. num.
symb.
symb.
symb.
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 64
Quels termes de l’ontologie représentent le mieux le terme du web?=> calcul d’un score de similarité entre le terme du web et chacun des termes de l’ontologie
Les termes sont transformés en vecteurs pondérés Les axes de coordonées représentent l’ensemble de tous les
mots lemmatisés possibles Les valeurs des coordonnées représentent le poids de chaque
mot dans le terme termes de l’ontologie: poids défini manuellement termes du web: poids de 1 sur chaque mot
Mesure de similarité = cosinus de l’angle entre deux vecteurs
Etape 2: Annotation de termes du web par des termes de l’ontologie
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 65
similarité entre « minced beef » et « minced poultry » :
similarité entre « minced beef » et « ground beef »:
coordonnées
terme
mince beef poultry ground
WEB: minced beef 1 1 0 0
ONTOLOGY: minced poultry 0.2 0 1 0
ONTOLOGY: ground beef 0 1 0 0.2
1.0)12.0()11(
0010012.012222
5.0)2.01()11(
2.000011012222
nk k
nk k
nk kk
ow
owow
12
12
1),cos(
Etape 2: exemple sur un nom d’aliment
Minced beef
Chorizo (low-acid fermented sausage)
Smoked salmon
minced poultry: 0.1ground beef: 0.5
lactic acid bacteria: 0.3
fermented milk: 0.3smoked sausage: 0.4dried sausage: 0.4 fresh sausage: 0.4
smoked sausage : 0.1smoked salmon: 1.0smoked fish: 0.1
Sommes des similarités
aliment : 0.6
aliment : 1.5
aliment : 1.2
similarités
microorganisme: 0.0
microorganisme: 0.3
microorganisme: 0.0
ALIMENT
ALIMENT
ALIMENT
Pour la colonne: scorecontenu(aliment)=3/3, scorecontenu(microorganisme)=0/3
Etape 3a: Reconnaissance du type d’une colonne symbolique: score de contenu
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 67
Etape 3a: Reconnaissance du type d’une colonne symbolique: choix du type
Calcul de scoretitre , score d’un type d’après le titre de la colonne = similarité entre titre de la colonne et nom du type
Calcul du score final:
scorefinal = 1 – (1-scorecontenu)(1-scoretitre)
Choix du type de meilleur score pour la colonne (au moins x% supérieur au deuxième meilleur)
Etape 3 b: Reconnaissance du type d’une colonne numérique
D-reduction at 50°C
10 min 30 sec
15 min
Repérage des unités
°C
min
sec
fait partie d’un couplenombre-unité dans le titre
Types possiblesselon les unités
D value
storage time
0.5
0.5
0.5
0.5
: 0.5
: 0.5
Types possibles selon le titre
D value : 0.5
Pour la colonne, score(type)=1-(1-scoreunité(type))(1-scoretitre(type))si les valeurs dans la colonne sont compatibles
score(D value) = 1 - (1-0.5)(1-0.5) = 0.75score(storage time) = 1- (1-0.5)(1-0) = 0.5
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 69
Etape 4: reconnaissance des relations - exemple
Strain Min
pH
Max pH
Min temperature
Max temperature
ATCC 3502
5 10 10°C 40°C
NCIB 4270
5.2 10.5 3.3°C 35°C
Table 2: Conditions of growth for Clostridium botulinum
inconnu pH pH Temperature Temperature
Chercher les relations de l’ontologie dont le type résultat a été reconnu parmi les colonnes du tableau
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 70
Inconnu pH pH Temperature Temperature
Relation du web:
Relations de l’ontologie:
Conditions of growth for Clostridium botulinum
Relation Signature Score sur les colonnes
Score sur le titre
Score final
Growth parameter - pH
pHMicroorganism
1/2 0.35 0.68
Product property - pH
pH
Food product
1/2 0 0.5
Growth parameter - Temperature
Temperature
Microorganism
1/2 0.35 0.68
Etape 4: exemple (suite)
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 71
Etape 5: instanciation des relations
Annotation sous forme de sous-ensembles flous Sous-ensemble classique: chaque élément x
de l’ensemble de définition appartient ou n’appartient pas au sous-ensemble
Sous-ensemble flou: chaque élément x de l’ensemble de définition appartient au sous-ensemble avec un degré d’appartenance (x) compris entre 0 et 1
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 72
Etape 5a: instanciation des symboliques Toutes les correspondances trouvées sont
conservées à condition qu’elles correspondent au type de la colonne
Sémantique de similarité
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
turkey meat cooked vegetables turkey pie
cooked turkey :
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 73
Etape 5b: instanciation des numériques
Rassemblement de toutes les colonnes contenant le même type Sémantique d’optimalité Sémantique d’imprécision
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 74
Etape 5b: optimalité
Définit une plage d’acceptabilité et une plage d’optimalité reconnaissance de mots-clefs dans les titres de
colonnes (Minimum, Maximum, Optimum) Exemple
Species pH Min pH Opt
pH Max
Bacillus cereus
5 6 - 7 8.8
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 75
Etape 5b: imprécision
Sémantique par défaut si aucune sémantique d’optimalité n’a été trouvée intervalle dans une cellule – expression régulière moyenne+écart-type dans une cellule – expression régulière moyenne+écart-type dans deux colonnes – mot clef valeur précise
0
0,5
1
35 36 37 38 39 40
0
0,5
1
35 36 37 38 39 40
0
0,5
1
35 36 37 38 39 40
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 76
Plan du cours
Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 77
Références Cadixe: Le projet Caderige, Catégorisation Automatique de Documents
pour l'Extraction de Réseaux d'Interactions GEniques http://www-leibniz.imag.fr/SICLAD/Caderige/
CREAM: S. Handschuh , S. Staab , R. Studer. Leveraging metadata creation for the Semantic Web with CREAM. KI '2003 - Advances in Artificial Intelligence. Proc. of the Annual German Conference on AI, R. Kruse et al., Springer, Berlin, SEP 2003
LIXTO: R. Baumgartner, O. Frölich, G. Gottlob, P. Harz, M. Herzog, P. Lehmann. Web Data Extraction for Business Intelligence: the Lixto Approach . BTW 2005.
Annotea: J. Kahan, M. Koivunen, E. Prud'Hommeaux, and R. Swick. Annotea: An Open RDF Infrastructure for Shared Web Annotations. In Proc. of the WWW10 International Conference. Hong Kong, 2001.
BWI: D. Freitag and N. Kushmerick. Boosted wrapper induction. In Proc. of the 17th National Conference on Artificial Intelligence AAAI-2000, pages 577--583, 2000.
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 78
Références (2) (LP)2: Fabio Ciravegna. (LP)2, Rule Induction for Information Extraction
using Linguistic Constraints. Technical Report no CS-03-07, University of Sheffield, September 2003
SemTag: Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, Ramanathan Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John Tomlin, Jason Zien. SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation , WWW2003
MnM: M. Vargas-Vera, E. Motta, J. Domingue, M. Lanzoni, A. Stutt, F. Ciravegna. MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Markup. The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002
Melita: Fabio Ciravegna, Alexiei Dingli, Daniela Petrelli and Yorick Wilks : User-System Cooperation in Document Annotation based on Information Extraction The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002
06/11/2008 Annotations et métadonnées - Gaëlle Hignette 79
Références (3)
Armadillo: Norton, B., Chapman, S., & Ciravegna, F. (2005). The Semantic Web : Research and Applications, chapter Orchestration of Semantic Web Services for Large-Scale Document Annotation, (pp. 649–663). Springer.
KnowItAll: Etzioni, Cafarella, Downey, Popescu, Shaked, Soderland, Weld, & Yates (2005). Unsupervised named-entity extraction from the web : an experimental study. Artificial Intelligence,165(1), 91–134.
Recommended