Upload
buicong
View
230
Download
0
Embed Size (px)
Citation preview
ELAN et ANVILLogiciels d'annotation multimodale :
principes et différences
Annelies Braffort
LIMSI-CNRS
Orsay
Dominique Boutet
SFL P8
St-Denis
Sommaire de la matinée
Matinée
1. Elan et Anvil : principes et différences1. Principes clefs
2. Dans Elan et Anvil
2. Elan : quelques spécificités1. Fonctions de manipulation des annotations
2. Requêtes et Expressions régulières
3. Anvil : quelques spécificités1. Pistes, attributs, annotation
2. Analyse, requêtes
3. Autres fonctionnalités
4. Utilisation d’un tableur (Excel) en liaison avec Elan et Anvil1. En tant que liaison entre Anvil et Elan
2. Export vers Excel
5. Expression des besoins
Après-midi
1. 3 ateliers en parallèle : Elan, Anvil et Excel
2. Débriefing
21 janvier 2011 Formation Atala 2
Lisibilité / Utilisation
• Transcription
– description du contenu, tendance à une linéarisation des éléments perçus
codification des juxtapositions
– Exemple
Marie-Anne Pté(x) Marie-Thérèse(y) DIRE(x-y)
Marie-Anne Pté(x) Marie-Thérèse(y) DIRE(y-x)
• Transcription vs annotation
– Lisibilité vs Utilisation
• Lisibilité
– prend souvent le pas
– s’oppose à la plurilinéarité
– s’oppose aux fonctions de recherche qu'offrent les logiciels d'annotation
• Utilisation nouvelles méthodes de travail
annoter sans penser à la lecture - annoter n'est pas transcrire
disperser au lieu de rassembler, éclater dans des catégories étanches : structurer dans des pistes distinctes
annoter n'est pas vouloir faire sens, c'est parcelliser
21 janvier 2011 Formation Atala 3
Lisibilité / Utilisation
• Exemple de transcription Marie-Anne Pté(x) Marie-Thérèse(y) DIRE(x-y)
• Même exemple, annoté sur 5 lignes ENTITES Marie-Anne Marie-ThérèsePOINTAGE PtéSST DIREPOSITION ( x) ( y )MVT (y - x)
• Comparaison– Transcription : interprétation directe, mais limitée !
– Annotation : lisibilité mauvaise, le sens n'apparaît pas clairement, mais on peut extraire des informations plus riches
Ex : quand un pointage suit une entité et quand il la précède
• Annotation plus riche– les données inscrites dans les pistes
– l'intitulé de la piste
– le type de contenu
– les relations entre les pistes...
– La multi-linéarisation • Plurilinéarité enrichie : [plurielles + spécification des pistes = multi]• Excel n'offre pas une multi-linéarisation, seulement une pluri-linéarité• Les logiciels d'annotation Elan et Anvil offrent la multi-linéarité
21 janvier 2011 Formation Atala 4
Annotation : principes clefs
• Spécification des pistes
– la catégorisation : le choix des éléments à annoter détermine le nombre de pistes
– la hiérarchisation : notion de parent-enfant
– le typage des relations entre pistes : enfant oui, mais quel enfant ?
– le vocabulaire contrôlé : liste des valeurs possibles que peut prendre un élément
• Schéma d'annotation
– Comporte la spécification de toutes les pistes
– Un même schéma d'annotation est éventuellement ré-applicable à d'autres corpus
– Doit être pensé et testé : il évolue au cours de l'annotation, en fonction des données
• Annotation
– Constitution d'un ensemble d'éléments délimités dans le temps et répartis sur les pistes
– Ces éléments, qui ont chacun une valeur, sont appelés segment
• Manipulation de l'annotation
– On peut créer des nouvelles données à partir des annotations déjà effectuées
– Exemples• Sélectionner, filtrer ou fusionner des annotations de pistes différentes
Ex : « Marie-Anne +Pté +x » = « Marie-Thérèse + y » = GN
• Afficher des valeurs numériques sur la position moyenne de la tête
• Utilisation de l'annotation : notion de requête
– Permet d'interroger des données selon plusieurs critères en créant des requêtes
– Les requêtes peuvent être sauvegardées et appliquées à d'autres fichiers
21 janvier 2011 Formation Atala 5
Notions principales
• Schéma d’annotation
– Définition des pistes : définition des dépendances et des types
– Pour chaque attribut : définition du vocabulaire contrôlé
• Annotation
– Pour chaque piste : segments (début, fin, valeurs des attributs)
• Requêtes
– Analyse de l'annotation, statistiques
21 janvier 2011 Formation Atala 7
Mots
Tête
Mains
Pistes Segments
avant
accueil
Bienvenue à Pouchet
Pistes : notion de dépendance
• Elan (tier ou acteur ; parent/child) et Anvil (track ; primary/secondary)
Relation de dépendance entre pistes sur les bornes temporelles
– Parent moins segmenté, enfant plus segmenté
– Parent et enfant : même segmentation
21 janvier 2011 Formation Atala 8
Geste
Phase geste
Elan : subdivisionAnvil : subdivision
Mot
Fonction
Elan : symbolicAnvil : singleton
Bienvenue à Pouchet
• Spécificité d'Elan
– Parent moins segmenté, enfant plus segmenté et lacunaire
• Spécificité d'Anvil
– Parent plus segmenté, enfant moins segmenté
Pistes : notion de dépendance
21 janvier 2011 Formation Atala 9
Phase geste
Geste
Elan : 0Anvil : span
Énoncé
Prononciation mot
Elan : Included InAnvil : 0
Pistes : notion de type
• Type de la piste
Elan (stéréotypes) Anvil (track type)
• Typage associant (ou non) stéréotype à vocabulaire contrôlé
Elan (linguistic type) Anvil (-)
21 janvier 2011 Formation Atala 10
Primary type Set
- Primary
- Primary point
Secondary type
- Span
- Subdivision
- Singleton
Mêmes principes, mais il n’y a pas de
terme pour désigner l’ensemble :
- type de piste
- vocabulaire contrôlé
L’association se fait au niveau des attributs,
concept inexistant dans Elan
Pistes : spécificités des logiciels
• Elan
– Outils pour manipuler ces liens parent/enfant
« Changer de parent de l'acteur »
– Outils pour manipuler les annotations
Copier, Filtrer, Tokeniser, Fusionner
• Anvil
– D'autres types de pistes
• Pistes non temporelles : set
• Pistes temporelles point : primary point
21 janvier 2011 Formation Atala 11
Vocabulaire Contrôlé vs Valeur (texte)
• Elan (VC, texte libre) et Anvil (set of values, string)
– Un attribut de type texte par piste
• Ex : Piste "mots" : texte libre
– avec si besoin une liste de vocabulaire contrôlé
• Ex
– Piste "Symétrie Mvt", enfant de la piste « 2 mains »
– Liste de vocabulaire contrôlé, menu contextuel quand on veut entrer une valeur.
» PlanSag
» PlanFront
» PlanTans
» AxeSag
» AxeTrans
» AxeFront
» Point
» Complexe
21 janvier 2011 Formation Atala 12
Requête, import, export
• Elan et Anvil
– Recherche de tous les segments qui possèdent une valeur donnée
– Export vers un fichier texte qu'on peut importer dans Excel
– Recherche dans plusieurs fichiers, sauvegarde des résultats, visualisation des segments à partir des résultats
– Statistiques simples
– Accord inter-annotateurs
• Elan
– Export dans de nombreux formats
– Sauvegarde des requêtes
– Export format SMIL (synchronisation annotation/vidéo)
• Anvil
– Analyse : histogrammes, diagramme de transition, probabilités
– Import : Elan, Anvil, fichier de données numériques
– Export : HTML, ARFF (fouille de donnée) … prochainement Elan
21 janvier 2011 Formation Atala 13
Quelques conseils…
• Pas de logiciel meilleur que l’autre
– Chacun a ses points forts et ses points faibles
• Elan : stable, beaucoup de codec vidéo, requêtes
• Anvil : ergonomie, schéma d’annotation plus structuré, fonctionnalités
– Choisir en fonction des spécificités dont on a le plus besoin
– Passer d'un logiciel à l'autre si besoin
– Faire remonter aux concepteurs vos suggestions, remarques… ces logiciels sont en constante évolution
• Garder du recul
– Ne pas utiliser un logiciel pour de mauvaises raisons (ex : "tous les chercheurs en domaine-anonymisé utilisent celui-là")
– Ne pas faire dépendre ses recherches des logiciels
– Garder en tête la notion d'évaluation de l'annotation
• Chaque choix a un impact (pistes, attributs, vocabulaire contrôlé…)
• Distinguer les observations "objectives" des observations "interprétées" (numériques -> liées au sens de la phrase)
• Comparer si possible entre plusieurs annotations d'une même vidéo
21 janvier 2011 Formation Atala 14