14
ELAN et ANVIL Logiciels d'annotation multimodale : principes et différences Annelies Braffort LIMSI-CNRS Orsay Dominique Boutet SFL P8 St-Denis

ELAN et ANVIL - tals.limsi.fr fileELAN et ANVIL Logiciels d'annotation multimodale : principes et différences Annelies Braffort LIMSI-CNRS Orsay Dominique Boutet SFL P8 St-Denis

  • Upload
    buicong

  • View
    230

  • Download
    0

Embed Size (px)

Citation preview

ELAN et ANVILLogiciels d'annotation multimodale :

principes et différences

Annelies Braffort

LIMSI-CNRS

Orsay

Dominique Boutet

SFL P8

St-Denis

Sommaire de la matinée

Matinée

1. Elan et Anvil : principes et différences1. Principes clefs

2. Dans Elan et Anvil

2. Elan : quelques spécificités1. Fonctions de manipulation des annotations

2. Requêtes et Expressions régulières

3. Anvil : quelques spécificités1. Pistes, attributs, annotation

2. Analyse, requêtes

3. Autres fonctionnalités

4. Utilisation d’un tableur (Excel) en liaison avec Elan et Anvil1. En tant que liaison entre Anvil et Elan

2. Export vers Excel

5. Expression des besoins

Après-midi

1. 3 ateliers en parallèle : Elan, Anvil et Excel

2. Débriefing

21 janvier 2011 Formation Atala 2

Lisibilité / Utilisation

• Transcription

– description du contenu, tendance à une linéarisation des éléments perçus

codification des juxtapositions

– Exemple

Marie-Anne Pté(x) Marie-Thérèse(y) DIRE(x-y)

Marie-Anne Pté(x) Marie-Thérèse(y) DIRE(y-x)

• Transcription vs annotation

– Lisibilité vs Utilisation

• Lisibilité

– prend souvent le pas

– s’oppose à la plurilinéarité

– s’oppose aux fonctions de recherche qu'offrent les logiciels d'annotation

• Utilisation nouvelles méthodes de travail

annoter sans penser à la lecture - annoter n'est pas transcrire

disperser au lieu de rassembler, éclater dans des catégories étanches : structurer dans des pistes distinctes

annoter n'est pas vouloir faire sens, c'est parcelliser

21 janvier 2011 Formation Atala 3

Lisibilité / Utilisation

• Exemple de transcription Marie-Anne Pté(x) Marie-Thérèse(y) DIRE(x-y)

• Même exemple, annoté sur 5 lignes ENTITES Marie-Anne Marie-ThérèsePOINTAGE PtéSST DIREPOSITION ( x) ( y )MVT (y - x)

• Comparaison– Transcription : interprétation directe, mais limitée !

– Annotation : lisibilité mauvaise, le sens n'apparaît pas clairement, mais on peut extraire des informations plus riches

Ex : quand un pointage suit une entité et quand il la précède

• Annotation plus riche– les données inscrites dans les pistes

– l'intitulé de la piste

– le type de contenu

– les relations entre les pistes...

– La multi-linéarisation • Plurilinéarité enrichie : [plurielles + spécification des pistes = multi]• Excel n'offre pas une multi-linéarisation, seulement une pluri-linéarité• Les logiciels d'annotation Elan et Anvil offrent la multi-linéarité

21 janvier 2011 Formation Atala 4

Annotation : principes clefs

• Spécification des pistes

– la catégorisation : le choix des éléments à annoter détermine le nombre de pistes

– la hiérarchisation : notion de parent-enfant

– le typage des relations entre pistes : enfant oui, mais quel enfant ?

– le vocabulaire contrôlé : liste des valeurs possibles que peut prendre un élément

• Schéma d'annotation

– Comporte la spécification de toutes les pistes

– Un même schéma d'annotation est éventuellement ré-applicable à d'autres corpus

– Doit être pensé et testé : il évolue au cours de l'annotation, en fonction des données

• Annotation

– Constitution d'un ensemble d'éléments délimités dans le temps et répartis sur les pistes

– Ces éléments, qui ont chacun une valeur, sont appelés segment

• Manipulation de l'annotation

– On peut créer des nouvelles données à partir des annotations déjà effectuées

– Exemples• Sélectionner, filtrer ou fusionner des annotations de pistes différentes

Ex : « Marie-Anne +Pté +x » = « Marie-Thérèse + y » = GN

• Afficher des valeurs numériques sur la position moyenne de la tête

• Utilisation de l'annotation : notion de requête

– Permet d'interroger des données selon plusieurs critères en créant des requêtes

– Les requêtes peuvent être sauvegardées et appliquées à d'autres fichiers

21 janvier 2011 Formation Atala 5

Interfaces

Elan Anvil

21 janvier 2011 Formation Atala 6

Notions principales

• Schéma d’annotation

– Définition des pistes : définition des dépendances et des types

– Pour chaque attribut : définition du vocabulaire contrôlé

• Annotation

– Pour chaque piste : segments (début, fin, valeurs des attributs)

• Requêtes

– Analyse de l'annotation, statistiques

21 janvier 2011 Formation Atala 7

Mots

Tête

Mains

Pistes Segments

avant

accueil

Bienvenue à Pouchet

Pistes : notion de dépendance

• Elan (tier ou acteur ; parent/child) et Anvil (track ; primary/secondary)

Relation de dépendance entre pistes sur les bornes temporelles

– Parent moins segmenté, enfant plus segmenté

– Parent et enfant : même segmentation

21 janvier 2011 Formation Atala 8

Geste

Phase geste

Elan : subdivisionAnvil : subdivision

Mot

Fonction

Elan : symbolicAnvil : singleton

Bienvenue à Pouchet

• Spécificité d'Elan

– Parent moins segmenté, enfant plus segmenté et lacunaire

• Spécificité d'Anvil

– Parent plus segmenté, enfant moins segmenté

Pistes : notion de dépendance

21 janvier 2011 Formation Atala 9

Phase geste

Geste

Elan : 0Anvil : span

Énoncé

Prononciation mot

Elan : Included InAnvil : 0

Pistes : notion de type

• Type de la piste

Elan (stéréotypes) Anvil (track type)

• Typage associant (ou non) stéréotype à vocabulaire contrôlé

Elan (linguistic type) Anvil (-)

21 janvier 2011 Formation Atala 10

Primary type Set

- Primary

- Primary point

Secondary type

- Span

- Subdivision

- Singleton

Mêmes principes, mais il n’y a pas de

terme pour désigner l’ensemble :

- type de piste

- vocabulaire contrôlé

L’association se fait au niveau des attributs,

concept inexistant dans Elan

Pistes : spécificités des logiciels

• Elan

– Outils pour manipuler ces liens parent/enfant

« Changer de parent de l'acteur »

– Outils pour manipuler les annotations

Copier, Filtrer, Tokeniser, Fusionner

• Anvil

– D'autres types de pistes

• Pistes non temporelles : set

• Pistes temporelles point : primary point

21 janvier 2011 Formation Atala 11

Vocabulaire Contrôlé vs Valeur (texte)

• Elan (VC, texte libre) et Anvil (set of values, string)

– Un attribut de type texte par piste

• Ex : Piste "mots" : texte libre

– avec si besoin une liste de vocabulaire contrôlé

• Ex

– Piste "Symétrie Mvt", enfant de la piste « 2 mains »

– Liste de vocabulaire contrôlé, menu contextuel quand on veut entrer une valeur.

» PlanSag

» PlanFront

» PlanTans

» AxeSag

» AxeTrans

» AxeFront

» Point

» Complexe

21 janvier 2011 Formation Atala 12

Requête, import, export

• Elan et Anvil

– Recherche de tous les segments qui possèdent une valeur donnée

– Export vers un fichier texte qu'on peut importer dans Excel

– Recherche dans plusieurs fichiers, sauvegarde des résultats, visualisation des segments à partir des résultats

– Statistiques simples

– Accord inter-annotateurs

• Elan

– Export dans de nombreux formats

– Sauvegarde des requêtes

– Export format SMIL (synchronisation annotation/vidéo)

• Anvil

– Analyse : histogrammes, diagramme de transition, probabilités

– Import : Elan, Anvil, fichier de données numériques

– Export : HTML, ARFF (fouille de donnée) … prochainement Elan

21 janvier 2011 Formation Atala 13

Quelques conseils…

• Pas de logiciel meilleur que l’autre

– Chacun a ses points forts et ses points faibles

• Elan : stable, beaucoup de codec vidéo, requêtes

• Anvil : ergonomie, schéma d’annotation plus structuré, fonctionnalités

– Choisir en fonction des spécificités dont on a le plus besoin

– Passer d'un logiciel à l'autre si besoin

– Faire remonter aux concepteurs vos suggestions, remarques… ces logiciels sont en constante évolution

• Garder du recul

– Ne pas utiliser un logiciel pour de mauvaises raisons (ex : "tous les chercheurs en domaine-anonymisé utilisent celui-là")

– Ne pas faire dépendre ses recherches des logiciels

– Garder en tête la notion d'évaluation de l'annotation

• Chaque choix a un impact (pistes, attributs, vocabulaire contrôlé…)

• Distinguer les observations "objectives" des observations "interprétées" (numériques -> liées au sens de la phrase)

• Comparer si possible entre plusieurs annotations d'une même vidéo

21 janvier 2011 Formation Atala 14