Upload
cedric-williamson
View
699
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
1
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Les enjeux scientifiques de l’indexation vidéo
Patrick Gros
Responsable de l’équipe TEXMEXINRIA Rennes et IRISAhttp://www.irisa.fr/texmex
2
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Qu’est ce que l’indexation vidéo ?
• Des techniques d’analyse / description des vidéos• Analyse de l’image, du son, de la parole
• Des techniques de recherche de contenus• Moteurs de recherche d’images, de séquences, de sons, de vidéos
• Des applications d’exploitation d’archives• Recherche d’information
• Des applications de réutilisation de contenu• Création de résumés, tables de matières, chapitrage, index
• La télévision, le cinéma, la radio, les photos…
3
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Des applications
• Les détenteurs de contenus• Archiveurs, chaines
• Les diffuseurs• FAI, opérateurs telcos
• Les instances publiques• CSA, dépôt légal
• Les possesseurs de droit• Sport, cinéma, séries TV
4
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Quelques opérations
1. Segmentation• Couper un flux en morceaux : émissions, thèmes, apparition d’une
personne…
• Détection d’événements : buts, paniers, action…
2. Description• De l’action, du thème, de l’émission…
3. Structuration• D’une collection, d’un flux
• Indexation, classification
5
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Des opérations de base
En image• Détection, regroupement, reconnaissance de visages
• Segmentation en plans
• Reconnaissance d’objets
• Détection, reconnaissance de texte
En audio• Segmentation parole, musique, sons clés, bruit
• Segmentation, regroupement, reconnaissance des locuteurs
• Reconnaissance de la parole
En texte• Segmentation thématique
• Caractérisation thématique
6
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Mais…
• La reconnaissance de visages marche mal• Il faut une base de visages
• Les visages changent
• Il faut une bonne résolution et des visages de face
• La reconnaissance de la parole marche mal• Contexte d’apprentissage ≠ contexte de reconnaissance
• Des changements perpétuels de locuteurs, sujets, conditions
• On a besoin de tous les médias à la fois• Les faiblesses des techniques ne coïncident pas
7
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Les problèmes scientifiques
1. La temporalité
2. La multimodalité
3. La généricité
4. La sémantique
8
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La temporalité
1. Des fréquences différentes• 24/25 images par seconde
• 16 à 48 kHz audio, 100 frames audio par secondes
• 4 syllabes par secondes
2. Des médias faiblement synchronisés• Celui que l’on voit ≠ celui que l’on entend
• Transitions vidéo ≠ transitions sonores
• Le nom des gens n’est pas mis sur leur front
3. Des flux non stationnaires
4. Des descriptions de taille variable
9
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Exemple des Modèles de Markov cachés
MM = une suite d’états + probas de transition
MMC = chaque état -> observation + proba d’émission
Pb : identifier les états à partir des observations
Solution : Bayes + Viterbi
10
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Exemple des Modèles de Markov cachés
Les problèmes :
• À quoi correspondent les états : images, plans… ?
• Proba de rester dans un état : exponentielle
• Les observations éparses : ex. les scores
11
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Exemple des Modèles de Markov cachés
Une solution : les modèles de segments
• À chaque état, une suite d’observations
• Un modèle de durée explicite
Problèmes :
• Comment synchroniser les flux ?
12
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La généricité
La structure d’un MMC est figée : un MMC par pb ?
Quelles variables utiles ? Toutes ?
Beaucoup d’apprentissage…
13
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La généricité
Les réseaux bayésiens
• Permettent d’apprendre les dépendances entre variables
• On peut apprendre la structure du réseau(contrairement aux MMC)et les proba d’émission
• Permettent de détecter les variables utiles
14
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La généricité
Les réseaux bayésiens
• Sont statiques en général
• Réseaux bayésiens dynamiques : stationnaires en fait= réplication d’un réseau statique
Stationnarité ?Quelle unité de temps ?
15
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La multimodalité
Quel poids relatif du son, de l’image, de la parole ?
Comment inclure des informations symboliques dans nos modèles ?
Des probabilités sur les mots prononcés dans un MMC ?
16
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La sémantique
Les vidéos à contenu image• Sport, cirque, certaines publicités
Les vidéos à contenu langagier• Tout le reste !
Le langage• Texte incrusté, visible
• Parole
• Texte exogène
17
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La sémantique
Les conditions acoustiques variables
Les locuteurs qui changent
Les sujets qui changent• On peut essayer de faire de l’adaptation dynamique
Transcription de mauvaise qualité• On peut améliorer
Il faut utiliser ce qui sort !
18
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Adaptation dynamique
1.Construction d’un modèle de langue adapté au sujet pour chaque segment de thème homogène
2.Lancement d’une nouvelle transcription
€€
ASR system
... receives a single electoral vote in this state
Un flux long (audio)
Hypothèse de transcription (texte)
... ...
19
MEITO – 1er avril 2010 Texmex - INRIA Rennes
......€€
…thus a candidate who fails to carry a particular state receives not a single electoral vote in that state for the popular votes received since residential elections are won by electoral ...
candidate state election
✘
✔
✔
✔
✘
✔
✘
✔3. Building of an adaptation corpus
candidate vote
electoral vote
2. Querying
1. Keywordspotting
AdaptationLM
4.a Training of a topic-specific LM
4.b Mix of this LM and the general one
BaselineLM
+ AdaptedLM
=
Web-based topic adaptation
Websearchengine
20
MEITO – 1er avril 2010 Texmex - INRIA Rennes
La sémantique
Utilisation d’information morpho-syntaxiquespour réduire les fautes d’accord : -0.9 de WER
Utilisation de la phonétique pour retrouver les entités nommées hors dictionnaire…
21
MEITO – 1er avril 2010 Texmex - INRIA Rennes
Conclusion
Jusqu’à présent :
• On définit ce que l’on doit chercher
• On fait un algorithme
• Apprentissage + tunning de paramètres
Grande sensibilité au contexte
Une voie d’avenir
• Partir de ce que l’on sait faire / extraire
• Dépenser plus d’énergie sur l’exploitation que sur l’extraction