21
1 MEITO – 1 er avril 2010 Texmex - INRIA Rennes Les enjeux scientifiques de l’indexation vidéo Patrick Gros Responsable de l’équipe TEXMEX INRIA Rennes et IRISA http://www.irisa.fr/texmex

Irisa p gros

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Irisa p gros

1

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Les enjeux scientifiques de l’indexation vidéo

Patrick Gros

Responsable de l’équipe TEXMEXINRIA Rennes et IRISAhttp://www.irisa.fr/texmex

Page 2: Irisa p gros

2

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Qu’est ce que l’indexation vidéo ?

• Des techniques d’analyse / description des vidéos• Analyse de l’image, du son, de la parole

• Des techniques de recherche de contenus• Moteurs de recherche d’images, de séquences, de sons, de vidéos

• Des applications d’exploitation d’archives• Recherche d’information

• Des applications de réutilisation de contenu• Création de résumés, tables de matières, chapitrage, index

• La télévision, le cinéma, la radio, les photos…

Page 3: Irisa p gros

3

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Des applications

• Les détenteurs de contenus• Archiveurs, chaines

• Les diffuseurs• FAI, opérateurs telcos

• Les instances publiques• CSA, dépôt légal

• Les possesseurs de droit• Sport, cinéma, séries TV

Page 4: Irisa p gros

4

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Quelques opérations

1. Segmentation• Couper un flux en morceaux : émissions, thèmes, apparition d’une

personne…

• Détection d’événements : buts, paniers, action…

2. Description• De l’action, du thème, de l’émission…

3. Structuration• D’une collection, d’un flux

• Indexation, classification

Page 5: Irisa p gros

5

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Des opérations de base

En image• Détection, regroupement, reconnaissance de visages

• Segmentation en plans

• Reconnaissance d’objets

• Détection, reconnaissance de texte

En audio• Segmentation parole, musique, sons clés, bruit

• Segmentation, regroupement, reconnaissance des locuteurs

• Reconnaissance de la parole

En texte• Segmentation thématique

• Caractérisation thématique

Page 6: Irisa p gros

6

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Mais…

• La reconnaissance de visages marche mal• Il faut une base de visages

• Les visages changent

• Il faut une bonne résolution et des visages de face

• La reconnaissance de la parole marche mal• Contexte d’apprentissage ≠ contexte de reconnaissance

• Des changements perpétuels de locuteurs, sujets, conditions

• On a besoin de tous les médias à la fois• Les faiblesses des techniques ne coïncident pas

Page 7: Irisa p gros

7

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Les problèmes scientifiques

1. La temporalité

2. La multimodalité

3. La généricité

4. La sémantique

Page 8: Irisa p gros

8

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La temporalité

1. Des fréquences différentes• 24/25 images par seconde

• 16 à 48 kHz audio, 100 frames audio par secondes

• 4 syllabes par secondes

2. Des médias faiblement synchronisés• Celui que l’on voit ≠ celui que l’on entend

• Transitions vidéo ≠ transitions sonores

• Le nom des gens n’est pas mis sur leur front

3. Des flux non stationnaires

4. Des descriptions de taille variable

Page 9: Irisa p gros

9

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Exemple des Modèles de Markov cachés

MM = une suite d’états + probas de transition

MMC = chaque état -> observation + proba d’émission

Pb : identifier les états à partir des observations

Solution : Bayes + Viterbi

Page 10: Irisa p gros

10

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Exemple des Modèles de Markov cachés

Les problèmes :

• À quoi correspondent les états : images, plans… ?

• Proba de rester dans un état : exponentielle

• Les observations éparses : ex. les scores

Page 11: Irisa p gros

11

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Exemple des Modèles de Markov cachés

Une solution : les modèles de segments

• À chaque état, une suite d’observations

• Un modèle de durée explicite

Problèmes :

• Comment synchroniser les flux ?

Page 12: Irisa p gros

12

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La généricité

La structure d’un MMC est figée : un MMC par pb ?

Quelles variables utiles ? Toutes ?

Beaucoup d’apprentissage…

Page 13: Irisa p gros

13

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La généricité

Les réseaux bayésiens

• Permettent d’apprendre les dépendances entre variables

• On peut apprendre la structure du réseau(contrairement aux MMC)et les proba d’émission

• Permettent de détecter les variables utiles

Page 14: Irisa p gros

14

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La généricité

Les réseaux bayésiens

• Sont statiques en général

• Réseaux bayésiens dynamiques : stationnaires en fait= réplication d’un réseau statique

Stationnarité ?Quelle unité de temps ?

Page 15: Irisa p gros

15

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La multimodalité

Quel poids relatif du son, de l’image, de la parole ?

Comment inclure des informations symboliques dans nos modèles ?

Des probabilités sur les mots prononcés dans un MMC ?

Page 16: Irisa p gros

16

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La sémantique

Les vidéos à contenu image• Sport, cirque, certaines publicités

Les vidéos à contenu langagier• Tout le reste !

Le langage• Texte incrusté, visible

• Parole

• Texte exogène

Page 17: Irisa p gros

17

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La sémantique

Les conditions acoustiques variables

Les locuteurs qui changent

Les sujets qui changent• On peut essayer de faire de l’adaptation dynamique

Transcription de mauvaise qualité• On peut améliorer

Il faut utiliser ce qui sort !

Page 18: Irisa p gros

18

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Adaptation dynamique

1.Construction d’un modèle de langue adapté au sujet pour chaque segment de thème homogène

2.Lancement d’une nouvelle transcription

€€

ASR system

... receives a single electoral vote in this state

Un flux long (audio)

Hypothèse de transcription (texte)

... ...

Page 19: Irisa p gros

19

MEITO – 1er avril 2010 Texmex - INRIA Rennes

......€€

…thus a candidate who fails to carry a particular state receives not a single electoral vote in that state for the popular votes received since residential elections are won by electoral ...

candidate state election

✔3. Building of an adaptation corpus

candidate vote

electoral vote

2. Querying

1. Keywordspotting

AdaptationLM

4.a Training of a topic-specific LM

4.b Mix of this LM and the general one

BaselineLM

+ AdaptedLM

=

Web-based topic adaptation

Websearchengine

Page 20: Irisa p gros

20

MEITO – 1er avril 2010 Texmex - INRIA Rennes

La sémantique

Utilisation d’information morpho-syntaxiquespour réduire les fautes d’accord : -0.9 de WER

Utilisation de la phonétique pour retrouver les entités nommées hors dictionnaire…

Page 21: Irisa p gros

21

MEITO – 1er avril 2010 Texmex - INRIA Rennes

Conclusion

Jusqu’à présent :

• On définit ce que l’on doit chercher

• On fait un algorithme

• Apprentissage + tunning de paramètres

Grande sensibilité au contexte

Une voie d’avenir

• Partir de ce que l’on sait faire / extraire

• Dépenser plus d’énergie sur l’exploitation que sur l’extraction