41
SAM VA o Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

Embed Size (px)

Citation preview

Page 1: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

SAM V Ao

Indexation sonore : recherche de composantes primaires pour

une structuration audiovisuelle

Équipe SAMoVA

(Structuration Analyse et Modélisation de la Vidéo et de l’Audio)

Julien Pinquier

Directeur de recherche : Régine André-Obrecht

Page 2: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

2Présentation de thèse Lundi 20 décembre 2004

Objectifs

Contribution à l’analyse automatique Recherche de composantes primaires

Apport d’outils utiles Pour la structuration automatique

Contexte : indexation

Page 3: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

3Présentation de thèse Lundi 20 décembre 2004

Indexation sonore : que faire ?

locuteur 1 (homme) locuteur 2 (femme)

silencemusique paroleparole

français anglais

jingle 1 leçon lesson

Page 4: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

4Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1

2

3

Page 5: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

5Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1 2 3

Page 6: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

6Présentation de thèse Lundi 20 décembre 2004

Etat de l’art

Parole Structure formantique [Calliope89]

Formants = Fréquences de résonance du conduit vocal

Formants

1 2 3

Page 7: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

7Présentation de thèse Lundi 20 décembre 2004

Etat de l’art

Musique Instrumentale traditionnelle Structure harmonique

Harmoniques

1 2 3

Page 8: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

8Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : paramétrisation

Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98]

Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99]

Classification Approche statistique :

méthodes paramétriques

méthodes non paramétriques

Réseaux de neurones SVM

1 2 3

Page 9: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

9Présentation de thèse Lundi 20 décembre 2004

Spectral rolloff point

ZCR

Énergie

Signal

Etat de l’art : paramétrisation

Flux spectral

Parole Musique

1 2 3

Page 10: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

10Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : classification

Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC

Classification Approche statistique :

méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99]

méthodes non paramétriques [Foote97] et [Rossignol2000]

Réseaux de neurones [Rossignol2000]

SVM [Chapelle2002]

1 2 3

Page 11: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

11Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : quelques systèmes

Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs

Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs

Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98]

< 10% d’erreurs Identification

1 2 3

Page 12: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

12Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base

SignalClassification

ModèlesApprentissage

Analyse cepstraleSignal

ClassificationParole

NonParole

Analyse spectraleMusique

NonMusique

1 2 3

Modélisation

différenciée

Page 13: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

13Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base

Pré-traitement

acoustique

SIGNAL

Étiquetage manuel (parole)

Affectation

Paramètres indicés

(Parole)Paramètres

indicés

(NonParole)

VQ EM

VQ EM

Modèle Parole

Affectation

Paramètres indicés

(Musique)Paramètres

indicés

(NonMusique)

VQ EM

VQ EM

29

Coeff. Spectraux

128 lois gaussiennes

128 lois gaussiennes

Étiquetage manuel (musique)

Coeff. Cepstraux

18

Modèle NonParole

Modèle Musique

Modèle NonMusique

Apprentissage des MMG

1 2 3

Page 14: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

14Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base

Problème : apprentissage

1 2 3

Page 15: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

15Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Signal

Détection de parole Détection de musique

Modulation de l’entropie

Modulation de l’énergie

à 4 Hz

Nombre de segments

Durée des segments

ClassificationParole / NonParole

ClassificationMusique / NonMusique

Segmentation

1 2 3

Fusion (scores) Fusion (scores)

Page 16: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

16Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s)

Modulation de l’entropie Fenêtrage (16 ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance sur 1 s)

1 2 3

Parole

Musique

Page 17: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

17Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Segmentation (DFB) [André-Obrecht88]

Nombre de segments Durée des segments

Signal Signal

Parole Musique

1 2 3

Page 18: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

18Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Les seuils Parole : corpus MULTEXT [Campione98]

Musique : base personnelle

Seuil

1 2 3

Exemple :

Modulation de l’énergie à 4 Hertz

Page 19: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

19Présentation de thèse Lundi 20 décembre 2004

Résultats

Paramètres Score

Coef. Spectraux + MMG 79,7 %

Coef. Spectraux + MMG (adaptation) 87 %

Modulation de l’énergie à 4 Hertz Modulation de l’entropie

87,3 %87,5 %

Nombre de segmentsDurée des segments

86,4 %78,1 %

Fusion (max) 90,5 %

Fusion (max) 89 %

MFCC + MMG (adaptation) 90,9 %

MFCC + MMG 86,1 %

PAROLE

MUSIQUE

Fusion (théorie des probabilités)Fusion (théorie de l’évidence)

90,7 %90,9 %

Fusion (théorie des probabilités)Fusion (théorie de l’évidence)

84,8 %86,9 %

max 93,9 %

max 89,8 %

CORPUS RFI (6 heures)

Etiquetage manuel

Système de base

Système hybride

2 heures d’étiquetage

1 2 3

Décalage parole : 500 ms

Décalage musique : 1 s

Page 20: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

20Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1 2 3

Page 21: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

21Présentation de thèse Lundi 20 décembre 2004

Détection de sons clés

Jingles (reproduction) → Référence (signature)

Applaudissements, rires

et locuteur cible

Mots clés

MMG

MMC

Modèles

1 2 3

Applaudissements RiresJingle

Page 22: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

22Présentation de thèse Lundi 20 décembre 2004

Détection de jingles

Extrait sonore

Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics »

1 2 3

Hamming | FFT | FiltrageSignal Coefficients

spectraux

Page 23: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

23Présentation de thèse Lundi 20 décembre 2004

Détection de jingles

Méthode d’analyse des pics

1 2 3

h

Page 24: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

24Présentation de thèse Lundi 20 décembre 2004

Résultats 2 erreurs Précision : ~ 0,5 s

Détection de jingles

Corpus Durée JinglesDétection

manuelle

Détection

automatique

France 3 15 min 1 4 4

M6 15 min 1 16 16

Canal + 30 min 1 6 6

France Info 60 min 1 12 11

RFI 360 min 3 60 60

Publicités 90 min 25 34 33

Total 570 min 32 132 130

1 2 3

France Info

Page 25: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

25Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible

Pourquoi ?

1 2 3

Page 26: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

26Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible

Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires}

Apprentissage du locuteur cible

1 2 3

Pré traitement

acoustique

SIGNAL

Affectation

Paramètres indicés

(Classe)

Paramètres indicés

(Non-classe)

VQ EM

VQ EM

Étiquetage manuel

(Classe/Non-classe)

Modèle

Non-classe

Modèle

Classe

Page 27: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

27Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible

Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission

Résultats Locuteur cible = présentateur « Jacques Chancel » :

92,9 % (P/NP manuel)

89,7 % (P/NP auto à 94,6 %)

Applaudissements et rires : problème du critère évaluationTaux > 98 % : segments significatifs

Applaudissements : excellents

Rires : problèmes

1 2 3

Page 28: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

28Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Buts : Notion de thème (cf. texte) Structuration

Rapidité d’exécution, robustesse → légèreté de mise en œuvre

Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance

Système

1 2 3

Page 29: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

29Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Pré-traitement acoustique MFCC

Modélisation : MMC Unité : phonème

1 2 3

Page 30: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

30Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant

Grammaire

1 2 3

φ1

φp

Deb Fin

« b » « a » « l »

→ pénaliser

Page 31: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

31Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Corpus Apprentissage : 30h ESTER (Technolangue)

France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB)

Mise en œuvre Phonème → victoire : v i k t w a Rv i k t w a R @ v i k t w a R sil v i k t w a R @ sil

Faisabilité : 20 mots clés, 5 thèmesPolitique : politique, président, ministre, Europe,

gouvernementÉconomie : technologie, industrie, travail, entrepriseCatastrophe : génocide, attentat, victime, sécurité,

militaireSport : championnat, victoire, footballMétéo : dépression, précipitations, température

1 2 3

Page 32: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

32Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Résultats

ThèmesNombre de sujets

(manuel)Nombre de sujets

retrouvés

Politique 34 33

Économie 14 10

Catastrophe 9 8

Sports 18 17

Météo 6 6

Total 81 74

Erreurs

Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 %

Amélioration (en cours) Passage aux triphones

1 2 3

Page 33: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

33Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1 2 3

Page 34: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

34Présentation de thèse Lundi 20 décembre 2004

Structuration sonore

Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h

Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur

Détections automatiques, indépendantes :Détection de musique (chansons, spectacle)

Détection de parole, puis du présentateur

Détection des applaudissements

Résultats : 1 émission → détection de 10 motifs

Besoins ? → autres émissions de la collection

1 2 3

Page 35: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

35Présentation de thèse Lundi 20 décembre 2004

Structuration sonore

Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ?

1 2 3

J

Page 36: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

36Présentation de thèse Lundi 20 décembre 2004

Structuration : perspectives

Apport de la vidéo Détection de logos

Extraction de texte

Reconnaissance de l’intervenant

1 2 3

Chanteur ?

Page 37: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

37Présentation de thèse Lundi 20 décembre 2004

Structuration : perspectives

Macrosegmentation automatique

(exemple du motif)

Annotations automatiques

Recherche de suites récurrentes [Haidar04]

Inférence d’un motif

Structuration

Important : difficile manuellement

1 2 3

Page 38: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

38Présentation de thèse Lundi 20 décembre 2004

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

Plan 1 2 3

CONCLUSIO

N

Page 39: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

39Présentation de thèse Lundi 20 décembre 2004

Conclusion

Indexation sonore : étude de composantes primaires

« Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante

Thèmes : validation

Locuteur cible : résultats encourageants

« Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule

Page 40: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

40Présentation de thèse Lundi 20 décembre 2004

Perspectives

2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif

Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel

Information audiovisuelle ou une indexation audiovisuelle ?

Analyse audiovisuelle ?

Page 41: Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la

41Présentation de thèse Lundi 20 décembre 2004

Merci de votre attention…