41
SAM VA o Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle Équipe SAMoVA (Structuration Analyse et Modélisation de la Vidéo et de l’Audio) Julien Pinquier Directeur de recherche : Régine André-Obrecht

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

Embed Size (px)

DESCRIPTION

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. É quipe SAMoVA ( S tructuration A nalyse et Mo délisation de la V idéo et de l’ A udio) Julien Pinquier Directeur de recherche : Régine André-Obrecht. Objectifs. - PowerPoint PPT Presentation

Citation preview

SAM V Ao

Indexation sonore : recherche de composantes primaires pour

une structuration audiovisuelle

Équipe SAMoVA

(Structuration Analyse et Modélisation de la Vidéo et de l’Audio)

Julien Pinquier

Directeur de recherche : Régine André-Obrecht

2Présentation de thèse Lundi 20 décembre 2004

Objectifs

Contribution à l’analyse automatique Recherche de composantes primaires

Apport d’outils utiles Pour la structuration automatique

Contexte : indexation

3Présentation de thèse Lundi 20 décembre 2004

Indexation sonore : que faire ?

locuteur 1 (homme) locuteur 2 (femme)

silencemusique paroleparole

français anglais

jingle 1 leçon lesson

4Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1

2

3

5Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1 2 3

6Présentation de thèse Lundi 20 décembre 2004

Etat de l’art

Parole Structure formantique [Calliope89]

Formants = Fréquences de résonance du conduit vocal

Formants

1 2 3

7Présentation de thèse Lundi 20 décembre 2004

Etat de l’art

Musique Instrumentale traditionnelle Structure harmonique

Harmoniques

1 2 3

8Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : paramétrisation

Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98]

Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99]

Classification Approche statistique :

méthodes paramétriques

méthodes non paramétriques

Réseaux de neurones SVM

1 2 3

9Présentation de thèse Lundi 20 décembre 2004

Spectral rolloff point

ZCR

Énergie

Signal

Etat de l’art : paramétrisation

Flux spectral

Parole Musique

1 2 3

10Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : classification

Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC

Classification Approche statistique :

méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99]

méthodes non paramétriques [Foote97] et [Rossignol2000]

Réseaux de neurones [Rossignol2000]

SVM [Chapelle2002]

1 2 3

11Présentation de thèse Lundi 20 décembre 2004

Etat de l’art : quelques systèmes

Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs

Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs

Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98]

< 10% d’erreurs Identification

1 2 3

12Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base

SignalClassification

ModèlesApprentissage

Analyse cepstraleSignal

ClassificationParole

NonParole

Analyse spectraleMusique

NonMusique

1 2 3

Modélisation

différenciée

13Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base

Pré-traitement

acoustique

SIGNAL

Étiquetage manuel (parole)

Affectation

Paramètres indicés

(Parole)Paramètres

indicés

(NonParole)

VQ EM

VQ EM

Modèle Parole

Affectation

Paramètres indicés

(Musique)Paramètres

indicés

(NonMusique)

VQ EM

VQ EM

29

Coeff. Spectraux

128 lois gaussiennes

128 lois gaussiennes

Étiquetage manuel (musique)

Coeff. Cepstraux

18

Modèle NonParole

Modèle Musique

Modèle NonMusique

Apprentissage des MMG

1 2 3

14Présentation de thèse Lundi 20 décembre 2004

Notre système PMB de base

Problème : apprentissage

1 2 3

15Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Signal

Détection de parole Détection de musique

Modulation de l’entropie

Modulation de l’énergie

à 4 Hz

Nombre de segments

Durée des segments

ClassificationParole / NonParole

ClassificationMusique / NonMusique

Segmentation

1 2 3

Fusion (scores) Fusion (scores)

16Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s)

Modulation de l’entropie Fenêtrage (16 ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance sur 1 s)

1 2 3

Parole

Musique

17Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Segmentation (DFB) [André-Obrecht88]

Nombre de segments Durée des segments

Signal Signal

Parole Musique

1 2 3

18Présentation de thèse Lundi 20 décembre 2004

Notre système hybride

Les seuils Parole : corpus MULTEXT [Campione98]

Musique : base personnelle

Seuil

1 2 3

Exemple :

Modulation de l’énergie à 4 Hertz

19Présentation de thèse Lundi 20 décembre 2004

Résultats

Paramètres Score

Coef. Spectraux + MMG 79,7 %

Coef. Spectraux + MMG (adaptation) 87 %

Modulation de l’énergie à 4 Hertz Modulation de l’entropie

87,3 %87,5 %

Nombre de segmentsDurée des segments

86,4 %78,1 %

Fusion (max) 90,5 %

Fusion (max) 89 %

MFCC + MMG (adaptation) 90,9 %

MFCC + MMG 86,1 %

PAROLE

MUSIQUE

Fusion (théorie des probabilités)Fusion (théorie de l’évidence)

90,7 %90,9 %

Fusion (théorie des probabilités)Fusion (théorie de l’évidence)

84,8 %86,9 %

max 93,9 %

max 89,8 %

CORPUS RFI (6 heures)

Etiquetage manuel

Système de base

Système hybride

2 heures d’étiquetage

1 2 3

Décalage parole : 500 ms

Décalage musique : 1 s

20Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1 2 3

21Présentation de thèse Lundi 20 décembre 2004

Détection de sons clés

Jingles (reproduction) → Référence (signature)

Applaudissements, rires

et locuteur cible

Mots clés

MMG

MMC

Modèles

1 2 3

Applaudissements RiresJingle

22Présentation de thèse Lundi 20 décembre 2004

Détection de jingles

Extrait sonore

Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics »

1 2 3

Hamming | FFT | FiltrageSignal Coefficients

spectraux

23Présentation de thèse Lundi 20 décembre 2004

Détection de jingles

Méthode d’analyse des pics

1 2 3

h

24Présentation de thèse Lundi 20 décembre 2004

Résultats 2 erreurs Précision : ~ 0,5 s

Détection de jingles

Corpus Durée JinglesDétection

manuelle

Détection

automatique

France 3 15 min 1 4 4

M6 15 min 1 16 16

Canal + 30 min 1 6 6

France Info 60 min 1 12 11

RFI 360 min 3 60 60

Publicités 90 min 25 34 33

Total 570 min 32 132 130

1 2 3

France Info

25Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible

Pourquoi ?

1 2 3

26Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible

Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires}

Apprentissage du locuteur cible

1 2 3

Pré traitement

acoustique

SIGNAL

Affectation

Paramètres indicés

(Classe)

Paramètres indicés

(Non-classe)

VQ EM

VQ EM

Étiquetage manuel

(Classe/Non-classe)

Modèle

Non-classe

Modèle

Classe

27Présentation de thèse Lundi 20 décembre 2004

Détection des applaudissements, des rires et d’un locuteur cible

Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission

Résultats Locuteur cible = présentateur « Jacques Chancel » :

92,9 % (P/NP manuel)

89,7 % (P/NP auto à 94,6 %)

Applaudissements et rires : problème du critère évaluationTaux > 98 % : segments significatifs

Applaudissements : excellents

Rires : problèmes

1 2 3

28Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Buts : Notion de thème (cf. texte) Structuration

Rapidité d’exécution, robustesse → légèreté de mise en œuvre

Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance

Système

1 2 3

29Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Pré-traitement acoustique MFCC

Modélisation : MMC Unité : phonème

1 2 3

30Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant

Grammaire

1 2 3

φ1

φp

Deb Fin

« b » « a » « l »

→ pénaliser

31Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Corpus Apprentissage : 30h ESTER (Technolangue)

France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB)

Mise en œuvre Phonème → victoire : v i k t w a Rv i k t w a R @ v i k t w a R sil v i k t w a R @ sil

Faisabilité : 20 mots clés, 5 thèmesPolitique : politique, président, ministre, Europe,

gouvernementÉconomie : technologie, industrie, travail, entrepriseCatastrophe : génocide, attentat, victime, sécurité,

militaireSport : championnat, victoire, footballMétéo : dépression, précipitations, température

1 2 3

32Présentation de thèse Lundi 20 décembre 2004

Détection de mots clés

Résultats

ThèmesNombre de sujets

(manuel)Nombre de sujets

retrouvés

Politique 34 33

Économie 14 10

Catastrophe 9 8

Sports 18 17

Météo 6 6

Total 81 74

Erreurs

Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 %

Amélioration (en cours) Passage aux triphones

1 2 3

33Présentation de thèse Lundi 20 décembre 2004

Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1 2 3

34Présentation de thèse Lundi 20 décembre 2004

Structuration sonore

Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h

Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur

Détections automatiques, indépendantes :Détection de musique (chansons, spectacle)

Détection de parole, puis du présentateur

Détection des applaudissements

Résultats : 1 émission → détection de 10 motifs

Besoins ? → autres émissions de la collection

1 2 3

35Présentation de thèse Lundi 20 décembre 2004

Structuration sonore

Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ?

1 2 3

J

36Présentation de thèse Lundi 20 décembre 2004

Structuration : perspectives

Apport de la vidéo Détection de logos

Extraction de texte

Reconnaissance de l’intervenant

1 2 3

Chanteur ?

37Présentation de thèse Lundi 20 décembre 2004

Structuration : perspectives

Macrosegmentation automatique

(exemple du motif)

Annotations automatiques

Recherche de suites récurrentes [Haidar04]

Inférence d’un motif

Structuration

Important : difficile manuellement

1 2 3

38Présentation de thèse Lundi 20 décembre 2004

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

Plan 1 2 3

CONCLUSIO

N

39Présentation de thèse Lundi 20 décembre 2004

Conclusion

Indexation sonore : étude de composantes primaires

« Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante

Thèmes : validation

Locuteur cible : résultats encourageants

« Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule

40Présentation de thèse Lundi 20 décembre 2004

Perspectives

2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif

Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel

Information audiovisuelle ou une indexation audiovisuelle ?

Analyse audiovisuelle ?

41Présentation de thèse Lundi 20 décembre 2004

Merci de votre attention…