Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

SAM V Ao

Indexation sonore : recherche de composantes primaires pour

une structuration audiovisuelle

Équipe SAMoVA

(Structuration Analyse et Modélisation de la Vidéo et de l’Audio)

Julien Pinquier

Directeur de recherche : Régine André-Obrecht

2Présentation de thèse Lundi 20 décembre 2004

Objectifs

Contribution à l’analyse automatique Recherche de composantes primaires

Apport d’outils utiles Pour la structuration automatique

Contexte : indexation


Indexation sonore : que faire ?

locuteur 1 (homme) locuteur 2 (femme)

silencemusique paroleparole

français anglais

jingle 1 leçon lesson


Plan

Détection PMB Etat de l’art Système de base Système hybride (fusion)

Détection de sons clés Jingles Applaudissements, rires et locuteur cible Mots clés

Structuration

1

2

3


Plan



Structuration

1 2 3


Etat de l’art

Parole Structure formantique [Calliope89]

Formants = Fréquences de résonance du conduit vocal

Formants

1 2 3


Etat de l’art

Musique Instrumentale traditionnelle Structure harmonique

Harmoniques

1 2 3


Etat de l’art : paramétrisation

Paramétrisation Temporelle : ZCR et énergie [Saunders96], [Scheirer97] et [Zhang98]

Fréquentielle : DSP [Saunders96] et [Scheirer97] Mixte [Scheirer97] MFCC [Gauvain99]

Classification Approche statistique :

méthodes paramétriques

méthodes non paramétriques

Réseaux de neurones SVM

1 2 3


Spectral rolloff point

ZCR

Énergie

Signal

Etat de l’art : paramétrisation

Flux spectral

Parole Musique

1 2 3


Etat de l’art : classification

Paramétrisation Temporelle : ZCR et énergie Fréquentielle : DSP Mixte MFCC

Classification Approche statistique :

méthodes paramétriques [Saunders96], [Scheirer97] et [Wold99]

méthodes non paramétriques [Foote97] et [Rossignol2000]

Réseaux de neurones [Rossignol2000]

SVM [Chapelle2002]

1 2 3


Etat de l’art : quelques systèmes

Détection de musique : système IRCAM Paramétrisation : ZCR, CS, FS, FS modifié (lissage spectre) Décision : RN, kppv ≈ 10% d’erreurs

Détection de parole : système LIMSI Paramétrisation : MFCC (38 coefficients) Décision : MMG 3 à 8 % d’erreurs

Détection binaire : autres systèmes [Saunders96], [Scheirer97] et [Zhang98]

< 10% d’erreurs Identification

1 2 3


Notre système PMB de base

SignalClassification

ModèlesApprentissage

Analyse cepstraleSignal

ClassificationParole

NonParole

Analyse spectraleMusique

NonMusique

1 2 3

Modélisation

différenciée



Pré-traitement

acoustique

SIGNAL

Étiquetage manuel (parole)

Affectation

Paramètres indicés

(Parole)Paramètres

indicés

(NonParole)

VQ EM

VQ EM

Modèle Parole

Affectation


(Musique)Paramètres

indicés

(NonMusique)

VQ EM

VQ EM

29

Coeff. Spectraux

128 lois gaussiennes

128 lois gaussiennes

Étiquetage manuel (musique)

Coeff. Cepstraux

18

Modèle NonParole

Modèle Musique

Modèle NonMusique

Apprentissage des MMG

1 2 3



Problème : apprentissage

1 2 3


Notre système hybride

Signal

Détection de parole Détection de musique

Modulation de l’entropie

Modulation de l’énergie

à 4 Hz

Nombre de segments

Durée des segments

ClassificationParole / NonParole

ClassificationMusique / NonMusique

Segmentation

1 2 3

Fusion (scores) Fusion (scores)



Modulation de l’énergie à 4 Hz Fenêtrage (16 ms) 40 coefficients spectraux (Mel) Filtrage (RIF passe-bande 4 Hz) Somme et normalisation Modulation (variance sur 1 s)

Modulation de l’entropie Fenêtrage (16 ms) Histogramme (amplitude du signal) Entropie (estimateur non biaisé) Modulation (variance sur 1 s)

1 2 3

Parole

Musique



Segmentation (DFB) [André-Obrecht88]

Nombre de segments Durée des segments

Signal Signal

Parole Musique

1 2 3



Les seuils Parole : corpus MULTEXT [Campione98]

Musique : base personnelle

Seuil

1 2 3

Exemple :

Modulation de l’énergie à 4 Hertz


Résultats

Paramètres Score

Coef. Spectraux + MMG 79,7 %

Coef. Spectraux + MMG (adaptation) 87 %

Modulation de l’énergie à 4 Hertz Modulation de l’entropie

87,3 %87,5 %

Nombre de segmentsDurée des segments

86,4 %78,1 %

Fusion (max) 90,5 %

Fusion (max) 89 %

MFCC + MMG (adaptation) 90,9 %

MFCC + MMG 86,1 %

PAROLE

MUSIQUE

Fusion (théorie des probabilités)Fusion (théorie de l’évidence)

90,7 %90,9 %

Fusion (théorie des probabilités)Fusion (théorie de l’évidence)

84,8 %86,9 %

max 93,9 %

max 89,8 %

CORPUS RFI (6 heures)

Etiquetage manuel

Système de base

Système hybride

2 heures d’étiquetage

1 2 3

Décalage parole : 500 ms

Décalage musique : 1 s


Plan



Structuration

1 2 3


Détection de sons clés

Jingles (reproduction) → Référence (signature)

Applaudissements, rires

et locuteur cible

Mots clés

MMG

MMC

Modèles

1 2 3

Applaudissements RiresJingle


Détection de jingles

Extrait sonore

Système classique Analyse spectrale (29 coefficients) Comparaison (distance Euclidienne) Analyse des « pics »

1 2 3

Hamming | FFT | FiltrageSignal Coefficients

spectraux



Méthode d’analyse des pics

1 2 3

h


Résultats 2 erreurs Précision : ~ 0,5 s


Corpus Durée JinglesDétection

manuelle

Détection

automatique

France 3 15 min 1 4 4

M6 15 min 1 16 16

Canal + 30 min 1 6 6

France Info 60 min 1 12 11

RFI 360 min 3 60 60

Publicités 90 min 25 34 33

Total 570 min 32 132 130

1 2 3

France Info


Détection des applaudissements, des rires et d’un locuteur cible

Pourquoi ?

1 2 3



Apprentissage des applaudissements et des rires Classe={Applaudissements,Rires}

Apprentissage du locuteur cible

1 2 3

Pré traitement

acoustique

SIGNAL

Affectation


(Classe)


(Non-classe)

VQ EM

VQ EM

Étiquetage manuel

(Classe/Non-classe)

Modèle

Non-classe

Modèle

Classe



Corpus : « Le Grand Échiquier », projet FERIA Apprentissage : 1 émission Reconnaissance : 1 émission

Résultats Locuteur cible = présentateur « Jacques Chancel » :

92,9 % (P/NP manuel)

89,7 % (P/NP auto à 94,6 %)

Applaudissements et rires : problème du critère évaluationTaux > 98 % : segments significatifs

Applaudissements : excellents

Rires : problèmes

1 2 3


Détection de mots clés

Buts : Notion de thème (cf. texte) Structuration

Rapidité d’exécution, robustesse → légèreté de mise en œuvre

Etat de l’art Modèle poubelle Anti-modèles Mesures de confiance

Système

1 2 3



Pré-traitement acoustique MFCC

Modélisation : MMC Unité : phonème

1 2 3



Modèles : mots clés, poubelle et silence Poubelle : φ Mot clé : concaténation des modèles de φ → intéressant

Grammaire

1 2 3

φ1

φp

Deb Fin

« b » « a » « l »

→ pénaliser



Corpus Apprentissage : 30h ESTER (Technolangue)

France Inter (20h) et RFI (10h) Reconnaissance : RFI (6 h, cf. PMB)

Mise en œuvre Phonème → victoire : v i k t w a Rv i k t w a R @ v i k t w a R sil v i k t w a R @ sil

Faisabilité : 20 mots clés, 5 thèmesPolitique : politique, président, ministre, Europe,

gouvernementÉconomie : technologie, industrie, travail, entrepriseCatastrophe : génocide, attentat, victime, sécurité,

militaireSport : championnat, victoire, footballMétéo : dépression, précipitations, température

1 2 3



Résultats

ThèmesNombre de sujets

(manuel)Nombre de sujets

retrouvés

Politique 34 33

Économie 14 10

Catastrophe 9 8

Sports 18 17

Météo 6 6

Total 81 74

Erreurs

Système 12 MFCC, Δ, ΔΔ, ΔE MMC, 32G / état Accuracy : 56,62 %

Amélioration (en cours) Passage aux triphones

1 2 3


Plan



Structuration

1 2 3


Structuration sonore

Détection de motif dans une collection d’émissions « Le grand Échiquier » 54 émissions de 3h

Motif : présentateur / [APP] / spectacle / [APP/spectacle] / APP / présentateur

Détections automatiques, indépendantes :Détection de musique (chansons, spectacle)

Détection de parole, puis du présentateur

Détection des applaudissements

Résultats : 1 émission → détection de 10 motifs

Besoins ? → autres émissions de la collection

1 2 3


Structuration sonore

Structuration d’un journal télévisé (« 6 minutes » de M6) Détection de jingles (J et JG) Détections de parole et de musique Détection de mots clés 1 erreur Besoins ?

1 2 3

J


Structuration : perspectives

Apport de la vidéo Détection de logos

Extraction de texte

Reconnaissance de l’intervenant

1 2 3

Chanteur ?


Structuration : perspectives

Macrosegmentation automatique

(exemple du motif)

Annotations automatiques

Recherche de suites récurrentes [Haidar04]

Inférence d’un motif

Structuration

Important : difficile manuellement

1 2 3




Structuration

Plan 1 2 3

CONCLUSIO

N


Conclusion

Indexation sonore : étude de composantes primaires

« Unités communes » Parole et musique : → robustesse (plus d’apprentissage) Mots clés : faisabilité → mise en œuvre intéressante

Thèmes : validation

Locuteur cible : résultats encourageants

« Unités caractéristiques » Jingles : résultats excellents → 1 occurrence Applaudissements : résultats très bons → universel Rires : problèmes → rires de foule


Perspectives

2 études de structuration sonore → très intéressantes Structuration d’un JT Détection d’un motif

Ne pas se limiter à un seul média Quelques pistes (analyse vidéo) Difficulté du couplage audio/vidéo Problèmes du traitement audiovisuel

Information audiovisuelle ou une indexation audiovisuelle ?

Analyse audiovisuelle ?


Merci de votre attention…

Documents

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle