Upload
others
View
4
Download
0
Embed Size (px)
Master « Atiam » - Module ETS
Estimation de fréquences fondamentales multiples
Gaël RICHARDTELECOM ParisTechDépartement Traitement des signaux et des imagesJanvier 2012
Merci à Roland Badeau pour un certain nombre de tra nsparents
« Licence de droits d'usage" http://formation.enst.fr/licences/pedago_sans.html
Détection de fréquence(s) fondamentale(s)
2 Gaël RICHARD ATIAM - ETS– Janvier 2012
Contenu
� Introduction• Sons quasi-périodiques• Modèle de son quasi-périodique
� Méthodes temporelles� Méthodes spectrales
3 Gaël RICHARD ATIAM - ETS– Janvier 2012
� Extension à la détection de fréquences fondamentale s multiples
Un son quasi-périodique
T0
4 Gaël RICHARD ATIAM - ETS– Janvier 2012
F0=1/T0
Modèle de signal
• est la fréquence fondamentale réduite
• H est le nombre d’harmoniques du signal
• Les amplitudes {Ak} sont des réels > 0
5 Gaël RICHARD ATIAM - ETS– Janvier 2012
• Les phases {φk} sont des v.a. indépendantes de loi uniforme sur [0, 2π [
• w est un bruit blanc centré de variance σ2, indépendant des phases {φ
k}
• x(n) est un processeur SSL centré d’autocovariance
Méthodes temporelles
� Autocovariance biaisée
6 Gaël RICHARD ATIAM - ETS– Janvier 2012
Méthodes temporelles
� Autocovariance non biaisée
7 Gaël RICHARD ATIAM - ETS– Janvier 2012
Méthodes temporelles
� Autocorrélation
8 Gaël RICHARD ATIAM - ETS– Janvier 2012
Average square difference function (ASDF)
9 Gaël RICHARD ATIAM - ETS– Janvier 2012
Average square difference function (ASDF)
• La période T0 peut être estimée en recherchant le minimum de l’écart quadratique entre les signaux x[n] et x[n+m] :
10 Gaël RICHARD ATIAM - ETS– Janvier 2012
Average magnitude difference function (AMDF)
11 Gaël RICHARD ATIAM - ETS– Janvier 2012
Un algorithme temporel performant: Yin(merci à V. Emiya pour quelques transparents)
� H. Kawahara A. de Cheveigné, YIN, a fundamental frequency estimator for speech and music ,, JASA, 111(4), 2002
� Point de départ: Méthode de l’Autocorrélation (ACF)� Améliorations successives:
• Utilisation de l’ASDF
12 Gaël RICHARD ATIAM - ETS– Janvier 2012
• Utilisation de l’ASDF• Normalisation• Seuillage• Interpolation• Minimisation locale en temps
YIN (2)
� ASDF utilisée:
� Liens avec l’Autocorrélation
13 Gaël RICHARD ATIAM - ETS– Janvier 2012
� Gain net car l’ASDF est beaucoup moins sensible aux variations des amplitudes relatives que l’ACF (qui est sensible, par exemple, à l’accentuation des partiel s d’ordre pair)
YIN (3)
� Normalisation par la « moyenne cumulée »
� Gain net car permet d’éviter les erreurs pour les F 0 élevées (suppression du lobe en 0)
14 Gaël RICHARD ATIAM - ETS– Janvier 2012
(suppression du lobe en 0)
0 0.005 0.01 0.015 0.02 0.025 0.030
200
400
τ (s)
dt(τ)
norm. curve
0 0.005 0.01 0.015 0.02 0.025 0.030
1
2
3d'
t(τ)
YIN (4)
� Seuillage absolu• La plus petite période inférieure au seuil est choisie• Si aucune période n’est inférieure au seuil, alors le minimum global est
choisi
2
15 Gaël RICHARD ATIAM - ETS– Janvier 2012
0 0.005 0.01 0.015 0.02 0.025 0.030
0.5
1
1.5
2
τ (s)
d't(τ)
seuilpremier min
YIN (4)
� Interpolation parabolique autour du minimum
8
10d
t(τ)
Pts à interpolerinterpolation
� Réalisée sur dn(m) (i.e avant normalisation)
� Gain en précision sur la
16 Gaël RICHARD ATIAM - ETS– Janvier 2012
6.4 6.45 6.5 6.55
x 10-3
0
2
4
6
τ (s)
interpolationminimum
� Gain en précision sur la valeur de F0
YIN (5)
� Minimisation locale en temps• Période estimée:
• Minimisation autour du temps Tθ: avec
17 Gaël RICHARD ATIAM - ETS– Janvier 2012
� Gain en cas de fluctuations sur certains signaux; c orrespond à un effet de lissage (rappel l’effet du filtre méd ian ou programmation dynamique).
YIN: Evaluation
• Sur quatre bases de données de parole, annotées automatiquement (par YIN, à partir du laryngographe) puis vérifiées et triées à la main
18 Gaël RICHARD ATIAM - ETS– Janvier 2012
Approche par le maximum de vraisemblance
• Modèle de signal:- a est un signal déterministe de période T0- w est un bruit blanc gaussien de variance σ2
• Vraisemblance des observations
19 Gaël RICHARD ATIAM - ETS– Janvier 2012
• Log-vraisemblance
• Méthode: maximiser successivement L par rapport à a, puis σ2 et enfin T0
Approche par le maximum de vraisemblance
• On peut montrer que la maximisation de L par rapport à revient à maximiser la somme spectrale
20 Gaël RICHARD ATIAM - ETS– Janvier 2012
Produit spectral
• Par similitude avec la somme spectrale on peut définir le produit spectral (souvent plus robuste)
21 Gaël RICHARD ATIAM - ETS– Janvier 2012
Détection de fréquences fondamentales multiples
22 Gaël RICHARD ATIAM - ETS– Janvier 2012
Détection de fréquences fondamentales multiples
� Objectif: extraire l’ensemble des notes d’un enregi strement polyphonique
� Problème important lorsque les notes sont en rappor t harmonique (ce qui est souvent le cas en musique…!!)
23 Gaël RICHARD ATIAM - ETS– Janvier 2012
� Nécessité de traiter le caractère non parfaitement harmonique des notes jouées par un instrument.
Détection de fréquences fondamentales multiples
� Approche par estimation/soustraction conjointe• DMDF (Double Magnitude Difference Function)
24 Gaël RICHARD ATIAM - ETS– Janvier 2012
� Son de pianoaddition de deux notes:
T1=0.0076s
T2=0.0057s
Détection de fréquences fondamentales multiples
� Approche par corrélation bi-dimensionnelle
25 Gaël RICHARD ATIAM - ETS– Janvier 2012
Mesure la « ressemblance » entre
•d(n) et •d(n+k1) + d(n+k2)-d(n+k1+k2)
Une approche par banc de filtres
26 Gaël RICHARD ATIAM - ETS– Janvier 2012
� R. Meddis and M. Hewitt, “Virtual pitch and phase s ensitivity of a computer model of the auditory periphery—I: Pitch identifica tion,” J. Acoust. Soc. Am. , vol. 89, pp. 2866–2882, June 1991.
Une approche plus simple inspirée de la précédente
27 Gaël RICHARD ATIAM - ETS– Janvier 2012
� T. Tolonen and M. Karjalainen, “A computationally e fficient multipitch analysis model,” IEEE Trans. On Speech and Audio Processing , vol. 8, no. 6,
pp. 708–716, 2000.
Enhanced Summary ACF
� Plusieurs étapes:
• Redressement demi-onde
- On ne conserve que les valeurs positives• Ralentie 2 (ou plus) fois puis déduite du SACF redressé
28 Gaël RICHARD ATIAM - ETS– Janvier 2012
- Permet de supprimer les pics doubles
Détection de fréquences fondamentales multiples
� Approche par soustraction itérative (Klapuri, 2003)
29 Gaël RICHARD ATIAM - ETS– Janvier 2012
Principe de lissage spectral
ah=min(ah, mh)
où mh est la moyenne sur une fenêtre d ’un octave autour du partiel
Détection de fréquences fondamentales multiples
� Résultats: Comparaison aux performances humaines
� Registre bas (l): 33 à 130 Hz
� Registre médium (m): 130 à 520 Hz
� Registre haut: 520 à 2100 Hz
� 200 stimuli sonores (20 catégories)
30 Gaël RICHARD ATIAM - ETS– Janvier 2012
� 200 stimuli sonores (20 catégories)
� Sons polyphoniques générés par ordinateur à partir d ’échantillons de Piano Steinway provenant du Master samples collection, Mc Gill University
� Personnes ayant participé aux tests:
� Tous sont musiciens� dont 2 ont l ’oreille absolue
(musiciens quasi-professionnels
Une approche récente utilisant un modèle perceptuel
31 Gaël RICHARD ATIAM - ETS– Janvier 2012
� Anssi P. Klapuri “Multipitch Analysis of Polyphonic Music and Speech Signals Using an Auditory Model”, IEEE Trans. On AS LP, Feb. 2008
Banc de filtres perceptuels
� Une approximation d’un banc de filtres Gammatone
32 Gaël RICHARD ATIAM - ETS– Janvier 2012
Effet de la compression et redressement
� Résultat sur une bande centrée at 2.7 kHz
33 Gaël RICHARD ATIAM - ETS– Janvier 2012
Détection de fréquences fondamentales multiples
� Autres approches
• Approches bayesiennes
• Méthodes haute-résolution
34 Gaël RICHARD ATIAM - ETS– Janvier 2012
• Factorisation en Matrices non-négatives (NMF) ou Analyse en composantes latentes (PLCA – équivalent probabiliste de la NMF)
� Utilisation de méthodes de décomposition non supervisées (par exemple par factorisation en matrices non-négatives : NMF)
� Principe de la NMF :
Factorisation en Matrices Non -négatives
35 Gaël RICHARD ATIAM - ETS– Janvier 2012
Image d’après R. Hennequin
Factorisation en Matrices Non -négatives
� Utilisation en estimation multi-pitch:• Nécessité d’introduire des a priori (approche probabiliste) ou des
contraintes (approche déterministe)
• Exemple de contraintes (d’après Vincent & al, 2010):
36 Gaël RICHARD ATIAM - ETS– Janvier 2012
- NMF classique:
- NMF avec templates dépendantsdu pitch:
- ..et avec contraintes sur les templates
- Exemples d’enveloppes locales
Utilisation d‘une représentation à Q constant
37 Gaël RICHARD ATIAM - ETS– Janvier 2012
D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of Signal Processing, oct. 2011
Utilisation d‘une représentation à Q constant
� En pratique:• Solution peu satisfaisante
� Solution souvent retenue: Utiliser des tailles de f enêtres différentes pour chaque nouveau bin fréquentiel k’
Bin kN’
38 Gaël RICHARD ATIAM - ETS– Janvier 2012
Bin kN’
Bin k2’
Bin k1’
J. Brown and M. Puckette, An efficient algorithm for the calculation of a constant Q transform, JASA, 92(5):2698–2701, 1992.J. Prado, Une inversion simple de la transformée à Q constant, technical report, 2011, http://www.tsi.telecom-paristech.fr/aao/en/2011/06/06/inversible-cqt/
Utilisation en estimation multipitch
� Sur une transformée à Q constant:• Une différence de pitch correspond
à une translation sur l’axe des fréquences
39 Gaël RICHARD ATIAM - ETS– Janvier 2012
• Vers des modèles “Shift invariant PLCA (v. smaragdis2008 et Fuentes & al. 2011)
Quelques références en estimation de Fréquence(s) fondamentale(s)
� Estimation de la fréquence fondamentale
• M. Schroeder, “Period Histogram and Product Spectrum: New Methods for Fundamental-Frequency Measurement” The Journal of the Acoustical Society of America -- April 1968 -- Volume 43, Issue 4, pp. 829-834
• Alain de Cheveigné, YIN, a fundamental frequency estimator for speech and music, Hideki Kawahara, JASA, 111(4), 2002 • Geoffroy Peeters, Music pitch representation by periodicity measures based on combined temporal and spectral representations,
ICASSP 2006
� Estimation de fréquences fondamentales multiples
• B. Fuentes, R. Badeau, and G. Richard, “Adaptive harmonic time-frequency decomposition of audio using shift-invariant
40 Gaël RICHARD ATIAM - ETS– Janvier 2012
• B. Fuentes, R. Badeau, and G. Richard, “Adaptive harmonic time-frequency decomposition of audio using shift-invariant PLCA,” in Proc. of ICASSP, Prague, Czech Republic, May 2011, pp. 401–404.
• P. Smaragdis, B. Raj, and M.V. Shashanka, “Sparse and shift-invariant feature extraction from non-negative data,” in Proc. of ICASSP, Las Vegas, Nevada, USA, April 2008, pp. 2069–2072.
• E. Vincent, N. Bertin, and R. Badeau, “Adaptive harmonic spectral decomposition for multiple pitch estimation,” IEEE Transactions on Audio Speech and Language Processing, vol. 18, no. 3, pp. 528–537, Mar. 2010.
• T. Tolonen and M. Karjalainen, “A computationally efficient multipitch analysis model,” IEEE Trans. On Speech and Audio Processing, vol. 8, no. 6, pp. 708–716, 2000.
• Anssi P. Klapuri, Multiple Fundamental Frequency Estimation Based on Harmonicity and Spectral Smoothness, IEEE Trans. On Speech and Sig. Proc., 11(6), 2003
• C. Yeh, A. Röbel, and X.Rodet, "Multiple fundamental frequency estimation of polyphonic music signals", IEEE ICASSP, pp. 225-228 (Vol. III), Philadelphia, Pennsylvvania, USA, 2005.
• Hirokazu Kameoka, Takuya Nishimoto, and Shigeki Sagayama, “A Multipitch Analyzer Based on Harmonic Temporal Structured Clustering”, IEEE Trans. On ASLP, March. 2007
• V. Emiya, R. Badeau, B. David, “MULTIPITCH ESTIMATION OF QUASI-HARMONIC SOUNDS IN COLORED NOISE”, Proc. Of DAFX, Sept. 2007.
• V. Emiya, “Transcription automatique de la musique de piano », thèse de doctorat, Telecom ParisTech, 2008. • Anssi P. Klapuri, A perceptually motivated multiple-f0 estimation method, WASPAA 2005• Anssi P. Klapuri “Multipitch Analysis of Polyphonic Music and Speech Signals Using an Auditory Model”, IEEE Trans. On ASLP,
Feb. 2008