Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Image, Son, Multimedia
Analyse et Synthèse du Son Musical
Pierre [email protected]
Université de Bordeaux
ASSM– p. 1/134
Objectif
Objectifs du traitement du signal audio :
création musicale
écoute/compréhension
=⇒ lien fort entre paramètres mathématiques et paramètres musicaux.
ASSM– p. 2/134
Paramètres
Étude des différents liens entre :
Paramètres physiques
Paramètres perceptifs
Paramètres musicaux
Vocabulaire différent, définitions plus ou moins précises
ASSM– p. 3/134
Plan : I
Fréquence/Hauteur
ASSM– p. 4/134
Fréquence/hauteur
hauteur ou pitch : attribut du son définissant un ordre sur les sons.
La perception de la hauteur est corrélée à la fréquence
fréquence change : perception hauteur aussi
Aucune mesure directe de la hauteur
définitionpratique:
Ecoute d’un son
Ajuster la fréquence d’une sinusoïde pour que les hauteurs
correspondent
La fréquence de la sinusoïde est la hauteur
Problèmes : différentes réponses, cas des sons apériodiques, . . .
ASSM– p. 5/134
Perception des fréquences
Limite de perception des fréquences :
supérieures à 20000Hz : ultrasons
inférieures à 20Hz : pulsations
encore plus faibles : contrôle
Sinusoide pure
ASSM– p. 6/134
Discrimination des fréquences
Plus petite variation de fréquence qui peut être perçue
Just Noticeable Difference (JND)
JND des fréquences : dépend de la fréquence
ASSM– p. 7/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
6 Hz : A,B,A,B
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
6 Hz : A,B,A,B
5 Hz : A,B,A,A
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
6 Hz : A,B,A,B
5 Hz : A,B,A,A
4 Hz : B,B,A,A
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
6 Hz : A,B,A,B
5 Hz : A,B,A,A
4 Hz : B,B,A,A
3 Hz : A,B,A,B
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
6 Hz : A,B,A,B
5 Hz : A,B,A,A
4 Hz : B,B,A,A
3 Hz : A,B,A,B
2 Hz : B,B,B,A
ASSM– p. 8/134
Discrimination des fréquences
Test JND
2 sinusoïdes: 1000 Hz + df
A : si deuxième plus aigü (d f > 0)
B : si deuxième plus grave (d f < 0)
Différence de fréquences : de 10 à 1 Hz
10 Hz : A,B,A,A
9 Hz : A,B,B,B
8 Hz : B,A,A,B
7 Hz : B,A,A,B
6 Hz : A,B,A,B
5 Hz : A,B,A,A
4 Hz : B,B,A,A
3 Hz : A,B,A,B
2 Hz : B,B,B,A
1 Hz : B,A,A,B
ASSM– p. 8/134
Discrimination des fréquences
Exemples : 10 sinusoïdes à 600Hz avec deuxtranspositions(aigu/grave)
4 % (24Hz)
2 % (12Hz)
1 %
0.5 %
0.25 %
Laquelle en premier/second : aigu ou grave ?
Oreille moins précise dans les basses fréquences (particulièrement en
dessous de 200 Hz)
Dépend des personnes
A peu près 0.5% sur la majeure partie de l’intervalle de perception
ASSM– p. 9/134
Fréquence/hauteur en Musique
En musique, deux dimensions :
note
octave
Exemple : MIDIA3 désigne unLa (A), 3ème octave,
Une sinusoïde de fréquence de 440 Hz donne une sensation de hauteur
équivalente.
ASSM– p. 10/134
Note et octave
Représentation sous forme d’hélice (Shepard) :
ASSM– p. 11/134
Fréquence/note
Lien entre la fréquenceF et la note de musiqueH :
fréquenceF exprimée en Hertz (Hz) (échelle linéaire)
hauteur perçueH (échelle logarithmique)
F = F02HH0
P = P0 +Olog2 (FF0
)
où oùP0 et F0 sont les hauteurs et les fréquences de référence.
ASSM– p. 12/134
Fréquence/note (2)
Fréf = F0 = 440 Hz,Hréf = H0 = 57
O = 12 (nombre de demi-tons par octave)
exemple:F = 880 Hz→ H = 69
F → 2·F ⇒ octave supérieureF → F/2 ⇒ octave inférieure
ASSM– p. 13/134
Variations des fréquences
Variations à l’échelle macroscopique : mélodie
Variations à l’échelle microscopique :
Variations linéaires :glissandoouportamento
Variations périodiques (< 20Hz) : vibrato
Variations périodiques plus rapides : rajout de composantsspectraux
=⇒ synthèse parmodulation de fréquence (FM)
ASSM– p. 14/134
Spectre
Spectre d’un son :
plusieurs fréquences apparaissent nettement
régulièrement
irrégulièrement
aucune fréquence n’a une amplitude vraiment important par rapport aux
autres
=⇒ selon les cas, perception de hauteur ou non
ASSM– p. 15/134
Sons harmoniques
fréquences composant le sonrégulièrement espacées :→ Son harmoniquede fondamentaleF0
2F0 3F0 6F0F0
amplitude
frequence
ASSM– p. 16/134
Sons harmoniques (2)
F0 : fréquencefondamentale(ou première harmonique)
kF0 : kème harmonique
aucun véritable exemple dans le monde réel :
=⇒ son harmonique est unmodèle
Exemple : Plusieurs sinusoïdes
Saxophone
Synthèse de guitare
ASSM– p. 17/134
Sons quasi-harmoniques
presque un son harmonique mais petits décalages (réguliersou non) entre les
harmoniques (warping)
2F0 +d f2 3F0 +d f3 6F0 +d f6F0
amplitude
frequence
Exemples : instrument à vent (saxo, flûte, . . . ), violon (cordes frottées), guitare
→majorité des sons instrumentaux
ASSM– p. 18/134
Sons quasi-harmoniques: exemple
Piano 156Hz
La 25ème harmonique théorique correspond à la 24ème. . .
ASSM– p. 19/134
Sons inharmoniques
harmoniquesprésentes ont des fréquences parfois très éloignées des multiples de
la fondamentale :sons inharmoniques
F0
amplitude
frequence4F0
Exemples : piano, gong, cloche, xylophone, . . .→ certains sons percussifsExemples:
Son harmonique, Son inharmonique
Cloche, Synthèse de clocheASSM– p. 20/134
Sons inharmoniques: exemple
Vibraphone 260Hz
A peu près périodique, mais non harmonique. . .
ASSM– p. 21/134
Sons harmoniques/inharmoniques
Harmoniques
Instruments à cordes : Piano, guitare, violon, etc.
Instruments à vent : Trompette, tuba, saxophones, clarinettes, etc.
Flutes
Orgues
Voix (parties voisées)
Inharmoniques
Instruments percussifs : xylophone, vibraphone, cloches,etc.
Batterie : cymbales, tambours, toms, etc.
ASSM– p. 22/134
Sons complexes : mélanges de sons
Certains sons sont en fait des mélanges de plusieurs sources:
mélanges sons harmoniques/bruit (Signal Noise Ratio SNR)
mélanges de plusieurs sons harmoniques
consonance
dissonance
Exemples :
accords majeurs (consonnants), quinte (par exemple un Do etSol ont des
harmoniques communes)
1/2 : octave
3/2 : quinte
4/3 : quarte
5/4 : tierce majeure, . . .
ASSM– p. 23/134
Hauteur des sons harmoniques
La hauteur est un paramètreperceptif
Le mécanisme de perception de la hauteur estcomplexe(informations spectraleset temporelles)
Sensibilité aux fréquencesnon continues(plus forte vers 2000−3000z)
Cas de sons harmoniques ou quasi-harmoniques :
Hauteur perçue= fréquence fondamentale
ASSM– p. 24/134
Fondamentale manquante
Exemple de difficultés sur la perception de la hauteur :
2F0 +d f2 3F0 +d f3 6F0 +d f6F0
amplitude
frequence
Cas de lafondamentale manquante: hauteur perçueF0 même si la fréquencecorrespondante est non présente dans le son
Exemple
Exemple 2 : normal, sans fondamentale, sans 2 premières harmoniques, . . .
ASSM– p. 25/134
Sons complexes
Certains sons présentent des spectres plus complexes :
Aucune ou très peu de fréquences d’amplitude importante et de durée
importante
Énergie répartie sur des bandes du spectre
Selon les bandes, hauteur(s) perçue(s) ou pas
ASSM– p. 26/134
Hauteur des sons complexes
Si le spectre d’un son est composé d’une bande d’amplitude importante, une (ou
plusieurs) hauteur peut être perçue :
amplitude(dB)
f0 f1f fréquence(Hz)
Bandes étroites : la hauteur perçue corre-
spond à la fréquence centrale
Exemple
f1
amplitude(dB)
f0 fréquence(Hz)
Bandes larges : deux hauteurs
sont perçues correspondant à
peu près (4%) aux deux ex-
trémités de la bande
Bruit bande large, basses fréq, Bruit bande large, hautes fréq
ASSM– p. 27/134
Hauteur de bruit
Bruit ondulant (rippled noise))
Exemple
Bruit modulé (AM)
Exemple
Question : différenteforcede la hauteur perçue. . .
ASSM– p. 28/134
Non linéarités de l’oreille
Deux fréquencesfm et fM proches :
deux hauteurs distinctes peuvent être perçues
Une seule hauteur peut être perçue, mais avec des battementsquand
fm≈ n fM(n entier positif)
cosacosb = 0.5(cos(a+b)+cos(a−b))
Exemples :
1000Hz+1004Hz
ASSM– p. 29/134
Durée et hauteur
Test durée sinusoïdes
3 sinusoïdes : 300, 1000, 3000 Hz
1,2,4,8,16,32,64,128 périodes
Combien de périodes pour entendre une hauteur ?
ASSM– p. 30/134
Durée minimale
Quelle est la durée minimale pour percevoir une hauteur ?
La hauteur peut être perçue après seulement 3 ou 4 cycles pourdes
basses-fréquences
la durée nécessaire passe à 12 cycles à 1000Hz
cette durée augmente avec la fréquence
en cas d’attaque faible, des temps de reconnaissance descendant jusqu’à 3
ms sont possibles.
Exemple : besoin de 7 périodes pour détecter la hauteur correcte
1 période, 2 périodes
3 périodes, 4 périodes
5 périodes
6 périodes
7 périodes
ASSM– p. 31/134
Estimation de la hauteur
Nombreux algorithmes existent plus ou moins naïfs
Nombreuses applications
Transcription
Accompagnement automatique
Accordeur automatique
Recherche dans des bases de données
etc...
La détection automatique de hauteur est un problèmedifficile , même dans le casde sons quasi-harmoniques
ASSM– p. 32/134
Algorithmes d’estimation de la hauteur
Estimation de périodicités dans le domaine temporel
Recherche de motifs périodiques dans le spectre
Estimation de périoidicités dans le domaine spectral
Recherche de périodicités dans des sous-bandes (psychoacoustique)
Résultats similaires sur les deux domaines temporels/spectraux
ASSM– p. 33/134
Périodicités dans le domaine temporel
Méthodes basées sur la fonction d’autocorrélation
Parmi les méthodes les plus utilisées
parmi les plus simples
parmi les plus efficaces
rt(τ) =1N
t+W
∑n=t
x[n]x[n+ τ ]
ASSM– p. 34/134
Autocorrélation dans le domaine temporel
ASSM– p. 35/134
Autocorrélation dans le domaine temporel
Autre définition [Rabiner/Shafer 78] :
rt(τ) =1N
t+W−τ∑n=t
x[n]x[n+ τ ]
Méthode : trouver le pic le plus important qui n’est pas enτ = 0
Autocorrélation périodique
Difficulté de trouver le pic correspondant à la hauteur perçue
Risque de prendre un pic proche deτ = 0 (2ème déf)
Risque de prendre un pic multiple (1ère déf)
ASSM– p. 36/134
Autocorrélation dans le domaine temporel
ASSM– p. 37/134
Différence dans le domaine temporel
Pour un signal périodique (de périodeT)
x(t)−x(t +T) = 0
Calcul de la différence (au carré)
dt(τ) =t+W
∑n=t
(x[n]−x[n+ τ ])2
Recherche des valeurs nulles
La première (pourτ 6= 0) doit correspondre à la période du signalLien avec autocorrélation
dt(τ) = rt(0)+ rt+τ(0)−2rt(τ)
ASSM– p. 38/134
Différence dans le domaine temporel
Algorithme YIN [DeCheveigné 2002]
Difficulté de trouver la première valeur presque nulle
modification de la définition
Cumulative Mean Normalized Difference Function
d′t (0) = 1
d′t (τ) = dt(τ)/1τ
τ
∑n=1
dt(n)
ASSM– p. 39/134
Différence dans le domaine temporel
ASSM– p. 40/134
Force de la hauteur perçue
Estimation du Pitch Strength [Yost 78]
pitch strength=rt(τm)rt(0)
Plus le pic secondaire est important, plus la hauteur est perçue
Expériences psychoacoustiques
Utile notamment avec les sons bruités
ASSM– p. 41/134
Recherche de motifs périodiques dans le spectre
Corrélation (ou intercorrelation) par un peigne
Rt(τ) =1N
t+W−τ∑n=t
x[n]y[n+ τ ]
signal de type somme de gaussiennes:
Limites : harmonicité n’est pas parfaite. . .
ASSM– p. 42/134
Estimation de périodicités en spectral
Spectre d’un son harmonique estpériodique
Autocorrélation du spectre
r(k) =2N
N2−m−1
∑m=0
|X(k)||X(k+m)|
Précision fréquentielle permet de prendre en compte d’éventuelles
inharmonicités
ASSM– p. 43/134
Multi Pitch
Polyphonie : plusieurs notes jouées en même temps
Limites des méthodes précédentes dédiées à la monophonie
Problème lié aussi à la séparation de sources
Problème très difficile
Sources sonores variées
Intervalle de notes possibles important
Musique : présence de batterie, de bruit
ASSM– p. 44/134
Monophonie/Polyphonie
Deux parties du spectre se chevauchent : pas de moyen direct de les
séparer
Somme des complexes
Deux sons harmoniques consonnants : plusieurs harmoniquescommunes
ASSM– p. 45/134
Multi F0
Itération sur estimation monophonique [Cheveigné 99]
Groupement des partiels [Bregman, Kashino 95]
Approche statistique [Davy 03, Goto]
Limites :
Préconnaissance du timbre
Préconnaissance du nombre de sources
ASSM– p. 46/134
Multi F0
Méthode robuste [Klapuri 03]
Estimation puis suppression du bruit
Estimation de la hauteur prédominante (pic le plus important)
Sauvegarde de la note correspondante
Suppression de la note du spectre
Amélioration : ajout d’informations musicales. . .
ASSM– p. 47/134
Polyphonie
Mélodie
Tonalité (pour le musique tonale. . . )
Limite de la transcription polyphonique/d’accords
Prise en compte du contexte tonal local :chromasouPitch Class Profile
ASSM– p. 48/134
Chromas
Principe :
Intensité (énergie) des douze demi-tons
M( f ) = round(12. log2(f
frefmod12)
Chromas PCP
PCP(n) = ∑M( fk)=n
|Xk|2
parfois sans le carré. . .
améliorations récentes : pics, 4/5 harmoniques,tuning, . . .
ASSM– p. 49/134
Plan : II
Amplitude/Volume/Rythme
ASSM– p. 50/134
Définitions et différences
L’intensité d’un son est un paramètre physique, lié à son amplitude
L’intensité perçue :
paramètre perceptif appelésonie(loudness)
corrélation forte avec l’amplitude du signal
Différences s’expliquent par le système auditif
ASSM– p. 51/134
Limites de la perception
ASSM– p. 52/134
Perception du volume
Nombreux facteurs pris en compte
informations temporelles : enveloppe, durée, . . .
informations fréquentielles : spectre, répartition de l’énergie, . . .
Par exemple, l’intensité perçue d’une sinusoïde dépend de sa fréquence (Courbes
de Fletcher-Munson)
Maximum de sensibilité :[2700−3200]Hz. Ainsi, une sinusoïde de fréquence3000Hz est perçue plus fortement qu’une sinusoïde de fréquence 5000Hz ou
500Hz.
Sons complexes : chaque composant fréquentiel contribue à la sonie, mais de
nombreux phénomènes entrent en jeu : masquage, bandes critiques, . . .
ASSM– p. 53/134
Perception du volume (2)
Courbes d’intensité perçue (sonie) constante (Fletcher etMunson 1933)
ASSM– p. 54/134
Perception du volume (2)
Exemples
Oscillateurs, différentes fréquences, amplitudes égales
Oscillateurs, différentes fréquences, intensités perçues égales
ASSM– p. 55/134
Perception de l’intensité
L’oreille perçoit l’intensité selon une échelle logarithmique→ unité décibels(1dB= 10bels= 10log10(
II0
))
Comme la pression acoustique est la racine carré de l’intensité (I = P2), nous
pouvons définir le niveau sonoreL (sound level) :
L(x) = 20log(P(x)P0
)
oùP0 est la pression acoustique de référence (10−5 Pa), correspondant au seuil
de l’audition à 1000Hz.
ASSM– p. 56/134
Perception de l’intensité
Comme l’amplitude est proportionnel à la pression acoustique, le niveau sonore
est donc défini par :
L(x) = 20log(A(x)A0
)
ASSM– p. 57/134
Perception de l’intensité
VolumeV d’un son est fortement corrélé au niveau sonoreL
Hypothèse couramment admise :
V = L
Le volume est considéré égal au niveau sonore. On parle couramment aussi
d’amplitude du signal (en dB), ou d’intensité perçue.
ASSM– p. 58/134
Amplitude
L’intensité perçue d’un signal est donc donnée par l’amplitude du signal en
décibels.
L’amplitude en décibels (dB) du signal est donnée par :
AdB(s) = 20log(A(s)A0
)
où log représente le logarithme à base 10 etA0 l’amplitude de référence (0dB).
Que vaut l’amplitudeA d’un signal ?
ASSM– p. 59/134
Amplitude RMS
Première possibilité : échantillon maximum (en valeur absolue)
→ très discutable dès que le son est un peu plus complexeChoix : amplitude RMS (Root Mean Square)
ARMS(x) = limT→∞
√1T
∫ T
0x2(t)dt
ARMS(x) =
√1N
N
∑n=1
x2[n]
ASSM– p. 60/134
Intensité perçue d’une sinusoïde
Volume associé à une sinusoïde pure d’amplitudea0 :
ARMS(x) = limT→∞
√1T
∫ T
0a0 sin2(ω
nFs
+φ)dt
=a0√
2
Volume associé à un signal aléatoire :
ARMS(X) = σ
ASSM– p. 61/134
Échelle des décibels (dB)
échelle communément utilisée pour représenter le volume
V(A) = 20 log10
(A
A0dB
)
A(V) = A0dB 10V/(20dB)
dB SPL (Sound Pressure Level) standards:A0dB = 10−6
les volumes audibles vont approximativement de 0 à 120 dB (avion à
réaction au décollage, seuil de la douleur. . . )
120dB : 1.000.000/1
Conversation 70dB
Chuchottement 30dB
ASSM– p. 62/134
Intensité perçue et durée
L’intensité perçue augmente avec la durée, jusqu’à 0.2 secondes
A peu près 20dB de protection par réflexes (tympan, osselets)sur les sons
de plus de 85dB
Ce réflexe ne débute pas avant 30/40 ms, et la protection n’est pas
maximale avant 150ms
Ainsi, sons d’explosions se produisent trop rapidement pour ne pas blésser
les oreilles. . .
ASSM– p. 63/134
Bandes critiques
Notion introduite par Fletcher en 1940
Explique le masquage d’une sinusoïde par un bruit de large bande
Bruit est centré sur la fréquenceF :
le seuil de perception de la sinus est plus important
le bruit masque la sinus, même à des amplitudes plus fortes
Si la largeur dF de la bande de bruit augmente, le seuil de perception
augmente
Toutefois, il y a une valeur de dF pour laquelle le seuil n’augmente
plus :
dF = Bande critique centrée enF Hz
ASSM– p. 64/134
Bandes critiques
Lien entreJust Noticeable Differenceet Bandes critiques
Deux sinus 100Hz et 110Hz jouées, deux hauteurs non perçues
Explication : largeur de la bande critique à 100 Hz est de 80Hz
Deux sinusoïdes à l’intérieur de la même bande critique
Si bandes critiques différentes, deux hauteurs perçues (pas de rugosité/battement)
Pour éviter une rugosité, besoin de séparer d’une bande critique.
ASSM– p. 65/134
Bandes critiques
l’oreille intègre certaines bandes de fréquence du spectreaudible
pour chaque fréquence, il y a une bande critique centrée en cette fréquence
la largeur de chaque bande est d’exactement 1 Bark (ou ERB)
24 bandes critiques suffisent pour couvrir l’étendue du spectre:
numéro début centre fin
1 20 50 100
2 100 150 200
3 200 250 300
4 300 350 400
5 400 450 510
6 510 570 630
7 630 700 770
8 770 840 920
9 920 1000 1080
10 1080 1170 1270
11 1270 1370 1480
12 1480 1600 1720
numéro début centre fin
13 1720 1850 2000
14 2000 2150 2320
15 2320 2500 2700
16 2700 2900 3150
17 3150 3400 3700
18 3700 4000 4400
19 4400 4800 5300
20 5300 5800 6400
21 6400 7000 7700
22 7700 8500 9500
23 9500 10500 12000
24 12000 13500 15500(valeurs des fréquences en Hz)
ASSM– p. 66/134
Échelle Bark (d’après Barkhausen)
les fréquences audibles vont approx. de 20 Hz à 22 kHz
beaucoup plus proche de la perception
que l’échelle linéaire Hertz
1 Bark = 100 mels
B(F) =
F/100 si F ≤ 5009+4 log2(F/1000) si F > 500
F(B) =
100B si B≤ 51000·2(B−9)/4 si B > 5
ASSM– p. 67/134
Bark vs ERB
Equivalent Rectangular Bandwidth (ERB) (ERB en Hz,F fréq centrale en kHz)
ERB= 24.7(4.37F +1)
Bark :Eberhard Zwicker et al. (München)
ERB: Brian Moore et al. (Cambridge)
ASSM– p. 68/134
Seuil d’audibilité
les volumes audibles vont approximativement de 0 à 120 dB
toutefois le seuil de sensibilité en amplitudeSa dépend de la fréquence
les partiels dont les volumes sont inférieurs au seuil ne sont pas audibles
Sa( f ) = 3.64( f/1000)−0.8−6.5e−0.6( f/1000−3.3)2 +10−3( f/1000)4
0 5 10 15 20 25 30−20
0
20
40
60
80
100
120seuil d’audibilité
fréquence (Bark)
ampl
itude
(dB)
seuil d’audibilitéSaASSM– p. 69/134
Amplitude et dynamique
Plan musical (échelle macroscopique) :
La dynamique d’un morceau est déterminée par les variationsd’amplitude
d’un son ou d’un ensemble de sons composant le morceau.
Variations à l’échelle microscopique :
Variations linéaires :fade-in, fade-out
Variations périodiques (< 20Hz) : tremolo
Variations périodiques plus rapides : rajout de composantsspectraux
=⇒ synthèse parmodulation d’amplitude (AM)
ASSM– p. 70/134
Variations périodiques
L’amplitude d’une sinusoïde varie périodiquement (modulée)
x(t) = sin(2π f t)sin(2πFt +φ)
=12
cos(2π(F + f )t +φ)− 12
cos(2π(F− f )t +φ)
=12
sin(2π(F + f )t +φ +π2
)+12
sin(2π(F− f )t +φ − π2
)
si f est faible (< 20Hz), sinusoïde dont l’amplitude varie
sinon, deux sinusoïdes distinctes dans le spectre
Le premier cas implique une variation périodique de l’enveloppe temporelle
ASSM– p. 71/134
Enveloppe temporelle
Importance sur le plan de la perception (rugosité)
0 0.005 0.01 0.015 0.02−1
−0.5
0
0.5
1
ampl
itude
→
t (s) →
0 0.005 0.01 0.015 0.02−1
−0.5
0
0.5
1
ampl
itude
→
t (s) →
deux enveloppes temporelles de deux signaux simples: une sinusoïde laisse une
impression de stabilité car son enveloppe temporelle est constante, alors qu’un
signal composé de plusieurs sinusoïdes donne une impression de mouvement.
ASSM– p. 72/134
Enveloppe temporelle : définition
Enveloppe temporelle : courbe de plus faibles variations qui enveloppele signal
L’enveloppe temporelle est liée auxdifférencesentre les composants spectrauxd’un son. Rappel :
cos(2π(F− f )t +φ) = 12
sin(2π(F + f )t +φ +π2
)+12
sin(2π(F− f )t +φ − π2
)
L’enveloppe temporelle est ici une sinusoïde de fréquencef .
Attention : différence entre enveloppe temporelle et enveloppe spectrale
ASSM– p. 73/134
Transitoires, Note Onsets
Les transitoires sont assimilées à tous les phénomènes de brusques
variations temporelles d’amplitude dans un signal.
Attaques: très courte durée durant laquelle le son monte en amplitude
avant d’atteindre sa valeur maximale.
Cette période correspond à une hausse rapide d’énergie danstout le
spectre, notamment dans les fréquences aiguës.
ASSM– p. 74/134
Transitoires (2)
La représentation théorique de l’enveloppe temporelle dynamique d’une note de
musique est divisée en quatre parties (ADSR) :
l’attaque (attackest la première partie
le déclin (decay) est la durée du son du haut de l’attaque jusqu’au point où
le son commence à garder une amplitude constante et soutenue
le soutien (sustain) est la partie durant laquelle le son est conservé à un
niveau constant jusqu’à son relâchement
le relâchement (release) est égal à la durée de la baisse d’intensité
jusqu’au silence.
ASSM– p. 75/134
ADSR
temps
ampl
itude
A
D
S
R
Illustration de l’enveloppe temporelle d’une note de musique. Quatre intervalles
(ADSR) sont définis: l’attaque (attack), le déclin (decay), le soutien (sustain) et
le relâchement (release)
ASSM– p. 76/134
Transitoires (3)
Des transitoires sont également présentes dans des sons complexes, notamment
des sons bruiteux, sous forme de fortes variations d’énergie très localisées.
exemple : le bruit des impacts de gouttes de pluie≈ succession de transitoires.
Les attaques sont perçues comme desclics dans le son et sont d’une grande
importance dans le réalisme de sons instrumentaux notamment. Elles jouent
également un rôle prépondérant dans la perception dutimbre .
ASSM– p. 77/134
Transitoires : exemple
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
Sig
nal
t/s →
Exemple d’un bruit naturel issu d’une machine contenant unetransitoire, dont
l’origine est matérialisée par la ligne pointillée (à peu près 0.4s).
ASSM– p. 78/134
Algorithmes d’estimation de note onset
La méthode idéale n’existe pas
Plusieurs techniques
En général basées sur les variations d’énergie
en représentation temporelle
en représentation spectrale
Choix selon l’application ou le type de musique
ASSM– p. 79/134
Applications
Transcription automatique de musique
Études d’interprétations musicales
Synchronisation de flux audio
Étirement temporel de morceaux de musique
Analyse rythmique
Métrique (chiffrage)
Tempo
Étude du rythme dans la parole
ASSM– p. 80/134
Algorithmes d’estimation de note onset
EnergieE obtenue à partir de la représentation temporelle ou spectrale:
E = ∑k
|Xf (k)|2 = ∑k
x[k]2
Analyse par fenêtres successivesEr
Etude des variations
ASSM– p. 81/134
Variations d’énergie
seuilK0Er > K0
Problème choix du seuil. . .
Comparaison de l’énergie avec une énergie moyenne
Er1T ∑
Tt=1Er−t
>> 1
Seuil fixé, mais indépendant du volume
ASSM– p. 82/134
Variations d’énergie
Variations d’énergie des hautes fréquences
High frequency contentHFC
HFCr = ∑k
[|Xf (k)|2.k]
Fr =HFC2r
HFCr−1Er
ASSM– p. 83/134
Variations d’énergie
Analyse de l’énergie par sous-bandes [Scheirer 98]
Flux spectral [Alonso 04]
S F r = ∑k
H(|Xr(k)|− |Xr−1(k)|)
H rectification demi-bandeH(x) = x+|x|2
Distance modifiée de Kullback-Leibler [Peeters 01]
DKL = ∑k
F (Xr (k)
Xr−1(k))
∀x > 0, F (x) = log2(x)
ASSM– p. 84/134
Sélection des note onsets
Seuils (fausses alarmes/oublis)
Indépendance du volume
Deux onsets trop proches ne peuvent pas être sélectionnés
choix dépendant de l’application
Par exemple en détection de tempo : pas deux onsets trop proches
ASSM– p. 85/134
Rythme : variations d’amplitude
Le rythme est avant tout un phénomèneperceptif.
perception involontaire de toute série d’événements entre0.4 et 10 Hz
Pour des fréquences supérieures, une hauteur (ou une rugosité) est perçue.
ASSM– p. 86/134
Pulsation/tempo
La pulsation (beat) fait référence aux impulsions perçues
Le tempo (tempo) indique la fréquence à laquelle les notes de musiquesont jouées. Il représente donc la vitesse des pulsations. Unités: pulsations
par minute (BPM)
ASSM– p. 87/134
Estimation de tempo, de rythme
Méthode générale
Détection de note onsets
Suppression de note onsets trop proches
Recherche de périodicités : tempo
Autocorrélation
Localisation des temps
Corrélation par un peigne
Analyse rythmique/métrique
Histogrammes des IOIs
Rapports entre les périodes
ASSM– p. 88/134
Exemple : MCP
60 70 80 90 100 110 120−1
−0.5
0
0.5
1Audio waveform
time (s)
ampl
itude
60 70 80 90 100 110 1200
0.05
0.1
0.15
0.2Onset curve (Spectral flux)
Temporal location of events (in s.)
coef
ficie
nt v
alue
0 1 2 3 4 5 6 7 8 9−0.2
0
0.2
0.4
0.6Onset autocorrelation
lag (s)
coef
ficie
nts
0 2 4 6 8 10 12 14 16 18 200
1
2
3
4
5Onset spectrum
frequency (Hz)
mag
nitu
de
11 9 7 5 4 3 2 1/2 1/3 1/4 1/6 1/8 1/120
0.2
0.4
0.6
0.8
beat multiple/subdivision
ampl
itude
Meter Class Profile
ASSM– p. 89/134
Remarques :
Masquage
ASSM– p. 90/134
Phénomène de masquage
physiquement,
l’addition de signaux de même amplitude:
est régie par une loi d’addition non linéaire
qui donne un maximum de 6 dB
(amplitude doublée pour deux signaux identiques en phase)
perceptivement,le seuil de perception est modifié pour un sonm (masqué)
quand il est joué en même temps qu’un son plus fortM (masquant)
ASSM– p. 91/134
Masquage temporel
2 sortes de masquages temporels:
post-masquage
survient quand le son masquant disparaît
l’effet du masquage fréquentiel persiste alors,
en s’estompant
pendant plusieurs millisecondes (20 30 ms) après cette disparition
pré-masquage
plus surprenant. . .
l’effet de masquage est actif quelques millisecondesavant que le sonmasquant n’apparaisse vraiment
toutefois ce phénomène est beaucoup moins prononcé
ASSM– p. 92/134
Masquage fréquentiel : exemples
Deux oscillateurs :
440Hz, amplitude constante
entre 660 et 880Hz, entre−37 et−57 dBperçoit pas la deuxième. . .
Juste la première sinusoïde
Juste la seconde sinusoïde
ASSM– p. 93/134
Masquage fréquentiel
ASSM– p. 94/134
Masquage fréquentiel (simultané)
cas oùM etmsont deux sinusoïdes (sons purs / simples)
de fréquences respectivesfM et fm
d’amplitudes respectivesaM etam (on supposeaM > am)
si fm est proche defM, le sonmest masqué par le sonM
⇒ m peut devenir inaudible
amplitude (dB)
fM fm fréquence (Bark)
l’effet de masquage est maximal lorsquefm et fM sont proches
ASSM– p. 95/134
Exemple: cas d’un son harmonique
son complexe (superposition de sons simples)
( fp,ap)
fréquence
amplitude
F
ASSM– p. 96/134
Modèle: triangle de masquage
évaluation du rapport signal / masque (signal-to-mask ratio, SMR) de chaque partiel
le seuil de masquage est quasiment un triangle en échelles Bark-dB:
la différence∆ entre le volume du partiel masquant et son masque (-10 dB)le demi-triangle de masquage vers les fréquences basses (pente gauche: 27 dB/Bark)
le demi-triangle de masquage vers les fréquences élevées (pente droite: -15 dB/Bark)
∆
SMR
amplitude (dB)
fM fm fréquence (Bark)en réalité:
le sommet du triangle est plus émoussé. . .
la pente de droite peut varier avec la fréquence ASSM– p. 97/134
Exemple de masqueM
p2
p3
p4
p5
p1 M
∆
amplitude (dB)
fréquence (Bark)
ASSM– p. 98/134
Exemple de masqueM (suite)
5 partiels et le masque associéM (ligne polygonale en gras):
p1, p2 et p4 sont des partiels masquants
et contribuent au masqueM
(les zones de fréquence de leurs contributions sont représentées par des rectangles)
p5 n’est ni masquant ni masqué
p3 est masqué (parp2)
ASSM– p. 99/134
Construction du masqueinitialement, le masque est mis à zéro:M← 0 (−∞ dB)puis les partiels sont parcourus paramplitudes décroissantes
pour chaque partielp de fréquencefp et d’amplitudeap (de volumeV(ap)),
3 cas peuvent se produire:
1. siM( fp)+∆ < V(ap),alorsp est un partiel masquantetM doit être mis à jour avec sa contribution;
2. siM( fp) < V(ap)≤M( fp)+∆,alorsp n’est ni masquant ni masqué;
3. siV(ap)≤M( fp),alorsp est simplement masqué.
On met à jour le masqueM itérativement, en conservant la plus grande valeur entre letriangle de masquage associé au partiel courantp et l’ancienne valeur deM.On fait cela pour chaque composante de la DFT.
ASSM– p. 100/134
Exemple (0/5)
p2
p3
p4
p5
p1 M
amplitude (dB)
fréquence (Bark)
ASSM– p. 101/134
Exemple (1/5)
p2
p3
p4
p5
p1 M
∆
amplitude (dB)
fréquence (Bark)
ASSM– p. 102/134
Exemple (2/5)
p5
p4
p3
p2
p1 M
amplitude (dB)
fréquence (Bark)
ASSM– p. 103/134
Exemple (3/5)
p2
p3
p4
p5
p1 M
amplitude (dB)
fréquence (Bark)
ASSM– p. 104/134
Exemple (4/5)
p4
p3
p2
p1
p5
M
amplitude (dB)
fréquence (Bark)
ASSM– p. 105/134
Exemple (5/5)
p4
p3
p2
p1
p5
M
amplitude (dB)
fréquence (Bark)
ASSM– p. 106/134
Application: compression MPEG
oublier les composantes inaudibles
pour gagner de l’espace mémoire
principales étapes d’un codeur MPEG I/II niveau 3 (“MP3”):
1. analyse spectrale (Fourier)
2. modèle psychoacoustique: calcul du masque
3. en fonction du rapport signal / masque (SMR),
quantifier l’amplitude des composantes spectrales
sur un nombre de bits différent
exemple:
SMR = 10 dB → 16 bits. . .
SMR < 0 dB → 0 bits4. puis codage entropique (Huffman), sans perte
ASSM– p. 107/134
Application: tatouage audio
watermarkingaudionumérique
rajouter des informations inaudibles au sein d’un son existant
applications:
protection de la propriété intellectuelle
(inclusion ducopyright)
transmission discrète d’informations stratégiques
ASSM– p. 108/134
Masquage
. . . un sonfort peut rendre un sonfaible inaudible : dépend des fréquences et
des amplitudes
Sinusoïdes pures proche en fréquence se masquent plus facilement.
Une sinusoïde pure masque plus facilement les sinusoïdes defréquence
plus aigüe que plus grave
Plus l’intensité de la sinusoïde masquante est forte, plus large est la bande
de fréquence masquée
ASSM– p. 109/134
Illusions
Prise en compte de la psychoacoustique pour créer des effetsmusicaux
Glissando infini 1
Glissando infini 2
Ruled by Secrecy
Rythme augmentant à l’infini
Une mélodie de silences
Sept sinusoïdes en continu (C,F,G,A,Bb,C,D) et des courtstroustemporels
mélodie mystérieuse (Deutsch 1972) 1 2
Une même mélodie jouée alétoirement sur trois octaves. Puisla mélodie
sur une seule octave. En réécoutant la première mélodie, on retrouve la
mélodie. . .
Continuité des hauteurs
Une sinusoïde interrompu sur un temps court (50 ms), pendantlequel un
bruit est joué. L’oreille perçoit la sinusoïde comme continue.
ASSM– p. 110/134
Plan : III
Timbre/Enveloppe spectrale
ASSM– p. 111/134
Timbre : définition
Le timbre est un terme général musicalcomplexeIl définit un ensemble de propriétés d’un son
Il regroupe toutes les propriétés qui permettent de distinguer une même note
jouée avec le même volume provenant de deux instruments différents
Autre définition (psychoacoustique) : mécanismes perceptuels classifiant les
sons en famille
ASSM– p. 112/134
Timbre : perception
Enveloppe temporelle et timbre
Morceau de Bach
Notes inversées
Puis onde sonore inversée
Timbre différent
Pourtant spectre sur la durée de la note est le même. . .
ASSM– p. 113/134
MPEG 7
MPEG:Moving Picture Experts Group
descripteurs normalisés MPEG 7
pour indexer, classifier les sons
des centaines de descripteurs. . .
tentative de description dutimbre pour un son quelconque. . .
ASSM– p. 114/134
Timbre : définition (2)
Timbre fortement lié au spectre, en particulier l’enveloppe spectrale, maisaussi :
enveloppe temporelle
tremolo, vibrato
brillance
micro-variations des composantes spectrales
autres . . .
ASSM– p. 115/134
Enveloppe spectrale
L’enveloppe spectrale est l’enveloppe supérieure du spectre
L’enveloppe spectrale est souventlissée
L’enveloppe spectrale est définie sur un temps court (STFT),et varie au
cours du temps
Apparition de formes (bosses et/ou creux) qui évoluent lentement→ formants
ASSM– p. 116/134
Calcul de l’enveloppe spectrale
Calcul du spectre à court-terme (STFT)
Lissage de l’enveloppe
Plusieurs méthodes existent, par exemple :
Prédiction linéaire
Filtrage du cepstre
Approximations par des segments
autres . . .
ASSM– p. 117/134
Prédiction linéaire
Linear Prediction Coding (LPC)ou autoregression (AR)
Modèle excitateur/résonnateur
entrée : plusieurs échantillons
définir un filtre tel quex[n+1] soit obtenu en filtrant lesn chénatillons
précédents (prédiction)
s[n] =p
∑i−1
(ais[n− i])−b[n]
p : ordre du filtre
p trop faible : spectre trop lisse
p trop important : trop de pics
ASSM– p. 118/134
Enveloppe spectrale : cepstre
Le cepstrec défini par :
c = F−1(log(F (x)))
oùF représente la transformée de Fourier.
Enveloppe spectrale: version lissée du spectre d’amplitude (en décibels),
c.a.d filtrage passe-bas du spectre à court terme.
signalx: sourcesmodifiée par un filtreh
x = s∗h
log(X) = log(S)+ log(H)
Enveloppe spectrale = contribution deH = faibles valeurs de log(X).
ASSM– p. 119/134
Enveloppe spectrale : cepstre
En pratique;
cepstre évalué selon
c = F−1(log(F (x)))
p premières valeurs du cepstre sont préservées, les autres sont mises à zéro
Ordrep : forcede l’effet de lissage
Echantillonnage de l’enveloppe lissée non modifié
Pas applicable en compression
Peu employée pour des modèles sinusoïdaux : l’enveloppe définie ne
passe pas forcément par les pics
Mais applicable pour les bruits/résidus/etc. . .
ASSM– p. 120/134
Enveloppe spectrale : cepstre
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104
−80
−60
−40
−20
0
X(f
)/dB
f/Hz →
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104
−80
−60
−40
−20
0
S(f
)/dB
f/Hz →
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104
−80
−60
−40
−20
0
S(f
)/dB
f/Hz →
Illustration de la représentation mathématique de l’enveloppe spectrale d’un son
(voix prononçant un “s”) par le cepstre par 50, 75 et 25 coefficients.
ASSM– p. 121/134
Enveloppe spectrale : segments
Suite dep fenêtres fréquentielles de tailleQ échantillons:
p =N2Q
(1)
∀k∈ [0;p−1], Ik = [kQ;(k+1)Q[ (2)
Ik: intervalles de fréquence définis par lesp fenêtres fréquentielles de
taille Q.
Pour chaque intervalleIk, la valeur du maximum d’amplitude du spectre
est cherchée.
max est affecté à l’intervalle des fréquences correspondant, et plus
particulièrement à la fréquence du centref kc de cet intervalle:
f kc =k+1
2Q (3)
un nouveau spectre noté̃Sest défini à partir dep pointsASSM– p. 122/134
Enveloppe spectrale : segments
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104
−80
−60
−40
−20
0
X(f
)/dB
f/Hz →
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104
−80
−60
−40
−20
0
X(f
)/dB
f/Hz →
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x 104
−80
−60
−40
−20
0
X(f
)/dB
f/Hz →
Illustration de la représentation mathématique de l’enveloppe spectrale d’un son
(voix prononçant un “s”) par segmentation (64, 32 et 128 segments).ASSM– p. 123/134
Timbre : brillance, flux spectral
La brillance est corrélée au centroïde spectralCr :
Cr =∑
N2k=1kSr(k)
∑N2k=1Sr(k)
paramètre particulièrement sensible pour les trompettes.. .
Le flux spectral est le carré de la différence entre deux spectresS
normalisés successifs :
Fr =
N2
∑k
(Sr(k)−Sr−1(k))
ASSM– p. 124/134
Plan
Descripteurs Sonores
ASSM– p. 125/134
Descripteurs sonores: intérêt
Représentation temporelle ou spectrale d’un son
Beaucoup d’information
mais peu informative
Réduction du signal
sur un seul réel (par ex. volume)
sur quelques réels (par ex. histogrammes)
Descripteurs (features) haut/bas niveau
ASSM– p. 126/134
Descripteurs sonores
Classification d’un morceau de musique en rock
Présence de certains instruments
Batterie
Guitare électrique
Présence de voix chantée (hurlée ?)
Harmoniesimple
Paroles sur la drogue, la révolution, la jeunesse, . . .
Production : compression, effets type chorus/flanger, . . .
Descripteurshaut-niveau
ASSM– p. 127/134
Descripteurs sonores
haut-niveau
ont du sens
sont présents dans le signal
très durs à analyser automatiquement
recherche de descripteurs pour estimer des descripteurs. ..
bas-niveau
simples à claculer
plus difficiles à faire le lien avec le sens musical
peut être utilisé par moteurs statistiques
ASSM– p. 128/134
Descripteurs sonores
Audio features
Applications:
Indexation
Classification
Similarité
. . .
Très nombreux
Origine: souvent travaux sur la parole (MFCC par exemple)
Essai d’automatisation de la découverte de descripteurs (Sony EDS)
ASSM– p. 129/134
Descripteurs temporels
Enveloppe ADSR (temps d’attaque, sustain, . . . )
Centroïde temporel (instrument percussif6= avec sustain)
ct =∑t e(t)t∑t e(t)
Autocorrélation (premiers coefficients)
a(τ) = ∑n
x(n)x(n+k)
Zero-Crossing Rate (ZCR) (sons percussifs)
son périodique : faibles valeurs
son bruité : hautes valeurs
Energie
totale
harmoniques
bruit
Moyenne, variance, . . .
Dérivée ASSM– p. 130/134
Descripteurs spectraux
STFT puis calcul de descripteurs du spectre
Centroïde spectral (brillance)
Spectral spread (variance)
Skewness spectral (énergie dans les basses/hautes fréq.)
Kurtosis spectral (forme de l’enveloppe spectrale)
Pentedu spectre (spectral slope)
Rool-Off (95% énergie avant)
Variations du spectre (flux spectral, . . . )
Spectral Flatness
ASSM– p. 131/134
Descripteurs spectraux
Forme globale du spectre : MFCC (Mel Frequency Cepstral Coefficient)
Trames, Transformée de Fourier
log du spectre d’amplitude
Passage à l’échelle mel
mel( f ) = 2595log10(1+f
700)
Filtres triangulaires (centrés sur les mels)
Transformée en cosinus discrète (DCT)
y(k) =N
∑n=1
w(n)x(n)cos(π(2n−1)(k−1)
2N)
12 premiers coefficients
Très utilisés, notamment pour la discrimination Parole/Musique.
ASSM– p. 132/134
Descripteurs spectraux
Liés aux modèles des sons harmoniques
Inharmonicité
Part de bruit
Déviations harmoniques
Rapport énergies harmoniques paires/impaires
. . .
ASSM– p. 133/134
Descripteurs perceptifs
Descripteurs liés à des modèles psychoacoustiques
Intensité perçue
IP par bande Bark
. . .
Liste de tous les descripteurs MPEG-7 : IRCAM (Projet CUIDADO)
ASSM– p. 134/134
ObjectifParamètresPlan~: IFréquence/hauteurPerception des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquences
Discrimination des fréquencesFréquence/hauteur en MusiqueNote et octaveFréquence/noteFréquence/note (2)Variations des fréquencesSpectreSons harmoniquesSons harmoniques (2)Sons quasi-harmoniquesSons quasi-harmoniques: exempleSons inharmoniquesSons inharmoniques: exempleSons harmoniques/inharmoniquesSons complexes~: mélanges de sonsHauteur des sons harmoniquesFondamentale manquanteSons complexesHauteur des sons complexesHauteur de bruitNon linéarités de l'oreilleDurée et hauteurDurée minimaleEstimation de la hauteurAlgorithmes d'estimation de la hauteurPériodicités dans le domaine temporelAutocorrélation dans le domaine temporelAutocorrélation dans le domaine temporelAutocorrélation dans le domaine temporelDifférence dans le domaine temporelDifférence dans le domaine temporelDifférence dans le domaine temporelForce de la hauteur perçueRecherche de motifs périodiques dans le spectreEstimation de périodicités en spectralMulti PitchMonophonie/PolyphonieMulti F0Multi F0PolyphonieChromasPlan~: IIDéfinitions et différencesLimites de la perceptionPerception du volumePerception du volume (2)Perception du volume (2)Perception de l'intensitéPerception de l'intensitéPerception de l'intensitéAmplitudeAmplitude RMSIntensité perçue d'une sinusoïdeÉchelle des décibels (dB)Intensité perçue et duréeBandes critiquesBandes critiquesBandes critiquesÉchelle Bark (d'après Barkhausen)Bark vs ERBSeuil d'audibilitéAmplitude et dynamiqueVariations périodiquesEnveloppe temporelleEnveloppe temporelle~: définitionTransitoires, Note OnsetsTransitoires (2)ADSRTransitoires (3)Transitoires~: exempleAlgorithmes d'estimation de note onsetApplicationsAlgorithmes d'estimation de note onsetVariations d'énergieVariations d'énergieVariations d'énergieSélection des note onsetsRythme~: variations d'amplitudePulsation/tempoEstimation de tempo, de rythmeExemple : MCPRemarques~:Phénomène de masquageMasquage temporelMasquage fréquentiel : exemplesMasquage fréquentielMasquage fréquentiel (simultané)Exemple: cas d'un son harmoniqueModèle: triangle de masquageExemple de masque $M$Exemple de masque $M$ (suite)Construction du masqueExemple (0/5)Exemple (1/5)Exemple (2/5)Exemple (3/5)Exemple (4/5)Exemple (5/5)Application: compression MPEGApplication: tatouage audioMasquageIllusionsPlan~: IIITimbre~: définitionTimbre~: perceptionMPEG 7Timbre~: définition (2)Enveloppe spectraleCalcul de l'enveloppe spectralePrédiction linéaireEnveloppe spectrale~: cepstreEnveloppe spectrale~: cepstreEnveloppe spectrale~: cepstreEnveloppe spectrale~: segmentsEnveloppe spectrale~: segmentsTimbre~: brillance, flux spectralPlanDescripteurs sonores: intérêtDescripteurs sonoresDescripteurs sonoresDescripteurs sonoresDescripteurs temporelsDescripteurs spectrauxDescripteurs spectrauxDescripteurs spectrauxDescripteurs perceptifs