Analyse et Synth se du Son Musical - Université de Bordeauxhanna/ASSM/ASSMOLD/Cours/4... · 2011. 10. 28. · Image, Son, Multimedia Analyse et Synthèse du Son Musical Pierre Hanna

Image, Son, Multimedia

Analyse et Synthèse du Son Musical

Pierre [email protected]

Université de Bordeaux

ASSM– p. 1/134

Objectif

Objectifs du traitement du signal audio :

création musicale

écoute/compréhension

=⇒ lien fort entre paramètres mathématiques et paramètres musicaux.

ASSM– p. 2/134

Paramètres

Étude des différents liens entre :

Paramètres physiques

Paramètres perceptifs

Paramètres musicaux

Vocabulaire différent, définitions plus ou moins précises

ASSM– p. 3/134

Plan : I

Fréquence/Hauteur

ASSM– p. 4/134

Fréquence/hauteur

hauteur ou pitch : attribut du son définissant un ordre sur les sons.

La perception de la hauteur est corrélée à la fréquence

fréquence change : perception hauteur aussi

Aucune mesure directe de la hauteur

définitionpratique:

Ecoute d’un son

Ajuster la fréquence d’une sinusoïde pour que les hauteurs

correspondent

La fréquence de la sinusoïde est la hauteur

Problèmes : différentes réponses, cas des sons apériodiques, . . .

ASSM– p. 5/134

Perception des fréquences

Limite de perception des fréquences :

supérieures à 20000Hz : ultrasons

inférieures à 20Hz : pulsations

encore plus faibles : contrôle

Sinusoide pure

ASSM– p. 6/134

Discrimination des fréquences

Plus petite variation de fréquence qui peut être perçue

Just Noticeable Difference (JND)

JND des fréquences : dépend de la fréquence

ASSM– p. 7/134


Test JND

2 sinusoïdes: 1000 Hz + df

A : si deuxième plus aigü (d f > 0)

B : si deuxième plus grave (d f < 0)

Différence de fréquences : de 10 à 1 Hz

10 Hz : A,B,A,A

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

6 Hz : A,B,A,B

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

6 Hz : A,B,A,B

5 Hz : A,B,A,A

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

6 Hz : A,B,A,B

5 Hz : A,B,A,A

4 Hz : B,B,A,A

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

6 Hz : A,B,A,B

5 Hz : A,B,A,A

4 Hz : B,B,A,A

3 Hz : A,B,A,B

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

6 Hz : A,B,A,B

5 Hz : A,B,A,A

4 Hz : B,B,A,A

3 Hz : A,B,A,B

2 Hz : B,B,B,A

ASSM– p. 8/134


Test JND





10 Hz : A,B,A,A

9 Hz : A,B,B,B

8 Hz : B,A,A,B

7 Hz : B,A,A,B

6 Hz : A,B,A,B

5 Hz : A,B,A,A

4 Hz : B,B,A,A

3 Hz : A,B,A,B

2 Hz : B,B,B,A

1 Hz : B,A,A,B

ASSM– p. 8/134


Exemples : 10 sinusoïdes à 600Hz avec deuxtranspositions(aigu/grave)

4 % (24Hz)

2 % (12Hz)

1 %

0.5 %

0.25 %

Laquelle en premier/second : aigu ou grave ?

Oreille moins précise dans les basses fréquences (particulièrement en

dessous de 200 Hz)

Dépend des personnes

A peu près 0.5% sur la majeure partie de l’intervalle de perception

ASSM– p. 9/134

Fréquence/hauteur en Musique

En musique, deux dimensions :

note

octave

Exemple : MIDIA3 désigne unLa (A), 3ème octave,

Une sinusoïde de fréquence de 440 Hz donne une sensation de hauteur

équivalente.

ASSM– p. 10/134

Note et octave

Représentation sous forme d’hélice (Shepard) :

ASSM– p. 11/134

Fréquence/note

Lien entre la fréquenceF et la note de musiqueH :

fréquenceF exprimée en Hertz (Hz) (échelle linéaire)

hauteur perçueH (échelle logarithmique)

F = F02HH0

P = P0 +Olog2 (FF0

)

où oùP0 et F0 sont les hauteurs et les fréquences de référence.

ASSM– p. 12/134

Fréquence/note (2)

Fréf = F0 = 440 Hz,Hréf = H0 = 57

O = 12 (nombre de demi-tons par octave)

exemple:F = 880 Hz→ H = 69

F → 2·F ⇒ octave supérieureF → F/2 ⇒ octave inférieure

ASSM– p. 13/134

Variations des fréquences

Variations à l’échelle macroscopique : mélodie

Variations à l’échelle microscopique :

Variations linéaires :glissandoouportamento

Variations périodiques (< 20Hz) : vibrato

Variations périodiques plus rapides : rajout de composantsspectraux

=⇒ synthèse parmodulation de fréquence (FM)

ASSM– p. 14/134

Spectre

Spectre d’un son :

plusieurs fréquences apparaissent nettement

régulièrement

irrégulièrement

aucune fréquence n’a une amplitude vraiment important par rapport aux

autres

=⇒ selon les cas, perception de hauteur ou non

ASSM– p. 15/134

Sons harmoniques

fréquences composant le sonrégulièrement espacées :→ Son harmoniquede fondamentaleF0

2F0 3F0 6F0F0

amplitude

frequence

ASSM– p. 16/134

Sons harmoniques (2)

F0 : fréquencefondamentale(ou première harmonique)

kF0 : kème harmonique

aucun véritable exemple dans le monde réel :

=⇒ son harmonique est unmodèle

Exemple : Plusieurs sinusoïdes

Saxophone

Synthèse de guitare

ASSM– p. 17/134

Sons quasi-harmoniques

presque un son harmonique mais petits décalages (réguliersou non) entre les

harmoniques (warping)

2F0 +d f2 3F0 +d f3 6F0 +d f6F0

amplitude

frequence

Exemples : instrument à vent (saxo, flûte, . . . ), violon (cordes frottées), guitare

→majorité des sons instrumentaux

ASSM– p. 18/134

Sons quasi-harmoniques: exemple

Piano 156Hz

La 25ème harmonique théorique correspond à la 24ème. . .

ASSM– p. 19/134

Sons inharmoniques

harmoniquesprésentes ont des fréquences parfois très éloignées des multiples de

la fondamentale :sons inharmoniques

F0

amplitude

frequence4F0

Exemples : piano, gong, cloche, xylophone, . . .→ certains sons percussifsExemples:

Son harmonique, Son inharmonique

Cloche, Synthèse de clocheASSM– p. 20/134

Sons inharmoniques: exemple

Vibraphone 260Hz

A peu près périodique, mais non harmonique. . .

ASSM– p. 21/134

Sons harmoniques/inharmoniques

Harmoniques

Instruments à cordes : Piano, guitare, violon, etc.

Instruments à vent : Trompette, tuba, saxophones, clarinettes, etc.

Flutes

Orgues

Voix (parties voisées)

Inharmoniques

Instruments percussifs : xylophone, vibraphone, cloches,etc.

Batterie : cymbales, tambours, toms, etc.

ASSM– p. 22/134

Sons complexes : mélanges de sons

Certains sons sont en fait des mélanges de plusieurs sources:

mélanges sons harmoniques/bruit (Signal Noise Ratio SNR)

mélanges de plusieurs sons harmoniques

consonance

dissonance

Exemples :

accords majeurs (consonnants), quinte (par exemple un Do etSol ont des

harmoniques communes)

1/2 : octave

3/2 : quinte

4/3 : quarte

5/4 : tierce majeure, . . .

ASSM– p. 23/134

Hauteur des sons harmoniques

La hauteur est un paramètreperceptif

Le mécanisme de perception de la hauteur estcomplexe(informations spectraleset temporelles)

Sensibilité aux fréquencesnon continues(plus forte vers 2000−3000z)

Cas de sons harmoniques ou quasi-harmoniques :

Hauteur perçue= fréquence fondamentale

ASSM– p. 24/134

Fondamentale manquante

Exemple de difficultés sur la perception de la hauteur :

2F0 +d f2 3F0 +d f3 6F0 +d f6F0

amplitude

frequence

Cas de lafondamentale manquante: hauteur perçueF0 même si la fréquencecorrespondante est non présente dans le son

Exemple

Exemple 2 : normal, sans fondamentale, sans 2 premières harmoniques, . . .

ASSM– p. 25/134

Sons complexes

Certains sons présentent des spectres plus complexes :

Aucune ou très peu de fréquences d’amplitude importante et de durée

importante

Énergie répartie sur des bandes du spectre

Selon les bandes, hauteur(s) perçue(s) ou pas

ASSM– p. 26/134

Hauteur des sons complexes

Si le spectre d’un son est composé d’une bande d’amplitude importante, une (ou

plusieurs) hauteur peut être perçue :

amplitude(dB)

f0 f1f fréquence(Hz)

Bandes étroites : la hauteur perçue corre-

spond à la fréquence centrale

Exemple

f1

amplitude(dB)

f0 fréquence(Hz)

Bandes larges : deux hauteurs

sont perçues correspondant à

peu près (4%) aux deux ex-

trémités de la bande

Bruit bande large, basses fréq, Bruit bande large, hautes fréq

ASSM– p. 27/134

Hauteur de bruit

Bruit ondulant (rippled noise))

Exemple

Bruit modulé (AM)

Exemple

Question : différenteforcede la hauteur perçue. . .

ASSM– p. 28/134

Non linéarités de l’oreille

Deux fréquencesfm et fM proches :

deux hauteurs distinctes peuvent être perçues

Une seule hauteur peut être perçue, mais avec des battementsquand

fm≈ n fM(n entier positif)

cosacosb = 0.5(cos(a+b)+cos(a−b))

Exemples :

1000Hz+1004Hz

ASSM– p. 29/134

Durée et hauteur

Test durée sinusoïdes

3 sinusoïdes : 300, 1000, 3000 Hz

1,2,4,8,16,32,64,128 périodes

Combien de périodes pour entendre une hauteur ?

ASSM– p. 30/134

Durée minimale

Quelle est la durée minimale pour percevoir une hauteur ?

La hauteur peut être perçue après seulement 3 ou 4 cycles pourdes

basses-fréquences

la durée nécessaire passe à 12 cycles à 1000Hz

cette durée augmente avec la fréquence

en cas d’attaque faible, des temps de reconnaissance descendant jusqu’à 3

ms sont possibles.

Exemple : besoin de 7 périodes pour détecter la hauteur correcte

1 période, 2 périodes

3 périodes, 4 périodes

5 périodes

6 périodes

7 périodes

ASSM– p. 31/134

Estimation de la hauteur

Nombreux algorithmes existent plus ou moins naïfs

Nombreuses applications

Transcription

Accompagnement automatique

Accordeur automatique

Recherche dans des bases de données

etc...

La détection automatique de hauteur est un problèmedifficile , même dans le casde sons quasi-harmoniques

ASSM– p. 32/134

Algorithmes d’estimation de la hauteur

Estimation de périodicités dans le domaine temporel

Recherche de motifs périodiques dans le spectre

Estimation de périoidicités dans le domaine spectral

Recherche de périodicités dans des sous-bandes (psychoacoustique)

Résultats similaires sur les deux domaines temporels/spectraux

ASSM– p. 33/134

Périodicités dans le domaine temporel

Méthodes basées sur la fonction d’autocorrélation

Parmi les méthodes les plus utilisées

parmi les plus simples

parmi les plus efficaces

rt(τ) =1N

t+W

∑n=t

x[n]x[n+ τ ]

ASSM– p. 34/134

Autocorrélation dans le domaine temporel

ASSM– p. 35/134


Autre définition [Rabiner/Shafer 78] :

rt(τ) =1N

t+W−τ∑n=t

x[n]x[n+ τ ]

Méthode : trouver le pic le plus important qui n’est pas enτ = 0

Autocorrélation périodique

Difficulté de trouver le pic correspondant à la hauteur perçue

Risque de prendre un pic proche deτ = 0 (2ème déf)

Risque de prendre un pic multiple (1ère déf)

ASSM– p. 36/134


ASSM– p. 37/134

Différence dans le domaine temporel

Pour un signal périodique (de périodeT)

x(t)−x(t +T) = 0

Calcul de la différence (au carré)

dt(τ) =t+W

∑n=t

(x[n]−x[n+ τ ])2

Recherche des valeurs nulles

La première (pourτ 6= 0) doit correspondre à la période du signalLien avec autocorrélation

dt(τ) = rt(0)+ rt+τ(0)−2rt(τ)

ASSM– p. 38/134


Algorithme YIN [DeCheveigné 2002]

Difficulté de trouver la première valeur presque nulle

modification de la définition

Cumulative Mean Normalized Difference Function

d′t (0) = 1

d′t (τ) = dt(τ)/1τ

τ

∑n=1

dt(n)

ASSM– p. 39/134


ASSM– p. 40/134

Force de la hauteur perçue

Estimation du Pitch Strength [Yost 78]

pitch strength=rt(τm)rt(0)

Plus le pic secondaire est important, plus la hauteur est perçue

Expériences psychoacoustiques

Utile notamment avec les sons bruités

ASSM– p. 41/134

Recherche de motifs périodiques dans le spectre

Corrélation (ou intercorrelation) par un peigne

Rt(τ) =1N

t+W−τ∑n=t

x[n]y[n+ τ ]

signal de type somme de gaussiennes:

Limites : harmonicité n’est pas parfaite. . .

ASSM– p. 42/134

Estimation de périodicités en spectral

Spectre d’un son harmonique estpériodique

Autocorrélation du spectre

r(k) =2N

N2−m−1

∑m=0

|X(k)||X(k+m)|

Précision fréquentielle permet de prendre en compte d’éventuelles

inharmonicités

ASSM– p. 43/134

Multi Pitch

Polyphonie : plusieurs notes jouées en même temps

Limites des méthodes précédentes dédiées à la monophonie

Problème lié aussi à la séparation de sources

Problème très difficile

Sources sonores variées

Intervalle de notes possibles important

Musique : présence de batterie, de bruit

ASSM– p. 44/134

Monophonie/Polyphonie

Deux parties du spectre se chevauchent : pas de moyen direct de les

séparer

Somme des complexes

Deux sons harmoniques consonnants : plusieurs harmoniquescommunes

ASSM– p. 45/134

Multi F0

Itération sur estimation monophonique [Cheveigné 99]

Groupement des partiels [Bregman, Kashino 95]

Approche statistique [Davy 03, Goto]

Limites :

Préconnaissance du timbre

Préconnaissance du nombre de sources

ASSM– p. 46/134

Multi F0

Méthode robuste [Klapuri 03]

Estimation puis suppression du bruit

Estimation de la hauteur prédominante (pic le plus important)

Sauvegarde de la note correspondante

Suppression de la note du spectre

Amélioration : ajout d’informations musicales. . .

ASSM– p. 47/134

Polyphonie

Mélodie

Tonalité (pour le musique tonale. . . )

Limite de la transcription polyphonique/d’accords

Prise en compte du contexte tonal local :chromasouPitch Class Profile

ASSM– p. 48/134

Chromas

Principe :

Intensité (énergie) des douze demi-tons

M( f ) = round(12. log2(f

frefmod12)

Chromas PCP

PCP(n) = ∑M( fk)=n

|Xk|2

parfois sans le carré. . .

améliorations récentes : pics, 4/5 harmoniques,tuning, . . .

ASSM– p. 49/134

Plan : II

Amplitude/Volume/Rythme

ASSM– p. 50/134

Définitions et différences

L’intensité d’un son est un paramètre physique, lié à son amplitude

L’intensité perçue :

paramètre perceptif appelésonie(loudness)

corrélation forte avec l’amplitude du signal

Différences s’expliquent par le système auditif

ASSM– p. 51/134

Limites de la perception

ASSM– p. 52/134

Perception du volume

Nombreux facteurs pris en compte

informations temporelles : enveloppe, durée, . . .

informations fréquentielles : spectre, répartition de l’énergie, . . .

Par exemple, l’intensité perçue d’une sinusoïde dépend de sa fréquence (Courbes

de Fletcher-Munson)

Maximum de sensibilité :[2700−3200]Hz. Ainsi, une sinusoïde de fréquence3000Hz est perçue plus fortement qu’une sinusoïde de fréquence 5000Hz ou

500Hz.

Sons complexes : chaque composant fréquentiel contribue à la sonie, mais de

nombreux phénomènes entrent en jeu : masquage, bandes critiques, . . .

ASSM– p. 53/134

Perception du volume (2)

Courbes d’intensité perçue (sonie) constante (Fletcher etMunson 1933)

ASSM– p. 54/134

Perception du volume (2)

Exemples

Oscillateurs, différentes fréquences, amplitudes égales

Oscillateurs, différentes fréquences, intensités perçues égales

ASSM– p. 55/134

Perception de l’intensité

L’oreille perçoit l’intensité selon une échelle logarithmique→ unité décibels(1dB= 10bels= 10log10(

II0

))

Comme la pression acoustique est la racine carré de l’intensité (I = P2), nous

pouvons définir le niveau sonoreL (sound level) :

L(x) = 20log(P(x)P0

)

oùP0 est la pression acoustique de référence (10−5 Pa), correspondant au seuil

de l’audition à 1000Hz.

ASSM– p. 56/134


Comme l’amplitude est proportionnel à la pression acoustique, le niveau sonore

est donc défini par :

L(x) = 20log(A(x)A0

)

ASSM– p. 57/134


VolumeV d’un son est fortement corrélé au niveau sonoreL

Hypothèse couramment admise :

V = L

Le volume est considéré égal au niveau sonore. On parle couramment aussi

d’amplitude du signal (en dB), ou d’intensité perçue.

ASSM– p. 58/134

Amplitude

L’intensité perçue d’un signal est donc donnée par l’amplitude du signal en

décibels.

L’amplitude en décibels (dB) du signal est donnée par :

AdB(s) = 20log(A(s)A0

)

où log représente le logarithme à base 10 etA0 l’amplitude de référence (0dB).

Que vaut l’amplitudeA d’un signal ?

ASSM– p. 59/134

Amplitude RMS

Première possibilité : échantillon maximum (en valeur absolue)

→ très discutable dès que le son est un peu plus complexeChoix : amplitude RMS (Root Mean Square)

ARMS(x) = limT→∞

√1T

∫ T

0x2(t)dt

ARMS(x) =

√1N

N

∑n=1

x2[n]

ASSM– p. 60/134

Intensité perçue d’une sinusoïde

Volume associé à une sinusoïde pure d’amplitudea0 :

ARMS(x) = limT→∞

√1T

∫ T

0a0 sin2(ω

nFs

+φ)dt

=a0√

2

Volume associé à un signal aléatoire :

ARMS(X) = σ

ASSM– p. 61/134

Échelle des décibels (dB)

échelle communément utilisée pour représenter le volume

V(A) = 20 log10

(A

A0dB

)

A(V) = A0dB 10V/(20dB)

dB SPL (Sound Pressure Level) standards:A0dB = 10−6

les volumes audibles vont approximativement de 0 à 120 dB (avion à

réaction au décollage, seuil de la douleur. . . )

120dB : 1.000.000/1

Conversation 70dB

Chuchottement 30dB

ASSM– p. 62/134

Intensité perçue et durée

L’intensité perçue augmente avec la durée, jusqu’à 0.2 secondes

A peu près 20dB de protection par réflexes (tympan, osselets)sur les sons

de plus de 85dB

Ce réflexe ne débute pas avant 30/40 ms, et la protection n’est pas

maximale avant 150ms

Ainsi, sons d’explosions se produisent trop rapidement pour ne pas blésser

les oreilles. . .

ASSM– p. 63/134

Bandes critiques

Notion introduite par Fletcher en 1940

Explique le masquage d’une sinusoïde par un bruit de large bande

Bruit est centré sur la fréquenceF :

le seuil de perception de la sinus est plus important

le bruit masque la sinus, même à des amplitudes plus fortes

Si la largeur dF de la bande de bruit augmente, le seuil de perception

augmente

Toutefois, il y a une valeur de dF pour laquelle le seuil n’augmente

plus :

dF = Bande critique centrée enF Hz

ASSM– p. 64/134

Bandes critiques

Lien entreJust Noticeable Differenceet Bandes critiques

Deux sinus 100Hz et 110Hz jouées, deux hauteurs non perçues

Explication : largeur de la bande critique à 100 Hz est de 80Hz

Deux sinusoïdes à l’intérieur de la même bande critique

Si bandes critiques différentes, deux hauteurs perçues (pas de rugosité/battement)

Pour éviter une rugosité, besoin de séparer d’une bande critique.

ASSM– p. 65/134

Bandes critiques

l’oreille intègre certaines bandes de fréquence du spectreaudible

pour chaque fréquence, il y a une bande critique centrée en cette fréquence

la largeur de chaque bande est d’exactement 1 Bark (ou ERB)

24 bandes critiques suffisent pour couvrir l’étendue du spectre:

numéro début centre fin

1 20 50 100

2 100 150 200

3 200 250 300

4 300 350 400

5 400 450 510

6 510 570 630

7 630 700 770

8 770 840 920

9 920 1000 1080

10 1080 1170 1270

11 1270 1370 1480

12 1480 1600 1720

numéro début centre fin

13 1720 1850 2000

14 2000 2150 2320

15 2320 2500 2700

16 2700 2900 3150

17 3150 3400 3700

18 3700 4000 4400

19 4400 4800 5300

20 5300 5800 6400

21 6400 7000 7700

22 7700 8500 9500

23 9500 10500 12000

24 12000 13500 15500(valeurs des fréquences en Hz)

ASSM– p. 66/134

Échelle Bark (d’après Barkhausen)

les fréquences audibles vont approx. de 20 Hz à 22 kHz

beaucoup plus proche de la perception

que l’échelle linéaire Hertz

1 Bark = 100 mels

B(F) =

F/100 si F ≤ 5009+4 log2(F/1000) si F > 500

F(B) =

100B si B≤ 51000·2(B−9)/4 si B > 5

ASSM– p. 67/134

Bark vs ERB

Equivalent Rectangular Bandwidth (ERB) (ERB en Hz,F fréq centrale en kHz)

ERB= 24.7(4.37F +1)

Bark :Eberhard Zwicker et al. (München)

ERB: Brian Moore et al. (Cambridge)

ASSM– p. 68/134

Seuil d’audibilité

les volumes audibles vont approximativement de 0 à 120 dB

toutefois le seuil de sensibilité en amplitudeSa dépend de la fréquence

les partiels dont les volumes sont inférieurs au seuil ne sont pas audibles

Sa( f ) = 3.64( f/1000)−0.8−6.5e−0.6( f/1000−3.3)2 +10−3( f/1000)4

0 5 10 15 20 25 30−20

0

20

40

60

80

100

120seuil d’audibilité

fréquence (Bark)

ampl

itude

(dB)

seuil d’audibilitéSaASSM– p. 69/134

Amplitude et dynamique

Plan musical (échelle macroscopique) :

La dynamique d’un morceau est déterminée par les variationsd’amplitude

d’un son ou d’un ensemble de sons composant le morceau.

Variations à l’échelle microscopique :

Variations linéaires :fade-in, fade-out

Variations périodiques (< 20Hz) : tremolo

Variations périodiques plus rapides : rajout de composantsspectraux

=⇒ synthèse parmodulation d’amplitude (AM)

ASSM– p. 70/134

Variations périodiques

L’amplitude d’une sinusoïde varie périodiquement (modulée)

x(t) = sin(2π f t)sin(2πFt +φ)

=12

cos(2π(F + f )t +φ)− 12

cos(2π(F− f )t +φ)

=12

sin(2π(F + f )t +φ +π2

)+12

sin(2π(F− f )t +φ − π2

)

si f est faible (< 20Hz), sinusoïde dont l’amplitude varie

sinon, deux sinusoïdes distinctes dans le spectre

Le premier cas implique une variation périodique de l’enveloppe temporelle

ASSM– p. 71/134

Enveloppe temporelle

Importance sur le plan de la perception (rugosité)

0 0.005 0.01 0.015 0.02−1

−0.5

0

0.5

1

ampl

itude

→

t (s) →

0 0.005 0.01 0.015 0.02−1

−0.5

0

0.5

1

ampl

itude

→

t (s) →

deux enveloppes temporelles de deux signaux simples: une sinusoïde laisse une

impression de stabilité car son enveloppe temporelle est constante, alors qu’un

signal composé de plusieurs sinusoïdes donne une impression de mouvement.

ASSM– p. 72/134

Enveloppe temporelle : définition

Enveloppe temporelle : courbe de plus faibles variations qui enveloppele signal

L’enveloppe temporelle est liée auxdifférencesentre les composants spectrauxd’un son. Rappel :

cos(2π(F− f )t +φ) = 12

sin(2π(F + f )t +φ +π2

)+12

sin(2π(F− f )t +φ − π2

)

L’enveloppe temporelle est ici une sinusoïde de fréquencef .

Attention : différence entre enveloppe temporelle et enveloppe spectrale

ASSM– p. 73/134

Transitoires, Note Onsets

Les transitoires sont assimilées à tous les phénomènes de brusques

variations temporelles d’amplitude dans un signal.

Attaques: très courte durée durant laquelle le son monte en amplitude

avant d’atteindre sa valeur maximale.

Cette période correspond à une hausse rapide d’énergie danstout le

spectre, notamment dans les fréquences aiguës.

ASSM– p. 74/134

Transitoires (2)

La représentation théorique de l’enveloppe temporelle dynamique d’une note de

musique est divisée en quatre parties (ADSR) :

l’attaque (attackest la première partie

le déclin (decay) est la durée du son du haut de l’attaque jusqu’au point où

le son commence à garder une amplitude constante et soutenue

le soutien (sustain) est la partie durant laquelle le son est conservé à un

niveau constant jusqu’à son relâchement

le relâchement (release) est égal à la durée de la baisse d’intensité

jusqu’au silence.

ASSM– p. 75/134

ADSR

temps

ampl

itude

A

D

S

R

Illustration de l’enveloppe temporelle d’une note de musique. Quatre intervalles

(ADSR) sont définis: l’attaque (attack), le déclin (decay), le soutien (sustain) et

le relâchement (release)

ASSM– p. 76/134

Transitoires (3)

Des transitoires sont également présentes dans des sons complexes, notamment

des sons bruiteux, sous forme de fortes variations d’énergie très localisées.

exemple : le bruit des impacts de gouttes de pluie≈ succession de transitoires.

Les attaques sont perçues comme desclics dans le son et sont d’une grande

importance dans le réalisme de sons instrumentaux notamment. Elles jouent

également un rôle prépondérant dans la perception dutimbre .

ASSM– p. 77/134

Transitoires : exemple

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Sig

nal

t/s →

Exemple d’un bruit naturel issu d’une machine contenant unetransitoire, dont

l’origine est matérialisée par la ligne pointillée (à peu près 0.4s).

ASSM– p. 78/134

Algorithmes d’estimation de note onset

La méthode idéale n’existe pas

Plusieurs techniques

En général basées sur les variations d’énergie

en représentation temporelle

en représentation spectrale

Choix selon l’application ou le type de musique

ASSM– p. 79/134

Applications

Transcription automatique de musique

Études d’interprétations musicales

Synchronisation de flux audio

Étirement temporel de morceaux de musique

Analyse rythmique

Métrique (chiffrage)

Tempo

Étude du rythme dans la parole

ASSM– p. 80/134

Algorithmes d’estimation de note onset

EnergieE obtenue à partir de la représentation temporelle ou spectrale:

E = ∑k

|Xf (k)|2 = ∑k

x[k]2

Analyse par fenêtres successivesEr

Etude des variations

ASSM– p. 81/134

Variations d’énergie

seuilK0Er > K0

Problème choix du seuil. . .

Comparaison de l’énergie avec une énergie moyenne

Er1T ∑

Tt=1Er−t

>> 1

Seuil fixé, mais indépendant du volume

ASSM– p. 82/134


Variations d’énergie des hautes fréquences

High frequency contentHFC

HFCr = ∑k

[|Xf (k)|2.k]

Fr =HFC2r

HFCr−1Er

ASSM– p. 83/134


Analyse de l’énergie par sous-bandes [Scheirer 98]

Flux spectral [Alonso 04]

S F r = ∑k

H(|Xr(k)|− |Xr−1(k)|)

H rectification demi-bandeH(x) = x+|x|2

Distance modifiée de Kullback-Leibler [Peeters 01]

DKL = ∑k

F (Xr (k)

Xr−1(k))

∀x > 0, F (x) = log2(x)

ASSM– p. 84/134

Sélection des note onsets

Seuils (fausses alarmes/oublis)

Indépendance du volume

Deux onsets trop proches ne peuvent pas être sélectionnés

choix dépendant de l’application

Par exemple en détection de tempo : pas deux onsets trop proches

ASSM– p. 85/134

Rythme : variations d’amplitude

Le rythme est avant tout un phénomèneperceptif.

perception involontaire de toute série d’événements entre0.4 et 10 Hz

Pour des fréquences supérieures, une hauteur (ou une rugosité) est perçue.

ASSM– p. 86/134

Pulsation/tempo

La pulsation (beat) fait référence aux impulsions perçues

Le tempo (tempo) indique la fréquence à laquelle les notes de musiquesont jouées. Il représente donc la vitesse des pulsations. Unités: pulsations

par minute (BPM)

ASSM– p. 87/134

Estimation de tempo, de rythme

Méthode générale

Détection de note onsets

Suppression de note onsets trop proches

Recherche de périodicités : tempo

Autocorrélation

Localisation des temps

Corrélation par un peigne

Analyse rythmique/métrique

Histogrammes des IOIs

Rapports entre les périodes

ASSM– p. 88/134

Exemple : MCP

60 70 80 90 100 110 120−1

−0.5

0

0.5

1Audio waveform

time (s)

ampl

itude

60 70 80 90 100 110 1200

0.05

0.1

0.15

0.2Onset curve (Spectral flux)

Temporal location of events (in s.)

coef

ficie

nt v

alue

0 1 2 3 4 5 6 7 8 9−0.2

0

0.2

0.4

0.6Onset autocorrelation

lag (s)

coef

ficie

nts

0 2 4 6 8 10 12 14 16 18 200

1

2

3

4

5Onset spectrum

frequency (Hz)

mag

nitu

de

11 9 7 5 4 3 2 1/2 1/3 1/4 1/6 1/8 1/120

0.2

0.4

0.6

0.8

beat multiple/subdivision

ampl

itude

Meter Class Profile

ASSM– p. 89/134

Remarques :

Masquage

ASSM– p. 90/134

Phénomène de masquage

physiquement,

l’addition de signaux de même amplitude:

est régie par une loi d’addition non linéaire

qui donne un maximum de 6 dB

(amplitude doublée pour deux signaux identiques en phase)

perceptivement,le seuil de perception est modifié pour un sonm (masqué)

quand il est joué en même temps qu’un son plus fortM (masquant)

ASSM– p. 91/134

Masquage temporel

2 sortes de masquages temporels:

post-masquage

survient quand le son masquant disparaît

l’effet du masquage fréquentiel persiste alors,

en s’estompant

pendant plusieurs millisecondes (20 30 ms) après cette disparition

pré-masquage

plus surprenant. . .

l’effet de masquage est actif quelques millisecondesavant que le sonmasquant n’apparaisse vraiment

toutefois ce phénomène est beaucoup moins prononcé

ASSM– p. 92/134

Masquage fréquentiel : exemples

Deux oscillateurs :

440Hz, amplitude constante

entre 660 et 880Hz, entre−37 et−57 dBperçoit pas la deuxième. . .

Juste la première sinusoïde

Juste la seconde sinusoïde

ASSM– p. 93/134

Masquage fréquentiel

ASSM– p. 94/134

Masquage fréquentiel (simultané)

cas oùM etmsont deux sinusoïdes (sons purs / simples)

de fréquences respectivesfM et fm

d’amplitudes respectivesaM etam (on supposeaM > am)

si fm est proche defM, le sonmest masqué par le sonM

⇒ m peut devenir inaudible

amplitude (dB)

fM fm fréquence (Bark)

l’effet de masquage est maximal lorsquefm et fM sont proches

ASSM– p. 95/134

Exemple: cas d’un son harmonique

son complexe (superposition de sons simples)

( fp,ap)

fréquence

amplitude

F

ASSM– p. 96/134

Modèle: triangle de masquage

évaluation du rapport signal / masque (signal-to-mask ratio, SMR) de chaque partiel

le seuil de masquage est quasiment un triangle en échelles Bark-dB:

la différence∆ entre le volume du partiel masquant et son masque (-10 dB)le demi-triangle de masquage vers les fréquences basses (pente gauche: 27 dB/Bark)

le demi-triangle de masquage vers les fréquences élevées (pente droite: -15 dB/Bark)

∆

SMR

amplitude (dB)

fM fm fréquence (Bark)en réalité:

le sommet du triangle est plus émoussé. . .

la pente de droite peut varier avec la fréquence ASSM– p. 97/134

Exemple de masqueM

p2

p3

p4

p5

p1 M

∆

amplitude (dB)

fréquence (Bark)

ASSM– p. 98/134

Exemple de masqueM (suite)

5 partiels et le masque associéM (ligne polygonale en gras):

p1, p2 et p4 sont des partiels masquants

et contribuent au masqueM

(les zones de fréquence de leurs contributions sont représentées par des rectangles)

p5 n’est ni masquant ni masqué

p3 est masqué (parp2)

ASSM– p. 99/134

Construction du masqueinitialement, le masque est mis à zéro:M← 0 (−∞ dB)puis les partiels sont parcourus paramplitudes décroissantes

pour chaque partielp de fréquencefp et d’amplitudeap (de volumeV(ap)),

3 cas peuvent se produire:

1. siM( fp)+∆ < V(ap),alorsp est un partiel masquantetM doit être mis à jour avec sa contribution;

2. siM( fp) < V(ap)≤M( fp)+∆,alorsp n’est ni masquant ni masqué;

3. siV(ap)≤M( fp),alorsp est simplement masqué.

On met à jour le masqueM itérativement, en conservant la plus grande valeur entre letriangle de masquage associé au partiel courantp et l’ancienne valeur deM.On fait cela pour chaque composante de la DFT.

ASSM– p. 100/134

Exemple (0/5)

p2

p3

p4

p5

p1 M

amplitude (dB)

fréquence (Bark)

ASSM– p. 101/134

Exemple (1/5)

p2

p3

p4

p5

p1 M

∆

amplitude (dB)

fréquence (Bark)

ASSM– p. 102/134

Exemple (2/5)

p5

p4

p3

p2

p1 M

amplitude (dB)

fréquence (Bark)

ASSM– p. 103/134

Exemple (3/5)

p2

p3

p4

p5

p1 M

amplitude (dB)

fréquence (Bark)

ASSM– p. 104/134

Exemple (4/5)

p4

p3

p2

p1

p5

M

amplitude (dB)

fréquence (Bark)

ASSM– p. 105/134

Exemple (5/5)

p4

p3

p2

p1

p5

M

amplitude (dB)

fréquence (Bark)

ASSM– p. 106/134

Application: compression MPEG

oublier les composantes inaudibles

pour gagner de l’espace mémoire

principales étapes d’un codeur MPEG I/II niveau 3 (“MP3”):

1. analyse spectrale (Fourier)

2. modèle psychoacoustique: calcul du masque

3. en fonction du rapport signal / masque (SMR),

quantifier l’amplitude des composantes spectrales

sur un nombre de bits différent

exemple:

SMR = 10 dB → 16 bits. . .

SMR < 0 dB → 0 bits4. puis codage entropique (Huffman), sans perte

ASSM– p. 107/134

Application: tatouage audio

watermarkingaudionumérique

rajouter des informations inaudibles au sein d’un son existant

applications:

protection de la propriété intellectuelle

(inclusion ducopyright)

transmission discrète d’informations stratégiques

ASSM– p. 108/134

Masquage

. . . un sonfort peut rendre un sonfaible inaudible : dépend des fréquences et

des amplitudes

Sinusoïdes pures proche en fréquence se masquent plus facilement.

Une sinusoïde pure masque plus facilement les sinusoïdes defréquence

plus aigüe que plus grave

Plus l’intensité de la sinusoïde masquante est forte, plus large est la bande

de fréquence masquée

ASSM– p. 109/134

Illusions

Prise en compte de la psychoacoustique pour créer des effetsmusicaux

Glissando infini 1

Glissando infini 2

Ruled by Secrecy

Rythme augmentant à l’infini

Une mélodie de silences

Sept sinusoïdes en continu (C,F,G,A,Bb,C,D) et des courtstroustemporels

mélodie mystérieuse (Deutsch 1972) 1 2

Une même mélodie jouée alétoirement sur trois octaves. Puisla mélodie

sur une seule octave. En réécoutant la première mélodie, on retrouve la

mélodie. . .

Continuité des hauteurs

Une sinusoïde interrompu sur un temps court (50 ms), pendantlequel un

bruit est joué. L’oreille perçoit la sinusoïde comme continue.

ASSM– p. 110/134

Plan : III

Timbre/Enveloppe spectrale

ASSM– p. 111/134

Timbre : définition

Le timbre est un terme général musicalcomplexeIl définit un ensemble de propriétés d’un son

Il regroupe toutes les propriétés qui permettent de distinguer une même note

jouée avec le même volume provenant de deux instruments différents

Autre définition (psychoacoustique) : mécanismes perceptuels classifiant les

sons en famille

ASSM– p. 112/134

Timbre : perception

Enveloppe temporelle et timbre

Morceau de Bach

Notes inversées

Puis onde sonore inversée

Timbre différent

Pourtant spectre sur la durée de la note est le même. . .

ASSM– p. 113/134

MPEG 7

MPEG:Moving Picture Experts Group

descripteurs normalisés MPEG 7

pour indexer, classifier les sons

des centaines de descripteurs. . .

tentative de description dutimbre pour un son quelconque. . .

ASSM– p. 114/134

Timbre : définition (2)

Timbre fortement lié au spectre, en particulier l’enveloppe spectrale, maisaussi :

enveloppe temporelle

tremolo, vibrato

brillance

micro-variations des composantes spectrales

autres . . .

ASSM– p. 115/134

Enveloppe spectrale

L’enveloppe spectrale est l’enveloppe supérieure du spectre

L’enveloppe spectrale est souventlissée

L’enveloppe spectrale est définie sur un temps court (STFT),et varie au

cours du temps

Apparition de formes (bosses et/ou creux) qui évoluent lentement→ formants

ASSM– p. 116/134

Calcul de l’enveloppe spectrale

Calcul du spectre à court-terme (STFT)

Lissage de l’enveloppe

Plusieurs méthodes existent, par exemple :

Prédiction linéaire

Filtrage du cepstre

Approximations par des segments

autres . . .

ASSM– p. 117/134

Prédiction linéaire

Linear Prediction Coding (LPC)ou autoregression (AR)

Modèle excitateur/résonnateur

entrée : plusieurs échantillons

définir un filtre tel quex[n+1] soit obtenu en filtrant lesn chénatillons

précédents (prédiction)

s[n] =p

∑i−1

(ais[n− i])−b[n]

p : ordre du filtre

p trop faible : spectre trop lisse

p trop important : trop de pics

ASSM– p. 118/134

Enveloppe spectrale : cepstre

Le cepstrec défini par :

c = F−1(log(F (x)))

oùF représente la transformée de Fourier.

Enveloppe spectrale: version lissée du spectre d’amplitude (en décibels),

c.a.d filtrage passe-bas du spectre à court terme.

signalx: sourcesmodifiée par un filtreh

x = s∗h

log(X) = log(S)+ log(H)

Enveloppe spectrale = contribution deH = faibles valeurs de log(X).

ASSM– p. 119/134


En pratique;

cepstre évalué selon

c = F−1(log(F (x)))

p premières valeurs du cepstre sont préservées, les autres sont mises à zéro

Ordrep : forcede l’effet de lissage

Echantillonnage de l’enveloppe lissée non modifié

Pas applicable en compression

Peu employée pour des modèles sinusoïdaux : l’enveloppe définie ne

passe pas forcément par les pics

Mais applicable pour les bruits/résidus/etc. . .

ASSM– p. 120/134


0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

−80

−60

−40

−20

0

X(f

)/dB

f/Hz →

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

−80

−60

−40

−20

0

S(f

)/dB

f/Hz →

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

−80

−60

−40

−20

0

S(f

)/dB

f/Hz →

Illustration de la représentation mathématique de l’enveloppe spectrale d’un son

(voix prononçant un “s”) par le cepstre par 50, 75 et 25 coefficients.

ASSM– p. 121/134

Enveloppe spectrale : segments

Suite dep fenêtres fréquentielles de tailleQ échantillons:

p =N2Q

(1)

∀k∈ [0;p−1], Ik = [kQ;(k+1)Q[ (2)

Ik: intervalles de fréquence définis par lesp fenêtres fréquentielles de

taille Q.

Pour chaque intervalleIk, la valeur du maximum d’amplitude du spectre

est cherchée.

max est affecté à l’intervalle des fréquences correspondant, et plus

particulièrement à la fréquence du centref kc de cet intervalle:

f kc =k+1

2Q (3)

un nouveau spectre noté̃Sest défini à partir dep pointsASSM– p. 122/134

Enveloppe spectrale : segments

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

−80

−60

−40

−20

0

X(f

)/dB

f/Hz →

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

−80

−60

−40

−20

0

X(f

)/dB

f/Hz →

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

−80

−60

−40

−20

0

X(f

)/dB

f/Hz →

Illustration de la représentation mathématique de l’enveloppe spectrale d’un son

(voix prononçant un “s”) par segmentation (64, 32 et 128 segments).ASSM– p. 123/134

Timbre : brillance, flux spectral

La brillance est corrélée au centroïde spectralCr :

Cr =∑

N2k=1kSr(k)

∑N2k=1Sr(k)

paramètre particulièrement sensible pour les trompettes.. .

Le flux spectral est le carré de la différence entre deux spectresS

normalisés successifs :

Fr =

N2

∑k

(Sr(k)−Sr−1(k))

ASSM– p. 124/134

Plan

Descripteurs Sonores

ASSM– p. 125/134

Descripteurs sonores: intérêt

Représentation temporelle ou spectrale d’un son

Beaucoup d’information

mais peu informative

Réduction du signal

sur un seul réel (par ex. volume)

sur quelques réels (par ex. histogrammes)

Descripteurs (features) haut/bas niveau

ASSM– p. 126/134

Descripteurs sonores

Classification d’un morceau de musique en rock

Présence de certains instruments

Batterie

Guitare électrique

Présence de voix chantée (hurlée ?)

Harmoniesimple

Paroles sur la drogue, la révolution, la jeunesse, . . .

Production : compression, effets type chorus/flanger, . . .

Descripteurshaut-niveau

ASSM– p. 127/134


haut-niveau

ont du sens

sont présents dans le signal

très durs à analyser automatiquement

recherche de descripteurs pour estimer des descripteurs. ..

bas-niveau

simples à claculer

plus difficiles à faire le lien avec le sens musical

peut être utilisé par moteurs statistiques

ASSM– p. 128/134


Audio features

Applications:

Indexation

Classification

Similarité

. . .

Très nombreux

Origine: souvent travaux sur la parole (MFCC par exemple)

Essai d’automatisation de la découverte de descripteurs (Sony EDS)

ASSM– p. 129/134

Descripteurs temporels

Enveloppe ADSR (temps d’attaque, sustain, . . . )

Centroïde temporel (instrument percussif6= avec sustain)

ct =∑t e(t)t∑t e(t)

Autocorrélation (premiers coefficients)

a(τ) = ∑n

x(n)x(n+k)

Zero-Crossing Rate (ZCR) (sons percussifs)

son périodique : faibles valeurs

son bruité : hautes valeurs

Energie

totale

harmoniques

bruit

Moyenne, variance, . . .

Dérivée ASSM– p. 130/134

Descripteurs spectraux

STFT puis calcul de descripteurs du spectre

Centroïde spectral (brillance)

Spectral spread (variance)

Skewness spectral (énergie dans les basses/hautes fréq.)

Kurtosis spectral (forme de l’enveloppe spectrale)

Pentedu spectre (spectral slope)

Rool-Off (95% énergie avant)

Variations du spectre (flux spectral, . . . )

Spectral Flatness

ASSM– p. 131/134


Forme globale du spectre : MFCC (Mel Frequency Cepstral Coefficient)

Trames, Transformée de Fourier

log du spectre d’amplitude

Passage à l’échelle mel

mel( f ) = 2595log10(1+f

700)

Filtres triangulaires (centrés sur les mels)

Transformée en cosinus discrète (DCT)

y(k) =N

∑n=1

w(n)x(n)cos(π(2n−1)(k−1)

2N)

12 premiers coefficients

Très utilisés, notamment pour la discrimination Parole/Musique.

ASSM– p. 132/134


Liés aux modèles des sons harmoniques

Inharmonicité

Part de bruit

Déviations harmoniques

Rapport énergies harmoniques paires/impaires

. . .

ASSM– p. 133/134

Descripteurs perceptifs

Descripteurs liés à des modèles psychoacoustiques

Intensité perçue

IP par bande Bark

. . .

Liste de tous les descripteurs MPEG-7 : IRCAM (Projet CUIDADO)

ASSM– p. 134/134

ObjectifParamètresPlan~: IFréquence/hauteurPerception des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquences

Discrimination des fréquencesFréquence/hauteur en MusiqueNote et octaveFréquence/noteFréquence/note (2)Variations des fréquencesSpectreSons harmoniquesSons harmoniques (2)Sons quasi-harmoniquesSons quasi-harmoniques: exempleSons inharmoniquesSons inharmoniques: exempleSons harmoniques/inharmoniquesSons complexes~: mélanges de sonsHauteur des sons harmoniquesFondamentale manquanteSons complexesHauteur des sons complexesHauteur de bruitNon linéarités de l'oreilleDurée et hauteurDurée minimaleEstimation de la hauteurAlgorithmes d'estimation de la hauteurPériodicités dans le domaine temporelAutocorrélation dans le domaine temporelAutocorrélation dans le domaine temporelAutocorrélation dans le domaine temporelDifférence dans le domaine temporelDifférence dans le domaine temporelDifférence dans le domaine temporelForce de la hauteur perçueRecherche de motifs périodiques dans le spectreEstimation de périodicités en spectralMulti PitchMonophonie/PolyphonieMulti F0Multi F0PolyphonieChromasPlan~: IIDéfinitions et différencesLimites de la perceptionPerception du volumePerception du volume (2)Perception du volume (2)Perception de l'intensitéPerception de l'intensitéPerception de l'intensitéAmplitudeAmplitude RMSIntensité perçue d'une sinusoïdeÉchelle des décibels (dB)Intensité perçue et duréeBandes critiquesBandes critiquesBandes critiquesÉchelle Bark (d'après Barkhausen)Bark vs ERBSeuil d'audibilitéAmplitude et dynamiqueVariations périodiquesEnveloppe temporelleEnveloppe temporelle~: définitionTransitoires, Note OnsetsTransitoires (2)ADSRTransitoires (3)Transitoires~: exempleAlgorithmes d'estimation de note onsetApplicationsAlgorithmes d'estimation de note onsetVariations d'énergieVariations d'énergieVariations d'énergieSélection des note onsetsRythme~: variations d'amplitudePulsation/tempoEstimation de tempo, de rythmeExemple : MCPRemarques~:Phénomène de masquageMasquage temporelMasquage fréquentiel : exemplesMasquage fréquentielMasquage fréquentiel (simultané)Exemple: cas d'un son harmoniqueModèle: triangle de masquageExemple de masque $M$Exemple de masque $M$ (suite)Construction du masqueExemple (0/5)Exemple (1/5)Exemple (2/5)Exemple (3/5)Exemple (4/5)Exemple (5/5)Application: compression MPEGApplication: tatouage audioMasquageIllusionsPlan~: IIITimbre~: définitionTimbre~: perceptionMPEG 7Timbre~: définition (2)Enveloppe spectraleCalcul de l'enveloppe spectralePrédiction linéaireEnveloppe spectrale~: cepstreEnveloppe spectrale~: cepstreEnveloppe spectrale~: cepstreEnveloppe spectrale~: segmentsEnveloppe spectrale~: segmentsTimbre~: brillance, flux spectralPlanDescripteurs sonores: intérêtDescripteurs sonoresDescripteurs sonoresDescripteurs sonoresDescripteurs temporelsDescripteurs spectrauxDescripteurs spectrauxDescripteurs spectrauxDescripteurs perceptifs

Documents

Analyse et Synth se du Son Musical - Université de Bordeauxhanna/ASSM/ASSMOLD/Cours/4... · 2011. 10. 28. · Image, Son, Multimedia Analyse et Synthèse du Son Musical Pierre Hanna