143
Image, Son, Multimedia Analyse et Synthèse du Son Musical Pierre Hanna [email protected] Université de Bordeaux ASSM – p. 1/134

Analyse et Synth se du Son Musical - Université de Bordeauxhanna/ASSM/ASSMOLD/Cours/4... · 2011. 10. 28. · Image, Son, Multimedia Analyse et Synthèse du Son Musical Pierre Hanna

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • Image, Son, Multimedia

    Analyse et Synthèse du Son Musical

    Pierre [email protected]

    Université de Bordeaux

    ASSM– p. 1/134

  • Objectif

    Objectifs du traitement du signal audio :

    création musicale

    écoute/compréhension

    =⇒ lien fort entre paramètres mathématiques et paramètres musicaux.

    ASSM– p. 2/134

  • Paramètres

    Étude des différents liens entre :

    Paramètres physiques

    Paramètres perceptifs

    Paramètres musicaux

    Vocabulaire différent, définitions plus ou moins précises

    ASSM– p. 3/134

  • Plan : I

    Fréquence/Hauteur

    ASSM– p. 4/134

  • Fréquence/hauteur

    hauteur ou pitch : attribut du son définissant un ordre sur les sons.

    La perception de la hauteur est corrélée à la fréquence

    fréquence change : perception hauteur aussi

    Aucune mesure directe de la hauteur

    définitionpratique:

    Ecoute d’un son

    Ajuster la fréquence d’une sinusoïde pour que les hauteurs

    correspondent

    La fréquence de la sinusoïde est la hauteur

    Problèmes : différentes réponses, cas des sons apériodiques, . . .

    ASSM– p. 5/134

  • Perception des fréquences

    Limite de perception des fréquences :

    supérieures à 20000Hz : ultrasons

    inférieures à 20Hz : pulsations

    encore plus faibles : contrôle

    Sinusoide pure

    ASSM– p. 6/134

  • Discrimination des fréquences

    Plus petite variation de fréquence qui peut être perçue

    Just Noticeable Difference (JND)

    JND des fréquences : dépend de la fréquence

    ASSM– p. 7/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    6 Hz : A,B,A,B

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    6 Hz : A,B,A,B

    5 Hz : A,B,A,A

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    6 Hz : A,B,A,B

    5 Hz : A,B,A,A

    4 Hz : B,B,A,A

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    6 Hz : A,B,A,B

    5 Hz : A,B,A,A

    4 Hz : B,B,A,A

    3 Hz : A,B,A,B

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    6 Hz : A,B,A,B

    5 Hz : A,B,A,A

    4 Hz : B,B,A,A

    3 Hz : A,B,A,B

    2 Hz : B,B,B,A

    ASSM– p. 8/134

  • Discrimination des fréquences

    Test JND

    2 sinusoïdes: 1000 Hz + df

    A : si deuxième plus aigü (d f > 0)

    B : si deuxième plus grave (d f < 0)

    Différence de fréquences : de 10 à 1 Hz

    10 Hz : A,B,A,A

    9 Hz : A,B,B,B

    8 Hz : B,A,A,B

    7 Hz : B,A,A,B

    6 Hz : A,B,A,B

    5 Hz : A,B,A,A

    4 Hz : B,B,A,A

    3 Hz : A,B,A,B

    2 Hz : B,B,B,A

    1 Hz : B,A,A,B

    ASSM– p. 8/134

  • Discrimination des fréquences

    Exemples : 10 sinusoïdes à 600Hz avec deuxtranspositions(aigu/grave)

    4 % (24Hz)

    2 % (12Hz)

    1 %

    0.5 %

    0.25 %

    Laquelle en premier/second : aigu ou grave ?

    Oreille moins précise dans les basses fréquences (particulièrement en

    dessous de 200 Hz)

    Dépend des personnes

    A peu près 0.5% sur la majeure partie de l’intervalle de perception

    ASSM– p. 9/134

  • Fréquence/hauteur en Musique

    En musique, deux dimensions :

    note

    octave

    Exemple : MIDIA3 désigne unLa (A), 3ème octave,

    Une sinusoïde de fréquence de 440 Hz donne une sensation de hauteur

    équivalente.

    ASSM– p. 10/134

  • Note et octave

    Représentation sous forme d’hélice (Shepard) :

    ASSM– p. 11/134

  • Fréquence/note

    Lien entre la fréquenceF et la note de musiqueH :

    fréquenceF exprimée en Hertz (Hz) (échelle linéaire)

    hauteur perçueH (échelle logarithmique)

    F = F02HH0

    P = P0 +Olog2 (FF0

    )

    où oùP0 et F0 sont les hauteurs et les fréquences de référence.

    ASSM– p. 12/134

  • Fréquence/note (2)

    Fréf = F0 = 440 Hz,Hréf = H0 = 57

    O = 12 (nombre de demi-tons par octave)

    exemple:F = 880 Hz→ H = 69

    F → 2·F ⇒ octave supérieureF → F/2 ⇒ octave inférieure

    ASSM– p. 13/134

  • Variations des fréquences

    Variations à l’échelle macroscopique : mélodie

    Variations à l’échelle microscopique :

    Variations linéaires :glissandoouportamento

    Variations périodiques (< 20Hz) : vibrato

    Variations périodiques plus rapides : rajout de composantsspectraux

    =⇒ synthèse parmodulation de fréquence (FM)

    ASSM– p. 14/134

  • Spectre

    Spectre d’un son :

    plusieurs fréquences apparaissent nettement

    régulièrement

    irrégulièrement

    aucune fréquence n’a une amplitude vraiment important par rapport aux

    autres

    =⇒ selon les cas, perception de hauteur ou non

    ASSM– p. 15/134

  • Sons harmoniques

    fréquences composant le sonrégulièrement espacées :→ Son harmoniquede fondamentaleF0

    2F0 3F0 6F0F0

    amplitude

    frequence

    ASSM– p. 16/134

  • Sons harmoniques (2)

    F0 : fréquencefondamentale(ou première harmonique)

    kF0 : kème harmonique

    aucun véritable exemple dans le monde réel :

    =⇒ son harmonique est unmodèle

    Exemple : Plusieurs sinusoïdes

    Saxophone

    Synthèse de guitare

    ASSM– p. 17/134

  • Sons quasi-harmoniques

    presque un son harmonique mais petits décalages (réguliersou non) entre les

    harmoniques (warping)

    2F0 +d f2 3F0 +d f3 6F0 +d f6F0

    amplitude

    frequence

    Exemples : instrument à vent (saxo, flûte, . . . ), violon (cordes frottées), guitare

    →majorité des sons instrumentaux

    ASSM– p. 18/134

  • Sons quasi-harmoniques: exemple

    Piano 156Hz

    La 25ème harmonique théorique correspond à la 24ème. . .

    ASSM– p. 19/134

  • Sons inharmoniques

    harmoniquesprésentes ont des fréquences parfois très éloignées des multiples de

    la fondamentale :sons inharmoniques

    F0

    amplitude

    frequence4F0

    Exemples : piano, gong, cloche, xylophone, . . .→ certains sons percussifsExemples:

    Son harmonique, Son inharmonique

    Cloche, Synthèse de clocheASSM– p. 20/134

  • Sons inharmoniques: exemple

    Vibraphone 260Hz

    A peu près périodique, mais non harmonique. . .

    ASSM– p. 21/134

  • Sons harmoniques/inharmoniques

    Harmoniques

    Instruments à cordes : Piano, guitare, violon, etc.

    Instruments à vent : Trompette, tuba, saxophones, clarinettes, etc.

    Flutes

    Orgues

    Voix (parties voisées)

    Inharmoniques

    Instruments percussifs : xylophone, vibraphone, cloches,etc.

    Batterie : cymbales, tambours, toms, etc.

    ASSM– p. 22/134

  • Sons complexes : mélanges de sons

    Certains sons sont en fait des mélanges de plusieurs sources:

    mélanges sons harmoniques/bruit (Signal Noise Ratio SNR)

    mélanges de plusieurs sons harmoniques

    consonance

    dissonance

    Exemples :

    accords majeurs (consonnants), quinte (par exemple un Do etSol ont des

    harmoniques communes)

    1/2 : octave

    3/2 : quinte

    4/3 : quarte

    5/4 : tierce majeure, . . .

    ASSM– p. 23/134

  • Hauteur des sons harmoniques

    La hauteur est un paramètreperceptif

    Le mécanisme de perception de la hauteur estcomplexe(informations spectraleset temporelles)

    Sensibilité aux fréquencesnon continues(plus forte vers 2000−3000z)

    Cas de sons harmoniques ou quasi-harmoniques :

    Hauteur perçue= fréquence fondamentale

    ASSM– p. 24/134

  • Fondamentale manquante

    Exemple de difficultés sur la perception de la hauteur :

    2F0 +d f2 3F0 +d f3 6F0 +d f6F0

    amplitude

    frequence

    Cas de lafondamentale manquante: hauteur perçueF0 même si la fréquencecorrespondante est non présente dans le son

    Exemple

    Exemple 2 : normal, sans fondamentale, sans 2 premières harmoniques, . . .

    ASSM– p. 25/134

  • Sons complexes

    Certains sons présentent des spectres plus complexes :

    Aucune ou très peu de fréquences d’amplitude importante et de durée

    importante

    Énergie répartie sur des bandes du spectre

    Selon les bandes, hauteur(s) perçue(s) ou pas

    ASSM– p. 26/134

  • Hauteur des sons complexes

    Si le spectre d’un son est composé d’une bande d’amplitude importante, une (ou

    plusieurs) hauteur peut être perçue :

    amplitude(dB)

    f0 f1f fréquence(Hz)

    Bandes étroites : la hauteur perçue corre-

    spond à la fréquence centrale

    Exemple

    f1

    amplitude(dB)

    f0 fréquence(Hz)

    Bandes larges : deux hauteurs

    sont perçues correspondant à

    peu près (4%) aux deux ex-

    trémités de la bande

    Bruit bande large, basses fréq, Bruit bande large, hautes fréq

    ASSM– p. 27/134

  • Hauteur de bruit

    Bruit ondulant (rippled noise))

    Exemple

    Bruit modulé (AM)

    Exemple

    Question : différenteforcede la hauteur perçue. . .

    ASSM– p. 28/134

  • Non linéarités de l’oreille

    Deux fréquencesfm et fM proches :

    deux hauteurs distinctes peuvent être perçues

    Une seule hauteur peut être perçue, mais avec des battementsquand

    fm≈ n fM(n entier positif)

    cosacosb = 0.5(cos(a+b)+cos(a−b))

    Exemples :

    1000Hz+1004Hz

    ASSM– p. 29/134

  • Durée et hauteur

    Test durée sinusoïdes

    3 sinusoïdes : 300, 1000, 3000 Hz

    1,2,4,8,16,32,64,128 périodes

    Combien de périodes pour entendre une hauteur ?

    ASSM– p. 30/134

  • Durée minimale

    Quelle est la durée minimale pour percevoir une hauteur ?

    La hauteur peut être perçue après seulement 3 ou 4 cycles pourdes

    basses-fréquences

    la durée nécessaire passe à 12 cycles à 1000Hz

    cette durée augmente avec la fréquence

    en cas d’attaque faible, des temps de reconnaissance descendant jusqu’à 3

    ms sont possibles.

    Exemple : besoin de 7 périodes pour détecter la hauteur correcte

    1 période, 2 périodes

    3 périodes, 4 périodes

    5 périodes

    6 périodes

    7 périodes

    ASSM– p. 31/134

  • Estimation de la hauteur

    Nombreux algorithmes existent plus ou moins naïfs

    Nombreuses applications

    Transcription

    Accompagnement automatique

    Accordeur automatique

    Recherche dans des bases de données

    etc...

    La détection automatique de hauteur est un problèmedifficile , même dans le casde sons quasi-harmoniques

    ASSM– p. 32/134

  • Algorithmes d’estimation de la hauteur

    Estimation de périodicités dans le domaine temporel

    Recherche de motifs périodiques dans le spectre

    Estimation de périoidicités dans le domaine spectral

    Recherche de périodicités dans des sous-bandes (psychoacoustique)

    Résultats similaires sur les deux domaines temporels/spectraux

    ASSM– p. 33/134

  • Périodicités dans le domaine temporel

    Méthodes basées sur la fonction d’autocorrélation

    Parmi les méthodes les plus utilisées

    parmi les plus simples

    parmi les plus efficaces

    rt(τ) =1N

    t+W

    ∑n=t

    x[n]x[n+ τ ]

    ASSM– p. 34/134

  • Autocorrélation dans le domaine temporel

    ASSM– p. 35/134

  • Autocorrélation dans le domaine temporel

    Autre définition [Rabiner/Shafer 78] :

    rt(τ) =1N

    t+W−τ∑n=t

    x[n]x[n+ τ ]

    Méthode : trouver le pic le plus important qui n’est pas enτ = 0

    Autocorrélation périodique

    Difficulté de trouver le pic correspondant à la hauteur perçue

    Risque de prendre un pic proche deτ = 0 (2ème déf)

    Risque de prendre un pic multiple (1ère déf)

    ASSM– p. 36/134

  • Autocorrélation dans le domaine temporel

    ASSM– p. 37/134

  • Différence dans le domaine temporel

    Pour un signal périodique (de périodeT)

    x(t)−x(t +T) = 0

    Calcul de la différence (au carré)

    dt(τ) =t+W

    ∑n=t

    (x[n]−x[n+ τ ])2

    Recherche des valeurs nulles

    La première (pourτ 6= 0) doit correspondre à la période du signalLien avec autocorrélation

    dt(τ) = rt(0)+ rt+τ(0)−2rt(τ)

    ASSM– p. 38/134

  • Différence dans le domaine temporel

    Algorithme YIN [DeCheveigné 2002]

    Difficulté de trouver la première valeur presque nulle

    modification de la définition

    Cumulative Mean Normalized Difference Function

    d′t (0) = 1

    d′t (τ) = dt(τ)/1τ

    τ

    ∑n=1

    dt(n)

    ASSM– p. 39/134

  • Différence dans le domaine temporel

    ASSM– p. 40/134

  • Force de la hauteur perçue

    Estimation du Pitch Strength [Yost 78]

    pitch strength=rt(τm)rt(0)

    Plus le pic secondaire est important, plus la hauteur est perçue

    Expériences psychoacoustiques

    Utile notamment avec les sons bruités

    ASSM– p. 41/134

  • Recherche de motifs périodiques dans le spectre

    Corrélation (ou intercorrelation) par un peigne

    Rt(τ) =1N

    t+W−τ∑n=t

    x[n]y[n+ τ ]

    signal de type somme de gaussiennes:

    Limites : harmonicité n’est pas parfaite. . .

    ASSM– p. 42/134

  • Estimation de périodicités en spectral

    Spectre d’un son harmonique estpériodique

    Autocorrélation du spectre

    r(k) =2N

    N2−m−1

    ∑m=0

    |X(k)||X(k+m)|

    Précision fréquentielle permet de prendre en compte d’éventuelles

    inharmonicités

    ASSM– p. 43/134

  • Multi Pitch

    Polyphonie : plusieurs notes jouées en même temps

    Limites des méthodes précédentes dédiées à la monophonie

    Problème lié aussi à la séparation de sources

    Problème très difficile

    Sources sonores variées

    Intervalle de notes possibles important

    Musique : présence de batterie, de bruit

    ASSM– p. 44/134

  • Monophonie/Polyphonie

    Deux parties du spectre se chevauchent : pas de moyen direct de les

    séparer

    Somme des complexes

    Deux sons harmoniques consonnants : plusieurs harmoniquescommunes

    ASSM– p. 45/134

  • Multi F0

    Itération sur estimation monophonique [Cheveigné 99]

    Groupement des partiels [Bregman, Kashino 95]

    Approche statistique [Davy 03, Goto]

    Limites :

    Préconnaissance du timbre

    Préconnaissance du nombre de sources

    ASSM– p. 46/134

  • Multi F0

    Méthode robuste [Klapuri 03]

    Estimation puis suppression du bruit

    Estimation de la hauteur prédominante (pic le plus important)

    Sauvegarde de la note correspondante

    Suppression de la note du spectre

    Amélioration : ajout d’informations musicales. . .

    ASSM– p. 47/134

  • Polyphonie

    Mélodie

    Tonalité (pour le musique tonale. . . )

    Limite de la transcription polyphonique/d’accords

    Prise en compte du contexte tonal local :chromasouPitch Class Profile

    ASSM– p. 48/134

  • Chromas

    Principe :

    Intensité (énergie) des douze demi-tons

    M( f ) = round(12. log2(f

    frefmod12)

    Chromas PCP

    PCP(n) = ∑M( fk)=n

    |Xk|2

    parfois sans le carré. . .

    améliorations récentes : pics, 4/5 harmoniques,tuning, . . .

    ASSM– p. 49/134

  • Plan : II

    Amplitude/Volume/Rythme

    ASSM– p. 50/134

  • Définitions et différences

    L’intensité d’un son est un paramètre physique, lié à son amplitude

    L’intensité perçue :

    paramètre perceptif appelésonie(loudness)

    corrélation forte avec l’amplitude du signal

    Différences s’expliquent par le système auditif

    ASSM– p. 51/134

  • Limites de la perception

    ASSM– p. 52/134

  • Perception du volume

    Nombreux facteurs pris en compte

    informations temporelles : enveloppe, durée, . . .

    informations fréquentielles : spectre, répartition de l’énergie, . . .

    Par exemple, l’intensité perçue d’une sinusoïde dépend de sa fréquence (Courbes

    de Fletcher-Munson)

    Maximum de sensibilité :[2700−3200]Hz. Ainsi, une sinusoïde de fréquence3000Hz est perçue plus fortement qu’une sinusoïde de fréquence 5000Hz ou

    500Hz.

    Sons complexes : chaque composant fréquentiel contribue à la sonie, mais de

    nombreux phénomènes entrent en jeu : masquage, bandes critiques, . . .

    ASSM– p. 53/134

  • Perception du volume (2)

    Courbes d’intensité perçue (sonie) constante (Fletcher etMunson 1933)

    ASSM– p. 54/134

  • Perception du volume (2)

    Exemples

    Oscillateurs, différentes fréquences, amplitudes égales

    Oscillateurs, différentes fréquences, intensités perçues égales

    ASSM– p. 55/134

  • Perception de l’intensité

    L’oreille perçoit l’intensité selon une échelle logarithmique→ unité décibels(1dB= 10bels= 10log10(

    II0

    ))

    Comme la pression acoustique est la racine carré de l’intensité (I = P2), nous

    pouvons définir le niveau sonoreL (sound level) :

    L(x) = 20log(P(x)P0

    )

    oùP0 est la pression acoustique de référence (10−5 Pa), correspondant au seuil

    de l’audition à 1000Hz.

    ASSM– p. 56/134

  • Perception de l’intensité

    Comme l’amplitude est proportionnel à la pression acoustique, le niveau sonore

    est donc défini par :

    L(x) = 20log(A(x)A0

    )

    ASSM– p. 57/134

  • Perception de l’intensité

    VolumeV d’un son est fortement corrélé au niveau sonoreL

    Hypothèse couramment admise :

    V = L

    Le volume est considéré égal au niveau sonore. On parle couramment aussi

    d’amplitude du signal (en dB), ou d’intensité perçue.

    ASSM– p. 58/134

  • Amplitude

    L’intensité perçue d’un signal est donc donnée par l’amplitude du signal en

    décibels.

    L’amplitude en décibels (dB) du signal est donnée par :

    AdB(s) = 20log(A(s)A0

    )

    où log représente le logarithme à base 10 etA0 l’amplitude de référence (0dB).

    Que vaut l’amplitudeA d’un signal ?

    ASSM– p. 59/134

  • Amplitude RMS

    Première possibilité : échantillon maximum (en valeur absolue)

    → très discutable dès que le son est un peu plus complexeChoix : amplitude RMS (Root Mean Square)

    ARMS(x) = limT→∞

    √1T

    ∫ T

    0x2(t)dt

    ARMS(x) =

    √1N

    N

    ∑n=1

    x2[n]

    ASSM– p. 60/134

  • Intensité perçue d’une sinusoïde

    Volume associé à une sinusoïde pure d’amplitudea0 :

    ARMS(x) = limT→∞

    √1T

    ∫ T

    0a0 sin2(ω

    nFs

    +φ)dt

    =a0√

    2

    Volume associé à un signal aléatoire :

    ARMS(X) = σ

    ASSM– p. 61/134

  • Échelle des décibels (dB)

    échelle communément utilisée pour représenter le volume

    V(A) = 20 log10

    (A

    A0dB

    )

    A(V) = A0dB 10V/(20dB)

    dB SPL (Sound Pressure Level) standards:A0dB = 10−6

    les volumes audibles vont approximativement de 0 à 120 dB (avion à

    réaction au décollage, seuil de la douleur. . . )

    120dB : 1.000.000/1

    Conversation 70dB

    Chuchottement 30dB

    ASSM– p. 62/134

  • Intensité perçue et durée

    L’intensité perçue augmente avec la durée, jusqu’à 0.2 secondes

    A peu près 20dB de protection par réflexes (tympan, osselets)sur les sons

    de plus de 85dB

    Ce réflexe ne débute pas avant 30/40 ms, et la protection n’est pas

    maximale avant 150ms

    Ainsi, sons d’explosions se produisent trop rapidement pour ne pas blésser

    les oreilles. . .

    ASSM– p. 63/134

  • Bandes critiques

    Notion introduite par Fletcher en 1940

    Explique le masquage d’une sinusoïde par un bruit de large bande

    Bruit est centré sur la fréquenceF :

    le seuil de perception de la sinus est plus important

    le bruit masque la sinus, même à des amplitudes plus fortes

    Si la largeur dF de la bande de bruit augmente, le seuil de perception

    augmente

    Toutefois, il y a une valeur de dF pour laquelle le seuil n’augmente

    plus :

    dF = Bande critique centrée enF Hz

    ASSM– p. 64/134

  • Bandes critiques

    Lien entreJust Noticeable Differenceet Bandes critiques

    Deux sinus 100Hz et 110Hz jouées, deux hauteurs non perçues

    Explication : largeur de la bande critique à 100 Hz est de 80Hz

    Deux sinusoïdes à l’intérieur de la même bande critique

    Si bandes critiques différentes, deux hauteurs perçues (pas de rugosité/battement)

    Pour éviter une rugosité, besoin de séparer d’une bande critique.

    ASSM– p. 65/134

  • Bandes critiques

    l’oreille intègre certaines bandes de fréquence du spectreaudible

    pour chaque fréquence, il y a une bande critique centrée en cette fréquence

    la largeur de chaque bande est d’exactement 1 Bark (ou ERB)

    24 bandes critiques suffisent pour couvrir l’étendue du spectre:

    numéro début centre fin

    1 20 50 100

    2 100 150 200

    3 200 250 300

    4 300 350 400

    5 400 450 510

    6 510 570 630

    7 630 700 770

    8 770 840 920

    9 920 1000 1080

    10 1080 1170 1270

    11 1270 1370 1480

    12 1480 1600 1720

    numéro début centre fin

    13 1720 1850 2000

    14 2000 2150 2320

    15 2320 2500 2700

    16 2700 2900 3150

    17 3150 3400 3700

    18 3700 4000 4400

    19 4400 4800 5300

    20 5300 5800 6400

    21 6400 7000 7700

    22 7700 8500 9500

    23 9500 10500 12000

    24 12000 13500 15500(valeurs des fréquences en Hz)

    ASSM– p. 66/134

  • Échelle Bark (d’après Barkhausen)

    les fréquences audibles vont approx. de 20 Hz à 22 kHz

    beaucoup plus proche de la perception

    que l’échelle linéaire Hertz

    1 Bark = 100 mels

    B(F) =

    F/100 si F ≤ 5009+4 log2(F/1000) si F > 500

    F(B) =

    100B si B≤ 51000·2(B−9)/4 si B > 5

    ASSM– p. 67/134

  • Bark vs ERB

    Equivalent Rectangular Bandwidth (ERB) (ERB en Hz,F fréq centrale en kHz)

    ERB= 24.7(4.37F +1)

    Bark :Eberhard Zwicker et al. (München)

    ERB: Brian Moore et al. (Cambridge)

    ASSM– p. 68/134

  • Seuil d’audibilité

    les volumes audibles vont approximativement de 0 à 120 dB

    toutefois le seuil de sensibilité en amplitudeSa dépend de la fréquence

    les partiels dont les volumes sont inférieurs au seuil ne sont pas audibles

    Sa( f ) = 3.64( f/1000)−0.8−6.5e−0.6( f/1000−3.3)2 +10−3( f/1000)4

    0 5 10 15 20 25 30−20

    0

    20

    40

    60

    80

    100

    120seuil d’audibilité

    fréquence (Bark)

    ampl

    itude

    (dB)

    seuil d’audibilitéSaASSM– p. 69/134

  • Amplitude et dynamique

    Plan musical (échelle macroscopique) :

    La dynamique d’un morceau est déterminée par les variationsd’amplitude

    d’un son ou d’un ensemble de sons composant le morceau.

    Variations à l’échelle microscopique :

    Variations linéaires :fade-in, fade-out

    Variations périodiques (< 20Hz) : tremolo

    Variations périodiques plus rapides : rajout de composantsspectraux

    =⇒ synthèse parmodulation d’amplitude (AM)

    ASSM– p. 70/134

  • Variations périodiques

    L’amplitude d’une sinusoïde varie périodiquement (modulée)

    x(t) = sin(2π f t)sin(2πFt +φ)

    =12

    cos(2π(F + f )t +φ)− 12

    cos(2π(F− f )t +φ)

    =12

    sin(2π(F + f )t +φ +π2

    )+12

    sin(2π(F− f )t +φ − π2

    )

    si f est faible (< 20Hz), sinusoïde dont l’amplitude varie

    sinon, deux sinusoïdes distinctes dans le spectre

    Le premier cas implique une variation périodique de l’enveloppe temporelle

    ASSM– p. 71/134

  • Enveloppe temporelle

    Importance sur le plan de la perception (rugosité)

    0 0.005 0.01 0.015 0.02−1

    −0.5

    0

    0.5

    1

    ampl

    itude

    t (s) →

    0 0.005 0.01 0.015 0.02−1

    −0.5

    0

    0.5

    1

    ampl

    itude

    t (s) →

    deux enveloppes temporelles de deux signaux simples: une sinusoïde laisse une

    impression de stabilité car son enveloppe temporelle est constante, alors qu’un

    signal composé de plusieurs sinusoïdes donne une impression de mouvement.

    ASSM– p. 72/134

  • Enveloppe temporelle : définition

    Enveloppe temporelle : courbe de plus faibles variations qui enveloppele signal

    L’enveloppe temporelle est liée auxdifférencesentre les composants spectrauxd’un son. Rappel :

    cos(2π(F− f )t +φ) = 12

    sin(2π(F + f )t +φ +π2

    )+12

    sin(2π(F− f )t +φ − π2

    )

    L’enveloppe temporelle est ici une sinusoïde de fréquencef .

    Attention : différence entre enveloppe temporelle et enveloppe spectrale

    ASSM– p. 73/134

  • Transitoires, Note Onsets

    Les transitoires sont assimilées à tous les phénomènes de brusques

    variations temporelles d’amplitude dans un signal.

    Attaques: très courte durée durant laquelle le son monte en amplitude

    avant d’atteindre sa valeur maximale.

    Cette période correspond à une hausse rapide d’énergie danstout le

    spectre, notamment dans les fréquences aiguës.

    ASSM– p. 74/134

  • Transitoires (2)

    La représentation théorique de l’enveloppe temporelle dynamique d’une note de

    musique est divisée en quatre parties (ADSR) :

    l’attaque (attackest la première partie

    le déclin (decay) est la durée du son du haut de l’attaque jusqu’au point où

    le son commence à garder une amplitude constante et soutenue

    le soutien (sustain) est la partie durant laquelle le son est conservé à un

    niveau constant jusqu’à son relâchement

    le relâchement (release) est égal à la durée de la baisse d’intensité

    jusqu’au silence.

    ASSM– p. 75/134

  • ADSR

    temps

    ampl

    itude

    A

    D

    S

    R

    Illustration de l’enveloppe temporelle d’une note de musique. Quatre intervalles

    (ADSR) sont définis: l’attaque (attack), le déclin (decay), le soutien (sustain) et

    le relâchement (release)

    ASSM– p. 76/134

  • Transitoires (3)

    Des transitoires sont également présentes dans des sons complexes, notamment

    des sons bruiteux, sous forme de fortes variations d’énergie très localisées.

    exemple : le bruit des impacts de gouttes de pluie≈ succession de transitoires.

    Les attaques sont perçues comme desclics dans le son et sont d’une grande

    importance dans le réalisme de sons instrumentaux notamment. Elles jouent

    également un rôle prépondérant dans la perception dutimbre .

    ASSM– p. 77/134

  • Transitoires : exemple

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1

    −0.8

    −0.6

    −0.4

    −0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    Sig

    nal

    t/s →

    Exemple d’un bruit naturel issu d’une machine contenant unetransitoire, dont

    l’origine est matérialisée par la ligne pointillée (à peu près 0.4s).

    ASSM– p. 78/134

  • Algorithmes d’estimation de note onset

    La méthode idéale n’existe pas

    Plusieurs techniques

    En général basées sur les variations d’énergie

    en représentation temporelle

    en représentation spectrale

    Choix selon l’application ou le type de musique

    ASSM– p. 79/134

  • Applications

    Transcription automatique de musique

    Études d’interprétations musicales

    Synchronisation de flux audio

    Étirement temporel de morceaux de musique

    Analyse rythmique

    Métrique (chiffrage)

    Tempo

    Étude du rythme dans la parole

    ASSM– p. 80/134

  • Algorithmes d’estimation de note onset

    EnergieE obtenue à partir de la représentation temporelle ou spectrale:

    E = ∑k

    |Xf (k)|2 = ∑k

    x[k]2

    Analyse par fenêtres successivesEr

    Etude des variations

    ASSM– p. 81/134

  • Variations d’énergie

    seuilK0Er > K0

    Problème choix du seuil. . .

    Comparaison de l’énergie avec une énergie moyenne

    Er1T ∑

    Tt=1Er−t

    >> 1

    Seuil fixé, mais indépendant du volume

    ASSM– p. 82/134

  • Variations d’énergie

    Variations d’énergie des hautes fréquences

    High frequency contentHFC

    HFCr = ∑k

    [|Xf (k)|2.k]

    Fr =HFC2r

    HFCr−1Er

    ASSM– p. 83/134

  • Variations d’énergie

    Analyse de l’énergie par sous-bandes [Scheirer 98]

    Flux spectral [Alonso 04]

    S F r = ∑k

    H(|Xr(k)|− |Xr−1(k)|)

    H rectification demi-bandeH(x) = x+|x|2

    Distance modifiée de Kullback-Leibler [Peeters 01]

    DKL = ∑k

    F (Xr (k)

    Xr−1(k))

    ∀x > 0, F (x) = log2(x)

    ASSM– p. 84/134

  • Sélection des note onsets

    Seuils (fausses alarmes/oublis)

    Indépendance du volume

    Deux onsets trop proches ne peuvent pas être sélectionnés

    choix dépendant de l’application

    Par exemple en détection de tempo : pas deux onsets trop proches

    ASSM– p. 85/134

  • Rythme : variations d’amplitude

    Le rythme est avant tout un phénomèneperceptif.

    perception involontaire de toute série d’événements entre0.4 et 10 Hz

    Pour des fréquences supérieures, une hauteur (ou une rugosité) est perçue.

    ASSM– p. 86/134

  • Pulsation/tempo

    La pulsation (beat) fait référence aux impulsions perçues

    Le tempo (tempo) indique la fréquence à laquelle les notes de musiquesont jouées. Il représente donc la vitesse des pulsations. Unités: pulsations

    par minute (BPM)

    ASSM– p. 87/134

  • Estimation de tempo, de rythme

    Méthode générale

    Détection de note onsets

    Suppression de note onsets trop proches

    Recherche de périodicités : tempo

    Autocorrélation

    Localisation des temps

    Corrélation par un peigne

    Analyse rythmique/métrique

    Histogrammes des IOIs

    Rapports entre les périodes

    ASSM– p. 88/134

  • Exemple : MCP

    60 70 80 90 100 110 120−1

    −0.5

    0

    0.5

    1Audio waveform

    time (s)

    ampl

    itude

    60 70 80 90 100 110 1200

    0.05

    0.1

    0.15

    0.2Onset curve (Spectral flux)

    Temporal location of events (in s.)

    coef

    ficie

    nt v

    alue

    0 1 2 3 4 5 6 7 8 9−0.2

    0

    0.2

    0.4

    0.6Onset autocorrelation

    lag (s)

    coef

    ficie

    nts

    0 2 4 6 8 10 12 14 16 18 200

    1

    2

    3

    4

    5Onset spectrum

    frequency (Hz)

    mag

    nitu

    de

    11 9 7 5 4 3 2 1/2 1/3 1/4 1/6 1/8 1/120

    0.2

    0.4

    0.6

    0.8

    beat multiple/subdivision

    ampl

    itude

    Meter Class Profile

    ASSM– p. 89/134

  • Remarques :

    Masquage

    ASSM– p. 90/134

  • Phénomène de masquage

    physiquement,

    l’addition de signaux de même amplitude:

    est régie par une loi d’addition non linéaire

    qui donne un maximum de 6 dB

    (amplitude doublée pour deux signaux identiques en phase)

    perceptivement,le seuil de perception est modifié pour un sonm (masqué)

    quand il est joué en même temps qu’un son plus fortM (masquant)

    ASSM– p. 91/134

  • Masquage temporel

    2 sortes de masquages temporels:

    post-masquage

    survient quand le son masquant disparaît

    l’effet du masquage fréquentiel persiste alors,

    en s’estompant

    pendant plusieurs millisecondes (20 30 ms) après cette disparition

    pré-masquage

    plus surprenant. . .

    l’effet de masquage est actif quelques millisecondesavant que le sonmasquant n’apparaisse vraiment

    toutefois ce phénomène est beaucoup moins prononcé

    ASSM– p. 92/134

  • Masquage fréquentiel : exemples

    Deux oscillateurs :

    440Hz, amplitude constante

    entre 660 et 880Hz, entre−37 et−57 dBperçoit pas la deuxième. . .

    Juste la première sinusoïde

    Juste la seconde sinusoïde

    ASSM– p. 93/134

  • Masquage fréquentiel

    ASSM– p. 94/134

  • Masquage fréquentiel (simultané)

    cas oùM etmsont deux sinusoïdes (sons purs / simples)

    de fréquences respectivesfM et fm

    d’amplitudes respectivesaM etam (on supposeaM > am)

    si fm est proche defM, le sonmest masqué par le sonM

    ⇒ m peut devenir inaudible

    amplitude (dB)

    fM fm fréquence (Bark)

    l’effet de masquage est maximal lorsquefm et fM sont proches

    ASSM– p. 95/134

  • Exemple: cas d’un son harmonique

    son complexe (superposition de sons simples)

    ( fp,ap)

    fréquence

    amplitude

    F

    ASSM– p. 96/134

  • Modèle: triangle de masquage

    évaluation du rapport signal / masque (signal-to-mask ratio, SMR) de chaque partiel

    le seuil de masquage est quasiment un triangle en échelles Bark-dB:

    la différence∆ entre le volume du partiel masquant et son masque (-10 dB)le demi-triangle de masquage vers les fréquences basses (pente gauche: 27 dB/Bark)

    le demi-triangle de masquage vers les fréquences élevées (pente droite: -15 dB/Bark)

    SMR

    amplitude (dB)

    fM fm fréquence (Bark)en réalité:

    le sommet du triangle est plus émoussé. . .

    la pente de droite peut varier avec la fréquence ASSM– p. 97/134

  • Exemple de masqueM

    p2

    p3

    p4

    p5

    p1 M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 98/134

  • Exemple de masqueM (suite)

    5 partiels et le masque associéM (ligne polygonale en gras):

    p1, p2 et p4 sont des partiels masquants

    et contribuent au masqueM

    (les zones de fréquence de leurs contributions sont représentées par des rectangles)

    p5 n’est ni masquant ni masqué

    p3 est masqué (parp2)

    ASSM– p. 99/134

  • Construction du masqueinitialement, le masque est mis à zéro:M← 0 (−∞ dB)puis les partiels sont parcourus paramplitudes décroissantes

    pour chaque partielp de fréquencefp et d’amplitudeap (de volumeV(ap)),

    3 cas peuvent se produire:

    1. siM( fp)+∆ < V(ap),alorsp est un partiel masquantetM doit être mis à jour avec sa contribution;

    2. siM( fp) < V(ap)≤M( fp)+∆,alorsp n’est ni masquant ni masqué;

    3. siV(ap)≤M( fp),alorsp est simplement masqué.

    On met à jour le masqueM itérativement, en conservant la plus grande valeur entre letriangle de masquage associé au partiel courantp et l’ancienne valeur deM.On fait cela pour chaque composante de la DFT.

    ASSM– p. 100/134

  • Exemple (0/5)

    p2

    p3

    p4

    p5

    p1 M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 101/134

  • Exemple (1/5)

    p2

    p3

    p4

    p5

    p1 M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 102/134

  • Exemple (2/5)

    p5

    p4

    p3

    p2

    p1 M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 103/134

  • Exemple (3/5)

    p2

    p3

    p4

    p5

    p1 M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 104/134

  • Exemple (4/5)

    p4

    p3

    p2

    p1

    p5

    M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 105/134

  • Exemple (5/5)

    p4

    p3

    p2

    p1

    p5

    M

    amplitude (dB)

    fréquence (Bark)

    ASSM– p. 106/134

  • Application: compression MPEG

    oublier les composantes inaudibles

    pour gagner de l’espace mémoire

    principales étapes d’un codeur MPEG I/II niveau 3 (“MP3”):

    1. analyse spectrale (Fourier)

    2. modèle psychoacoustique: calcul du masque

    3. en fonction du rapport signal / masque (SMR),

    quantifier l’amplitude des composantes spectrales

    sur un nombre de bits différent

    exemple:

    SMR = 10 dB → 16 bits. . .

    SMR < 0 dB → 0 bits4. puis codage entropique (Huffman), sans perte

    ASSM– p. 107/134

  • Application: tatouage audio

    watermarkingaudionumérique

    rajouter des informations inaudibles au sein d’un son existant

    applications:

    protection de la propriété intellectuelle

    (inclusion ducopyright)

    transmission discrète d’informations stratégiques

    ASSM– p. 108/134

  • Masquage

    . . . un sonfort peut rendre un sonfaible inaudible : dépend des fréquences et

    des amplitudes

    Sinusoïdes pures proche en fréquence se masquent plus facilement.

    Une sinusoïde pure masque plus facilement les sinusoïdes defréquence

    plus aigüe que plus grave

    Plus l’intensité de la sinusoïde masquante est forte, plus large est la bande

    de fréquence masquée

    ASSM– p. 109/134

  • Illusions

    Prise en compte de la psychoacoustique pour créer des effetsmusicaux

    Glissando infini 1

    Glissando infini 2

    Ruled by Secrecy

    Rythme augmentant à l’infini

    Une mélodie de silences

    Sept sinusoïdes en continu (C,F,G,A,Bb,C,D) et des courtstroustemporels

    mélodie mystérieuse (Deutsch 1972) 1 2

    Une même mélodie jouée alétoirement sur trois octaves. Puisla mélodie

    sur une seule octave. En réécoutant la première mélodie, on retrouve la

    mélodie. . .

    Continuité des hauteurs

    Une sinusoïde interrompu sur un temps court (50 ms), pendantlequel un

    bruit est joué. L’oreille perçoit la sinusoïde comme continue.

    ASSM– p. 110/134

  • Plan : III

    Timbre/Enveloppe spectrale

    ASSM– p. 111/134

  • Timbre : définition

    Le timbre est un terme général musicalcomplexeIl définit un ensemble de propriétés d’un son

    Il regroupe toutes les propriétés qui permettent de distinguer une même note

    jouée avec le même volume provenant de deux instruments différents

    Autre définition (psychoacoustique) : mécanismes perceptuels classifiant les

    sons en famille

    ASSM– p. 112/134

  • Timbre : perception

    Enveloppe temporelle et timbre

    Morceau de Bach

    Notes inversées

    Puis onde sonore inversée

    Timbre différent

    Pourtant spectre sur la durée de la note est le même. . .

    ASSM– p. 113/134

  • MPEG 7

    MPEG:Moving Picture Experts Group

    descripteurs normalisés MPEG 7

    pour indexer, classifier les sons

    des centaines de descripteurs. . .

    tentative de description dutimbre pour un son quelconque. . .

    ASSM– p. 114/134

  • Timbre : définition (2)

    Timbre fortement lié au spectre, en particulier l’enveloppe spectrale, maisaussi :

    enveloppe temporelle

    tremolo, vibrato

    brillance

    micro-variations des composantes spectrales

    autres . . .

    ASSM– p. 115/134

  • Enveloppe spectrale

    L’enveloppe spectrale est l’enveloppe supérieure du spectre

    L’enveloppe spectrale est souventlissée

    L’enveloppe spectrale est définie sur un temps court (STFT),et varie au

    cours du temps

    Apparition de formes (bosses et/ou creux) qui évoluent lentement→ formants

    ASSM– p. 116/134

  • Calcul de l’enveloppe spectrale

    Calcul du spectre à court-terme (STFT)

    Lissage de l’enveloppe

    Plusieurs méthodes existent, par exemple :

    Prédiction linéaire

    Filtrage du cepstre

    Approximations par des segments

    autres . . .

    ASSM– p. 117/134

  • Prédiction linéaire

    Linear Prediction Coding (LPC)ou autoregression (AR)

    Modèle excitateur/résonnateur

    entrée : plusieurs échantillons

    définir un filtre tel quex[n+1] soit obtenu en filtrant lesn chénatillons

    précédents (prédiction)

    s[n] =p

    ∑i−1

    (ais[n− i])−b[n]

    p : ordre du filtre

    p trop faible : spectre trop lisse

    p trop important : trop de pics

    ASSM– p. 118/134

  • Enveloppe spectrale : cepstre

    Le cepstrec défini par :

    c = F−1(log(F (x)))

    oùF représente la transformée de Fourier.

    Enveloppe spectrale: version lissée du spectre d’amplitude (en décibels),

    c.a.d filtrage passe-bas du spectre à court terme.

    signalx: sourcesmodifiée par un filtreh

    x = s∗h

    log(X) = log(S)+ log(H)

    Enveloppe spectrale = contribution deH = faibles valeurs de log(X).

    ASSM– p. 119/134

  • Enveloppe spectrale : cepstre

    En pratique;

    cepstre évalué selon

    c = F−1(log(F (x)))

    p premières valeurs du cepstre sont préservées, les autres sont mises à zéro

    Ordrep : forcede l’effet de lissage

    Echantillonnage de l’enveloppe lissée non modifié

    Pas applicable en compression

    Peu employée pour des modèles sinusoïdaux : l’enveloppe définie ne

    passe pas forcément par les pics

    Mais applicable pour les bruits/résidus/etc. . .

    ASSM– p. 120/134

  • Enveloppe spectrale : cepstre

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    x 104

    −80

    −60

    −40

    −20

    0

    X(f

    )/dB

    f/Hz →

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    x 104

    −80

    −60

    −40

    −20

    0

    S(f

    )/dB

    f/Hz →

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    x 104

    −80

    −60

    −40

    −20

    0

    S(f

    )/dB

    f/Hz →

    Illustration de la représentation mathématique de l’enveloppe spectrale d’un son

    (voix prononçant un “s”) par le cepstre par 50, 75 et 25 coefficients.

    ASSM– p. 121/134

  • Enveloppe spectrale : segments

    Suite dep fenêtres fréquentielles de tailleQ échantillons:

    p =N2Q

    (1)

    ∀k∈ [0;p−1], Ik = [kQ;(k+1)Q[ (2)

    Ik: intervalles de fréquence définis par lesp fenêtres fréquentielles de

    taille Q.

    Pour chaque intervalleIk, la valeur du maximum d’amplitude du spectre

    est cherchée.

    max est affecté à l’intervalle des fréquences correspondant, et plus

    particulièrement à la fréquence du centref kc de cet intervalle:

    f kc =k+1

    2Q (3)

    un nouveau spectre noté̃Sest défini à partir dep pointsASSM– p. 122/134

  • Enveloppe spectrale : segments

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    x 104

    −80

    −60

    −40

    −20

    0

    X(f

    )/dB

    f/Hz →

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    x 104

    −80

    −60

    −40

    −20

    0

    X(f

    )/dB

    f/Hz →

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    x 104

    −80

    −60

    −40

    −20

    0

    X(f

    )/dB

    f/Hz →

    Illustration de la représentation mathématique de l’enveloppe spectrale d’un son

    (voix prononçant un “s”) par segmentation (64, 32 et 128 segments).ASSM– p. 123/134

  • Timbre : brillance, flux spectral

    La brillance est corrélée au centroïde spectralCr :

    Cr =∑

    N2k=1kSr(k)

    ∑N2k=1Sr(k)

    paramètre particulièrement sensible pour les trompettes.. .

    Le flux spectral est le carré de la différence entre deux spectresS

    normalisés successifs :

    Fr =

    N2

    ∑k

    (Sr(k)−Sr−1(k))

    ASSM– p. 124/134

  • Plan

    Descripteurs Sonores

    ASSM– p. 125/134

  • Descripteurs sonores: intérêt

    Représentation temporelle ou spectrale d’un son

    Beaucoup d’information

    mais peu informative

    Réduction du signal

    sur un seul réel (par ex. volume)

    sur quelques réels (par ex. histogrammes)

    Descripteurs (features) haut/bas niveau

    ASSM– p. 126/134

  • Descripteurs sonores

    Classification d’un morceau de musique en rock

    Présence de certains instruments

    Batterie

    Guitare électrique

    Présence de voix chantée (hurlée ?)

    Harmoniesimple

    Paroles sur la drogue, la révolution, la jeunesse, . . .

    Production : compression, effets type chorus/flanger, . . .

    Descripteurshaut-niveau

    ASSM– p. 127/134

  • Descripteurs sonores

    haut-niveau

    ont du sens

    sont présents dans le signal

    très durs à analyser automatiquement

    recherche de descripteurs pour estimer des descripteurs. ..

    bas-niveau

    simples à claculer

    plus difficiles à faire le lien avec le sens musical

    peut être utilisé par moteurs statistiques

    ASSM– p. 128/134

  • Descripteurs sonores

    Audio features

    Applications:

    Indexation

    Classification

    Similarité

    . . .

    Très nombreux

    Origine: souvent travaux sur la parole (MFCC par exemple)

    Essai d’automatisation de la découverte de descripteurs (Sony EDS)

    ASSM– p. 129/134

  • Descripteurs temporels

    Enveloppe ADSR (temps d’attaque, sustain, . . . )

    Centroïde temporel (instrument percussif6= avec sustain)

    ct =∑t e(t)t∑t e(t)

    Autocorrélation (premiers coefficients)

    a(τ) = ∑n

    x(n)x(n+k)

    Zero-Crossing Rate (ZCR) (sons percussifs)

    son périodique : faibles valeurs

    son bruité : hautes valeurs

    Energie

    totale

    harmoniques

    bruit

    Moyenne, variance, . . .

    Dérivée ASSM– p. 130/134

  • Descripteurs spectraux

    STFT puis calcul de descripteurs du spectre

    Centroïde spectral (brillance)

    Spectral spread (variance)

    Skewness spectral (énergie dans les basses/hautes fréq.)

    Kurtosis spectral (forme de l’enveloppe spectrale)

    Pentedu spectre (spectral slope)

    Rool-Off (95% énergie avant)

    Variations du spectre (flux spectral, . . . )

    Spectral Flatness

    ASSM– p. 131/134

  • Descripteurs spectraux

    Forme globale du spectre : MFCC (Mel Frequency Cepstral Coefficient)

    Trames, Transformée de Fourier

    log du spectre d’amplitude

    Passage à l’échelle mel

    mel( f ) = 2595log10(1+f

    700)

    Filtres triangulaires (centrés sur les mels)

    Transformée en cosinus discrète (DCT)

    y(k) =N

    ∑n=1

    w(n)x(n)cos(π(2n−1)(k−1)

    2N)

    12 premiers coefficients

    Très utilisés, notamment pour la discrimination Parole/Musique.

    ASSM– p. 132/134

  • Descripteurs spectraux

    Liés aux modèles des sons harmoniques

    Inharmonicité

    Part de bruit

    Déviations harmoniques

    Rapport énergies harmoniques paires/impaires

    . . .

    ASSM– p. 133/134

  • Descripteurs perceptifs

    Descripteurs liés à des modèles psychoacoustiques

    Intensité perçue

    IP par bande Bark

    . . .

    Liste de tous les descripteurs MPEG-7 : IRCAM (Projet CUIDADO)

    ASSM– p. 134/134

    ObjectifParamètresPlan~: IFréquence/hauteurPerception des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquencesDiscrimination des fréquences

    Discrimination des fréquencesFréquence/hauteur en MusiqueNote et octaveFréquence/noteFréquence/note (2)Variations des fréquencesSpectreSons harmoniquesSons harmoniques (2)Sons quasi-harmoniquesSons quasi-harmoniques: exempleSons inharmoniquesSons inharmoniques: exempleSons harmoniques/inharmoniquesSons complexes~: mélanges de sonsHauteur des sons harmoniquesFondamentale manquanteSons complexesHauteur des sons complexesHauteur de bruitNon linéarités de l'oreilleDurée et hauteurDurée minimaleEstimation de la hauteurAlgorithmes d'estimation de la hauteurPériodicités dans le domaine temporelAutocorrélation dans le domaine temporelAutocorrélation dans le domaine temporelAutocorrélation dans le domaine temporelDifférence dans le domaine temporelDifférence dans le domaine temporelDifférence dans le domaine temporelForce de la hauteur perçueRecherche de motifs périodiques dans le spectreEstimation de périodicités en spectralMulti PitchMonophonie/PolyphonieMulti F0Multi F0PolyphonieChromasPlan~: IIDéfinitions et différencesLimites de la perceptionPerception du volumePerception du volume (2)Perception du volume (2)Perception de l'intensitéPerception de l'intensitéPerception de l'intensitéAmplitudeAmplitude RMSIntensité perçue d'une sinusoïdeÉchelle des décibels (dB)Intensité perçue et duréeBandes critiquesBandes critiquesBandes critiquesÉchelle Bark (d'après Barkhausen)Bark vs ERBSeuil d'audibilitéAmplitude et dynamiqueVariations périodiquesEnveloppe temporelleEnveloppe temporelle~: définitionTransitoires, Note OnsetsTransitoires (2)ADSRTransitoires (3)Transitoires~: exempleAlgorithmes d'estimation de note onsetApplicationsAlgorithmes d'estimation de note onsetVariations d'énergieVariations d'énergieVariations d'énergieSélection des note onsetsRythme~: variations d'amplitudePulsation/tempoEstimation de tempo, de rythmeExemple : MCPRemarques~:Phénomène de masquageMasquage temporelMasquage fréquentiel : exemplesMasquage fréquentielMasquage fréquentiel (simultané)Exemple: cas d'un son harmoniqueModèle: triangle de masquageExemple de masque $M$Exemple de masque $M$ (suite)Construction du masqueExemple (0/5)Exemple (1/5)Exemple (2/5)Exemple (3/5)Exemple (4/5)Exemple (5/5)Application: compression MPEGApplication: tatouage audioMasquageIllusionsPlan~: IIITimbre~: définitionTimbre~: perceptionMPEG 7Timbre~: définition (2)Enveloppe spectraleCalcul de l'enveloppe spectralePrédiction linéaireEnveloppe spectrale~: cepstreEnveloppe spectrale~: cepstreEnveloppe spectrale~: cepstreEnveloppe spectrale~: segmentsEnveloppe spectrale~: segmentsTimbre~: brillance, flux spectralPlanDescripteurs sonores: intérêtDescripteurs sonoresDescripteurs sonoresDescripteurs sonoresDescripteurs temporelsDescripteurs spectrauxDescripteurs spectrauxDescripteurs spectrauxDescripteurs perceptifs