Sons de guitares

Sons de guitares Analyse et synthèse en contexte

numérique

Travail de maturité de

Lucas Maystre 3M4

Gymnase de Chamblandes

Volée 2005-2006

Remis le 28 octobre 2005

Sons de guitares : analyse & synthèse en contexte numérique Page II

Gymnase de Chamblandes Lucas Maystre

Sommaire

0. Introduction p. 1

1. De l’onde à la musique p. 2

1.1. Caractéristiques des ondes p. 2 1.2. Vitesse de propagation p. 3 1.3. Équation d’onde p. 4 1.4. Ondes stationnaires & modes vibratoires p. 4 1.5. Psychoacoustique p. 5 1.6. Acoustique musicale p. 7

2. Le son numérique p. 8

2.1. Panorama logiciel sur le traitement sonore p. 8 2.2. Approche numérique du son p. 9 2.3. Limitations & problématiques du son numérique p. 9 2.4. La chaîne audionumérique p. 11 2.5. Analyse par TFD p. 12 EXP1 Analyse de 4 formes d’ondes particulières p. 13

3. Analyse et synthèse de sons de guitares p. 15

EXP2 Analyse de sons de guitares p. 15 3.1. Synthèse additive p. 17 EXP3 Implémentation d’une synthèse additive p. 18 3.2. Synthèse soustractive p. 20 EXP4 Implémentation d’une synthèse soustractive p. 21 3.3. Synthèse par modélisation physique p. 22 EXP5 Implémentation d’un algorithme de Karplus-Strong p. 23

4. Conclusion p. 24 5. Bibliographie p. 25 6. Source des illustrations p. 26

Annexe : patchs Pure Data p. 27

A.1 Patch battements sonores p. 27 A.2 Patch synthèse additive p. 29 A.3 Patch algorithme de Karplus-Strong p. 30

Index des pistes du CD audio

N° Durée Description N° Durée Description 1 0’18 Introduction 15 0’18 Guitare électrique n°1 2 0’11 Battement 1 16 0’23 Synthèse additive 3 0’09 Battement 2 17 0’16 Guitare électrique n°1 4 0’10 Battement 3 18 0’24 Synthèse soustractive 5 0’39 Effet psychoacoustique 19 0’12 Guitare acoustique n°1 6 0’28 Numérisation 44.1 kHz 20 0’16 Karplus-Strong 82.87 Hz 7 0’23 Numérisation 11.03 kHz 21 0’12 Karplus-Strong 257.8 Hz 8 0’23 Numérisation 1 kHz 22 0’09 Karplus-Strong 445.4 Hz 9 0’12 Phénomène d’écrêtage 23 0’11 Karplus-Strong 445.4 Hz long 10 0’09 Onde en dents-de-scie 24 0’16 Karplus-Strong 329.1 Hz 11 0’04 Onde carrée 25 0’03 Guitare acoustique n° 2 12 0’05 Onde triangulaire 26 0’06 Guitare électrique n° 2 13 0’07 Onde sinusoïdale 27 1’53 Morceau String Studio 14 0’17 Guitare acoustique n° 1

Sons de guitares : analyse & synthèse en contexte numérique Page III


CD audio

Voici le CD audio accompagnant ce travail de maturité.

Réalisation du CD sur Amadeus II de Hairersoft, et gravure avec iTunes 5.1 d’Apple Computer Inc. La piste n° 9 est basée sur un extrait de la 7e symphonie d’Antonin Dvorak. La piste n° 27 contient un morceau de démonstration du logiciel Applied Acoustics Systems String Studio créé par Robert Voelk, et intitulé « Bienchen (Little Bee) ». La voix féminine qui introduit les pistes a été créée sur une démonstration d’un logiciel de synthèse vocale (Text-To-Speech), développé par les laboratoires de recherche d’AT&T aux Etats-Unis. La voix utilisée est celle de Juliette. La démonstration est accessible sur internet à l’adresse suivante : http://www.research.att.com/projects/tts/demo.html Excepté les remarques ci-dessus, tous les sons contenus dans le CD ont été créés ou enregistrés dans le cadre de ce travail et sont entièrement libres de droits.

Sons de guitares : analyse & synthèse en contexte numérique Page 1


introduction Le son, à l’origine de l’un de nos 5 sens, est vecteur de communication. Que ce soit à travers la voix humaine, la musique ou le bruit, il nous informe, nous émeut, nous avertit. Il fait partie intégrante de notre vie ; malgré cela, il reste souvent méconnu. Ce travail de maturité va tenter d’aborder quelques notions relatives au son, avec pour finalité l’analyse et la synthèse (dans le sens de reconstruction sur ordinateur) de sons de guitares. Nous partirons néanmoins du fondement de ce qui constitue l’événement sonore : l’onde. La 1e partie sera donc centrée d’abord sur les différents aspects ondulatoires du son, puis laissera quelque peu la physique de côté pour voir quelques notions sur la perception du son par l’être humain (psychoacoustique), puis sur le rôle et la forme du son dans la musique. La 2e partie, plus technique, se concentrera sur la représentation discrète numérique du son, telle qu’on le trouve sur ordinateur, ainsi que sur l’analyse de celui ci par transformation de Fourier discrète. La 3e partie sera plus nettement orientée sur la pratique, avec une analyse introductive de deux sons de guitare, puis des explications sur 3 techniques de synthèse sonore, assorties à chaque fois d’une tentative de recréer l’un des 2 sons analysés. L’ensemble se veut cohérent et progressif ; les aspects techniques quant à la réalisation des synthétiseurs ont été mis en annexe, pour ne pas surcharger les expériences et accentuer l’essentiel. Il faut aussi noter que le travail n’est pas uniquement fourni sous forme de dossier écrit ; en effet un CD audio contenant les enregistrement et les résultats de la synthèse, mais aussi quelques autres illustrations de phénomènes sonores. Avec l’espoir que vous aurez du plaisir à les découvrir.



De l’onde à la musique 1e partie Chapitres : 1.1 Caractéristiques des ondes 1.2 Vitesse de propagation 1.3 Équation d’onde 1.4 Ondes stationnaires & modes vibratoires 1.5 Psychoacoustique 1.6 Acoustique musicale

1.1 Caractéristiques des ondes Qu’est-ce qu’une onde ? À l’évocation de ce terme, des images peuvent nous venir à l’esprit : les vagues, un tremblement de terre, la radio, ou simplement une sinusoïde… De manière générale, une onde peut se définir de la manière suivante : une onde est une propagation d’énergie, engendrée par une perturbation, qui produit sur son passage une variation des propriétés physiques locales. Il y a donc au départ une perturbation, qui se propage ensuite dans le temps et l’espace. A noter que l’énergie se déplace, et non la matière. L’énergie se déplace parfois à travers la matière, ce qui a pour conséquence un mouvement de celle-ci, mais cela tombe plus clairement sous le sens pour certaines ondes qui peuvent se propager dans le vide (les ondes électromagnétiques). Les ondes sonores se déplacent toujours à travers la matière ; un son n’existe donc pas dans le vide. Une onde peut-être uni-, bi-, ou tridimensionnelle (par exemple sur une corde, sur un plan d’eau ou dans l’air). La déformation qui découle de l’onde peut être soit perpendiculaire au sens de déplacement de celle-ci, soit parallèle. Nous pouvons faire l’analogie avec une corde et un ressort : si nous agitons une corde tendue assez rapidement, nous pouvons observer que le déplacement de la corde est perpendiculaire au déplacement de l’onde. Si par contre nous donnons une impulsion à un ressort dans le sens de sa longueur, les spires du ressort se rapprocheront et s’éloigneront les unes des autres avec une direction parallèle au déplacement de l’onde. Le terme technique donné à l’onde se déplaçant de la sorte s’appelle onde longitudinale. Pour l’onde se déplaçant perpendiculairement, nous emploierons le terme d’onde transversale. Les ondes transversales ont une caractéristique intéressante que les ondes longitudinales n’ont pas : elles rajoutent une dimension au milieu qu’elles traversent. Ainsi, la corde (1 dimension) sera représentée en deux dimensions si elle est traversée par une onde transversale. De même, un plan d’eau (une surface – 2 dimensions) traversé par une onde transversale acquérra une troisième dimension. Nous pouvons donc en déduire que toute onde qui se propage dans un milieu tridimensionnel est de type longitudinal.

Fig. 1.1

Nous avons dit dans la définition de l’onde que celle-ci était la conséquence d’une perturbation. Cette perturbation peut-être unique ou désordonnée dans le temps, mais il existe un cas de figure intéressant et qui nous intéressera particulièrement : l’onde périodique ou continue. Dans ce cas, la perturbation est toujours la même, et un même intervalle de temps sépare deux perturbations. Cette perturbation est donc une vibration, ou oscillation. La forme la plus connue d’onde périodique est sans conteste la sinusoïde (fig. 1.1). Cette forme d’onde, la plus basique, va nous permettre d’aborder certaines caractéristiques d’une onde périodique. Tout d’abord, la longueur d’onde (1), notée λ : c’est une distance qui couvre la longueur d’un cycle complet de l’onde. C’est la distance qui sépare deux perturbations. En connaissant la vitesse, il est possible, à partir de la longueur d’onde, de trouver la période de l’onde, notée T : cette fois-ci il s’agit d’une valeur temporelle, qui mesure le temps qui



sépare, à un point fixe, deux perturbations adjacentes et identiques (le temps qui passe entre deux perturbations). Il existe une autre représentation du même concept : la fréquence, notée f. Cette valeur s’exprime en Hertz (Hz), qui ne sont rien d’autre que des 1/secondes, et vaut tout simplement l’inverse de la période. La fréquence indique combien de perturbations sont émises en une seconde. Il reste encore la notion d’amplitude (2), notée A. Il s’agit de la variation maximale produite par l’onde, par exemple la hauteur maximale qu’atteint une particule dans un milieu traversé par une onde par rapport à sa position au repos, autrement dit la distance entre la crête ou le creux et le « plancher » de l’onde. Plus l’amplitude est grande, plus l’énergie transportée croît.

1.2 Vitesse de propagation Examinons maintenant comment l’onde se propage. En donnant une impulsion à une corde, nous pouvons observer que la crête (c’est ainsi qu’on appelle le point culminant de l’onde) se déplace. La vitesse de l’onde est calculée en multipliant la longueur d’onde par la fréquence (v = λ·f). Cela devient évident avec un exemple : une onde ayant une fréquence de 20 cycles par seconde, c'est-à-dire de 20 Hz, et dont la longueur s’onde s’élève à 3 mètres, effectuera 20·3 mètres en une seconde, autrement dit aura la vitesse de 60 m/s. Mais l’expérience nous apprend la vitesse de l’onde dans un même milieu est constante et par là indépendante de la fréquence et de la longueur d’onde. Donc deux ondes de fréquences différentes traversant le même milieu ont forcément une longueur d’onde différente. Comment se calcule alors la vitesse pour un milieu donné ? Pour une corde tendue, la vitesse obéit à l’équation suivante :

!

v = F µ , F = tension de la corde, µ = masse linéique

Fig. 1.2

Pour démontrer cette relation, nous allons considérer un très petit morceau de corde comprenant en son milieu une crête d’une onde sinusoïdale. Nous noterons ΔL sa longueur et ΔM sa masse. Nous pouvons aussi assimiler le mouvement de la courbure à un mouvement circulaire uniforme, de rayon r. Pour la démonstration, nous aurons besoin encore de la relation

!

r F = m "

r a . Soit une force F, la tension, qui doit

assez grande pour pouvoir négliger le poids de la corde. Le morceau de corde est donc sujet à deux forces, comme le montre le schéma (fig. 1.2). La force résultante est logiquement dirigée vers le centre de courbure, et sa valeur est :

!

r F

v+

r F '

v= 2 " F " sin# . Comme l’angle est petit, nous pouvons approximer

le résultat à

!

2 " F " # . Comme nous l’avons dit plus haut, nous considérons le mouvement comme circulaire et uniforme, nous pouvons donc écrire :

!

F = m " v2

r, c'est-à-dire

!

2 " F " # = $M " v2

%. La

définition de l’angle nous donne

!

2 " # = $L % donc

!

" = #l2$%

. En remplaçant dans l’équation obtenue peu

avant, nous obtenons :

!

2 " F " #L2"$

= #M " v2

$% v

2= F " #M

#L. La grandeur

!

"M

"L s’appelle masse linéique de la

corde et se note µ, ce qui nous donne

!

v2 = F µ, et finalement

!

v = F µ Par analogie, nous pouvons trouver la vitesse de propagation de l’onde pour les solides et les gaz. Une onde sonore se propageant dans l’air ambiant (20° C) aura une vitesse d’environ 343 m/s. Avec la vitesse d’une onde surviennent plusieurs phénomènes intéressants, dont l’effet Doppler – lorsque par exemple la source de l’onde se déplace.



1.3 Equation d’onde Après tout cet aspect physique, abordons maintenant les ondes mathématiquement, en établissant l’équation d’une onde sinusoïdale périodique. Elle définit la position d’un certain endroit de l’onde à un certain instant. L’équation est donc dépendante de 2 variables : la position et le temps. Pour simplifier, nous allons dans un premier temps considérer que nous nous déplaçons en même temps que l’onde, et nous pouvons donc mettre de côté un instant la variable temporelle (nous utilisons alors le référentiel mobile O’x’y’). La sinusoïde perçue est caractérisée par son amplitude et sa longueur d’onde (fig. 1). La fonction est donc de la forme

!

y' x'( ) = A " sin(k " x') , k est à déterminer pour que la période (de la fonction sinus, attention ce n’est pas ce qui est appelé période de l’onde) soit égale à lambda : il faut que

!

y' x'( ) = y' x'+"( ) pour tout x’.

!

A " sin k " x '( ) = A " sin k " x'+#( )( )$ sin k " x '( ) = sin k " x'+#( )( )$ sin k " x '( ) = sin k " x '+k " #( ). Or nous savons que

!

sin x( ) = sin x + n " 2#( ),$x,n % &, donc

!

k " # = 2$ et finalement

!

k = 2" # . Nous pouvons maintenant reprendre la variable temporelle, en remplaçant x’ par x-v·t (nous passons maintenant dans le référentiel fixe Oxy). Cela donne

!

y x, t( ) = A " sin k " x # v " t( )( ) = A " sin 2$%" x # 2$

%" v " t( ) . Plus haut nous

avons vu que

!

v = " # f et donc que

!

f = 1

T" v

#= 1

T" 2$

#% v % t = 2$

T% t . Pour finir :

2 constantes, en plus de A, apparaissent dans cette équation : 2·π/λ, appelé nombre d’onde (circulaire) et parfois noté k, ainsi que 2·π /T, appelé pulsation ou fréquence circulaire et parfois noté ω. Pour que cette équation soit vraiment complète, il faut ajouter une notion de plus : la phase initiale, notée ϕ. La phase initiale, c’est une valeur qui initialise le comportement de la fonction sinus lorsque t,x = 0. La phase initiale est importante surtout lorsqu’il faut manipuler plusieurs ondes, les additionner par exemple (fig. 1.3). Si la phase initiale de deux ondes de même fréquence et amplitude est égale, l’onde résultante de leur addition sera simplement une nouvelle onde de même fréquence et d’amplitude double. Si la différence de phase initiale vaut p, c'est-à-dire que visuellement une onde « monte » quand l’autre « descend », l’onde résultante sera nulle (fig. 1.4). L’équation de toute onde sinusoïdale, en tenant compte de la phase initiale est donc :

!

y x, t( ) = A " sin 2#$" x % 2#

T" t +&( ) ϕ = phase lorsque t,x = 0.

Fig 1.3 Fig 1.4

Cette notion de phase nous introduit justement à la problématique des interférences, soit lorsque plusieurs ondes se rencontrent. Nous avons dit que lorsque c’est le cas, l’onde résultante est l’addition des valeurs des ondes qui interfèrent, pour x et t donné. Nous avons un cas classique avec le phénomène des battements. Lorsque nous additionnons deux ondes de fréquence très proche, les ondes se retrouvent à certains moments en opposition de phase, et ont à d’autres moments la même phase, ce qui fait que l’amplitude n’est pas constante, elle varie à une certaine fréquence. 3 exemples de battements ont été créés dans Pure Data, et sont disponibles sur le disque (CD piste 2, 3 et 4). Le patch Pure Data (voir chap. 2.1) avec quelques informations sur les battements sont donnés en annexe (A.1).

1.4 Ondes stationnaires & modes vibratoires Retournons maintenant à la physique, pour nous intéresser au phénomène des ondes stationnaires, qui découlent de ce que nous avons dit sur les interférences. Lorsque nous pinçons le milieu d’une corde fixée au deux extrémités, deux ondes se propagent : l’une en direction de la droite et l’autre de la gauche. Les deux ondes ont même longueur d’onde (2x la longueur de la corde) donc même fréquence,

!

y x,t( ) = A " sin 2#

$" x% 2#

T" t( )



et même phase. Elles ont une vitesse de même norme mais de sens contraire. Lorsqu’elles se heurtent à l’extrémité, elles se répercutent dans le sens contraire. Nous allons considérer qu’elles sont sinusoïdales, ce qui n’est qu’une grossière approximation. La forme de l’onde sera plutôt triangulaire (fig. 1.5), ce qui implique quelques subtilités, mais nous étudierons cela à l’EXP1. Leur équation s’écrit donc :

!

y x, t( ) = A " sin k " x #$ " t( ) pour la première, et

!

y x, t( ) = A " sin k " x +# " t( ) pour la deuxième, qu’on appelle parfois onde rétrograde.

Fig 1.5 Fig 1.6

Fig. 1.7

Sur le schéma (fig. 1.7), nous remarquons que l’onde résultante semble ne pas se déplacer et que son amplitude varie en fonction de la position des deux ondes et du temps (si elles sont plutôt de même phase ou non). Approchons le phénomène de plus près : l’onde résultante est donnée par l’addition des deux ondes, que nous appellerons onde aller et retour.

!

yresult x,t( ) = yaller x,t( ) + yretour x,t( )

!

= A " sin k " x #$ " t( ) + A " sin k " x +$ " t( ) = A " sin k " x #$ " t( ) + sin k " x +$ " t( )[ ] . Une relation trigonométrique nous permet de transformer la somme en produit :

!

sin a( ) + sin b( ) = 2 " sin a+b2( ) " cos a+b

2( )

donc :

!

yresult x,t( ) = A " 2 " sin k"x#$" t+k"x+$" t2( ) " cos k"x#$" t# k"x+$" t( )

2( )[ ]

!

= 2 " A " sin k " x( ) " cos # " t( ).Nous pouvons

maintenant faire quelques remarques sur cette équation : comme nous le voyons sur le schéma, les extrémités de la corde ne bougent pas, donc y(0,t)=0 quel que soit t. Nous pouvons dire que cette équation est une fonction sinusoïdale de la position modulée par une fonction cosinusoïdale du temps. Nous donnons le nom de nœud aux points immobiles. Les nœuds se forment tous les λ/2 (zéros de la fonction sin k·x). Par opposition, les creux et bosses sont nommés ventres. Refaisons maintenant la même expérience, mais en pinçant la corde très rapidement au quart de la sa longueur, comme illustré sur le schéma (fig. 1.6). Nous retrouvons exactement les mêmes phénomènes, sauf que cette fois-ci la longueur d’onde est égale à la longueur de la corde, et non plus au double. La conséquence est qu’un nœud et un ventre supplémentaire se forment. Et pareil si nous pinçons la corde au 6e de sa longueur, nous aurons une longueur d’onde qui vaudra 2/3 de la longueur de la corde, et en tout 3 ventres et 4 nœuds. Nous voyons donc qu’une corde peut vibrer à différentes fréquences. Ces fréquences spécifiques s’appellent aussi modes vibratoires. Le mode fondamental a comme longueur d’onde 2·[longueur de la corde]. Puis, chaque mode une longueur d’onde correspondante à l’équation suivante : [longueur d’onde mode fondamental]/[n° de mode]. Par exemple le 7e mode d’une corde dont le mode fondamental a une longueur d’onde de 10 cm va voir la sienne mesurer 10/7 cm, ce qui représentera 2/7 de la longueur de la corde. Les fréquences des différents modes sont tout simplement des multiples entiers de la fréquence du mode fondamental, d’équation : [n° de mode]·[fréquence mode fondamental]. Notons pour terminer que dans la pratique, les modes sont souvent mélangés, avec des amplitudes différentes pour chaque mode.

1.5 Psychoacoustique Voici une question à laquelle il est peut-être judicieux de répondre maintenant : comment « entendons-nous » la corde vibrer ? Pour être précis, nous n’entendons pas la corde vibrer. La corde transmet mécaniquement sa vibration à une surface (pour une guitare, ce serait la caisse de résonance) qui, elle-même, transmet la vibration à l’air (ou tout autre milieu dans lequel nous avons nos oreilles – l’eau par exemple). Nos oreilles ressentent alors les différences de pression de l’air. Mais la relation que nous



avons au son est bien plus complexe qu’une simple sensation de « chatouillement » dans les oreilles. À la frontière entre l’acoustique, la physiologie et la psychologie, la psychoacoustique est l’étude des sensations auditives de l’homme. Comprendre ce que nous entendons passe donc par l’étude de la psychoacoustique, dont nous allons livrer quelques bases. Commençons par comprendre de façon sommaire le fonctionnement de notre oreille. C’est un organe extrêmement complexe, qui n’a de loin pas livré tous ses secrets. Nous distinguons basiquement trois parties : l’oreille externe, l’oreille moyenne et l’oreille interne (fig. 1.8). L’oreille externe est composée du pavillon (que certains animaux peuvent mouvoir, mais pas l’homme) et du conduit auditif externe. Nous arrivons ensuite à l’oreille moyenne, avec le tympan. Après le tympan se trouve un système de trois petits os (les osselets) poétiquement appelés le marteau, l’enclume et l’étrier. Nous comprenons donc que la vibration arrive au tympan, qui la transmet au marteau, faisant à son tour vibrer les 2 autres osselets. Puis nous arrivons à un troisième niveau, l’oreille interne, qui comporte une multitude d’autres parties. L’essentiel de l’oreille interne réside en ceci : elle transforme la vibration mécanique en signal électrique nerveux, et le signal est acheminé au cerveau en empruntant le nerf auditif. Remarquons encore que l’oreille ne sert pas qu’à « écouter » : dans l’oreille interne se trouve un petit organe, le vestibule, qui perçoit la position angulaire de notre tête et l’accélération qu’elle subit. Il est dit généralement que l’oreille humaine perçoit les fréquences de 20 Hz à 20 kHz, mais ceci est une convention très moyenne. Les fréquences perçues dépendent de la personne et de son âge, sachant que certaines jeunes personnes à l’ouïe intacte peuvent entendre des fréquences de l’ordre de 50kHz. L’âge et l’exposition au bruit affectent notre ouïe, nous devenons moins sensibles à certaines fréquences (les hautes fréquences étant les plus touchées). L’appareil auditif est tellement fragile que nous pouvons affirmer que personne n’a, à l’âge adulte, une ouïe en parfait état.

Fig. 1.8

Les sensations chez l’homme sont en général plus ou moins logarithmiques. Ainsi, pour avoir la sensation qu’un plat est deux fois plus sucré, il ne s’agira pas mettre deux fois plus de sucre. De même pour la perception de l’intensité d’un son. L’unité (ou plus précisément la pseudo-unité) logarithmique par excellence est le Bel, qui se définit comme suit : 1 Bel =

!

log10 V1 V2( ),

!

V2 étant très souvent une

valeur de référence constante. C’est donc le logarithme d’un rapport de deux valeurs de même unité : en conséquence le Bel est un nombre sans unité. Du Bel découle le décibel, plus fréquemment utilisé, qui se définit simplement comme suit : 10 décibel= 1 Bel. L’intensité sonore se note I et est exprimée en

!

W m2 (donc une puissance par unité de surface).L’intensité minimale perceptible Io, valeur de

référence dans le calcul des décibels à été fixée à

!

10"12W m

2 , et le seuil de la douleur est à

!

1W m2 –

nous pouvons voir que l’étendue de la sensibilité d’une oreille est très vaste ! La définition du niveau d’intensité est donc comme suit :

!

NI =10 " log10 I I0( ) . Le son le plus faible que nous pouvons théoriquement entendre est à 0dB et le seuil de la douleur à 120dB. Doubler l’intensité d’un son revient à ajouter env. 3dB. Si nous doublons l’intensité d’un son à 1dB, le nouveau son sera à env. 4dB ; pour un son à 120dB, son pendant doublement plus intense sera à 123dB. À ce point, il convient de faire trois remarques : premièrement, l’intensité est inversement proportionnelle au carré de la distance. En doublant la distance par rapport à la source sonore, nous divisons par 4 l’intensité et nous enlevons donc 6dB au niveau d’intensité. Deuxièmement, les dB sont beaucoup utilisés, ce qui induit parfois une certaine confusion : ils représentent des concepts divers, dans des domaines variés mais aussi au sein même de l’acoustique ; et parfois il y a plusieurs valeurs de référence pour le même concept. Troisièmement, si notre cerveau perçoit l’intensité de façon plus ou moins logarithmique, le mécanisme de notre oreille réagit linéairement. Ainsi, même si la différence



d’intensité ressentie n’est pas spectaculaire, les dégâts causés à l’oreille par quelques dB de plus sont parfois extrêmement violents. Un autre aspect caractéristique de l’appareil auditif humain, c’est la représentation spatiale du son. Grâce à nos deux oreilles, nous pouvons repérer d’où vient le son, et détecter des changements de position de 3°. Comment faisons nous cela ? Grâce à la différence d’intensité et surtout de phase de l’onde, qui arrive rarement en même temps à nos deux oreilles. Nous pouvons induire nos oreilles en erreur, et certains algorithmes informatiques permettent de jouer sur ce qu’on appelle aussi effet psycho acoustique. Comme il existe des illusions d’optique, il existe donc aussi des illusions auditives. Un exemple, avec un son qui semble descendre éternellement (CD piste 5). Ce qui nous permet de conclure : l’ouïe est une sensation subjective à tous les points de vues, dépendant de facteurs physiologiques, psychologiques et culturels.

1.6 Acoustique musicale Voyons maintenant quelques éléments du son dans un contexte musical. De manière très basique, deux éléments déterminent la sonorité d’une note jouée par un instrument : la hauteur et le timbre. En musique, la gamme fait souvent office de mesure pour la hauteur. La gamme tempérée, car il existe en réalité plusieurs types de gammes, repose sur une note de référence, le la à 440 Hz, à partir de laquelle sont calculées les hauteurs de toutes les autres notes. elle comporte 12 demi-tons (fig. 1.9), et à chaque octave (lorsque la gamme recommence plus haut), la fréquence fondamentale double. Pour passer à un demi-ton plus haut, il faut donc multiplier par

!

212 la fréquence d’une note. Ainsi, le la#, situé un demi-

ton au-dessus du la, aura une fréquence de

!

440 " 212 = environ 466 Hz. Nous pouvons donc remarquer

que la hauteur est aussi une sensation logarithmique.

Fig. 1.9

Venons-en au timbre : celui-ci caractérise la sonorité particulière d’un instrument par rapport à un autre, à hauteur égale. En général, les instruments émettent aux fréquences multiples de la fondamentale, c’est-à-dire aux différents modes vibratoires vus précédemment. Ces modes multiples de la fondamentale s’appellent plus musicalement les harmoniques. Le deuxième mode devient donc la première harmonique, etc. Le timbre, de manière simpliste, c’est donc la répartition et l’amplitude des harmoniques. Les sons produits par les instruments que nous pourrions qualifier de classiques sont en fait infiniment complexes. En effet, le timbre varie en fonction de la hauteur, et en fonction du temps. Il faut surtout distinguer une phase, l’attaque, qui ne dure parfois que quelques millisecondes, mais qui joue un immense rôle pour la perception que nous avons. Cette attaque comporte beaucoup de fréquences, harmoniques mais aussi inharmoniques.Nous pouvons encore dire du timbre qu’en gros, il existe deux familles de sons : les sons harmoniques, composés d’harmoniques de la fréquence fondamentale, et les sons bruiteux, dont la hauteur ne peut pas être reconnue. Entre les deux se trouvent toutes les nuances possibles, des sons plutôt bruiteux aux sons plutôt harmoniques. C’est cela qui fait la diversité de la musique, et contribue fortement à son intérêt. Un son que nous ressentons comme harmonieux ou beau ne s’explique pas mathématiquement : c’est le fruit d’une question subjective de goût, d’habitude et de culture. La musique dans d’autres régions du monde n’a pas forcément la même gamme, et nous paraît au premier abord totalement dissonante. Dans une autre optique, les accords développés dans nos contrées avec le jazz auraient été choquants il y a 200 ans.



Le son numérique 2e partie Chapitres : 2.1 Panorama logiciel sur le traitement sonore 2.2 Approche numérique du son 2.3 Limitations & problématiques 2.4 La chaîne audionumérique 2.5 Analyse par TFD

Expériences : EXP1 Analyse de 4 formes d’onde particulières

2.1 Panorama logiciel sur le traitement sonore HairerSoft Amadeus II, développé par l’ingénieur suisse Martin Hairer et sa société HairerSoft, est l’un des rares éditeurs audio abordables sur plateforme Mac OS X ; son prix (quelques dizaines de francs) le rend accessible au grand public. Il permet d’enregistrer un son à travers un micro et une carte d’acquisition, puis d’éditer ce son en supprimant les parties inutiles ou ratées, en coupant, copiant et collant une partie intéressante. La fenêtre principale permet de visualiser la forme de l’onde du son, avec un zoom permettant de voir des détails de l’ordre d’une infime fraction de seconde ou au contraire de voir un enregistrement de plusieurs heures sur la seule largeur de l’écran. Ce logiciel dispose aussi d’un éventail de fonctions analytiques puissantes, ce qui nous intéresse au plus haut point dans le cadre de ce travail. Il existe une variété de représentations du spectre de tout – ou partie – du son, en deux ou trois dimensions : spectre simple, spectre 3D, sonogramme. Il peut aussi afficher le spectre du signal entrant dans le micro en temps réel de plusieurs façons, en plus d’afficher la forme du signal grâce à l’oscilloscope intégré. Pour finir l’inventaire des fonctions analytiques, notons encore le fait qu’Amadeus II peut générer une fenêtre contenant des statistiques détaillées sur le son, telles que la gamme dynamique, les fréquences minimales et maximales. Amadeus II permet en outre de modifier le son enregistré, par exemple grâce à un procédé de réduction du bruit ambiant, ou en modifiant la hauteur et/ou la vitesse grâce à des algorithmes sophistiqués. Il est compatible avec les formats de plugins standards VST (Virtual Studio Technology) de Steinberg et AU (Audio Unit) d’Apple, ce qui permet d’ajouter des effets tiers, ou – pourquoi pas – de développer et d’intégrer ses propres algorithmes de traitement du signal. Pour finir, notons qu’il intègre un générateur de signal complexe, et qu’il est compatible avec une large palette de formats audio (compressés ou non) en importation et en exportation, dont le WAV et le MP3. Amadeus est vraiment un couteau suisse indispensable pour celui qui veut manipuler du son sur un ordinateur Apple, à bon prix. Pure Data (en abrégé : PD) a été développé par le professeur Miller Puckette. Ce dernier a notamment été employé à l’IRCAM (Institut de Recherche et de Coordination Acoustique/Musique) à Paris, où il a développé le logiciel Max/MSP. Il est maintenant professeur à l’université de Californie à San Diego et directeur associé du CRCA (Center for Research in Computing and Arts – centre pour la recherche dans le calcul et les arts). Pure Data est son récent projet d’environnement de programmation graphique multimédia orienté temps réel. Concrètement, il reprend l’idée de Max/MSP sans être à l’heure actuelle aussi abouti que son grand frère. Il possède le gros avantage d’être libre, c'est-à-dire qu’il est entièrement gratuit et que le code source est à la disposition de tout le monde, que chacun peut l’améliorer et/ou le modifier s’il en a l’envie et les connaissances. Son fonctionnement est le suivant : chaque document Pure Data (appelé patch) contient un empilement de boîtes de trois sortes : les objets, effectuant des opérations ; les messages, permettant aux objets de communiquer entre eux ; et les boîtes d’interface, pour le contrôle du patch. Ces boîtes sont interconnectées à l’aide de câbles virtuels. Ce procédé possède l’avantage de laisser à l’utilisateur un champ d’expérimentation très vaste, en général réservé au programmeurs, tout en évitant la saisie pure et simple de code. Il permet aussi l’acquisition d’un flux audio en provenance d’un micro ou d’un instrument électrique. Le principal défaut se trouve dans sa documentation, éparpillée, et dans l’aspect graphique qui sont loin du niveau de Max/MSP. En outre, PD dispose d’une librairie de boîtes moins fournie que MSP, même si certains développeurs ont mis à disposition des librairies additionnelles. Pure Data s’est révélé être l’outil idéal pour ce travail de maturité ; pour la partie synthèse surtout, mais il aurait également pu l’être pour l’analyse. De plus, l’esprit colle parfaitement : un logiciel libre, développé par des chercheurs pour des chercheurs.



Deux autres logiciels hautement intéressants: il s’agit de Cycling ’74 Max/MSP et de Native Instruments Reaktor. Nous avons déjà évoqué le premier, il s’agit comme Pure Data d’un logiciel de programmation graphique modulaire. Il se décompose en deux parties : Max, qui constitue l’interface graphique et MSP, qui est une librairie d’objets pour le traitement du signal. Ce duo très puissant est non seulement utilisé dans la recherche sonore de pointe, mais a aussi permis le développement de quelques logiciels commerciaux de traitement sonore. Il dispose d’une large documentation, et par là est plus accessible que Pure Data, mais il a un prix (700 Frs – 350 Frs pour la version académique) qui le met hors de portée des amateurs. Quant à Reaktor, il reste dans la même veine que les deux précédents mais se veut d’abord logiciel de création musicale. Par cet angle d’approche différent, il ne convient pas parfaitement à ce travail. Son prix (700 Frs) le réserve aux producteurs de musique professionnels.

2.2 Approche numérique du son La manipulation du son sur un ordinateur implique une étape cruciale : le signal doit être numérisé. En quoi consiste la numérisation ? La signification du mot nous fournit un semblant de piste ; il s’agirait de rendre en nombre quelque chose qui ne l’est pas. De manière très globale, c’est bien de cela qu’il s’agit : La numérisation, appelée quelquefois sous l’influence de l’anglais digitalisation, est la conversion d’un objet réel en une suite de nombres permettant de représenter cet objet en informatique. Au terme numérique est opposé le terme analogique, dont le concept est la représentation de quelque chose de continu : par exemple un thermomètre analogique à alcool indiquera la température de manière continue (en fonction de la chaleur). A l’inverse, un thermomètre numérique indiquera la température par paliers : que ce soit de degré en degré ou de millionième de degré en millionième de degré, il reste ce concept de palier. Dans le cas d’un son, il s’agit bien de quelque chose d’analogique : les variations de pression de l’air. Numériser a donc ici la définition suivante : cela consiste à transformer un signal analogique continu en signal numérique, dit discret (par opposition à continu). Cela consiste en deux phases (fig. 2.1) : l’échantillonnage, qui consiste à capturer un instant (échantillon) du signal, et la quantification, qui consiste à attribuer une valeur finie, discrète, à chaque échantillon. À la fin de ces deux phases, nous avons donc un certain nombre d’instants qui ont chacun une certaine valeur. Un signal continu a par définition une précision infinie, autant dans le domaine des instants (le signal continu est constitué d’une infinité d’instants) que des valeurs (pas de paliers). En numérisant le signal, la précision n’est plus infinie, elle dépend du nombre d’échantillons prélevés par unité de temps – voilà une nouvelle fois le concept de fréquence – et de l’étendue des valeurs (profondeur – souvent exprimée, informatique oblige, en bits) qu’il est possible d’attribuer aux échantillons.

Fig. 2.1

La précision, autrement dit la qualité de la numérisation, dépend comme nous l’avons dit de la fréquence d’échantillonnage et de la profondeur de quantification. Deux facteurs imposent la qualité maximale que l’on peut obtenir : en premier lieu il convient d’avoir un convertisseur capable de fournir la performance demandée (constance dans les intervalles d’échantillonnages même pour des fréquences extrêmement élevées, et bande passante suffisante pour acheminer le flux d’information entre les différents niveaux du convertisseur), et il faut aussi que la mémoire de stockage supporte la taille de données. Un CD audio classique a une fréquence d’échantillonnage de 44.1 kHz et une profondeur de quantification de 16 bits (les échantillons peuvent prendre des valeurs allant de -32768 à 32768, soit 2^16 valeurs différentes), ce qui correspond à une qualité tout à fait acceptable en rapport avec les facultés perceptives acoustiques de l’homme.

2.3 Limitations & problématiques Intéressons-nous maintenant aux différents problèmes et limitations du son numérique. Le premier cas dont nous allons parler découle de la fréquence d’échantillonnage et s’appelle le phénomène du



repliement spectral. Sur les 2 premières illustrations ci-dessous, celle de gauche montre un échantillonnage réussi (fig. 2.2), tandis que celle du milieu illustre un repliement spectral (fig. 2.3).

Fig. 2.2 Fig 2.3 Fig 2.4

Si nous relions les valeurs prises à chaque intervalle (déterminé par la fréquence d’échantillonnage) sur cette illustration du milieu, la forme de l’onde n’est plus du tout la même que celle que nous avions avant la numérisation. La sinusoïde que nous obtenons par interpolation des points a une fréquence totalement différente. La fréquence de cette dernière se définit comme suit : nouvelle fréquence = Fe – Fo (modulo Fe), avec Fe = fréquence d’échantillonnage et Fo = fréquence originelle. Ainsi, si nous essayons de numériser une sinusoïde vibrant à 25kHz avec une fréquence d’échantillonnage de 40 kHz, nous allons obtenir une vibration parasite à 40-25=15 kHz. Ce parasite s’appelle également artéfact numérique. Pour que le repliement spectral n’ait pas lieu, il faut que la fréquence maximale présente dans un signal soit égale à Fe/2, comme l’illustre le schéma ci-dessus à droite (fig. 2.4). Cette fréquence limite s’appelle aussi parfois la fréquence de Nyquist. Comment s’assurer que le signal à numériser ne contient pas de fréquence supérieure à Fe/2 ? Il faut recourir à des fonctions mathématiques parfois très complexes, les filtres, qui atténuent plus ou moins drastiquement les fréquences supérieures. Le filtre parfait, appelé cardinal, agirait de la sorte : soit il n’atténue aucune fréquence (fréquence < Fe/2), soit la fréquence est totalement enlevée (fréquence > Fe/2). Il existe des fonctions qui s’en approchent, mais plus elles s’en approchent, plus il y a d’autres artéfacts qui y sont introduits (distorsions de phase). Pour avoir la meilleure expérience auditive, il faut utiliser une fonction qui filtre le signal progressivement. Ceci expliquerait la fréquence d’échantillonnage d’un CD audio : avec une Fe de 44.1 kHz, la fréquence de Nyquist se situe à 22.05 kHz. En se rappelant qu’une oreille humaine moyenne entend à priori les fréquences inférieures à 20 kHz, nous pouvons constater qu’il reste 2050 Hz de marge pour que le filtre puisse atténuer progressivement les fréquences plus hautes. Pour se rendre compte des effets du choix de la fréquence d’échantillonnage, trois courts extraits ont été enregistrés (CD pistes 6, 7 et 8), et numérisés avec une Fe respectivement de 44.1 kHz, 11.03 kHz et 1 kHz. Ces extraits ont ensuite été rééchantillonnés à 44.1 kHz pour être conforme à la norme du CD audio, mais les défauts subsistent. La discrétisation de l’amplitude, comme celle du temps, implique également un certain nombre de problèmes. Sur l’illustration suivante (fig. 2.5), nous voyons le signal superflu qui est rajouté au signal originel par le processus de quantification. Ce signal superflu est appelé bruit de quantification et dépend bien évidemment de la profondeur de quantification.Il définit aussi ce qu’on appelle le rapport signal/bruit, c’est à dire le rapport d’intensité entre le signal utile qui contient l’information sonore et le bruit qui distord l’information utile. Le rapport signal sur bruit d’une quantification 8 bits est d’environ 50 dB, tandis que celui d’un signal quantifié sur 16 bits est d’environ 98dB. Nous pourrions donc penser que le bruit de quantification est négligeable, toutefois il n’est malheureusement pas toujours possible de convertir un signal analogique sur toute la plage de quantification. Lorsqu’il faut ensuite normaliser le signal numérisé (augmenter l’amplitude du signal entier proportionnellement pour que la valeur d’amplitude maximale arrive à la valeur de quantification maximale), le bruit de quantification est aussi amplifié et peut devenir gênant.



Fig. 2.5

Un phénomène similaire mais autrement plus violent : l’écrêtage. Dans le cas du numérique, le fonctionnement est bien simple : si l’amplitude du signal dépasse la valeur maximale de quantification, il n’y a plus d’autre valeur à attribuer et le signal est très fortement dénaturé. Cela donne un effet très désagréable auditivement (CD piste 9). Il y a plusieurs moyens de contrer cela, mais le plus simple et le plus utilisé reste l’opération de la normalisation (en diminuant l’amplitude du signal entier cette fois).

2.4 La chaîne audionumérique Nous allons maintenant passer rapidement sur le processus d’enregistrement d’un son sur un support numérique, qui ne se limite pas simplement à l’opération de la numérisation (fig. 2.6). En premier lieu, le signal sonore sous forme de variations de pression de l’air (tel que nous pouvons l’entendre avec les oreilles) est capturé et transformé par un microphone. Il existe une multitude de types de microphones, mais il s’agit en général d’une membrane qui vibre avec les variations de pression de l’air, et qui induira une perturbation du champ magnétique créant une tension. Cette perturbation aura une forme semblable à celle des variations de pression. Ce signal est généralement très faible, c’est pourquoi il passe à travers un préamplificateur analogique, qui amplifiera fortement le signal. Les préamplificateurs de qualité sont en général encombrants, fragiles et gourmands en électricité, c’est pourquoi ils ne sont pas intégrés au microphone. Le signal passe ensuite par une étape que nous avons vue précédemment et qui est nécessaire à la numérisation : un filtre anti-repliement passe-bas (qui ne laisse passer que les fréquences inférieures à la fréquence de coupure – dans ce cas, la fréquence de Nyquist). Puis nous arrivons au stade du convertisseur analogique-numérique (CAN), qui va effectuer l’échantillonnage et la quantification. Le résultat de la numérisation est ensuite stocké sur une mémoire. En général, le son digital passe souvent sur un disque dur, mais la destination finale peut être un CD (qui tend à être remplacé par le DVD – même pour les médias exclusivement sonores). Lorsque nous voulons écouter un signal numérisé, il faut faire le processus inverse : le son numérique passe par un convertisseur numérique-analogique. Puis vient un filtre de lissage, qui a pour but en quelque sorte d’interpoler le signal échantillonné. Le signal est ensuite amplifié et délivré à des haut-parleurs, dont le fonctionnement est exactement l’inverse du microphone : la perturbation du champ magnétique fait vibrer la membrane qui fait vibrer à son tour l’air.

Fig. 2.6

Une fois stocké sur un support de mémoire, le son numérique peut-être traité avec les outils de traitement du signal numérique. Les avantages offerts sont immenses : il est très facile de développer sa propre application facilement, rapidement et à moindre coût. Nous pouvons effectuer toutes les opérations possibles et imaginables sur les valeurs des échantillons et ainsi nous ouvrir des perspectives incroyables. Un parfait exemple avec les formats audio, dont le très célèbre MP3 (MPEG-1/2 audio layer 3). Il s’agit d’un algorithme de compression destructif pour les données sonores. Il permet de mettre dix



fois plus de données sur le même espace, tout en gardant une qualité sonore encore acceptable pour l’être humain. Il repose sur un modèle psychoacoustique, c’est-à-dire qu’il est construit en fonction des différentes illusions et limitations de l’appareil auditif humain, entre autres la plage de fréquence à laquelle nous sommes sensibles, les phénomènes de masquage, etc. L’audionumérique a donc littéralement bouleversé le monde du son, de l’analyse à la musique, en passant par le traitement et la synthèse sonore. Dans le cadre de ce travail de maturité, nous faisons une large place au numérique grâce à sa modularité, sa simplicité, sa flexibilité et son faible coût. Contrairement aux enregsitrements analogiques, un fichier numérique peut être copié un nombre de fois illimité sans aucune erreur, grâce à son caractère discret. Les systèmes audionumériques traditionnels sont en 44.1 kHz / 16 bits, mais certains équipements haut de gamme montent à 192 kHz / 24 bits pour une richesse sonore subjectivement presque parfaite. En ayant à l’esprit certaines de ses limitations, le monde du numérique se révèle vraiment créatif et constructif.

2.5 Analyse par TFD Qu’est-ce que l’analyse d’un son ? Nous allons découper ce vaste champ en deux domaines : premièrement il s’agit de découvrir la nature du son, comment il est constitué. A ce premier domaine est intimement lié la notion de spectre, qui représente la répartition en énergie dans un phénomène la répartition en énérgie d’un phénomène – dans le cas d’un son, il s’agit des amplitudes respectives des différentes fréquences constituant le son. Le deuxième domaine est temporel : il concerne l’évolution du son (ou autrement dit du spectre sonore) au cours du temps. Le théorème de Fourier régit tout son quel qu’il soit, et est à la base de l’analyse spectrale sonore. Il nous apprend qu’une fonction périodique réelle f de période T, continue et dérivable par intervalles peut se décomposer en une somme pondérée de fonctions sinusoïdales simples. Pour résumer grossièrement, n’importe quel signal périodique peut être décomposé en une multitude de signaux sinusoïdaux. Un son sinusoïdal simple s’écrit de la manière suivante : A·sin(2π/T·t+ϕ), elle est donc caractérisée par trois éléments : son amplitude A, sa période T et sa phase initiale ϕ. Trouver le spectre sonore consiste donc à trouver l’amplitude, la fréquence, et la phase – importante dans certains cas, mais peu dans la suite de ce travail – de chacune des composantes d’un son. Connaître la série de Fourier d’un son, c’est-à-dire toutes les équations des sinusoïdales constituant le son, c’est donc connaître le spectre du son. L’étude et la recherche de ces signaux simples (par raccourci nous parlons souvent des fréquences, ou des composantes fréquentielles d’un son) est donc une des deux facettes de l’analyse des sons. Mais comment trouver la série de Fourier d’un son? Il faut recourir à des fonctions particulières et relativement complexes, les transformations de Fourier. Nous nous intéresserons à la transformation de Fourier discrète (DFT – Discrete Fourier Transform), utilisée pour les signaux numériques. Établir cette transformation est difficile, aussi nous nous contenterons de l’énoncer et nous ferons quelques remarques à son sujet.

!

f j = xk " e#2i$jk

n

k= 0

n#1

% , j = 0,...,n #1

avec j le numéro de la bande de fréquence, n le nombre d’échantillons, k le numéro d’échantillon. A partir du signal x de longueur n échantillons, nous obtenons n bandes de fréquences normalisées sous forme de nombres complexes (taille de la transformation), car elles contiennent une information d’amplitude (partie réelle) et de phase (partie imaginaire). Pour trouver la fréquence réelle, il faut diviser la fréquence d’échantillonnage par le nombre d’échantillons analysés. Avec Fe = 44.1 kHz et n = 441, nous aurons 441 bandes de fréquences balayées, et une information d’amplitude et de phase tous les 100 Hz, de 0 Hz à 44000 Hz. Nous pouvons constater qu’il pour chaque bande de fréquence n additions et multiplications complexes, donc au total

!

n2 additions et multiplication complexes ; la charge de calcul

devient donc vite assez énorme. En général, avant d’effectuer la transformée de Fourier, le signal x est multiplié par une fenêtre. Une fenêtre est une fonction mathématique qui sert à borner le signal ; la plus simple étant la rectangulaire :

!

h(t) =1,t " [0,T], 0 sinon. Une fenêtre assez couramment utilisée est celle de Hanning :

!

h(t) = 0.5 " 0.5 # cos 2$ # t

T( ),t % [0,T], 0 sinon. Il existe une multitude d’autres fonctions de fenêtrage, et



le logiciel Amadeus II en propose 6 différentes. Il est légitime de se poser la question de l’utilité de telles fenêtres ; l’explication est encore une fois assez compliquée. Nous nous contenterons de dire que dans le domaine de Fourier, les fréquences se répercutent les unes sur les autres, et le fenêtrage permet de cibler la manière dont elles le font. Dans notre cas, la fenêtre de Hanning semble être un bon compromis pour toutes les situations d’analyses que nous aurons par la suite. Mis à part ce problème de répercussions de fréquences, une autre grosse problématique apparaît : la dépendance entre la résolution fréquentielle et la résolution temporelle. Pour obtenir des bandes de fréquences très fines et ainsi avoir une très bonne vision des fréquences, il faut augmenter la taille de la transformée, c’est-à-dire augmenter le temps pendant lequel le signal est analysé. Avec une Fe à 44.1 kHz, il n’est pas possible d’avoir une bonne image fréquentielle sur un son de quelques millisecondes. Si ce n’est pas dérangeant pour les sons entièrement périodiques, cela devient un vrai problème si nous voulons comprendre précisément l’évolution très rapide du spectre, par exemple pendant l’attaque du son (comme nous le verrons plus loin). Il faut donc toujours faire un compromis entre résolution fréquentielle et résolution temporelle. La transformation de Fourier est sûrement la technique d’analyse sonore la plus répandue, et elle est présente dans Amadeus, sous forme de FFT (Fast Fourier Transform). La FFT est un algorithme qui permet de réduire le nombre d’opérations à effectuer pour trouver la transformée de Fourier, à la condition que la taille soit une puissance de 2. Malgré tout, la transformation de Fourier n’est pas l’unique méthode d’analyse ; d’autres concepts ont été explorés, avec pour chacun leurs avantages et leurs inconvénients

EXP1 Analyse de 4 formes d’ondes particulières Dans cette expérience, nous allons concrètement analyser 3 signaux types. Ces signaux sont entièrement périodiques, ce qui nous permet de nous concentrer sur le spectre seul, sans s’attarder sur son évolution. Nous allons utiliser Amadeus II, qui intègre dans ses dernières versions un générateur de son, et c’est ce que nous allons utiliser ici. Nous générerons des signaux simples, le générateur se trouve dans Effets -> Générateurs de sons -> Signaux… Ce générateur nous permet de spécifier la durée du son (celle-ci n’a dans notre cas aucune importance, mais nous la fixerons à 2 secondes), sa fréquence (nous prendrons une fréquence de 440Hz, qui correspond comme nous l’avons vu dans la 1e partie au la de référence) et son amplitude (que nous fixerons à 30% du maximum pour garder une homogénéité d’intensité sonore au sein des différentes pistes du CD audio). Puis à droite, nous avons le choix entre plusieurs formes d’onde. Nous les prendrons toutes une à une, en les analysant avec l’analyseur de spectre d’Amadeus, sauf bien entendu la forme d’onde sinusoïdale qui ne présente analytiquement aucun intérêt. Les choix concernant l’analyseur de spectre (accessible sous Analyse -> Spectre…) sont les suivants : nous choisirons une taille de 1024 échantillons pour une précision fréquentielle suffisante et une bonne vision globale. L’endroit où sont pris les échantillons n’a pas de grande importance dans notre cas, vu que le signal ne varie pas dans le temps ; nous laisserons donc la valeur par défaut Début de sélection. Notons aussi que nous opterons pour une représentation logarithmique de l’amplitude (-30 dB par carré), ceci permettant une meilleure visualisation des harmoniques. Le désavantage réside dans le fait qu’il devient alors difficile d’imaginer comment les amplitudes des différentes harmoniques sont régies. Nous allons maintenant observer nos trois formes d’ondes et leur représentation dans le domaine fréquentiel. Pour chacune d’elle, nous donnerons sa série de Fourier complète. Le type dents de scie (fig. 2.7) : Subjectivement parlant, la sonorité de ce type d’onde est très agressive, et cet aspect ne fait que confirmer le nom qui a été donné à ce type de signal, d’après sa forme. Sur le graphe (amplitude en fonction de la fréquence), nous pouvons observer qu’il contient toutes les harmoniques de la fréquence fondamentale. L’amplitude de chaque harmonique est inversement proportionnelle à sa position dans la série des harmoniques, ce qui nous donne sa décomposition en série de Fourier :

!

x(t) = 1

n" sin(n "#0 " t +$0)

n=1

%

&

Le type carré (fig. 2.8) : ce type de sonorité se trouve souvent par exemple dans les cuivres (clarinette, saxophone). C’est une forme d’onde extrêmement intéressante qui a la particularité, comme nous le



montre le graphe de l’amplitude en fonction des fréquences, de ne posséder que les harmoniques impaires. Là aussi, l’amplitude des différentes fréquences est inversement proportionnelle à la sa position dans la série des harmoniques. La série complète s’écrit donc :

!

x(t) = 1

2"n#1" sin 2 " n #1( ) "$0 " t +%0[ ]

n=1

&

'

Le type triangulaire (fig. 2.9) : les ondes de formes triangulaires sonnent de façon relativement proche d’une simple sinusoïde, et cela se voit également dans l’aspect visuel de sa forme, nettement plus proche d’une sinusoïde que les deux types étudiés précédemment. Du côté du spectre, il contient tout comme le type carré les harmoniques impaires de la fréquence fondamentale. L’amplitude de chaque fréquence, quant à elle, décroît nettement plus rapidement vu qu’elle est inversement proportionnelle au carré de sa position dans la série des harmoniques : encore un élément qui nous permet de dire que c’est celle qui « sonne » le plus proche d’une sinusoïde. Sa décomposition en série de Fourier :

!

x(t) = 1

2"n#1( )2" sin 2 " n #1( ) "$0 " t +%0[ ]

n=1

&

'

Fig. 2.7 Fig 2.8 Fig 2.9

Remarque : sur les graphes, l’amplitude ne correspond pas toujours à la valeur théorique de la série de Fourier. La raison à cela réside dans le procédé d’analyse, plus précisément dans la taille de la FFT. Nous avons pris une taille de 1024 échantillons, cela implique que les fréquences contenues dans le signal et les fréquences reconnues par la FFT ne sont pas tout à fait alignées.Le résultat est une atténuation de certaines fréquences du signal de base, proportionnelle à la distance de la plus proche fréquence analysée par la FFT. Cette petite expérience nous a permis de nous familiariser avec la technique analytique employée lors de ce travail. Elle nous a permis aussi de comprendre comment sont constitués certains sons fréquemment utilisés dans la synthèse sonore, en particulier, comme nous le verrons par la suite, dans la synthèse soustractive. Sur le CD, nous pouvons entendre successivement l’onde en dents de scie (CD piste 10), carrée (CD piste 11) et triangulaire (CD piste 12), ainsi qu’une simple sinusoïdale à 440Hz (CD piste 13) pour la comparaison.



Analyse et synthèse de sons de guitares 3e partie Chapitres : 3.1 Synthèse additive 3.2 Synthèse soustractive 3.3 Synthèse par modélisation physique

Expériences : EXP2 Analyse de sons de guitares EXP3 Implémentation d’une synthèse additive EXP4 Implémentation d’une synthèse soustractive EXP5 Implémentation d’un algorithme de Karplus-Strong

EXP2 Analyse de sons de guitares Cette expérience, qui occupe une place importante au sein de ce travail, va nous permettre de mettre en pratique les connaissances développées jusqu’ici. Il s’agira cette fois d’un cas réel, puisque nous allons analyser les sons produits par 2 guitares différentes. La première est une guitare classique, dite acoustique, et la deuxième est électrique. Le résultat analytique conditionnera la suite du travail, à savoir la synthèse ; c’est avec cette finalité que nous aborderons ici les sons. Pour ce faire, nous utiliserons Amadeus II. La guitare acoustique (fig. 3.1) sera enregistrée grâce à un microphone relié à la carte d’acquisition, alors que la guitare électrique (fig. 3.2) sera directement branchée à la carte, qui dispose d’une entrée haute impédance nécessaire au branchement d’une guitare électrique. L’intérêt d’utiliser les deux types de guitares provient justement du mode d’enregistrement différent ; le microphone classique capte les vibrations de l’air alors que les microphones de la guitare électrique ne sont sensibles qu’au déplacement de la corde jouée (perturbations électromagnétiques). Pour chaque instrument ont été enregistrés plusieurs minutes de sons divers, puis ces sons ont été triés et archivés comme base de données sonores. À partir de cette base a été menée l’analyse, pour chaque instrument, d’un son à la fois intéressant, bien capturé et a priori synthétisable. Nous porterons aussi l’accent sur la comparaison entre les 2 sons.

Fig 3.1 Fig 3.2

Nous allons nous intéresser premièrement au son produit par la guitare acoustique (CD piste 14), plus précisément par sa corde la plus épaisse. Celle-ci délivre le son le plus grave que la guitare peut produire, et elle est accordée de manière à jouer un mi de fréquence 82.41 Hz. Ce choix s’est opéré pour deux raisons ; un son grave contient plus d’harmoniques dans le domaine audible, et la pratique nous montre que ces harmoniques, plus graves, restent plus présentes au cours du temps. Le premier élément que nous pouvons constater, au vu du spectre général, c’est l’absence de fréquences non négligeables au-delà de 2000 Hz. Nous pouvons dès lors travailler en ignorant les fréquences supérieures, et nous avons alors le spectre du son, avec l’amplitude en représentation logarithmique en fonction de la fréquence (fig. 3.2). Grâce à la fonction de recherche de pic fréquentiel d’Amadeus II, nous pouvons voir que la fondamentale est à 82.31 Hz, donc très légèrement (imperceptiblement) en dessous du mi1. D’autre part, nous pouvons remarquer que la fréquence la plus intense, celle qui a la plus grande amplitude, ce n’est pas, comme nous pourrions nous y attendre, la fondamentale, mais la première harmonique (2·82.31 Hz = 164.62 Hz), qui n’est rien d’autre qu’un mi à l’octave! De plus, n’oublions pas que nous voyons les amplitudes en représentation logarithmique, ce qui a pour



conséquence de renforcer la visibilité des faibles fréquences ; si nous avions opté pour une représentation linéaire, nous n’aurions pratiquement rien vu d’autre que la fréquence à 164.62 Hz. Les harmoniques appartenant exclusivement au mi grave sont en retrait par rapport à celles partagées entre les deux fréquences. Quel commentaire pouvons-nous en tirer? Nous pourrions croire que ce sont en fait deux sons, à l’octave, superposés. Pourtant, ce n’est pas le cas. Comment expliquer alors cette accentuation très prononcée de la première harmonique ? Il semble y avoir deux facteurs : Les paramètres physiques de l’instrument – qualité du bois, des cordes, forme de la caisse de résonance, etc. – y sont sûrement pour quelque chose, ainsi que l’endroit où la corde de la guitare a été grattée : elle l’a été vers l’endroit habituel pour les guitaristes, aux alentours du premier quart : cela a pour conséquence de renforcer l’amplitude de la première harmonique. Finissons avec l’évolution temporelle de ce son, que nous analyserons rapidement à l’aide du sonogramme (fig. 3.4), qui représente l’amplitude des fréquences en fonction du temps ; plus la case est foncée, plus l’intensité de la fréquence donnée au moment donné est grande. Nous avons une attaque très riche ; puis, après une rapide décroissance des hautes fréquences, restent les 2 mi respectivement à 82.31Hz et 164.62 Hz, ce dernier toujours plus intense que le premier. Plus les fréquences sont élevées, plus elles s’éteignent rapidement. Quant à l’amplitude générale du son, tout ce que nous pouvons dire, c’est qu’elle ne décroît pas linéairement.

Fig 3.3 Fig 3.4

Fig 3.5 Fig 3.6

Afin de pouvoir travailler dans une optique de comparaison avec les résultats précédemment, nous prendrons pour la guitare électrique un son similaire (CD piste 15), obtenu avec la même corde (la plus épaisse des cinq cordes d’une guitare). Cette guitare-ci était légèrement plus désaccordée, avec une fondamentale à 82.83 Hz. En comparant tout d’abord les deux sons à l’écoute (guitare acoustique et électrique), nous pouvons observer un élément que nous avions entrevu dans la 1e partie: l’attaque d’un son est déterminante pour sa perception. Si nous écoutons les deux sons à partir de la deuxième seconde, nous avons beaucoup de mal à reconnaître lequel est issu de quel instrument (mis à part la petite différence d’accordage). Notre oreille est pleinement sensible à la richesse des quelques premières fractions de seconde d’un son, chose qu’il est extrêmement difficile de rendre graphiquement par un spectre. En se basant maintenant sur le rendu graphique, nous pouvons observer que le spectre est plus net avec la guitare électrique (fig. 3.5). Cela de même avec le sonogramme (fig. 3.6) : comparativement, celui de la guitare électrique est mieux « dessiné », il est très rationnel, presque non naturel. En dépit de cette remarque, les deux graphiques nous permettent de voir que globalement le comportement fréquentiel est similaire pour les deux guitares, avec le fait que pour la guitare électrique les harmoniques restent un peu plus longtemps – sauf pour la deuxième harmonique, qui reste, elle, nettement plus longtemps. Mais pourquoi la guitare électrique sonne-t-elle de façon plus artificielle ?



Sans pouvoir émettre de jugement certain, il est possible que la réponse se trouve dans la différence du mode de capture. Explications : la guitare acoustique, pour pouvoir sonner à un niveau raisonnable, est munie d’un dispositif amplificateur, la caisse de résonance. La corde fait vibrer la caisse qui fait vibrer l’air, disions-nous dans la 1e partie. C’est donc la vibration de la caisse de résonance qui est captée par le micro. Tandis que pour la guitare électrique, c’est directement la vibration de la corde qui est captée – c’est d’ailleurs pour cela qu’elle ne possède pas de caisse de résonance. Nous pouvons donc émettre l’hypothèse que la caisse de résonance a une grande influence sur le son produit, elle transforme le son de la corde vibrante et le rend subjectivement plus intéressant, moins artificiel. Remarquons d’ailleurs que guitare électrique, elle, est très rarement utilisée telle quelle : des effets viennent presque toujours s’ajouter derrière, car, en termes de musicalité, un spectre aussi net ne présente pas grand intérêt. Cette expérience nous a permis de voir les outils analytiques en action, et nous avons pu déceler quelques-unes des particularités de deux types de guitares. Retenons la principale différence entre le son de la guitare acoustique, plus musical mais assez complexe, et celui de la guitare électrique, plus artificiel et brut, car celle-ci se révèlera probablement intéressante dans le cadre de la synthèse.

3.1 Synthèse additive Ces derniers chapitres, l’apothéose du travail, vont traiter de la manière de recréer les sons. Nous allons voir trois idées fréquemment utilisées pour synthétiser les sons numériquement. Il s’agit de la synthèse additive, reprenant le théorème de Fourier ; de la synthèse soustractive, qui au lieu d’additionner les signaux filtre un signal riche spectralement ; et pour finir d’un exemple de synthèse par modélisation physique, large éventail de techniques au concept très intéressant : au lieu de s’occuper du son émis, il s’agit plutôt de se focaliser sur l’instrument qu’il émet. Mais avant cela, nous pourrions nous poser les questions suivantes : à quoi servent ces modèles de synthèse alors qu’il suffit d’appuyer sur un bouton pour rejouer le son numérisé et enregistré ? Pourquoi se compliquer la vie à le recréer ? La réponse à ces questions se résume en un mot : adaptation. Si nous voulions recréer virtuellement une guitare classique, il faudrait des dizaines d’heures d’enregistrement, pour avoir toutes les notes produites par chacune des cordes, à des amplitudes différentes, et ainsi de suite, alors que pour un bon modèle de synthèse il suffit de changer quelques paramètres. Il faut tout de même noter qu’il existe des méthodes de synthèse plus ou moins basées sur des sons enregistrés ; les méthodes les plus efficaces et utilisables en musique mélangent souvent sons enregistrés et synthèse pure. La synthèse additive est sûrement la plus évidente : le théorème de Fourier nous disant que tout signal complexe est somme de sinusoïdes, il s’agit simplement d’additionner les composantes fréquentielles du son à synthétiser (fig. 3.7). Nous obtenons alors théoriquement l’exacte reproduction du son originel (fig. 3.8).

Fig 3.7 Fig 3.8 Le concept date du moyen âge déjà, avec l’orgue et ses différents registres. Les registres permettent de diriger l’air vers des ensembles de tuyaux, nous voyons donc qu’il y a déjà cette idée de mélange des fréquences pour créer un timbre nouveau. C’est donc tout naturellement que les premiers synthétiseurs électriques utilisèrent la synthèse additive, dès la fin du 19e siècle. Les orgues Hammond, célèbres



synthétiseurs utilisés par les musiciens de jazz dès 1935, utilisent ce principe. Néanmoins le problème de la synthèse additive est double : premièrement, elle nécessite beaucoup de temps de calcul, et deuxièmement, il n’est pas aisé de contrôler ses paramètres. En effet, pour créer un son plutôt périodique réaliste – il est inimaginable de créer un son bruiteux de cette façon – il faut utiliser plusieurs dizaines d’oscillateurs. Ces oscillateurs produisent des dizaines de milliers d’échantillons à la seconde, qu’il va falloir additionner ; la charge de calcul devient vite gigantesque. Malgré cela, la puissance de calcul fournie par les systèmes actuel sont suffisants pour générer des sons polyphoniques (plusieurs notes jouées simultanément) complexes par la synthèse additive. Reste le problème du contrôle des paramètres : pour chaque oscillateur, il faut contrôler la variation de la fréquence au cours du temps, et celle de l’amplitude au cours du temps. Avec 1 ou 2 oscillateurs, c’est encore faisable, mais lorsqu’il faut contrôler plusieurs dizaines d’oscillateurs cela devient fortement contraignant pour un utilisateur humain. Les parades à cela sont des systèmes de gestion des paramètres de haut niveau, un contrôle faisant varier plusieurs paramètres simultanément. Une autre piste, extrêmement intéressante, est celle de l’analyse-resynthèse additive : le son est immédiatement synthétisé à la suite d’une phase d’analyse, qui fournit les données des paramètres. Les éventuelles modifications dans le son, par exemple multiplication de toutes les composantes fréquentielles par deux afin de transposer le son d’une octave, se font entre les deux phases d’analyse et de resynthèse. Cette technique, extrêmement prometteuse, permet de garder le juste milieu entre transformation d’un son et la ressemblance au son originel. Les limites de cette méthode sont implicites aux deux phases : précision de l’analyse et coût en calcul de la resynthèse. L’expérimentation de l’analyse-resynthèse additive paraît plus que judicieuse dans ce travail : il est malheureusement assez difficile et long de mettre en place un bon algorithme permettant de produire des sons intéressants.

EXP3 Implémentation d’une synthèse additive Le but de cet expérience est de recréer un son de guitare par synthèse additive. Le son choisi est celui de guitare électrique étudié dans l’EXP2, un mi à 82.83 Hz. Ce choix s’est imposé par la constance et l’uniformité du son relativement à l’autre son analysé. Ces caractéristiques pouvaient au premier abord faire penser que ce son serait le plus facile à recréer ; nous verrons par la suite si ces suppositions se seront avérées exactes. Le synthétiseur a été entièrement créé dans Pure Data, et Amadeus II a servi a relever les caractéristiques du son à synthétiser, à travers le spectre simple et le sonogramme du son. Il a fallu tout d’abord relever les différentes valeurs caractéristiques du son. Une représentation du spectre du son originel (fig. 3.5) a permis de voir qu’un synthétiseur à 10 oscillateurs semblait un bon compromis. La fréquence fondamentale était déjà trouvée (82.83 Hz). Quelques représentations spectrales très pointues ont montré qu’en réalité la fréquence des harmoniques évoluait très légèrement dans le temps (imperceptible sur le sonogramme) ; comme cela paraît négligeable, il a été pris le parti de configurer les fréquences des 9 autres oscillateurs aux fréquences des véritables harmoniques de la fréquence fondamentale. Puis il a fallu relever les niveaux d’intensités des 10 fréquences au début du son, et le moment de leur extinction. Les niveaux d’intensité (NI) ont été relevées sur le spectre des premiers instants du son, et l’extinction a été relevée sur le sonogramme, à l’œil. Les deux premières composantes fréquentielles ne sont pas éteintes lors de la fin du son, nous avons donc pris leur niveau d’intensité à la fin du son. Nous arrivons au tableau suivant :

N° composante Fréquence [Hz] NI initial [dB] Temps d’extinction [s] 1 82.83 58.1 Néant, NI fin : 44.4 dB 2 165.66 70.3 Néant, NI fin : 42.6 dB 3 248.49 70.9 15.2 4 331.32 68.6 8.9 5 414.15 60.4 6.8 6 496.98 52.7 5.7 7 579.81 40.6 3.6 8 662.64 32.8 2.7 9 745.47 28.9 2.2 10 828.3 25.1 1

Pourquoi avoir choisi les niveaux d’intensité des différentes fréquences, plutôt que simplement leur amplitude ? Parce qu’un rapide coup d’œil sur la forme de l’onde du son nous montre que l’amplitude décroît non linéairement. Pour reproduire cet effet le plus simplement possible, nous ferons décroître les niveaux d’intensité linéairement. Les informations fournies par le tableau permettent de synthétiser



notre son avec les contraintes suivantes : la fréquence sera constante, les niveaux d’intensité baissent linéairement d’une valeur initiale à 0. Pour les fréquences ne s’éteignant pas, elles baissent linéairement jusqu’à leur valeur à la fin du son, sachant qu’il dure environ 16.5 secondes. La fonction qui module la fréquence ou l’amplitude d’un oscillateur s’appelle l’enveloppe. Nous avons donc une enveloppe constante pour la fréquence, et décroissante linéairement pour l’amplitude. C’est une représentation assez simpliste, mais plutôt réaliste dans ici. D’autres enveloppes auraient être envisagées, mais induisent un niveau de complexité trop élevé en rapport avec l’amélioration du résultat obtenu. En fonction de ce tableau, un synthétiseur sur mesure a été créé dans Pure Data. Les explications techniques concernant le patch Pure Data se trouvent en annexe (A.2). Nous obtenons comme résultat un fichier son au format wav contenant le son synthétique de la guitare électrique. Il est disponible sur le disque (CD piste 16) ; à comparer avec le son originel de guitare électrique (CD piste 17). En analysant les graphiques du son synthétisé (fig 3.9 et 3.10), nous pouvons remarquer de très grandes ressemblances, ce qui est logique vu que nous nous sommes basés sur les mêmes représentations graphiques pour déterminer les paramètres et construire notre synthétiseur. Au niveau de la sensation sonore, le résultat est de même nature, sauf, comme nous pouvions éventuellement nous y attendre, pour l’attaque. Celle-ci est totalement différente, nettement plus riche et « musicale » pour le son de vraie guitare – même électrique. Ceci nous montre que pour synthétiser le plus exactement possible un son, il faut attacher une grande importance à l’attaque, qui ne dure que quelques millisecondes mais qui a une influence capitale pour notre sensation auditive. Tout le problème est là : l’attaque est difficile à analyser (relation entre résolution temporelle et fréquentielle sur un temps très court), comporte un grand nombre de fréquence de loin pas forcément harmoniques, dont les phases sont importantes (lorsque les composantes fréquentielles ne durent quelques millisecondes leurs phases jouent un grand rôle dans notre perception).

Fig 3.9 Fig 3.10

En conclusion, nous pouvons dire que la synthèse additive donne un résultat tout à fait valable dans le cas du son de la guitare électrique, mis à part la problématique que constitue l’attaque. Le timbre général du son est facile à analyser et à recréer. Si la synthèse additive est la plus évidente dans le concept, elle n’est pas la plus facile à mettre en œuvre. Elle a été le premier type de synthèse utilisé, et reste actuelle et en développement avec l’augmentation de la puissance de calcul et l’analyse-resynthèse additive. Voici une illustration de son potentiel : sur le marché de la MAO (Musique Assistée par Ordinateur) fleurissent des bibliothèques de sons d’orchestre gigantesques tenant sur plusieurs dizaines de DVDs, avec des contrôles pointus mais limités quand il s’agit d’imiter un orchestre symphonique de manière ultraréaliste. L’éditeur de logiciels Synful a quant à lui choisi de baser son logiciel Synful Orchestra, destiné comme ses concurrents à reproduire un orchestre symphonique, sur l’analyse-resynthèse additive. En ne remplissant qu’un CD, il possède une qualité et un contrôle sonore étonnants.

3.2 Synthèse soustractive Sous la dénomination de synthèse soustractive se trouve souvent, dans les instruments de synthèse musicale, un mélange de différentes techniques. Le principe fondamental de la synthèse soustractive repose sur le constat suivant : au lieu d’additionner plusieurs signaux simples pour arriver à un signal complexe, il serait peut-être judicieux plutôt de prendre un signal très complexe et de filtrer ses



composantes fréquentielles de manière à modeler le son final de manière appropriée. Disons le tout de suite : il est en pratique nettement plus compliqué d’en obtenir des résultats très réalistes qu’en utilisant la synthèse additive. Mais ce type de synthèse permet de bonnes approximations avec des moyens extrêmement limités. C’est pour cette raison qu’il a été abondamment utilisé dans les claviers synthétiseurs des années 70 jusqu’à aujourd’hui, avec un son assez typé et facilement reconnaissable. Le schéma d’une synthèse soustractive est le suivant : un signal riche en fréquences, par exemple un des signaux étudiés à l’EXP1 (forme d’onde en dents-de-scie, carrée, triangulaire), passe par un filtre. Ce filtre laisse passer certaines fréquences selon son type : passe-bas, passe-haut ou passe-bande, qui laissent respectivement passer le bas du spectre, le haut, ou une certaine bande. Sans rentrer dans les détails pour ce qui concerne les filtres, ils sont en général caractérisés, outre leur type, d’une fréquence de coupure (fréquence à partir de laquelle les fréquences sont progressivement atténuées) et de leur pente (ampleur de l’atténuation des fréquences au-delà de la fréquence de coupure selon leur position par rapport à celle-ci), souvent exprimée en dB par octave. Ils peuvent aussi parfois accentuer les fréquences autour de la fréquence de coupure, effet appelé résonance ; toujours est-il que les filtres sont des fonctions mathématiques parfois très compliquées. Avec l’application d’enveloppes temporelles pour chacun des paramètres (généralement seulement sur la fréquence de coupure du filtre et l’amplitude générale du son), nous obtenons le son synthétisé.

Fig. 3.11

L’implémentation de cette synthèse dans les synthétiseurs commerciaux suit le même schéma, avec en général tout de même plus d’un oscillateur (un ou deux oscillateurs supplémentaires dont le signal est mélangé avant le filtre permettent déjà une bonne amélioration), et des enveloppes de type ADSR (Attack, Decay, Sustain, Release – attaque, descente, soutien, relâchement). L’enveloppe ADSR (fig. 3.11), très en vogue dans les synthétiseurs commerciaux, découpe le son en quatre portions temporelles. Premièrement l’attaque, durée qu’il faut au son pour atteindre son niveau maximal depuis le niveau 0, puis la descente, temps qu’il met pour descendre à un niveau de soutien – le soutien est donc la seule valeur de l’enveloppe à s’exprimer en amplitude et non pas en durée. Le son a ensuite un niveau constant jusqu’au relâchement de la note, et c’est alors que le relâchement détermine le temps qu’il faudra pour retrouver le niveau zéro. L’application est évidente pour ce qui est de l’amplitude sonore globale, mais ce type d’enveloppe est aussi utilisé pour d’autres paramètres, comme la fréquence de coupure du filtre. Notons aussi qu’il existe un procédé d’analyse-resynthèse soustractive, appelé vocoder (VOice CODER – encodeur de voix). Inventé par un ingénieur des laboratoires Bell, son but à la base était de réduire la bande passante nécessaire à la voix sur les lignes téléphoniques. Le fonctionnement est le suivant : le son est analysé dans plusieurs bandes de fréquences, 12 dans la version originale. Pour chaque bande de fréquence, l’amplitude est relevée. Un signal est ensuite envoyé au même nombre de filtres, de type passe-bande, puis l’amplitude de chaque signal est modulée par les résultats analytiques avant de re-mélanger tous les signaux. Les effets de ce processus donnent à la voix une allure robotisée, très recherchée dans certaines musiques électroniques.



EXP4 Implémentation d’une synthèse soustractive Nous allons expérimenter la synthèse soustractive pour reproduire un des sons enregistrés et analysés à l’EXP2. Comme la synthèse soustractive ne se veut pas ultraréaliste, et qu’elle est beaucoup utilisée sur les synthétiseurs musicaux, nous allons cette fois délaisser Pure Data au profit d’un synthétiseur commercial matériel, le Novation KS5.

Fig. 3.12

Celui-ci dispose de fonctionnalités permettant plusieurs méthodes de synthèse simultanées, mais nous allons utiliser le schéma classique d’une synthèse soustractive, à l’exception près que nous utiliserons les trois oscillateurs qu’il fournit, pour créer un signal complexe un peu plus travaillé avant qu’il ne passe à travers le filtre. Nous allons tout d’abord expliquer son fonctionnement et les paramètres disponibles (fig. 3.12). A gauche se trouve la section des oscillateurs, avec plusieurs paramètres par oscillateur. Le choix de l’oscillateur à paramétrer se fait à l’aide du bouton tout en bas à gauche. Pour un oscillateur, il n’y a que deux paramètres qui nous intéressent : sa forme d’onde (waveform) et sa position à l’octave par rapport à la note jouée sur le clavier (octave). En suivant vers la droite, nous avons la section de mixage (mixer) qui nous permettra de définir les intensités relatives des 3 oscillateurs avant leur mélange, grâce aux trois potentiomètres (osc 1, osc 2, osc 3). Puis la section filtre sera particulièrement importante ; le bouton slope permet de régler la pente du filtre (12 ou 24 dB par octave), tandis que le bouton type permet de choisir le type de filtre : passe-bas, passe-haut ou passe-bande. Nous pouvons régler la fréquence de coupure à l’aide du potentiomètre frequency. Le dernier contrôle qui nous intéresse dans cette section est la profondeur de modification effectuée par l’enveloppe de modulation ; celle-ci fait varier plus ou moins fortement la fréquence de coupure. La section suivante, celle des LFO (Low Frequency Oscillator), qui sont autre moyen de moduler les paramètres dans le temps, ne nous intéresse pas. La dernière section, à droite, permet de régler 2 enveloppes (ADSR): la première permet de moduler dans notre cas la fréquence de coupure du filtre – elle peut dans les faits aussi moduler d’autres paramètres assignables, mais pas ici. La deuxième est exclusivement réservée à la modulation de l’amplitude générale du son. Le but est de générer un son de guitare. Quels sont les réglages que nous allons effectuer ? l’inconvénient de ce genre de synthétiseur réside dans le fait qu’il ne donne pas de valeurs exactes en unités compréhensibles lorsque nous modifions les paramètres. La recherche du bon réglage se fait donc exclusivement à l’oreille. Nous donnerons tout de même une idée des choix et des réglages effectués, forcément en termes subjectifs. Tout d’abord, la fréquence des oscillateurs : les oscillateurs deux et trois ont une fréquence respectivement une et deux octaves plus haut : cela correspond à la première et à la troisième harmonique de la fréquence fondamentale. Nous avons donc un plus grand contrôle sur ces trois fréquences. Le choix de la forme d’onde s’est porté sur l’onde triangulaire, qui semblait a priori adaptée au vu des EXP1 et EXP2 sur les signaux classiques et les sons de cordes. La section de mixage des trois oscillateurs s’est configurée comme suit : les oscillateurs un et trois nettement en retrait par rapport au deuxième, pour se conformer au spectre des deux guitares. Le filtre a été réglé sur passe-bas : en effet, le son d’une guitare contient de moins en moins de fréquences élevées, le haut du spectre s’effaçant progressivement. La pente a été réglée sur 12 dB par octave, pour des raisons plutôt subjectives : le son synthétique semble alors plus conforme à l’original. Pour les mêmes raisons, la fréquence de coupure a été fixée à une valeur un peu plus élevée que le milieu du potentiomètre, ce qui doit correspondre à une fréquence en dessous de 1 kHz. La valeur de modulation de la fréquence de coupure par l’enveloppe de modulation a été fixée sur une valeur largement positive : plus le niveau de l’enveloppe sera élevé, plus la fréquence de coupure sera haute. Quant aux enveloppes, voici les réglages : l’enveloppe d’amplitude a vu son attaque être nulle (l’amplitude est maximale dès pression de la touche), puis nous avons une très longue descente – qui devrait théoriquement durer plus de 16 secondes. Le niveau de soutien ainsi que le relâchement sont nuls ; en effet pour une guitare, il n’est pas possible de tenir une note, une fois jouée, elle reste jusqu’à ce que la vibration devienne imperceptible ou s’arrête si nous posons un doigt dessus. Quant à l’enveloppe de modulation de la fréquence de coupure du filtre, elle a aussi une attaque nulle : le filtre laisse passer toutes les hautes



fréquences au début.Puis elle a une assez rapide descente, de l’ordre de la demi-seconde, à l’issue de laquelle la fréquence de coupure se situe à la valeur paramétrée dans la section du filtre. Le résultat est un mi grave de même hauteur que les sons originels (CD piste 18). Subjectivement parlant, l’aspect synthétique est très présent. Mais ce que nous pouvons apprécier, c’est la qualité de l’attaque, qui est nettement plus riche en fréquences que notre tentative de synthèse additive. Quant à savoir de quel son de guitare il se rapproche le plus, c’est a posteriori difficile à dire ; sur le CD nous l’avons accompagné du son de guitare classique (CD piste 19), celui de la guitare électrique se trouvant juste auparavant (CD piste 17). Un élément à remarquer si nous regardons la forme de l’onde générale du son, c’est l’évolution de l’amplitude : elle est linéaire, alors que pour les sons de guitare elle était plutôt logarithmique. Cela vient de l’enveloppe ADSR de l’amplitude qui est linéaire. Une amélioration qui pourrait être amenée, si nous avions travaillé sur un système modulaire logiciel, serait l’utilisation d’enveloppes plus complexes, à évolution non linéaire. Si la synthèse soustractive permet de très bonnes approximations, elle reste en deçà d’autres méthodes pouvant procurer des résultats presque confondus avec l’original. Elle a été très utilisée à la fin du siècle passé, et possède une sonorité reconnaissable et parfois recherchée. Simple à mettre en place, à paramétrer et à comprendre, il n’est pas étonnant qu’elle ait connu un grand succès commercial.

3.3 Synthèse par modélisation physique La synthèse par modélisation physique propose un ensemble de techniques au lieu d’un seul modèle universellement applicable. Le principe fondamental de ce type de synthèse est le suivant : plutôt que de s’attacher à la nature du son (comment sonne-t-il ?), elle va plutôt en rechercher les causes, c’est-à-dire les propriétés physiques de l’instrument et de son environnement, jusqu’à l’auditeur (comment est-il produit et perçu ?). Ce sont donc par leur nature même des techniques complexes, vu qu’il s’agira de traduire en équations tous les paramètres régissant le son. L’intérêt de ces méthodes est double : scientifique, en synthétisant de la plus juste manière qu’il soit en développant des modèles très sophistiqués. Artistique aussi, et c’est peut-être là le plus intéressant, pour recréer des instruments impossibles à construire en réalité. Imaginons une guitare dont nous pouvons faire varier la matière de la caisse de résonance, entre du bois, du verre, du caoutchouc et de la pierre, ou bien dont la caisse de résonance change de taille ou de matière pendant le même morceau de musique. Où encore dont les mensurations font que ses cordes ressemblent plutôt à des câbles de plusieurs centaines de mètres de long, etc. Bref, le potentiel créatif est sans limites. L’origine de la synthèse par modélisation physique remonte à la fin du 19e siècle, mais les premières implémentations sont venues à partir de la deuxième moitié du 20e siècle, et la technologie a commencé à vraiment permettre des implémentations intéressantes à partir des années 70. En effet, les deux principaux problèmes de cette synthèse sont les suivants : elle nécessite, pour être proche de la réalité, des modèles très complexes et longs, car il est évident qu’un modèle tendant vers la perfection tend vers une complexité infinie ; et, en conséquence, est très gourmande en ressources de calcul. Elle l’est tellement qu’il est extrêmement rare de trouver une implémentation qui permette une modélisation physique en temps réel. En fait, cette synthèse représente avant tout un idéal vers lequel tendent plusieurs méthodes, avec leurs qualités propres à leur contexte d’application, mais toujours basées sur de gros compromis. Un des grands concepts qui revient dans beaucoup de méthodes est celui de l’excitation et résonance. Les propriétés de l’instrument définissent comment il va résonner une fois excité par un archet, le souffle de la voix, un pincement, etc. Voici un exemple pour illustrer cela: frapper un tambour donne un son inharmonique, tandis que souffler dans un saxophone produit un son harmonique. Si, maintenant, nous frappons un saxophone avec un marteau, le son sera inharmonique, tandis qu’en excitant le tambour avec un vibrateur, il sera harmonique. Le son final est bel et bien conditionné par les deux élément, l’excitateur et le résonateur. Notons encore que les deux peuvent être dépendants ou au contraire interagir : une partie du signal sortant du résonateur peut être réintroduite par l’excitateur.



Fig. 3.13

Parmi la profusion de modèles pour des instruments variés est apparue, en 1983, une méthode intéressante, découverte un peu par hasard : il s’agit de l’algorithme de Karplus-Strong, du nom de ses deux co-inventeurs. Cet algorithme produit des sons de corde pincée étonnamment réalistes sur un schéma très simple et demandant extrêmement peu de ressources de calcul (fig. 3.13). Au départ est initialisé un tableau avec des valeurs totalement aléatoires, de grandeur P échantillons. Lorsque la lecture du tableau commence, le signal numérique part d’un côté vers la sortie, et de l’autre côté revient dans le tableau après être passé par un filtre passe-bas. Ce schéma s’appelle table d’onde à recirculation. Ce qui fait office de filtre passe-bas est très simple : Il s’agit simplement de la moyenne arithmétique entre l’échantillon lu et l’échantillon précédent. Le signal, très riche fréquentiellement à cause des valeurs aléatoires du départ, devient peu à peu plus lisse. La hauteur du son est donnée par la grandeur, en échantillons, du tableau initial : avec 100 échantillons, la fréquence fondamentale sera de 44100 Hz (= fréquence d’échantillonnage) / 100 = 441 Hz, car la même forme d’onde, donnée par le tableau, bien que filtrée à chaque passage, est relue 441 fois par seconde. Vu que le son dépend des valeurs aléatoires initiales, nous avons jamais deux fois exactement la même sonorité, ce qui a musicalement beaucoup d’intérêt. La relation de cet algorithme très simple avec la famille des méthodes de synthèse par modélisation physique tient à la logique excitateur-résonateur : l’excitateur est représenté par les valeurs aléatoires initialisant le tableau, et le filtre peut être considéré comme le résonateur. Le principal défaut de cet algorithme est que la fréquence fondamentale doit forcément impliquer un nombre entier d’échantillons pour une fréquence d’échantillonnage donnée. Pour une fréquence d’échantillonnage de 44.1 kHz par exemple, en prenant une table d’onde de grandeur 4 échantillons, la fréquence fondamentale sera de 44100 / 4 = 11025 Hz ; en prenant une table d’onde de 5 échantillons, elle sera de 44100/ 5 = 8820 Hz, les fréquences entre-deux sont donc impossibles à créer avec ce schéma. A noter que des extensions ont été apportées à l’algorithme de base, améliorant plusieurs points (notamment le problème des fréquences impossibles à recréer), et permettant un plus grand contrôle sur le son.

EXP5 Implémentation d’un algorithme de Karplus-Strong Nous allons au cours de cette expérience nous pencher rapidement sur les sons produits par un algorithme de Karplus-Strong. L’algorithme a été entièrement implémenté dans Pure Data ; les explications relatives au patch se trouvent en annexe (A.3). Cet algorithme est contrôlable à travers trois paramètres : la durée du son (conditionne le temps de calcul nécessaire), la fréquence du son et l’atténuation progressive de l’amplitude du son (appelé coefficient d’absorption). 5 sons ont été retenus, aux caractéristiques décrites dans le tableau ci-dessous :

n° Piste CD Fréquence fondamentale Coefficient d’absorption 1 20 82.87 0.99 2 21 257.8 0.999 3 22 445.4 0.99 4 23 445.4 0.999 5 24 329.1 0.999

Le premier son a une hauteur qui le rend comparable aux précédents sons analysés et synthétisés. Nous constatons qu’ils ne sont pas vraiment proches ; le son ici est très percussif et plus riche qu’il ne le faudrait pour une guitare. Les autres sons, de fréquences plus élevées, se rapprochent nettement plus des sons de type guitare. Le dernier, à 329.1 Hz, est justement là pour la comparaison. Sur le CD se trouvent deux sons de même hauteur, de guitare acoustique (CD piste 25) et électrique (CD piste 26). Le son synthétisé est cette fois très plaisant à entendre. Il ne se morfond pas à la perfection à l’un des sons originels, qui présentent d’ailleurs certains aspects d’un mauvais enregistrement, mais il est difficile de dire, à l’écoute seule du son, que celui-ci est de synthèse.



La synthèse par modélisation physique représente sûrement l’avenir de la synthèse sonore. Elle laisse un large champ de créativité à l’utilisateur et permet de réaliser les idées les plus diverses. L’augmentation des performances de calcul en temps réel laisse envisager un gros potentiel dans les années à venir. Applied Acoustics Systems, une société produisant des logiciels pour les musiciens, vient de sortir String Studio, un logiciel de synthèse d’instruments à cordes entièrement basé sur la modélisation physique. Les sonorités sont surprenantes en réalisme, comme en témoigne un court morceau (CD piste 27), et gageons qu’à l’avenir elles le seront encore plus.

conclusion Nous voici au terme de travail ; partis de la définition de l’onde, nous sommes arrivés jusqu’à des techniques de synthèse sonore sophistiquées. Peut-être qu’il aura permis d’illustrer un élément fondamental : en tant qu’un des 5 sens de l’être humain, au même titre que la vue, le goût, l’odorat et le toucher, l’ouïe – et par là bien évidemment le son – est un phénomène d’une complexité sans équivalent. Complexe mais aussi magique, car il suscite l’émotion. Les résultats de synthèse obtenus sont très loin de se morfondre aux sons originels au point d’être indiscernables. Tout au plus, l’algorithme de Karplus-Strong a permis de créer des sons réalistes, sans approcher les enregistrements. Est-ce à dire que la synthèse sonore n’est qu’un médiocre substitut ? C’est ce que nous pourrions-nous dire au premier abord, mais probablement qu’il faut diviser la synthèse sonore musicale en 2 parties : d’un côté, la ressemblance toujours plus proche avec les instruments réels, qui demande des systèmes plutôt compliqués et en perpétuel développement ; de l’autre côté, la synthèse comme processus créatif à part entière. Outre ce qui concerne les musiques actuelles, ces dernières années divers compositeurs classiques ont écrit des morceaux pour ordinateur. Cela montre bien l’intérêt que suscite les moyens actuels de synthèse sonore par ordinateur. Le son numérique associé à la synthèse offre donc un vaste champ d’exploration passionnant, qui n’en est qu’à ses débuts. L’univers du son est très vaste ; des choix ont dû être effectués pour cadrer ce travail le plus précisément possible. Quelques informations relatives aux techniques employée pour créer certains des sons sont donnée en annexe ; pour d’autres précisions il y a toujours moyen de me contacter.



Bibliographie

Ouvrages : Guenat (P.), Ondes, Gymnase de Chamblandes, 1997-98. Leipp (E.), Acoustique et Musique, Masson, 4e éd., 1984. Leipp (E.), La machine à écouter. Essai de psychoacoustique, Masson, 1977. Monard (J.-A.), Ondes, Centrale d’achats de la ville de Bienne, 1994. Collectif dirigé par Winkler (K.), Die Physik der Musikinstrumente, Spektrum der Wissenschaft

Verlagsgesellschaft, 1988. Giancoli (D. C.), Physique générale 3. Ondes, optique et physique moderne, De Boeck Université, Traduit

de l’anglais par Ouellette (P.-E.) , 1993. Roads (C.), L’audionumérique, Dunod, traduit de l’anglais par de Reydellet (J.), 1998. Tolonen (T.), Välimäki (V.) & Karjalainen (M.), Evaluation of Modern Sound Synthesis Methods, Helsinki

University of Technology, 1998. Choqueuse (V.), Projet Matlab Toolbox : Analyse/Resynthèse additive de sons, 2005. Choqueuse (V.) & Quatrehomme (A.), Audionumérique et Synthèse sonore, Université de Technologie de

Troyes, 2004. Puckette (M.), Theory and Techniques of Electronic Music, University of California, version du 21 février

2005.

Sites Internet : Wikipedia, encyclopédie collective libre, URL : http://fr.wikipedia.org Parasitäre Kapazitäten, explications sur la FFT à travers Pure Data, URL : http://www.parasitaere-kapazitaeten.net/Pd/fft_und_pd_en.htm

Université de Nantes, animation sur le théorème de Fourier, URL : http://www.sciences.univ-nantes.fr/physique/perso/gtulloue/Elec/Fourier/fourier1.html

Julius Orion Smith III Homepage, explications et exemples sur l’algorithme de Karplus-Strong, URL : http://ccrma.stanford.edu/~jos/SimpleStrings/Karplus_Strong_Algorithm.html

AudioFanzine, site communautaire autour du son, URL : http://fr.audiofanzine.com Idecibel, introduction à Pure Data, URL : http://idecibel.com/ SPDIF master, explications sur le son numérique, http://pagniez.chez.tiscali.fr/spdif_master/ Claude Borne, introduction à la synthèse sonore, URL : http://clborne.club.fr/indexsyn.html Miller Puckette, diverses informations sur Pure Data, http://crca.ucsd.edu/~msp/ Zikinf, introduction à la synthèse sonore, http://www.zikinf.com/synthson.php James Clark, techniques de programmation avancées pour synthétiseurs modulaires, URL : http://www.cim.mcgill.ca/%7Eclark/nordmodularbook/nm_book_toc.html

Ces sites ont été visités entre janvier et octobre 2005.



Source des illustrations Illustration de couverture : CD photographié par « ctr », trouvé sur le site http://www.sxc.hu Illustration d’introduction: Vintage Headphones photographié par « Zureta », trouvé sur le site http://www.sxc.hu

Fig. 1.2 : Guenat (P.), Ondes, Gymnase de Chamblandes, 1997-98, page 3 Fig. 1.8 : Site de David Graham. URL : http://users.ece.gatech.edu/~dgraham/cochlea_overview.html

Fig 1.9 : capture d’écran du logiciel GarageBand 2, Apple Computer Inc. Fig 2.1 : Site de l’université d’Illinois. URL : http://www-camil.music.uiuc.edu/classes/464/HS_and_digitize_media/basic_dig_audio_concepts.html

Fig 2.2-5 : Document PDF sur le site de Romain Pagniez (SPDIF Master). URL : http://pagniez.chez.tiscali.fr/spdif_master/

Fig. 2.6 : Roads (C.), L’audionumérique, Dunod, traduit de l’anglais par de Reiydellet (J.), 1998, page 23. Fig. 3.7 & 3.13 : Tolonen (T.), Välimäki (V.) & Karjalainen (M.), Evaluation of Modern Sound Synthesis

Methods, Helsinki University of Technology, 1998, pages 9 et 18. Fig. 3.8 : Site du département de psychologie de l’Université du Québec à Montréal. URL : http://www.mpsycho.uqam.ca/percept/Bloc3/synthese-additive.jpg

Les sites ont été visités entre janvier et octobre 2005.



Annexe : patchs Pure Data Voici quelques explications concernant les patchs programmés à l’aide du logiciel Pure Data au cours de ce travail. Ceux-ci sont disponibles sur demande, sous forme de fichiers informatiques. Pour avoir un aperçu des fonctionnalités et du fonctionnement de Pure Data, il faut se référer au chapitre 2.1 du travail de maturité.

A.1 Patch battements sonores Les battements sonores sont un phénomène d’interférence basique, puisqu’il s’agit simplement de l’addition de deux signaux aux fréquences proches. Les deux signaux se retrouveront tantôt en même phase, tantôt en opposition de phase. La fréquence de ce phénomène est liée à la différence de fréquence des deux signaux additionnés. Le synthétiseur de battements construit avec Pure Data est relativement basique ; l’illustration ci-dessous montre à quoi il ressemble (fig. A.1).

Fig. A.1

Ce patch est construit de la manière suivante : deux oscillateurs définis par leur fréquence (objets osc~) sont additionnés (+~). Leur amplitude est ensuite divisée par deux, car les signaux délivrés par les oscillateurs ont chacun une amplitude normalisée de 1 (maximum avant distortion). Le signal résultant est ensuite dirigé vers deux parties : celle de droite, avec l’objet tabwrite~, sera chargée de collecter les valeurs du signal échantillonné dans un tableau, et ensuite tracera le graphe de la forme d’onde correspondante. Le message bang sert de déclencheur pour la collecte des valeurs du signal. A gauche nous avons l’objet dac~ (digital to analog converter, convertisseur digital à analogique) qui transmet le signal aux haut-parleurs de l’ordinateur. En amont, nous avons un système permettant de choisir le niveau d’intensité sonore voulu (l’objet dbtorms calcule l’équivalent en amplitude d’une valeur en dB, en sachant qu’ici 100 dB=amplitude de 1). À droite, nous avons un empilement d’objets ayant la finalité d’enregistrer le son, ou plus exactement le contenu du tableau, dans un fichier sonore, de manière à pouvoir ensuite le graver sur le CD audio. Finalement, le dernier empilage d’objets sert à modifier la grandeur temporelle du graphe, et par là influera sur la longueur du son enregistré. Nous obtenons 3 fichiers sonores, avec la première fréquence à 440 Hz et la deuxième fréquence respectivement à 442, 441 et 440.3 Hz. Ces trois extraits sonores sont disponibles sur le disque (CD pistes 2, 3 et 4). Ce patch a permis aussi de produire deux graphes pour illustrer le phénomène. Le premier (fig. A.2) voit la différence entre les deux fréquences être de 5 Hz – c’est donc toujours le phénomène du battement. Le deuxième graphe (fig. A.3) a une différence plus élevée entre les deux fréquences, et s’il n’illustre pas à proprement parler un battement audible, il permet de mieux voir la forme de l’onde des interférences de fréquences proches.



Fig A.2 Fig A.3

Mais quelle est exactement la fréquence des battements ? La réponse à cette question est somme toute assez logique. Il s’agit simplement de la différence entre les fréquences des deux signaux, par exemple pour le deuxième extrait enregistré 441 Hz - 440 Hz =1 Hz. Cela se conçoit assez aisément : durant une seconde, la première fréquence effectue 440 cycles, et la deuxième 441 cycles. La deuxième fréquence va donc forcément devoir dépasser de 1 cycle le premier son. Ce dépassement s’effectue sur toute la longueur de la seconde : progressivement, la phase s’inverse, pour se retrouver inversée à 0.5 secondes (la phase initiale est supposée égale pour les deux fréquences). Puis, la différence de phase s’amenuise, et à une seconde le supplément de 1 cycle est effectué. Le même raisonnement peut être appliqué pour une différence de 2 Hz, etc. Les battements sont très utiles pour accorder finement certains instruments, notamment les guitares.



A.2 Patch synthèse additive Le patch utilisé pour produire le son synthétisé à l’EXP3 (fig. A.4) contient 10 occurrences d’oscillateur paramétrable, auxquels nous nous intéresserons tout d’abord. Les objets send et receive pour les données, ainsi que send~ et receive~ pour l’audio, permettent d’effectuer des connexions sans fil, évitant ainsi d’avoir à tirer des fils à travers tout le patch. A la réception du premier déclenchement (receive bang1) est réinitialisé le niveau d’intensité de l’oscillateur ainsi que de l’enveloppe d’amplitude (rôle que joue l’objet line). Le niveau d’intensité multiplie l’oscillateur à proprement parler (osc~, caractérisé par sa fréquence), après avoir été converti en amplitude (dbtorms). Le résultat de ces opérations est envoyé sous le nom de signal1 (send~ signal1). Après le premier déclenchement, nous avons donc en sortie de l’oscillateur une sinusoïde périodique de niveau d’intensité spécifié. Lorsque le deuxième déclenchement se fait (receive bang2), un message contenant deux valeurs est envoyé à l’objet line. Cet objet permet en fait de passer d’un nombre initial à un nombre cible, en un temps spécifié. Le nombre initial – qui équivaut au niveau d’intensité initial - a déjà été paramétré à la réception de bang1, et le nombre cible ainsi que le temps (en millisecondes) pour l’atteindre sont envoyés par le message contenant les deux valeurs. Les deux nombres à côté de l’objet line ne sont pas très importants (nombre initial à l’ouverture du patch et période de rafraîchissement de la valeur envoyée). Au fur et à mesure que l’objet line produit son effet, l’objet osc~ est multiplié par un coefficient de plus en plus faible, ce qui rend le son produit de moins en moins fort. Pour récapituler tout cela, nous prendrons en exemple l’oscillateur n°5 (4e harmonique): sa fréquence est fixée à 414.25 Hz. À la réception du premier déclenchement, le niveau d’intensité est initialisé à 60.4 dB. Lorsqu’arrive le second déclenchement, le niveau d’intensité décroît de 60.4 dB à 0 dB en 6,8 secondes.

Fig. A.4

Voyons maintenant le reste du patch : le montage en bas à droite reçoit les 10 signaux qu’il additionne (receive~, puis +~) et multiplie éventuellement de manière à normaliser un peu le signal final (*~), puis transmet le résultat (send~) sous le nom de sonfinal. À droite de cela, nous pouvons voir la forme qu’a le son final (traçage du graphe déclenché à la réception de bang2). Sur la bande à droite nous avons tout en haut les deux déclencheurs, puis plus bas un compte à rebours et un petit module pour écouter le son sur les enceintes, puis tout en bas à droite un montage pour l’enregistrement du fichier son. Celui-ci ouvre une boîte de dialogue (savepanel) au premier déclenchement, tandis que le second déclenchement lance l’enregistrement en stéréo (writesf~ 2), qui s’arrêtera après 16.5 secondes (objet delay qui envoie le stop).



A.3 Patch algorithme de Karplus-Strong L’implémentation de l’algorithme de Karplus-Strong dans Pure Data est plus complexe que ce que nous avions lors de nos précédentes utilisations de ce logiciel ; si le fonctionnement du patch est expliqué dans son ensemble, nous ne nous attacherons pas à entrer dans le détail du fonctionnement de certaines parties. Comme nous le disions à l’EXP5, le contrôle sur l’algorithme est triple : durée de l’enregistrement, fréquence fondamentale du son, coefficient d’atténuation de chaque échantillon – pour que le niveau sonore baisse graduellement. Il n’y a donc aucun contrôle sur le timbre du son à proprement parler, ce qui implique que nous ne pouvons pas le faire sonner volontairement comme un des sons de guitare enregistrés.

Fig. A.5

L’interface utilisateur du patch Pure Data (fig. A.5) est plus soignée cette fois, avec une séparation en trois parties : les contrôles, l’algorithme à proprement parler, et d’autres modules effectuant des tâches diverses – enregistrement et conversions entre autres. La première chose à faire en ouvrant le patch consiste à définir la fréquence fondamentale du son, grâce à la réglette tout en haut à gauche. En fonction de la valeur fréquentielle, un calcul s’effectue grâce à un petit module en haut à gauche dans algorithmes_de_contrôle qui permet de faire tendre la fréquence à la plus proche fréquence permise, et d’en déduire la grandeur en échantillons du tableau aléatoire initial. La deuxième réglette permet de choisir le temps d’enregistrement, donc la grandeur en échantillons du tableau qui va contenir le son dans son ensemble. Une fois ces deux paramètres initialisés, il ne nous reste plus qu’à appuyer sur le déclencheur et un chronomètre se met en marche, ainsi qu’un compteur d’échantillons traités. De plus, un message s’affiche juste au dessus de ces deux derniers contrôles, le message étant alternativement en_traitement ou termine selon l’état du patch. Pour terminer cette section des contrôles, nous avons tout en bas une représentation graphique du son, qui se complète à mesure que le traitement avance. Venons-en maintenant au cœur du programme, c’est-à-dire à l’algorithme même. Celui-ci est subdivisé en deux parties distinctes, qui vont travailler l’une après l’autre. La première, celle de gauche, va initialiser un tableau de longueur xnum échantillons (nous appellerons la longueur de ce tableau un cycle) avec des valeurs aléatoires. À chaque millième de seconde (metro 1) une valeur aléatoire comprise entre -1 et 1 sur 16 bit va être inscrite dans le tableau son à un indice lui aussi incrémenté à chaque millième de seconde. Une fois atteint le dernier échantillon qui doit être initialisé par une valeur aléatoire, soit la fin du premier cycle, le traitement passe dans la 2e partie, à droite. Le fonctionnement de la partie droite est assez similaire à celui de la gauche, à ceci près qu’il n’insère pas de valeurs aléatoires, mais procède comme suit : l’échantillon p verra sa valeur être ((p – xnum) + (p – xnum – 1))/2, ce qui représente la moyenne arithmétique entre l’échantillon et celui qui le précède, un cycle auparavant. Cela permet de filtrer les fréquences, comme nous l’avons vu lors des explications sur cet algorithme. Juste avant d’être inscrit dans le tableau son, l’échantillon est encore multiplié par un coefficient d’atténuation, qui diminue progressivement l’amplitude sonore. Lorsque tous les échantillons ont été créés, selon le temps que nous avions spécifié au début, l’algorithme s’arrête et une boîte de dialogue nous demande où enregistrer le fichier créé.



Le principal problème du patch est sans conteste sa lenteur d’exécution. À raison d’un échantillon tous les millièmes de secondes, il faut environ six minutes pour créer, à une fréquence d’échantillonnage de 44.1 kHz, un son de 8 secondes. Ce problème n’est pas dû à un manque de ressources de calcul de l’ordinateur, il est dû à la limite de l’objet metro dans Pure Data. Cet objet, qui émet des bang à des intervalles donnés (metro est une abréviation pour métronome), n’est pas capable d’aller plus vite, mais offre pourtant un bon contrôle sur le fonctionnement du processus. Il aurait été possible de procéder autrement, mais notre application n’a de toute manière pas besoin d’être en temps-réel.

Documents

Sons de guitares