19
Perception auditive et perception de la parole Jean-Luc Schwartz, GIPSA-Lab Grenoble-Image-Parole-Signal-Automatique ICP-Département Parole & Cognition 1. Les objets sonores La nature des sons (signal, représentation temps-fréquence), entre cause physique et expérience perceptive 2. Traitements auditifs et représentations perceptives Les représentations du signal acoustique dans les neurones du nerf auditif et des premiers centres nerveux 3. Traitements centraux, constitution des objets dans le cerveau Traitement de l’information dans le cerveau, liage, décision, conscience 4. Les mécanismes perceptifs, entre le monde et le cerveau Des questions philosophiques sur idéalisme et réalisme vers les théories de la cognition motrice et de la simulation, jusqu’aux neurones miroir 5. Les théories de la variabilité et de l’invariance en perception de parole Invariance et variabilité / Les théories « phare » : théories auditives vs. motrice, théorie quantique, théorie H&H, PACT / Phylogenèse 6. La parole multisensorielle La perception multisensorielle, des architectures cognitives aux interfaces multimodales Perception et réalité : Prémisses philosophiques et principes computationnels Est-ce que ce que nous percevons est « réel » ? Comment la réalité du monde physique contraint-elle nos perceptions ?

Perception auditive et perception de la …jean-luc.schwartz/fichiers...la cognition motrice et de la simulation, jusqu Õaux neurones miroir 5. Les th ories de la variabilit et de

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Perception auditiveet perception de la parole

Jean-Luc Schwartz, GIPSA-LabGrenoble-Image-Parole-Signal-Automatique

ICP-Département Parole & Cognition

1. Les objets sonoresLa nature des sons (signal, représentation temps-fréquence), entre

cause physique et expérience perceptive

2. Traitements auditifs et représentations perceptivesLes représentations du signal acoustique dans les neurones du nerf

auditif et des premiers centres nerveux

3. Traitements centraux, constitution des objets dans le cerveauTraitement de l’information dans le cerveau, liage, décision, conscience

4. Les mécanismes perceptifs, entre le monde et le cerveauDes questions philosophiques sur idéalisme et réalisme vers les théories de

la cognition motrice et de la simulation, jusqu’aux neurones miroir

5. Les théories de la variabilité et de l’invariance en perception deparoleInvariance et variabilité / Les théories «!phare!» : théories auditives vs.

motrice, théorie quantique, théorie H&H, PACT / Phylogenèse

6. La parole multisensorielleLa perception multisensorielle, des architectures cognitives aux

interfaces multimodales

Perception et réalité : Prémisses philosophiques et principes computationnels

Est-ce que ce que nous percevons est «!réel!» ?

Comment la réalité du monde physique contraint-elle nos perceptions ?

[i][a]

Kuhl & Meltzoff, 1982, 1984 Hübel & Wiesel, cortex strié, singe macaque

Phénoménologies mentales,phénoménologie réelles

La perception des couleurs

La perception visuelle des états de l’eau

Une arbitrarité des catégories, linguistiquement déterminée

Ou des universaux neurobiologiquement déterminés ?

En tout cas, pas de catégorie physique apparente …

La perception des couleurs La perception visuelle des états de l’eau

Une morphologie physique qui s’impose à notre perception

Un contour est la résultante à la fois d’une propriétéphysique majeure, et d’une mise en forme neurocognitive

(il en est de même du «!destin commun!» auditif

Un monde sensible fait d’objets physiqueset de gestes construits

Les deux problèmes de l'invarianceLes deux problèmes de l'invariance

1. Retrouver les objets

Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus

Les deux problèmes de l'invariance

1. Retrouver les objets

Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus

2. Nommer les objets

Invariance de la catégorie, acceptée comme telle,malgré la variabilité de ses instantiations

Peut-on entendre la forme d’un tambour ?

Peut-on voir la forme 3D d’un objet ?

Pour Tomaso Poggio (Vision, MIT), laperception bas niveau est une inversion

Monde physique Monde sensible

Lois de la physique

Perception bas niveau

Objets 3D Images 2D

Lois de l’optique

Vision bas niveau

Le cas de la vision

Du 2D au 3D, un déficit d’information comblé par deshypothèses (statistiques) sur les régularités des objets

Exemple : la vision stéréoscopique

Rétine gauche Rétine droite

appariement

Régularisation

Unicité et continuité

Unicité : Rd = f(Rg)

Continuité : f doit minimiser un critère d(f(Rg), Rg))

Fonction f

RdRg

Hypothèses acceptables dans un monde sans trou !

Johansson

"Le système est 'contraint' de choisir l'interprétation la plus crédible en

fonction des règles et des régularités. La règle d'inférence du système

visuel serait donc fondée sur une loi (la projection) et une régularité (la

nature rigide des objets)."

(Donald Hoffman, 1984)

" One of the best definitions of low-level vision is that it is inverse

optics. Most of the goals of low-level vision can be seen as the

solution to inverse problems. Consider, for instance, the problem of

recovering the three dimensional structure of a scene from the

images of it. While in classical optics the problem is to determine

the images given certain physical objects, we are confronted here

with the inverse problem of finding their three-dimensional shape

(and perhaps their physical properties) from the light intensity

distribution in the image." (Poggio, 1984)

Objets 3D Sons

Lois de l’acoustique

Audition bas niveau

Le cas de l’audition

Un flux d'information qui circule sur le réseau n'est pas simplement un ensemble de bits ou de pixels à traiter, coder, compresser ;

c'est en général une scènescène complexe

constituée d'objetsobjets physiquesphysiques multisensorielsmultisensorielsanimés ou non, parfois dotés danimés ou non, parfois dotés d’’intentionsintentions ;

Ce sont ces objets et ces agents qu’il faut localiser, indexer, identifier,

pour interagir efficacement.

La parole multisensorielle

La perception multisensorielle, desarchitectures cognitives auxinterfaces multimodales

La parole multisensorielle

I. Les compétences audiovisuelles

du sujet humain

0 1000 2000 3000 4000 5000-50

0

50

Audition

La parole produit des objets multisensoriels

Vision

Toucher

[i] [y]

[u]

[a]

[e] [ø][o]

Lèvres étirées/arrondies

Langue avant/arrière

Mâch -Langue haut/bas

F1

F2

[i][y]

[u]

[e][ø]

[o]

[a]

Les principaux gestess’entendent

[i] [y]

[a]

[e] [ø]

Les lèvres et la mâchoire sevoient, mais pas la langue

On peut voir le conduit vocal

Lecture labiale : 40-60% des phonèmes

10-20% des mots ... jusqu'à plus de 60%

grande variabilité individuelle,pour les sourds comme les bien entendants

les meilleurs sont des sourds

+18

+12

+6

0

-6

-12

-18

t k p f th s sh m n d g b v dh z zh

Pour les consonnes,

on entend bien le mode

1

15

2

3

4

5

6

7

8

9

10

11

12

13

14

f lv th dh s z sh zh p b m w r g k n t d y

On voit bien le lieu

(du moins à l’avant)

On peut toucher le conduit vocal

Méthode Tadoma

On place le pouce sur les lèvres du locuteur, l’index sur la

joue et les autres doigts sur le cou en-dessous de la mandibule

On peut ajouter de l'information visible sur les gestes non visibles

Langage Parlé Complété

On lit sur les lèvres dans le bruit …

Sumby et Pollack (1954)

0

10

20

30

40

50

60

70

80

90

100

- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6

S/N (dB)

Po

urc

enta

ge

de

rép

on

ses

corr

ecte

s

Erber (1969)

0

10

20

30

40

50

60

70

80

90

100

- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6

S/N (dB)

Po

urc

enta

ge

de

rép

on

ses

corr

ecte

s

Binnie et al. (1974)

0

10

20

30

40

50

60

70

80

90

100

- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6

S/N (dB)

Po

urc

enta

ge

de

rép

on

ses

corr

ecte

s

Benoît et al. (1994)

0

10

20

30

40

50

60

70

80

90

100

- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6

S/N (dB)

Po

urc

enta

ge

de

rép

on

ses

corr

ecte

s

audio + visage du locuteur

audio seul

Et même sans bruit !

Le téléphone et la radio en langue étrangère …

Parler, c’est produire des actions orofaciales pour

être entendu … et pour être vu

Zouc et Mme Von Allmen

Et Denis Beautemps !

Parler, c’est produire des actions orofaciales pour

être entendu … et pour être vu (suite)

Pourquoi « maman » ? Parce qu’on a des yeux !

préférence marquée pour les bilabiales au début du babillagerenforcée chez les enfants malentendants,diminue chez les enfants aveugles

la distinction entre [m] et [n], peu audible mais bien visible, existe danspresque toutes les langues du monde.

Les bébés se servent de la vision

La parole multisensorielle

II. Questions d’architecture cognitive

Fusion : architecture et contrôle

Traitements, formats de représentation

Opérations, contexte

Identification Directe Identification Séparée

Fusion après classificationmonosensorielle

Recodage dans la modalité Dominante

Recodage dans la modalité Motrice

Fusion après recodagespectro-temporel

Fusion après interactionperception-action

Représentationcommune du sonet de l’image ?

Représentationcommune précèdela catégorisation ?

Représentationcommune liée à

modalité A ou V ?

oui

nonIdentification

Directe

oui

non

oui

non

IdentificationSéparée

Recodage Mod.Dominante

Recodage Mod.Motrice

Trois questions expérimentales pour une taxonomie des modèles

Une découverte récente sur l’architecture de fusion :

des interactions dès la prise d’information

A + Bruit …… A + Bruit ……AV + Bruit

Lire sur les lèvres permet d’abord de mieux entendre

(avant de mieux comprendre)

Une astuce expérimentale

Etudier l’intelligibilité dans le bruit

de séquences indistingables en lecture labiale (visemes)

[y u ty tu ky ku dy du gy gu]

50

55

60

65

70

75

80

85

AV A V

Correct

(%)

Frequency

prevoicing

burstA

time

Vowel nucleus

Lip area

V

target

onset

time

~ 100 ms

~ 240 ms

On comprend mieux, sans lecture labiale !

On entend mieux quand on voit

AV > A V =0

50

55

60

65

70

75

80

85

AV A

AV = A

Un effet « speech specific » ?

Démo Olha Nahorna

Contexte cohérent vs incohérent

Fusion : architecture et contrôle

+, x, etc

« biais » de contexte

Facteurs contextuels :

1. Attention (Tiippana et al.)

Facteurs contextuels :

2. Variation interindividuelle (Cathiard)

Visuels Auditifs

2 ms

6 ms

10 ms

Fusion : architecture et contrôle

Traitements, formats de représentation

Opérations, contexte

La parole multisensorielle

III. Eléments d’architecture corticale Un système cortical mettant encorrespondance observation et

exécution des actions

Les neurones miroir

Observation-Execution Matching SystemObservation-Execution Matching SystemRizzolatti, Fogassi, Gallese, Iacoboni, BuccinoRizzolatti, Fogassi, Gallese, Iacoboni, Buccino

Kohler et al. 2002

Audio-visual mirror neurons

La voie dorsale de la perception AV de la parole

Skipper et al. 2005

Callan et al. 2003

Le modèle de Skipper

La parole multisensorielle

IV. Télécommunications et CHM multimodales

Visages parlants virtuels

Synthèse

audiovisuelle

à partir du

texte

Estimation

FAP

Synthèse

2D/3D

.....T

ran

smis

sion

+ C

om

pre

ssio

n....

• Objet visage MPEG4– identification/extraction des déplacements/mouvements

des visages d'une scène audiovisuelle

– immersion de clones dans des environnements virtuels: téléprésence

• Challenges– Stratégies de communication

– Communication augmentée et adaptativeVisiophonie "classique"

Animation d’un visage

à partir de la voix

Synthèse audiovisuelle

à partir du texte

Code

A

V

A

?

Reconnaissance audiovisuelle de la parole :Mieux reconnaître dans le bruit

! Associateurs obtenus par apprentissage :

régression linéaire / réseaux de neurones

! Deux types de filtres : LPC et Wiener

Débruitage AV : un problème de filtrageet de fusion de capteurs

!=

"+

==p

i

i

i

LPC

za

G(z)SH(z)

1

1

22

2

vLPC

LPC

N(z)S

(z)SH(z)

#+=

Audio débruitéFusion

H($)Audiobruité

Vidéo

A

B S

Débruitage audiovisuel de la parole :Voir pour mieux entendre

A :mélange

B :séparation

st

xtyt

ytSignaux parasites:

s2 … sN

A :mélange

B :séparation

st

xtSignal audio : s1

Signal de

Parole

Signal vidéo

Séparation de sources AV : résultats préliminaires

Codage AV

Analyse paramétrique (contour labial, FDP, MPEG 4)

! Principe : Analyse AV - Compression conjointe - Synthèse AV

Animation de modèles

! Adaptation à la qualité de service du réseau de transmission

Pistescodage conjoint prédiction A / Vvisiophone / labiophone

Objectifsréduction débitréduction complexitérobustessescalabilité

Q-1Q ?

ContraintesBande passanteCPUPertes / erreursLatence ! Algorithme de QV : Splitting + LBG

! Définition d’une distance audiovisuelle :

Un vocodeur LPC AV basé sur

la Quantification Vectorielle

dAV= ! dV + (1"!) dA

! Résultats : QV AV 12 bits > QV A 10 bits + QV V 5 bits

(Corpus : 107 phrases, 8 locuteurs)

Vocodeur LPC QVAV : résultats

Erreur Vidéo(mm)

1

1,2

1,4

1,6

1,8

0,05 0,07 0,08 0,09 0,1 0,11 0,15 0,2

0,046

0,048

0,05

0,052

0,054

0,05 0,07 0,08 0,09 0,1 0,11 0,15 0,2

Erreur Audio(rad/Hz)

! !

QV AV 12 bits

QV V 5 bitsQV A 10 bits

QV AV 12 bits

Une nouvelle structure : QV en étage

! Résultats : même qualité que référence + réduction de

complexité

(facteur # 10 pour recherche dans dictionnaire)

Conclusion :

L’analyse de scènes auditives et visuelles,un maillon essentiel des

applications télécoms à venir

MPEG4 : objets et réalités virtuellesMPEG7 : indexation

… qui doit s’appuyer sur les connaissancessur les traitements perceptifs

des scènes multimodales