Université de Montréal L’information visuelle efficace
126
Université de Montréal L’information visuelle efficace pour la reconnaissance de visages dans l’espace-temps Par Céline Vinette Département de psychologie Faculté des arts et des sciences Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de maîtrise (M.Sc.) en psychologie août 2003
Université de Montréal L’information visuelle efficace
Université de Montréal
L’information visuelle efficace pour la reconnaissance de visages
dans l’espace-temps
Par Céline Vinette
Département de psychologie Faculté des arts et des sciences
Mémoire présenté à la Faculté des études supérieures en vue de
l’obtention du grade de maîtrise (M.Sc.)
en psychologie
août 2003
Ce mémoire intitulé :
L’information visuelle efficace pour la reconnaissance de visages
dans l’espace-temps
présenté par :
Céline Vinette
a été évalué par un jury composé des personnes suivantes :
Martin Arguin Président-rapporteur
4
5
RÉSUMÉ
Reconnaître un visage exige le traitement rapide (en moins de 300
ms) d’un stimulus
complexe, sous la restriction de ressources attentionnelles
limitées. Quelle stratégie
le système visuel humain emploie-t-il pour maximiser l'utilisation
de l’information
disponible? En se servant de la "méthode des bulles" (Bubbles,
Gosselin & Schyns,
2001), la présente recherche examine les dynamiques
spatio-temporelles de
l’extraction d’information efficace durant une tâche de
reconnaissance de visages.
Les 51 000 réponses de dix participants à l’identification de
visages échantillonnés
dans l’espace et dans le temps permettent de dégager une routine
attentionnelle
générale : l’observateur humain extrait d’abord l’information de
l’œil à gauche de
l’image de 47 ms à 94 ms suivant le début du stimulus, puis celle
des deux yeux de
94 ms à la fin du temps de présentation (282 ms). Ce biais en
faveur du côté gauche
du stimulus concorde avec une spécialisation de l’aire de
traitement des visages dans
l’hémisphère droit. La place de cette routine dans le traitement
hiérarchique de
l’information est discutée.
hémisphérique
6
ABSTRACT
The recognition of a face requires the fast processing (in less
than 300 ms) of a
complex stimulus, albeit the limited capacities of attentional
resources. What is the
strategy followed by the human visual system to maximize the
effective use of
information? Using Bubbles, (Gosselin & Schyns, 2001), the
current research
examines the spatio-temporal dynamics of information extraction
during a face
recognition task. The 51,000 responses of ten participants on the
identification of
faces sampled through space and time allowed the extraction of a
general attentional
routine: the human observer first extracts the information from the
eye located on the
left side of the image during the 47 ms to 94 ms following the
onset of the stimulus,
then extracts the information from both eyes from 94 ms to the end
of the
presentation time (282 ms). This bias towards the left side of the
stimulus is
consistent with the specialization of the face processing area in
the right hemisphere.
The place of this routine in the hierarchical processing of
information is discussed.
Keywords : Vision, Face recognition, Attention, Bubbles,
Spatio-temporal dynamics,
Hemispheric Asymmetry
INTRODUCTION GÉNÉRALE
.......................................................................
1 1.1 Des visages comme stimuli
........................................................... 2 1.2
La configuration du visage
............................................................ 3 1.3
L’effet d’inversion des
visages...................................................... 5 1.4
Le développement du traitement configural et
l’expertise.............. 7 1.5 Les bases neurologiques d’une
spécialisation ................................ 9 1.6 Le traitement
cognitif des visages
............................................... 14
2. Le rôle de l’attention en
perception.........................................................
17 2.1 La nature de l’attention
............................................................... 20
2.2 Les routines attentionnelles
......................................................... 21 2.3
Une routine attentionnelle pour les
visages.................................. 23
3. Le traitement fréquentiel
........................................................................
24 3.1 Traitement de l’information grossière vers l’information
fine...... 26
4. La méthode des bulles
............................................................................
30 4.1 La méthode des bulles appliquée au domaine
temporel................ 32 4.2 La stabilité des résultats
attendus................................................. 33
5. Problématique
........................................................................................
34 6. Contributions à l’article
..........................................................................
36
ARTICLE Spatio-Temporal Dynamics of Face Recognition in a Flash:
It’s in the Eyes ..... 38 ABSTRACT
......................................................................................................
40 INTRODUCTION
.............................................................................................
41 Why use
Bubbles?.........................................................................................
42
METHODS........................................................................................................
45 Participants
...................................................................................................
45 Stimuli
..........................................................................................................
45
Procedure......................................................................................................
46 Results
..........................................................................................................
46 GENERAL
DISCUSSION.................................................................................
50 CONCLUDING REMARKS
.............................................................................
53 ACKNOWLEDGEMENTS
...............................................................................
55 REFERENCES
..................................................................................................
56 FIGURE
CAPTIONS.........................................................................................
59
9
DISCUSSION GÉNÉRALE
............................................................................
74 1.1 Généralisabilité de la routine attentionnelle
................................. 75 1.2 Origine de la routine
...................................................................
82
2. Biais perceptuel gauche et latéralisation hémisphérique
droite................ 85 2.1 Spécialisation du FFA dans les deux
hémisphères ....................... 88 2.2 Alternatives à la
latéralisation du FFA.........................................
89
3. Place de la routine attentionnelle dans le traitement
hiérarchique de l’information
..........................................................................................
91 3.1 La séquence de traitement selon les théories
cognitives............... 93 3.2 La séquence de traitement selon
les PEC..................................... 94 3.3 Développements
futurs................................................................
96
CONCLUSIONS
GÉNÉRALES........................................................................
98 RÉFÉRENCES
..................................................................................................
99
10
LISTE DES TABLEAUX
Tableau I Corrélations entre la RAV et chacune des routines
attentionnelles individuelles
...............................................................................
79
.......................................................................................................
11
LISTE DES FIGURES
Figure 1 Illustration de l’effet Thatcher (Thompson, 1980)
................................. 6 Figure 2 Exemples de Greebles,
des stimuli utilisés pour étudier la sensibilité au traitement
configural qu’on retrouve chez les experts, et de même, dans le
traitement des visages (tiré de Gauthier, Williams, Tarr &
Tanaka, 1998)
............................................................ 9
Figure 3 Modèle fonctionnel de la reconnaissance de l’identité d’un
visage (tiré de Bruce & Young, 1986)
............................................................ 15
Figure 4 Exemple d’un stimulus démontrant le phénomène de cécité au
changement (tiré de Rensink, O’Regan & Clark,
1997)....................... 18 Figure 5 Position de l'information
diagnostique pour la reconnaissance d'un visage dans le plan de
l'image à l'intérieur de chaque bande de fréquences spatiales, lors
d’une tâche d’identification. (tiré de Gosselin & Schyns, 2002)
...................................................................
29 Figure 6 Battement attentionnel (variation de la somme des
indices d’utilisation
de l’information pour chaque plan, en scores Z) évoqué par les
visages pour la RAV et pour chaque routine individuelle, avec leur
analyse fréquentielle……………………………………………………………80
Dans la section ARTICLE
Figure 1 The twelve frames of a sample space-time stimulus
............................. 60 Figure 2 Z-scored regression
coefficients indexing the usefulness of each region of the face
through time in face identification ............................ 61
Figure 3. Pictures of Figure 1 and 2 in a format that allows a
dynamic viewing.. 62
12
LISTE DES ABRÉVIATIONS
BFS Basses fréquences spatiales EIV Effet d’inversion des visages
FFA Fusiform Face Area HFS Hautes fréquences spatiales IRMf
Imagerie par résonance magnétique fonctionnelle PEC Potentiels
évoqués cognitifs RAV Routine attentionnelle des visages TEP
Tomographie par émission de positrons
13
REMERCIEMENTS
Je tiens tout d’abord à exprimer ma sincère et profonde gratitude à
l’égard de mon
directeur de thèse, Frédéric Gosselin, qui s’est montré d’une
générosité sans borne, et
ce sur tous les plans, durant ces deux dernières années : merci
pour tout, pour les
merveilleuses opportunités qui m’ont été offertes – y compris
l’Écosse, pour le
constant support matériel et intellectuel, pour l’excellente
formation reçue en
multiples domaines et, finalement, pour le maintien du caractère
amical de cette
relation directeur-étudiante. Ce fut un grand honneur et une
expérience inoubliable
que d’être votre première étudiante. Cette gratitude s’étend à mon
deuxième mentor
par-delà l’océan, Philippe Schyns, dont l’encadrement conjoint m’a
doté d’un second
puissant point de vue sur la science et de précieuses connaissances
en recherche.
Un merci tout spécial à ma famille : à vous quatre – bientôt vous
cinq – qui m’aurez
apporté la stabilité, le support, les encouragements nécessaires
pour persévérer dans
cette entreprise. C’est grâce à votre affection et votre amour que
je suis encore
debout.
Un gros gros merci à mon collègue de longue date, Nicolas
Dupuis-Roy, ma bouée,
mon complice, mon psychologue, qui a su m’épauler durant ce séjour
académique au
point de le transformer en cheminement. Un merci conjoint à sa
compagne France
Landry, à la petite Julie (Julie Senécal) et à Julie la Rousse
(Julie Hudon), pour votre
aide et votre amitié, à Nathalie Gosselin, pour les balles et les
conseils échangés, to
Julian Wallace, overseas. Un joyeux merci à la « gang » des labos
Gosselin, Belin et
Arguin - c’est tellement agréable de travailler avec des amis! Et
finalement, un salut
tout spécial au petit monde de psychologie, que j’ai croisé soit
comme sujets ou
comme étudiants; vous avez enrichi mon séjour ici de façon
spéciale.
14
A tous et à toutes, ce mémoire est le fruit de mes interactions
avec vous; je vous en
remercie.
Ces deux années d’études ont été subventionnées par une bourse ÉS-A
du Conseil de
recherche en sciences naturelles et génie du Canada (CRSNG).
15
1.1 Des visages comme stimuli
Par la fréquence à laquelle on le rencontre dans l’environnement et
par son
contenu riche en information sociale de premier ordre, le visage
humain constitue un
stimulus visuel de classe à part. En effet, il suffit d’un clin
d’œil porté sur le visage
d’un individu pour en distinguer le sexe, l’état émotionnel ou
l’identité. Non
seulement le traitement d’une telle information s’avère fort
efficace, mais aussi très
rapide – une exposition de 20 ms suffit (p. ex. Rizzolatti &
Buchtel, 1977). Cette
performance est d’autant plus surprenante que chaque visage est
composé des mêmes
attributs (yeux, nez, bouche) disposés selon une organisation
similaire, créant ainsi un
groupe de stimuli d’une homogénéité supérieure à celle retrouvée
dans la majorité des
catégories d’objets. Pourtant, tout observateur humain se montre
capable d’identifier
un nombre apparemment infini de visages, alors que seules de fines
discriminations
visuelles permettent de les identifier.
Cette grande capacité à identifier les visages suggère que le
cerveau humain
traite ces stimuli de façon spécialisée, en faisant appel à des
mécanismes de
traitement visuel de haut niveau différents de ceux mis en œuvre de
façon plus
générale en reconnaissance d’objets (p. ex. Bruce & Young,
1986; Damasio, Damasio
& Van Hoesen, 1982; Farah, 1996; McCarthy, Puce, Gore &
Allison, 1997).
Plusieurs recherches fournissent des indications quant aux
processus intervenant dans
le traitement des visages; mais le mécanisme dynamique de la prise
d’information
sous-tendant ce traitement, lui, reste encore obscur. C’est sur
cette question que se
penche la présente recherche.
Dans un premier temps, il sera fait état des connaissances
actuelles en
17
reconnaissance de visages. Le rôle de l’attention, responsable de
la capture
d’information, sera ensuite exposé, suivi par la description des
modulations
attentionnelles déjà connues en reconnaissance de visages, qui
suggèrent une
hypothèse de stratégie attentionnelle. Ensemble, ces données
récapituleront les
indices sur lesquels repose l’ébauche de la présente expérience.
Puis dans le cadre de
l’article central à cette thèse, la démarche suivie afin de cibler
la dynamique de prise
d’information en reconnaissance de visage ainsi que les résultats
obtenus seront
présentés. Finalement, l’impact d’une telle découverte -- la
routine attentionnelle
propre aux visages -- sera discuté, pour mieux en extrapoler les
indices sur le
traitement cognitif sous-jacent.
1.2 La configuration du visage
À la base, la constitution du visage vient du regroupement des
attributs
faciaux, c’est-à-dire des parties distinctes et indépendantes d’un
visage, pouvant être
nommées et reconnues (yeux, nez, bouche, etc.). Bien que les mêmes
attributs se
retrouvent dans chaque visage, les caractéristiques de ces parties
constituantes
peuvent parfois à elles seules suffire à la reconnaissance du
visage : par exemple la
forme du nez, la couleur des yeux, le style de coiffure. On parle
alors de
reconnaissance par attributs, effectuée par traitement analytique
du visage.
Cependant, les études en reconnaissance de visages ont rapidement
démontré que le
traitement analytique semble accompagné d’un autre type de
traitement,
potentiellement plus efficace : ce deuxième type de traitement
reposerait sur
l’information sous-jacente aux simples attributs faciaux, soit
l’information
18
configurale ou de deuxième ordre, dont l’importance relative varie
selon les auteurs
(p. ex. Farah, 1990; Sergent, 1988; Rhodes, Brennan & Carey,
1987; Diamond &
Carey, 1986; voir Farah, Wilson, Drain & Tanaka, 1998, et, plus
récemment,
Peterson & Rhodes, 2003, pour une recension de la
littérature).
De prime abord, la définition de ce qui constitue l’information
configurale
n’est pas nette et, mis à part le fait qu’elle repose sur les
relations spatiales entre les
différents attributs, plusieurs définitions peuvent être utilisées.
L’information
configurale peut comprendre une très petite étendue du visage (p.
ex., entre deux
attributs adjacents) ou s’étendre sur une étendue beaucoup plus
grande, englobant des
attributs séparés par de larges distances (Bartlett, Searcy &
Abdi, 2003). Selon
certains, l’information configurale repose sur la position et les
relations spatiales
entre les attributs au sein du visage (Rhodes, 1988; Sergent,
1984), sur l’utilisation
conjonctive des attributs (Schyns & Gosselin, 2003) ou encore
sur les relations
spatiales des attributs en comparaison avec un arrangement
prototypique (Carey &
Diamond, 1994; Diamond & Carey, 1986, Rhodes et al., 1987).
Dans ce dernier cas,
deux types de relations spatiales seraient à dissocier, soit les
relations spatiales de
premier ordre, entre les différents attributs faciaux, et les
relations spatiales de
deuxième ordre, soit la grandeur relative de ces relations
spatiales par rapport à un
prototype sous-jacent (Leder & Bruce, 2000; Diamond &
Carey, 1986). Les relations
de premier ordre définiraient les stimuli comme appartenant à la
classe « visages »,
alors que les relations de deuxième ordre caractériseraient les
différents individus,
permettant ainsi la reconnaissance d’un visage spécifique.
Finalement, selon d’autres
auteurs, l’information configurale vient du traitement holistique
du visage, où, tel un
gabarit, celui-ci est représenté en tant que tout indivisible, et
non pas en terme de la
19
somme des attributs (e.g., Tanaka & Farah, 1993; Tanaka &
Farah, 2003). Les études
menées par ces auteurs démontrent une difficulté accrue à
reconnaître les attributs
faciaux à l’extérieur du contexte du visage, ce qui n’est pas le
cas pour les
composantes d’autres objets.
Cependant, peu importe la définition qu’on lui donne, il semble
que
l’information configurale ne tienne que pour les visages en
position de visualisation
« canonique » : toute dérogation à la norme, telle l’inversion du
visage, compromet
l’extraction de ce type d’information.
1.3 L’effet d’inversion des visages
Pour tout stimulus à orientation unique verticale (i.e. ayant un
haut et un bas),
une inversion du stimulus, c’est-à-dire un pivotement de 180
degrés, rend la tâche
d’identification plus difficile. Cette constatation a été obtenue
pour un ensemble de
stimuli, tels des maisons, des avions, etc., en plus des visages.
Or, comparativement
aux autres stimuli, la reconnaissance des visages démontre
spécifiquement une
difficulté accrue dans la condition inversée, accompagnée d’une
facilitation
supérieure dans la condition à l’endroit: ce coût disproportionné
de l’inversion pour
les visages est maintenant connu sous le nom d’«effet d’inversion
des visages » (EIV)
(Yin, 1969; Valentine, 1988 pour une revue de littérature). Par
exemple, si on inverse
les yeux et la bouche d’un visage à l’endroit, on perçoit sans
problème que l’image
résultante prend une allure grotesque; cependant, si on tourne ce
visage modifié à
l’envers, son apparence anormale n’est plus évidente (Figure 1). Il
s’agit de « l’effet
Tatcher ».
20
Qu’est-ce qui crée cette diminution des capacités perceptuelles
chez
l’observateur? Dans les deux images de la Figure 1, les attributs
locaux demeurent
les mêmes; seules les relations entre ces attributs sont dérangées,
puisque dans
l’image de droite, les yeux sont sous le nez, le nez sous la
bouche, etc. De même, il a
été démontré que, lors de l’inversion, la perception des attributs
faciaux locaux n’est
pas dérangée (Searcy & Bartlett, 1996; Leder & Bruce,
1998), ce qui suggère que ce
sont les relations entre ces attributs qui deviennent plus
difficiles à encoder. Par
conséquent, les chercheurs s’entendent pour attribuer l’EIV à la
destruction du
traitement configural (e.g., Leder & Bruce, 2000). De même,
plusieurs proposent
qu’un système de reconnaissance spécialisé pour les visages analyse
spécifiquement
l’information configurale des visages à l’endroit (e. g. Farah et
al.,1998; Moscovitch,
Winocur & Behrmann, 1997). Ce système rendrait compte de l’EIV
puisqu’alors les
visages à l’endroit relèveraient d’un traitement que les visages
inversés n’activent
21
pas, d’où le coût exceptionnel de l’inversion pour ce type de
stimuli. Ces auteurs
suggèrent ainsi que la distinction entre le traitement des visages
et tout autre stimulus
se situerait au niveau du mode de traitement configural.
1.4 Le développement du traitement configural et l’expertise
Le traitement configural propre aux visages à l’endroit ne serait
pas inné. En
effet, les enfants de moins de six ans ne démontrent pas d’effet
facilitateur propre aux
visages à l’endroit, bien que leur performance ressemble à celle
des adultes en
reconnaissance de visages inversés (Carey & Diamond, 1977). Ces
auteurs suggèrent
que les jeunes enfants encodent les visages par traitement
analytique et que le
changement vers une stratégie par mode configural s’opère vers
l’âge de dix ans. Ce
développement du traitement configural pour la reconnaissance des
visages a donné
lieu à l’hypothèse qu’une structure de référence se formerait chez
un observateur
suite à l’expertise acquise par la perception répétée des visages,
naturellement
présentés à l’endroit (Goldstein & Chance, 1980). Une telle
structure normative des
visages, tel un prototype (Rhodes et al., 1987; Valentine, 1991) ou
un schéma
(Goldstein & Chance, 1980), synthétiserait les connaissances
acquises sur la façon
dont les visages varient habituellement entre eux. L’exploitation
de l’information
configurale permettrait à l’observateur expert, qui s’est
préalablement formé une
conception de la configuration de base, de différencier les
individus parmi un groupe
de stimuli présentant pourtant les mêmes attributs, en exploitant
les déviations de
cette configuration de base qui se retrouvent de façon unique chez
chacun des
individus (Diamond & Carey, 1986).
22
On a vu ci-haut que l’effet d’inversion reposait sur la perte du
traitement
configural. D’après Diamond et Carey (1986), un effet d’inversion
s’observe sous
trois conditions : a) tous les membres de la classe de stimuli en
cause partagent une
configuration commune, b) l’individuation des membres repose sur
l’information
configurale, c) l’observateur possède l’expertise pour exploiter
ces indices
configuraux. Tout observateur humain percevant un visage remplirait
ces conditions,
et l’utilisation efficace des indices configuraux deviendrait ainsi
le résultat d’un
mécanisme général perfectionné par l’expertise pour répondre à un
ensemble de
stimuli homogènes, plutôt qu’un traitement « spécial » des visages
(Diamond et
Carey, 1986; Gauthier et Tarr, 1997). Une telle argumentation
implique que l’effet
d’inversion peut s’observer pour d’autres stimuli dont
l’observateur est expert, et non
seulement pour les visages. Appuyant cette hypothèse, ces auteurs
notent un effet
d’inversion chez des experts en identification canine, en utilisant
comme stimuli des
chiens de même race. De même, Gauthier et Tarr (1997) démontrent
une sensibilité à
la configuration similaire à celle observée pour les visages chez
des experts en
« Greebles », des stimuli complexes dont la différentiation repose
sur l’information
configurale acquise par expertise (Figure 2). Ce résultat suggère
donc que le
traitement configural est le propre de l’expertise et n’est pas
spécifique aux visages
(Gauthier & Tarr, 1997).
Les études comportementales revues jusqu’à présent mettent en
lumière les
propriétés « spéciales » mais non spécifiques du traitement des
visages, amenées par
l’intervention d’un mode de traitement configural réservé aux
observateurs experts.
Voyons maintenant les constatations du domaine neurologique
appuyant ces
observations comportementales.
23
Figure 2. Exemples de Greebles, des stimuli utilisés pour étudier
la sensibilité au traitement configural qu’on retrouve chez les
experts, et de même, dans le traitement des visages (tiré de
Gauthier, Williams, Tarr & Tanaka, 1998).
1.5 Les bases neurologiques d’une spécialisation
1.5.1 Chez les patients cérébro-lésés
L'altération des facultés en reconnaissance des visages
(prosopagnosie) peut
survenir chez un individu indépendamment d’une détérioration des
facultés en
reconnaissance d’objets (Sergent & Signoret, 1992; McNeil &
Warrington, 1993;
Farah, 1994; Newcombe, Mehta & De Haan, 1994). À l’opposé,
certains patients
incapables de reconnaître différents types d’objets (agnosie des
objets visuels)
n’éprouvent aucune difficulté à reconnaître les visages (Moscovitch
et al., 1997) :
cette double dissociation suggère qu’une aire spécifique du cerveau
est strictement
dédiée à la perception des visages (Farah, 1990; Farah, Klein &
Levinson, 1995). On
24
sait depuis quelques décennies déjà qu’une lésion cérébrale
postérieure droite peut
entraîner la prosopagnosie (e.g. Bodamer, 1947; Yin, 1970; Meadows,
1974), malgré
une certaine controverse entourant la condition unilatérale des
lésions provoquant ce
trouble (e.g., Tranel & Damasio, 1985). La prosopagnosie
entraîne un désavantage
pour la reconnaissance des visages à l’endroit – sans cependant
affecter la
reconnaissance des visages inversés, ce qui est en accord avec la
rhétorique déjà
avancée sur le rôle de l’information configurale dans le traitement
spécialisé des
visages (e.g. Yin, 1970). Conformément, la prosopagnosie est
souvent associée à une
incapacité plus générale à reconnaître les membres de classes
d’objets partageant une
similarité dans la forme visuelle (e.g., en plus des visages, des
automobiles, des
symboles, certains animaux, des immeubles célèbres) (Damasio,
Damasio & Van
Hoesen, 1982; Damasio, 1989).
1.5.2 En enregistrement unicellulaire
La première preuve neurophysiologique d’une spécialisation dans
le
traitement des visages chez les primates vient de l’enregistrement
de cellules qui
répondent spécifiquement aux visages dans le cortex temporal des
macaques (Gross,
Roche-Miranda & Bender, 1972). Des cellules répondant
spécifiquement à l’identité,
à l’expression, au point de vue ou à des parties de visage ont
aussi été répertoriées,
entre autres dans le gyrus temporal inférieur et sur les côtés et
la base du sulcus
temporal supérieur (Yamane, Kaji & Kawano, 1988; Hasselmo,
Rolls & Baylis,
1989; Perrett, Hietanen, Oram & Benson, 1992; Gross, 1992;
Perrett, Oram, Harries,
Bevan, Hietanen, Benson & Thomas, 1991; Perrett, Rolls &
Caan, 1982; Wang,
25
Tanaka & Tanifuji, 1996). Chez l’humain, des enregistrements
intracraniens
préchirurgicaux ont permis de trouver, dans l’hippocampe et les
lobes temporaux, des
neurones individuels répondant sélectivement aux visages, à
certaines expressions
faciales ou au sexe (Fried, MacDonald & Wilson, 1997; Heit,
Smith & Halgren,
1988; Ojemann, Ojemann & Lettich, 1992). Finalement, des
électrodes implantées
de façon chronique chez des patients humains démontrent des régions
discrètes du
cortex occipito-temporal inférieur répondant aux visages mais non
aux visages
brouillés, aux séries de lettres, aux animaux ou aux voitures
(Allison, Ginter,
McCarthy, Nobre, Puce, Luby & Spencer, 1994; Allison, McCarthy,
Nobre, Puce &
Belger, 1994; Nobre, Allison & McCarthy, 1994).
1.5.3 En IRMf
L’utilisation des techniques d’imagerie cérébrale, tel l’imagerie
par résonance
magnétique fonctionnelle (IRMf), a permis d’observer une activation
accrue dans une
région particulière du gyrus fusiforme lors de la présentation de
visages,
comparativement à la présentation d’objets tel des fleurs ou des
maisons (McCarthy,
Puce, Gore & Allison, 1997; Kanwisher, McDermott & Chun,
1997). Ces derniers
auteurs ont donné à cette région le nom de Fusiform Face Area
(FFA), après
vérification faite que cette augmentation d’activation n’est pas
imputable à des
attributs de bas niveau ou à la nature « humaine » des images (une
réponse moindre
est obtenue avec des images de mains) (Kanwisher et al., 1997). Le
FFA répond
plus fortement aux visages avec ou sans yeux, de front ou de côté
(Tong, Nakayama,
Moscovitch, Weinrib & Kanwisher, 2000). Une plus grande
activation est notée dans
26
l’hémisphère droit que gauche (p. ex. Kanwisher & al., 1997;
Puce, Allison, Asgari,
Gore & McCarthy, 1996). Et on note une réduction du niveau
d’activation de la FFA
lors de la présentation de visages inversés (Gauthier, Tarr,
Anderson, Skudlarski &
Gore, 1999; Haxby, Ungerleider, Clark, Shouten, Hoffman &
Martin, 1999;
Kanwisher, Tong & Nakayama, 1998). De même, certains suggèrent
que la FFA
correspond de façon plus générale au substrat neurologique pour la
discrimination de
tout stimulus dont l’observateur est expert, en lien avec
l’exploitation de
l’information configurale (Gauthier et al., 1996; Gauthier et al.,
1999).
1.5.4 En PEC
Dans le domaine des potentiels évoqués cognitifs (PEC), on retrouve
une
signature dont la topographie correspond à l’emplacement de la FFA
tel que révélé
par l’IRMf. Cette autre signature spécifique aux visages consiste
en une réponse
électrophysiologique négative aux électrodes latérales postérieures
(aux régions
occipito-temporales) survenant 170 ms après la présentation d’un
visage. Cette
composante, la N170, reflèterait encore une fois le traitement
configural propre aux
visages et ne serait pas induite par la présentation de voitures,
de mains, de meubles
ou par des visages mélangés (Bentin, Allison, Puce, Perez &
McCarthy, 1996;
George, Evans, Fiori, Davidoff & Renault, 1996; Eimer, 1998,
2000), quoique
certaines études notent une réponse claire mais moins ample pour
des chaises,
voitures, lunettes, maisons, chiens, oiseaux, fleurs, papillons et
mains (Rossion,
Gauthier, Tarr, Despland, Bruyer, Linotte & Crommelinck, 2000;
Tanaka & Curran,
2001).
27
De façon générale, la N170 est amplifiée et retardée d’environ 8 ms
par la
présentation de visages inversés, principalement aux électrodes de
l’hémisphère droit
(p. ex. Bentin et al., 1996; Rossion, Delvenne, Debatisse, Goffaux,
Bruyer,
Crommelinck & Guerit, 1999; Rossion et al., 2000). On suppose
qu’une telle
observation, faite lorsque le traitement configural est endommagé,
reflète une
difficulté accrue à traiter le stimulus (Rossion et al., 1999) :
cette amplification de la
N170 lors de la présentation de stimuli inversés semble cependant
un peu paradoxale
si on la met en relation avec la diminution d’activation observée
en IRMf pour le
même type de stimuli. Alors que la rotation d’autres stimuli
impliquant aussi un
traitement configural, tels des maisons, n’entraîne qu’une
amplitude accrue sans
différence de latence, cette latence retardée semble vraiment
spécifique aux visages
où seule l’information analytique est intacte (Eimer, 2000). En
effet, une
augmentation dans la latence a été observée pour les visages
présentant des attributs
aux relations modifiées (Eimer & McCarthy, 1999; George et al.,
1996), pour les
visages avec un ou plusieurs attributs ôtés (Eimer, 1998; Jemel,
George, Chaby, Fiori
& Renault, 1999; Bentin et al., 1996), pour les yeux présentés
isolément (Bentin et
al., 1996) ou pour les visages inversés (Jeffreys, 1993; Rossion et
al., 1999; Bentin et
al., 1996). À noter aussi que dans l’étude de Bentin et al. (1996),
les yeux présentés
en isolation maximisaient la N170, d’où l’hypothèse émise par ces
chercheurs que
cette onde répondrait à la détection spécifique des yeux dans un
visage. Cette
hypothèse se trouve corroborée par une étude récente de Schyns,
Jentzsch, Johnson,
Schweinberger & Gosselin (2003), dans laquelle la méthode des
bulles, décrite plus
loin, démontre que la N170 est modulée par la présentation des
yeux.
Bien que certaines de ces découvertes neurologiques, comme
l’enregistrement
28
unicellulaire, appuient l’idée d’un traitement qui répond à des
aspects spécifiques du
visage, d’autres, comme l’étude des cérébro-lésés, l’IRMf et les
PEC, se montrent
davantage affectés par le traitement configural propre au visage.
La prochaine
section tente de dégager les processus cognitifs sous-jacents à
toutes ces observations.
1.6 Le traitement cognitif des visages
Un modèle de traitement des visages tenant compte des
observations
comportementales et neurologiques répertoriées a été proposé par
Bruce et Young
(1986). Ce système décrit le traitement cognitif menant à la
reconnaissance de
l’identité du visage (Figure 3) (à noter que ce schéma omet le
traitement de
l’expression et des mouvements associés à la parole, peu pertinent
au problème
actuel). Ce système modulaire débute par l’encodage structural du
visage, qui
comprend des descriptions sensibles au point de vue, ainsi que des
descriptions plus
abstraites des attributs et de la configuration globale. Ces
dernières descriptions,
indépendantes de l’expression, fournissent l’information nécessaire
aux unités de
reconnaissance du visage. Chaque unité contient les codes
structuraux déjà
emmagasinés décrivant un visage connu par l’observateur. Quand un
visage est
perçu, la force du signal que chaque unité de reconnaissance envoie
au système
cognitif reflète la ressemblance entre l’encodage structural du
visage perçu et les
codes structuraux emmagasinés par l’unité de reconnaissance. Les
unités de
reconnaissance des visages accèdent aux noyaux d’identité de
l’individu, qui
correspond aux codes sémantiques spécifiques à l’identité dans la
mémoire
associative. Il existe un noyau d’identité pour chaque individu
connu; à ce stade, la
29
reconnaissance du visage devient reconnaissance de l’individu avec
tous ses attributs.
Finalement, la reconnaissance de l’individu active le nom de
l’individu. Tout le
traitement est sous l’influence du système cognitif, qui doit juger
si l’appariement
entre le visage perçu et l’identité activée constitue une vraie
reconnaissance ou une
simple ressemblance.
Figure 3. Modèle fonctionnel de la reconnaissance de l’identité
d’un visage (tiré de Bruce & Young, 1986).
Haxby, Hoffman et Gobbini (2000) proposent un second modèle du
traitement
cognitif, basé sur des études de neuro-imagerie fonctionnelle plus
récentes. D’après
ce système neural distribué, l’analyse visuelle d’un visage débute
par la perception
des attributs faciaux qui s’opère au sein des gyri occipitaux
inférieurs. Ensuite, les
aspects changeants du visage (regard, mouvement des lèvres,
expression) sont
analysés par le sulcus temporal supérieur, alors que les aspects
invariants qui
supportent l’identité unique du visage sont analysés par le gyrus
fusiforme latéral
ENCODAGE STRUCTURAL DU VISAGE Descriptions indépendantes de
l’expression Descriptions sensibles au point de vue
UNITÉS DE RECONNAISSANCE DES VISAGES
NOYAUX D’IDENTITÉ DE L’INDIVIDU
GÉNÉRATION DU NOM
30
(FFA). Finalement, l’identité de l’individu, le nom et les
informations
bibliographiques sont attribués au visage par un système neural du
lobe temporal
antérieur.
Quant à savoir comment les informations véhiculant l’identité sont
traitées
dans le FFA, ce qui n’est pas rapporté dans ces modèles généraux,
il semble que les
traits du visage soient encodés selon une référence à un prototype,
tel que mentionné
dans l’élaboration du concept d’utilisation de l’information
configurale décrit ci-haut.
De fait, une étude comportementale utilisant l’adaptation aux
visages a mis en
évidence des effets consécutifs configuraux de haut niveau en
perception de visages,
indiquant ainsi l’existence de mécanismes neuronaux de contraste
faisant référence à
une tendance centrale retrouvée à l’intérieur de cette catégorie de
stimuli (Leopold,
O’Toole, Vetter & Blanz, 2001). De plus, une seconde étude
suggérant un modèle
computationnel démontre que la représentation de l’information
comprise dans un
visage est influencée par l’expertise que l’observateur acquiert
auprès des visages.
Cette étude a évalué la reconnaissance des visages de même race que
l’observateur
versus des visages d’autres races; l’algorithme rendant le mieux
compte des données
ainsi recueillies dépend de l’expérience acquise par le système
avec les visages.
C’est que l’effet de race observé chez les humains n’est reproduit
que par un modèle
où la structure de l’espace des visages représentés se modifie pour
faciliter
l’encodage des distinctions entre les stimuli des visages les plus
souvent observés.
(Furl, Phillips & O'Toole, 2002).
La revue de ces modèles de traitement cognitif opérés sur les
visages fournit
des pistes sur ce qu’il advient de l’information traitée par le
système visuel après la
31
perception d’un visage. Quant à l’étape qui mène au traitement
cognitif, soit le
mécanisme dynamique de prise d’information alimentant ce
traitement, il dépend du
processus qui gouverne la perception : l’attention. Comme on le
verra dans les
sections suivantes, l’attention joue un rôle primordial dans la
sélection de
l’information en entrée du système visuel. Le défi consiste à
suivre son parcours sur
un visage, afin de déterminer quels éléments contenus dans ce
dernier sont
sélectionnés de préférence pour faire l’objet d’un traitement
ultérieur efficace. Il sera
donc fait état de la nature de l’attention et de sa capacité à
moduler la capture
d’information au niveau de multiples dimensions. Certains
chercheurs suggèrent
qu’un déploiement identique et pré-programmé de l’attention, qu’on
appelle routine
attentionnelle, survient au cours d’une tâche spécialisée afin de
maximiser le
traitement de l’information; convient-il de proposer l’existence
d’une telle routine
attentionnelle pour les visages? Pour trancher, un regard plus
approfondi sera jeté
aux modulations présentement connues en perception des visages. De
fait, des
modulations sont déjà identifiées dans le traitement des fréquences
spatiales au cours
du temps, ainsi que dans le plan de l’image au sein des fréquences
spatiales. À partir
de ces deux modulations, il est possible de tirer une hypothèse
quant au traitement se
manifestant dans le plan de l’image au fil du temps, qui appuierait
l’existence d’une
routine attentionnelle spécifique aux visages.
2. Le rôle de l’attention en perception
On ne peut tout percevoir instantanément. La totalité de
l’information
disponible dans une scène visuelle ne peut être encodée
intégralement pour fins
32
d’analyses ultérieures. Le système visuel humain n’acquiert donc
pas une
représentation interne complète du monde extérieur; seules quelques
parties en sont
échantillonnées et analysées de façon plus poussée (e.g, O’Regan,
1992). On réfère
au mécanisme perceptuel par lequel ces fragments sont sélectionnés
par le nom
d’attention visuelle. Cette attention se déploie sur la scène
visuelle, sélectionne les
aspects importants de la scène et améliore le traitement ultérieur
des régions
sélectionnées (e.g. Kastner & Ungerleider, 2000; Corbetta &
Shulman, 2002). Ce qui
tombe à côté de ce faisceau n’est pas ou peu traité.
Un exemple illustrant ces limites perceptuelles consiste à trouver
une
différence entre deux images similaires, placées l’une à côté de
l’autre comme à la
Figure 4. Repérer de telles différences peut s’avérer difficile,
d’où l’intérêt du jeu
Figure 4. Exemple d’un stimulus démontrant le phénomène de cécité
au changement (tiré de Rensink, O’Regan & Clark, 1997).
«trouvez les N différences entre les images A et B», qu’on voit
souvent dans les
journaux. Si l’observateur pouvait intérioriser une représentation
complète des deux
33
images et ainsi les comparer, il n’aurait aucune difficulté à
accomplir cette tâche.
Mais tout observateur se voit plutôt contraint de comparer un à un
chacun des
éléments de l’image qu’il aura cibler selon le déploiement de son
attention.
Expérimentalement, cette contrainte apportée par le système
perceptuel et le
rôle que l’attention y joue ont été mis en évidence par une série
d’expériences traitant
de cécité au changement (Simons & Levin, 1997; Rensink, O’Regan
& Clark, 1997;
O’Regan, Rensink & Clark, 1999). Durant une expérience de
cécité au changement,
deux images similaires mais affichant un changement, comme à la
Figure 4, sont
présentées successivement à un observateur avec un léger intervalle
(50 à 250 ms)
durant lequel un écran blanc s’affiche. Or, en condition normale
d’observation, cet
observateur demeurera pratiquement aveugle au changement, et ce,
pour des
modifications aussi importantes que le remplacement d’un personnage
dans une scène
ou la disparition complète d’un mur de fond. Pourtant, après avoir
reçu des
indications quant à où diriger son attention, ce même observateur
deviendra
parfaitement capable de relever ces changements. Cet effet
s’explique ainsi :
l’intervalle entre l’image originale et l’image modifiée empêche
l’utilisation des
indices de mouvement pour amener l’attention vers le site du
changement, et
l’attention ne demeure donc guidée que par l’intérêt relatif de
chaque élément
présenté dans la scène. Ainsi, la différence entre les deux images
de la Figure 4, soit
le changement de localisation de l’hélicoptère, apparaîtra de façon
très évidente si ces
images sont présentées en succession rapide, mais s’avèrera fort
difficile à distinguer
si la présentation des images est séparée par un intervalle de plus
de 50 ms. Pour le
lecteur qui souhaite tenter l’expérience lui-même, cet exemple
animé ainsi que
d’autres exemples sont disponibles aux sites internet :
34
2.1 La nature de l’attention
L’attention se déploie sur la scène visuelle, soit tel un faisceau
(« beam »,
e.g., Posner, Snyder & Davidson, 1980), une lentille
grossissante (« zoom lens »,
Eriksen & Yeh, 1985) ou un gradient (e.g., LaBerge & Brown,
1989; Mangun &
Hillyard, 1988). Le déplacement de l’attention peut s’effectuer par
de rapides
mouvements saccadiques de l’œil (déplacement exogène) ou par des
déplacements
endogènes qui impliquent seulement un déplacement du foyer de
traitement de
l’information, sans mouvement oculaire (e.g. Eriksen & Hoffman,
1972; Posner et al.,
1980). D’un point de vue théorique, il a été stipulé que
l’attention exerce un contrôle
volontaire sur les systèmes davantage automatisés du cerveau, afin
de remplir trois
fonctions principales : l’orientation vers les événements
sensoriels, la détection des
signaux lors du traitement conscient et le maintien de l’état
d’alerte (Posner &
Peterson, 1990). De façon plus pratique, les effets de l’attention
s’observent par un
temps de réaction plus court, une activité électrique crânienne
accrue et un seuil de
détection moindre au site d’attention (ibid). Lu & Dosher
(1998) proposent trois
mécanismes pour rendre compte de ces effets, soit 1)
l’amplification du signal, où
l’attention amplifie la force du signal, 2) l’exclusion des
distracteurs, où l’attention
resserre le filtre qui traite le stimulus de façon à exclure les
distracteurs par mode
différentiel et 3) la réduction du bruit interne, où l’attention
diminue le bruit interne
associé au traitement cognitif. L’effet de l’attention est très
précoce sur le
35
fonctionnement cognitif. De nombreuses études ont mis en évidence
un effet de
l’attention visuo-spatiale sur l’activité sensorielle enregistrée
sur des composantes en
PEC aussi tôt que 70 à 90 ms après la présentation du stimulus
(e.g. Eason, Harter &
White, 1969; Hillyard & Munte, 1984; Mangun, Hansen &
Hillyard, 1987).
Finalement, l’attention est flexible, elle se module le long des
dimensions définissant
le stimulus. Cette flexibilité s’étudie en laboratoire en utilisant
des indices qui
prédisent où et quand un stimulus apparaîtra. Des modulations de
l’attention sont
notées pour les indices d’ordre spatial, correspondant à
l’emplacement de la cible
dans le plan de l’image (e.g Posner et al., 1980) et pour les
indices d’ordre temporel,
correspondant au temps d’apparition de la cible à partir du début
de la présentation du
stimulus (e.g. Coull & Nobre, 1998; Ghose & Maunsell,
2002). Typiquement,
l’utilisation d’indices entraîne une augmentation de l’exactitude
des réponses et une
diminution du temps de réponse, conséquence du déplacement prévu de
la fenêtre
attentionnelle vers la cible prédite, qui en facilite le
traitement.
2.2 Les routines attentionnelles
Un paradoxe survient lors de la mise en application de l’attention,
telle qu’on
vient de la définir. En effet, on a mentionné déjà qu’une
représentation interne
complète du monde extérieur est impossible; si l’attention, dans
son rôle de premier
intervenant, cible l’information pertinente dans la scène, par quel
procédé la
pertinence de chaque élément dans cette scène est-elle
préalablement évaluée? La
seule issue demeure que ce mécanisme d’attention soit guidé par des
connaissances
autres que celles strictement contenues dans le stimulus. Dans cet
ordre d’idée,
36
Ullman (1984) suggère que l’on perçoit les stimuli visuels par
l’entremise de routines
visuelles, séquences d’opérations prédéfinies servant à maximiser
le traitement de
l’information disponible. D’après ce dernier, la mise en œuvre de
ces routines se fait
en deux étapes : d’abord, des représentations primaires de
l’environnement visuel
sont créées, puis les routines correspondantes sont appliquées à
ces représentations.
Ces routines visuelles se composent de séquences d’opérations de
base, tel le
déplacement du point d’attention, l’indexation, le traçage de
frontières, etc.
L’attention se déplace alors selon une structure spatiale définie
par la routine,
incluant plusieurs emplacements spécifiques, afin d’abstraire des
propriétés et des
relations non explicitement définies dans les représentations
initiales. De cette façon,
le déploiement de l’attention ne requiert que l’information
visuelle suffisante pour
déterminer quelle routine appliquer et ne relève donc pas de la
voie ascendante
(perceptuelle), puisque indépendant de l’information du stimulus,
ni uniquement de la
voie descendante (cognitive), puisque indépendant des connaissances
spécifique à
l’objet. Chaque routine vise un but particulier, pour lequel elle a
été spécifiquement
créée : certaines routines universelles permettent l’accès à des
catégories générales,
alors que d’autres plus spécifiques servent à l’identification
d’objets particuliers.
L’identification d’un visage pourrait relever d’une telle routine,
d’autant plus que le
déploiement de l’attention en plusieurs points permet d’extraire
les relations entre les
informations, ce qui offre un support au traitement
configural.
Dans la même veine qu’Ullman (1984), Cavanagh, Labianca &
Thornton
(2001) proposent l’utilisation de routines attentionnelles, mais à
un niveau de
traitement plus élevé. Cette fois-ci, les routines suggérées
modulent l’attention afin de
détecter et d’animer les mouvements typiques qui caractérisent des
objets familiers
37
durant une action stéréotypée, comme le vol d’un papillon ou le
rebond d’un objet
tombé sur le sol. Chaque mouvement familier est perçu plus
efficacement grâce à un
regroupement spécifique de routines attentionnelles, appelé «
sprite ». Une fois
créées, ces « sprites » facilitent la reconnaissance en réduisant
le nombre de percepts
possibles, en prédisant l’information d’intérêt à venir et en
facilitant ainsi la poursuite
du mouvement par l’attention. Ces routines attentionnelles se
construisent suite à
l’exposition répétée au mouvement, ce qui renvoie à la notion
d’expertise déjà
présente en reconnaissance des visages, où l’exploitation de
l’information configurale
nécessite l’exposition répétée aux visages.
2.3 Une routine attentionnelle pour les visages
Les routines attentionnelles augmentent l’efficacité du système
visuel par le
biais d’un contrôle cognitif descendant du déplacement de
l’attention. Est-ce qu’une
telle routine intervient chez l’humain pour faciliter la
reconnaissance d’un stimulus
fréquent et important à détecter comme un visage? Bien entendu, la
perception d’un
visage implique nécessairement une modulation quelconque de
l’attention, pour que
soient sélectionnées les régions particulières de l’information
présentée qui seront
soumises à un traitement plus poussé; la question est de savoir si
cette modulation est
aléatoire à chaque visualisation, ou bien constante et optimale à
travers les
expositions. Tel que mentionné à la section 1, tout visage présente
les mêmes
attributs, placés selon une configuration standard. Il apparaît
plausible, dans ce cas,
que le système perceptuel humain ait mobilisé un ensemble
d’opérations de base, tels
des déplacements préprogrammés d’attention aux positions optimales,
pour
38
maximiser la prise d’information diagnostique à la tâche et
optimiser la réponse
comportementale. De plus, il a été fait mention que les routines
attentionnelles se
développent avec l’expertise et peuvent impliquer un traitement
configural. Ces
arguments appuient donc la possibilité qu’une routine
attentionnelle entre en jeu dans
la reconnaissance des visages. Il reste maintenant à déterminer la
nature des
modulations que comporte une telle routine, soit les positions de
l’image d’un visage
visitées par l’attention à travers le temps. Des indices quant aux
informations
sélectionnées peuvent être tirées d’un bassin de connaissances déjà
amassées sur les
modulations qui apparaissent, d’une part, dans le traitement des
fréquences spatiales
au cours du temps, et d’autre part, dans le plan de l’image au sein
des fréquences
spatiales. Ces indices sont révisés dans la section suivante.
3. Le traitement fréquentiel
La notion de routine, soit une « séquence » d’opérations, implique
une
modulation de l’information traitée dans l’image à travers le
temps. Instinctivement,
on place cette modulation dans le plan de l’image – ce domaine
étant d’ailleurs
fréquemment utilisé dans les études en reconnaissance des visages.
Mais l’indication
d’une importante modulation temporelle se retrouve dans un autre
type de
coordonnées, soit dans le domaine spectral, où sont définies les
fréquences spatiales
composant l’image.
En effet, en plus de la position de l’information en tant que
coordonnées dans
le plan de l’image, le système perceptuel tire un autre type
d’information des images
bidimensionnelles. Les recherches en psychophysique ont démontré
que tout stimulus
39
visuel est encodé sous forme de fréquences spatiales, et ce,
relativement tôt dans le
processus analytique. Dès la rétine, les variations de luminance
perçues sont
encodées selon un gradient de haute à basse résolution qui
parviennent par voie
neuronale jusqu’au cortex visuel primaire (voir Marr, 1982).
S’effectue alors
l’équivalent d’une analyse par ondelettes sur le signal transmis,
où, par sections
échantillonnées, l’information de l’image est transformée en somme
d’ondelettes (p.
ex. des fonctions de Gabor bidimensionnelles)] qui varient selon
l'amplitude, la
fréquence, l'angle et la position (voir de Valois & de Valois,
1990, pour une recension
de la littérature). Mais ce traitement varie de l’analyse typique,
puisque le résultat
passe par un ensemble de filtres, chaque filtre transmettant
seulement les ondes
comprises à l’intérieur d’une bande précise de fréquences spatiales
(de Valois & de
Valois, 1990). Ces bandes, au nombre de quatre, cinq ou six,
(Ginsburg, 1986;
Wilson & Bergen, 1979) diffèrent quant à leur résolution, de la
plus grossière
(correspondant aux basses fréquences spatiales (BFS)) à la plus
fine (les hautes
fréquences spatiales (HFS)), ce qui fait varier le type
d'information transmise par
chacune d'elles. Par exemple, dans une image, les larges régions de
même intensité
lumineuse seront encodées par les basses fréquences spatiales (BSF)
sous forme de
taches floues, alors que les limites nettes et les détails précis
de l’image seront
encodés par les hautes fréquences spatiales (HSF).
Les travaux actuels en reconnaissance d’objet situent la
reconnaissance
visuelle à l’intérieur du cadre formé par l'information encodée à
ces différentes
échelles spatiales (e.g, Bachmann, 1991; Parker, Lishman &
Hughes, 1992, 1996;
Costen, Parker & Craw, 1994, 1996; Schyns & Oliva, 1994;
Oliva & Schyns, 1997;
Hughes, Nosawa & Kitterle, 1996; Gosselin & Schyns, 2001;
Schyns, Bonnar &
40
Gosselin, 2002). Ceci dit, comme les basses fréquences dans un
visage
correspondent à la silhouette et la pigmentation du visage, alors
que les hautes
fréquences correspondent aux contours précis du nez, de la bouche,
aux cils, rides,
etc. (e.g. Schyns & Gosselin, 2003), les basses fréquences
dessineraient le squelette
général du visage, raffiné par les fins détails contenus par les
hautes fréquences. Ou
autre hypothèse similaire: les frontières de l'image communes à
toutes les résolutions
formeraient un squelette grossier du visage, que viendraient
ensuite étoffer les
structures fines définies à plus haute résolution (e.g., Canny,
1986; Mallet, 1991;
Marr, 1982; Watt, 1987). Harmon (1973) et Tieger et Ganz (1979) ont
démontré que
l’information contenue en basses fréquences serait suffisante pour
la tâche de
reconnaissance des visages, tandis que les hautes fréquences
spatiales ne viendraient
qu’ajouter une information additionnelle marginale. Cette
information a été appuyée
par des études plus récentes (Schyns et al., 2002; Morrison &
Schyns, 2001; Jenkins,
Craven, Bruce, & Akamatsu, 1997; Bayer, Schwartz & Pelli,
1998), malgré qu’une
reconnaissance des visages soit possible à partir des HFS de 8
cycles par visage et
plus (Fiorentini, Maffei & Sandini, 1983). L’importance de
l’information en basse
fréquence dans la reconnaissance de visages pourrait s’expliquer
par le fait que les
BFS encodent les structures à grande échelle qui supportent les
propriétés holistiques
du visage, alors que la reconnaissance par attributs se fait
surtout par les HFS
(Sergent, 1986).
3.1 Traitement de l’information grossière vers l’information
fine
Ces informations viennent d’études sur le traitement statique de
l’image; mais
41
le traitement des fréquences spatiales se fait de façon dynamique.
Le contrôle
attentionnel module le traitement relatif de chaque bande de
fréquences spatiales dans
le temps. Un consensus général sur le sujet stipule que
l'extraction d’information suit
un patron constant dans le temps, soit des bandes de basses
fréquences vers celles de
hautes fréquences. Plusieurs recherches appuient cette affirmation,
pour le traitement
des visages (Breitmeyer, 1984; Sergent, 1982, 1986; Morrison &
Schyns, 2001),
comme pour celui d’autres stimuli, tels les scènes visuelles (e.g.,
Parker et al., 1992;
Schyns & Oliva, 1994). Ce consensus repose sur la constatation
faite dans ces études
qu’une présentation rapide de visages filtrés engendre une
meilleure reconnaissance
si ces visages sont constitués de basses fréquences spatiales, le
traitement des hautes
fréquences entrant en jeu lors d’une plus longue exposition. Par
contre, les travaux de
Oliva et Schyns (1997; Schyns & Oliva, 1999) s’opposent à ce
point de vue, en
démontrant que le processus perceptuel du traitement des visages
peut s’effectuer
selon un ordre flexible à travers les différentes bandes de
fréquences spatiales, et
qu’on peut biaiser la bande traitée à l’aide d’un simple processus
d’adaptation. Les
mêmes chercheurs ont aussi mis en évidence une modulation variable
pour
différentes tâches, la bande la plus diagnostique variant pour les
tâches de
reconnaissance de l’identité, du sexe ou de l’expression du visage.
En démontrant
une modulation d’aussi haut niveau (c’est-à-dire affectée par la
tâche) au sein du
domaine spectral, les résultats d’Oliva et Schyns remettent en
question la possibilité
qu’un biais des BFS aux HFS ait ses origines dans les mécanismes
perceptuels de bas
niveau. Alors, s’il a été montré dans un premier temps que le
traitement fréquentiel
puisse être différemment biaisé dans le temps et guidé par
l’information diagnostique,
et que, d’autre part, on retrouve un biais constant des basses aux
hautes fréquences
42
pour la tâche de reconnaissance de visages, c’est que cet ordre
correspond à l’ordre
spécifique imposé par l’attention pour cette tâche.
3.1.1 L’analyse du plan de l’image par bandes de fréquences
spatiales
Tout comme pour l’ordre de traitement des bandes de fréquences
spatiales à
travers le temps, il est possible d’étudier la modulation du
traitement de l’information
à l’intérieur du plan de l’image au sein de chaque bande de
fréquences spatiales.
Grâce à la méthode des bulles qui sera bientôt décrite, Gosselin
& Schyns (2001a,
Schyns et al., 2002; Schyns et Gosselin, 2003) ont exploré cette
interaction entre les
dimensions du plan de l'image et la dimension de l'échelle
spatiale. Pour se faire, la
position de l'information utile à la reconnaissance d'un visage
dans le plan de l'image
a été ciblée à l'intérieur de chaque bande de fréquences spatiales,
lors d’une tâche
d’identification. Les résultats obtenus se présentent ainsi: à la
bande de fréquences la
plus fine, les yeux et un coin de la bouche sont utilisés; à la
bande suivante, ce sont
les yeux, le nez et la bouche; le menton s’ajoute à la bande
suivante; et finalement,
aux bandes les plus grossières, un large pas du visage est utilisé,
comprenant les
attributs déjà mentionnés (Figure 5) (Gosselin & Schyns, 2002;
Schyns et al., 2002).
L'utilisation des différentes informations dans le plan de l’image
est moins
différenciée lorsqu'on s'approche des basses fréquences, puisque
l'ensemble du visage
est impliqué; c’est pourquoi aucune zone n’apparaît comme plus
significative que les
autres à la cinquième bande de fréquences. À noter que
l’intervention possible d’un
traitement analytique versus holistique diffère à différentes
bandes, ce dernier étant
plus probable en BFS, tel que suggéré par Sergent (1986) (voir
aussi Farah et al.,
43
1998; Gauthier & Tarr, 1997; Tanaka & Sengco, 1997). Autre
point à souligner:
certaines informations transcendent l’échelle spectrale
puisqu’elles apparaissent
diagnostiques à toutes les bandes - les yeux en particulier.
Figure 5. Position de l'information diagnostique pour la
reconnaissance d'un visage dans le plan de l'image à l'intérieur de
chaque bande de fréquences spatiales, lors d’une tâche
d’identification.
(tiré de Gosselin & Schyns, 2002).
3.1.2 L’analyse du plan de l’image dans le temps
Les études revues jusqu’à présent au sujet du traitement de
l’information
provenant d’un visage suggèrent la possibilité d’une modulation
temporelle dans
l’analyse de l’information spectrale, qui pourrait se jumeler au
balayage des
coordonnées du plan de l’image. Si on fait abstraction du domaine
fréquentiel, la
combinaison de ces deux observations pointe vers une stratégie
attentionnelle guidant
l’exploitation du plan de l'image dans le temps. Ainsi, on a vu que
le traitement des
échelles spatiales se faisait du plus grossier au plus fin dans la
perception d’un visage;
et que, dans les BFS, de larges régions du visage étaient
utilisées, alors qu’une
concentration vers des attributs précis s’effectuait dans les HFS.
Par suite, on peut
spéculer qu’au début du traitement visuel d’un visage,
l'information utile sera plutôt
44
diffuse dans le plan de l'image (analyse des BFS), mais qu'elle se
fixera auprès des
yeux et de la bouche (analyse des HFS) avec le temps, en passant
par les attributs
utilisés dans les bandes intermédiaires. Cette modulation
spatio-temporelle de
l’attention correspondrait au déploiement d’une routine
attentionnelle. C'est
l’existence d’une telle routine que cherche à mettre à jour la
présente étude.
4. La méthode des bulles
La réalisation de cette expérience s'effectuera grâce à la méthode
des bulles,
méthode conçue pour explorer l'utilisation de l'information
efficace à l’intérieur des
dimensions psychophysiques lors d'une tâche de catégorisation
(Gosselin & Schyns,
2001a; Gosselin & Schyns, 2002; Schyns & Gosselin, 2003).
Cette méthode
s’illustre par le fait qu’elle révèle quelles informations
efficaces sont utilisées par
l’observateur – dans ce cas-ci, au cours d’une routine
attentionnelle – et non pas la
représentation, parfois biaisée, que se fait l’observateur de cette
information. Cette
distinction devient importante dans le cadre d’une récente
recrudescence de nouvelles
méthodes psychophysiques permettant de cibler les informations
utilisées dans
différents contextes (p. ex. voir le numéro spécial de Cognitive
Science, Rendering
the information used in visual processing, Gosselin & Schyns,
(Eds.), sous presse, a).
Par exemple, on peut situer la méthode des bulles par rapport à une
autre méthode un
peu plus connue, la corrélation renversée. Les deux méthodes sont
similaires en ce
qu’elles utilisent les réponses d’un observateur à une tâche de
catégorisation pour
tenter de définir comment l’information disponible est utilisée.
Dans le cas de la
méthode des bulles, on explore le signal pur, alors qu’avec la
corrélation renversée,
45
on ajoute du bruit au signal. Autre différence, la corrélation
renversée classe les
essais effectués selon la décision de l’observateur lors de la
catégorisation, alors que
la méthode des bulles classe ces essais selon les catégorisations
correctes et
incorrectes indépendamment de l’observateur. Le résultat de ces
deux méthodes
affiche cependant un lien important. Lors d’une tâche de
catégorisation, le signal
perçu (A) par un observateur est comparé à une représentation en
mémoire (R), de
sorte que l’information diagnostique (P), située à l’intersection
de ces deux concepts,
mène à une catégorisation; bref, R * A = P (Gosselin & Schyns,
2002). La
corrélation renversée permet de dériver une image de
classification, soit la
représentation utilisée par un observateur lors d’une telle tâche.
La méthode des
bulles, elle, révèle quelle est l’information efficace utilisée par
l’observateur parmi
l’information disponible au sein du stimulus (Gosselin &
Schyns, 2002). Ainsi, la
corrélation renversée révèle la représentation en mémoire (R) alors
que la méthode
des bulles révèle l’information diagnostique utilisée (P) (Gosselin
& Schyns, 2002;
Murray & Gold (sous presse); Gosselin & Schyns (sous
presse, b)).
Jusqu’à maintenant, la méthode des bulles a été appliquée à trois
dimensions,
soit les coordonnées spatiales (x et y) de l’information dans le
plan de l’image ainsi
que les bandes de fréquences spatiales du domaine spectral. Dans le
contexte présent,
on propose une innovation méthodologique en ajoutant pour la
première fois la
dimension du temps aux dimensions explorées. Cette innovation est
d’autant plus
utile que la reconnaissance d’objet est intrinsèquement dynamique,
dû au mouvement
des objets, aux saccades oculaires et à la modulation de
l’attention dans le temps
(Cavanagh et al., 2001; Kristjansson, Mackeben & Nakayama,
2001). On explorera
donc simultanément l’utilisation de l’information sur trois
dimensions, soit les deux
46
dimensions du plan de l’image et la dimension du temps.
L’exploration des différentes dimensions repose sur le principe
central de la
méthode des bulles, soit l’échantillonnage de l’information
présentée par le stimulus.
A chaque essai, un masque est placé par-dessus le signal original
dans les dimensions
échantillonnées et seules quelques bribes d’information sont
présentées à travers les
ouvertures du masque. Ces ouvertures, dont la forme gaussienne leur
valent le nom
de « bulles », sont placées aléatoirement le long de la dimension
échantillonnée. Un
observateur effectue une tâche de catégorisation à partir de
l’information présentée.
Si cette information est suffisante pour effectuer la tâche, la
probabilité d’une bonne
réponse augmente. En répétant l’exercice un grand nombre de fois,
on obtient une
exploration complète de l’information disponible. On effectue
ensuite une régression
multiple sur les réponses du participant et la position des bulles,
ce qui donne un
coefficient de diagnosticité pour chaque coordonnée de la dimension
à l’étude, c’est-
à-dire un indice d’utilisation de l’information à cette position
par le participant lors de
la tâche en cours.
4.1 La méthode des bulles appliquée au domaine temporel
Dans la présente étude, on explore le plan de l’image dans le temps
à l’aide
d’un masque percé de bulles tridimensionnelles. Ce masque est
constitué d’une
séquence de plages présentées successivement (tel un film de 282
ms) devant le
visage échantillonné (voir un exemple de stimulus aux Figures 1 et
3 de l’article ou
un exemple dynamique à
www.mapageweb.umontreal.ca/gosselif/space-time.html).
Les bulles qui sont placées aléatoirement sur le masque s’étendent
de façon
47
gaussienne dans le plan de l’image (selon un écart-type de 0.22
degrés d’angle visuel)
et dans le domaine temporel (selon un écart-type de 39 ms, ou 1.65
plages); cette
disposition produit l’effet de bulles apparaissant et disparaissant
dans le temps.
À noter que si le masque prend une forme dynamique, le visage
présenté derrière, lui,
demeure statique.
Les stimuli ainsi générés sont présentés au participant, qui a pour
tâche de les
identifier correctement. A chaque essai, l’échantillonnage effectué
présente un sous-
ensemble d’information du visage dans l’espace-temps. Si la
modulation
attentionnelle du participant correspond en partie à l’information
du visage révélée
par le masque, cette information sera traitée et mènera
potentiellement à une bonne
réponse pour la tâche en cours. En faisant la régression multiple
des réponses
correctes et incorrectes données par le participant avec
l’information présentée, on
obtiendra la modulation attentionnelle à travers les trois
dimensions explorées.
4.2 La stabilité des résultats attendus
Peu de protocoles récoltent, durant une étude comportementale,
autant de
données pour chaque point mesuré que le nombre qui sera accumulé
ici avec la
méthode des bulles. Afin d’estimer la modulation attentionnelle de
façon précise,
6.32 milliards de données1 seront recueillies, soit 14 353 valeurs2
pour chaque point
spatio-temporel de la routine attentionnelle attendue. Se faisant,
on évite un manque
1 10 sujets * 5100 essais par sujet * 142 bulles par essai * 872
pixels par bulle = 6.32*10^9 pixels affichés 2 6.32*10^9 données /
(36 665 points par plage *12 plages par routine) = 14 353 données
par point de la routine
48
de précision dans les résultats due à une cueillette de données
insuffisante, quoique la
nature de la méthode protège d’elle-même les résultats des
variations occasionnelles.
En effet, pour que des régions significatives soient désignées par
la méthode des
bulles, il doit y avoir une constance dans l’utilisation des
régions du stimulus qui
mènent à des bonnes réponses; sinon l’ensemble des coordonnées
explorées prend
une valeur identique, celle du taux moyen de bonnes réponses
entraîné par un patron
de réponses aléatoire. La variation des valeurs obtenues dans les
présents résultats
représentera donc des modulations constantes de haute
diagnosticité.
5. Problématique
Comme le montrent les faits présentés jusqu’à présent, le
traitement des
visages est spécial, dû à une similarité entre les stimuli de cette
catégorie qui exige un
recours au mode de traitement configural, développé par
l’expertise, afin de permettre
une différenciation des membres individuels reposant sur les
variations d’une
configuration de base. Les informations obtenues grâce aux
patients
prosopagnosiques et par les techniques d’enregistrement
unicellulaire, de fMRI et de
PEC soulignent une spécificité du traitement évidente par des
marqueurs
neurologiques, soit un foyer d’activation dans le gyrus fusiforme
droit (le FFA) et, en
PEC, une onde négative dans la région occipito-temporale droite (la
N170). Des
modèles cognitifs et des mécanismes computationnels ont été
proposés pour rendre
compte du traitement souligné. A quoi ce traitement
correspond-t-il? Le débat
persiste quant à une spécificité d’un processus propre aux visages
ou à un processus
plus général en lien avec l’expertise; cependant, il ne fait pas de
doute que l’expertise
49
joue un rôle dans la perception des visages chez tout observateur
humain. Donc il
pourrait ainsi y avoir, chez tout observateur, développement d’une
stratégie
d’expert mobilisant l’attention de façon optimale à la prise
d’information pour cette
tâche: cette stratégie demeure encore inconnue.
La présente recherche tente de mettre en évidence la stratégie
utilisée par le
système visuel lors de la reconnaissance d’un visage. On émet
l’hypothèse que cette
tâche fait appel à une routine attentionnelle guidant le
déploiement de l’attention dans
le plan de l’image au fil du temps. Pour vérifier cette dernière
affirmation, la
modulation des informations traitées de façon diagnostique durant
les 282 premières
millisecondes d’une tâche de reconnaissance de visages sera révélée
grâce à la
méthode des bulles. Pour la première fois, ces bulles seront
utilisées dans
l’exploration du domaine temporel. Comme l’échantillonnage qui
prend place
s’effectuera sur des visages statiques, une éventuelle modulation
dynamique du
traitement de l’information ne pourra être que d’origine
attentionnelle – reliée à la
séquence de traitement de l’information – puisque la possibilité
d’utiliser les
informations présentées dans le visage demeurera la même. Suite aux
modulations
déjà révélées par les études en attention et en analyse spectrale
des visages, on peut
s’attendre à identifier une modulation de l’information
diagnostique dans un visage
de façon constante à travers les essais et les participants. Une
modulation dynamique
de l’attention durant les premiers instants d’une tâche de
reconnaissance sur les
images bidimensionnelles de visages est donc attendue.
50
6. Contributions à l’article
L’article qui suit met en œuvre la technique des bulles élabor