233
© Mark Parent, 2019 Diagnosticité des mesures physiologiques périphériques de la charge mentale Thèse Mark Parent Doctorat en psychologie Philosophiæ doctor (Ph. D.) Québec, Canada

Diagnosticité des mesures physiologiques périphériques de

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

© Mark Parent, 2019

Diagnosticité des mesures physiologiques périphériques de la charge mentale

Thèse

Mark Parent

Doctorat en psychologie

Philosophiæ doctor (Ph. D.)

Québec, Canada

iii

Résumé

La charge mentale est un concept très utile dans les domaines dont l’objet d’étude et

d’analyse est le travail et la performance humaine. Typiquement, la charge mentale est

mesurée à l’aide des mesures subjectives (c.-à-d. des questionnaires) ou par des mesures

comportementales (c.-à-d. les actions des individus). La charge mentale peut également être

mesurée à l’aide de l’activité physiologique périphérique (p.ex. l’activité cardiaque). Il est

cependant difficile de déterminer la source de la charge mentale à l’aide des mesures

physiologiques périphérique. En effet, les sous-dimensions de la charge mentale, comme

l’exigence, l’effort, le stress et la fatigue, provoquent souvent des manifestations

physiologiques similaires. En plus de cette problématique, les mesures physiologiques de la

charge mentale sont trop souvent étudiées dans des contextes de laboratoire et trop rarement

étudiées dans des milieux de travail réels. Il est donc crucial d’investiguer leur potentiel dans

des contextes réels. Cette thèse vise donc à investiguer le potentiel diagnostique (le potentiel

à déterminer la source) des mesures physiologiques périphériques de la charge mentale. Pour

y arriver, une méthode combinant l’approches cognitive traditionnelle et l’apprentissage

automatique est utilisée. La thèse rapporte les résultats de deux expériences : une première

menée en contexte de laboratoire et une seconde menée dans une simulation de

commandement et contrôle reproduisant un milieu de travail réel. Les résultats montrent que

les mesures physiologiques périphériques peuvent prédire, avec une bonne précision, la sous-

dimension qui est à l’origine de la charge mentale en contexte de tâche simple. Bien que

moins précise, il reste possible de faire cette prédiction dans des contextes de tâche réelle.

Dans l’ensemble, cette thèse apporte plusieurs contributions essentielles afin de rendre

possible les mesures physiologiques périphériques de la charge mentale dans les milieux de

travail réels.

iv

Abstract

Mental workload stands out as a key concept as soon as human work and human performance

is discussed. Mental workload is often measured using subjective questionnaires or

behavioral cues. Peripheral physiological measures (e.g. heart rate) can also be used to

measure workload. However, it is particularly difficult to determine the source of workload

using peripheral physiological measures. Sub-divisions of mental workload, such as task

load, mental effort, stress and fatigue, often trigger similar physiological reactions, blurring

the diagnostic potential of physiological measures. Furthermore, physiological measures are

too often investigated in laboratory settings, making it hazardous to determine their

performance in real world settings. This thesis aims at investigating the diagnostic potential

of peripheral physiological measures. A mixed methodology, combining traditional cognitive

approach as well as machine learning techniques, is used. This thesis presents results of both

a laboratory setting experimental as well as an ecological command and control simulation.

Results show that peripheral measures can be used to predict, with high accuracy, the source

of workload in laboratory settings. While not as accurate, results also show that it is possible

to perform a diagnostic measure of workload in an ecological work simulation. This thesis

contribute to improve the potential of peripheral physiological measures in real work settings.

v

Table des matières

Résumé .............................................................................................................................. iii Abstract ............................................................................................................................... iv Table des matières ............................................................................................................... v Liste des tableaux ............................................................................................................ viii Liste des figures .................................................................................................................. xi

Liste des abréviations ....................................................................................................... xii Remerciements ................................................................................................................ xiii Introduction ......................................................................................................................... 1 Chapitre 1 : Le concept et les mesures de la charge mentale .............................................. 3

1.1 La charge mentale et ses composantes ...................................................................... 3

1.1.1 Exigence, effort et motivation ............................................................................. 5

1.1.2 Stress, anxiété et frustration ................................................................................ 8

1.1.3 Fatigue, vigilance et ennui ................................................................................ 10 1.2 Mesures de la charge mentale .................................................................................. 12

1.2.1 Considérations psychométriques ....................................................................... 13 1.2.2 Mesures comportementales ............................................................................... 16

1.2.3 Mesures subjectives .......................................................................................... 18 1.2.4 Mesures physiologiques .................................................................................... 19

1.3 Mesures physiologiques périphériques des dimensions de la charge mentale ........ 22 1.3.1 Le potentiel des mesures physiologiques périphériques ................................... 22 1.3.2 Justification des dimensions de la charge mentale ............................................ 24

1.3.3 Effets physiologiques des dimensions de la charge mentale ............................ 27 1.3.4 Synthèse ............................................................................................................ 32

1.4 Problématique .......................................................................................................... 33 1.4.1 Manque de diagnosticité ................................................................................... 33

1.4.2 Difficulté à intégrer dans des milieux de travail humain .................................. 36 1.5 Objectif de la thèse .................................................................................................. 38

Chapitre 2 : Stratégie méthodologique .............................................................................. 40

2.1 Expériences .............................................................................................................. 42 2.2 Mesures .................................................................................................................... 44

2.2.1 Mesures subjectives et comportementales ........................................................ 44 2.2.2 Mesures physiologiques .................................................................................... 45

2.3 Découpage en époque et prétraitement des signaux ................................................ 49 2.4 Calcul des métriques physiologiques ....................................................................... 51 2.5 Organisation des schèmes de classification ............................................................. 54

2.6 Imputation des données ........................................................................................... 54 2.7 Rééquilibrage des classes ......................................................................................... 55

2.8 Entraînement des modèles ....................................................................................... 55 2.9 Calcul de la performance ......................................................................................... 56

Chapitre 3 : Diagnosticité dans des tâches simples ........................................................... 59 3.1 Particularités de méthodologie ................................................................................. 61

3.1.1 Participants ........................................................................................................ 61

3.1.2 Tâches expérimentales ...................................................................................... 61 3.1.3 Devis ................................................................................................................. 62 3.1.4 Procédure ........................................................................................................... 63

vi

3.1.5 Paramètres d’apprentissage automatique .......................................................... 64

3.2 Résultats ................................................................................................................... 64

3.2.1 Analyse des réponses subjectives ...................................................................... 64 3.2.2 Analyse de la performance et de l’effort ........................................................... 68 3.2.3 Analyse des métriques physiologiques ............................................................. 72 3.2.4 Analyse des modèles d’apprentissage automatique .......................................... 75 3.2.5 Méta-analyse des classificateurs ....................................................................... 81

3.2.6 Analyses de paramètres supplémentaires .......................................................... 87 3.3 Discussion ................................................................................................................ 89

3.3.1 Discussion sur les mesures ................................................................................ 89 3.3.2 Discussion des modèles d’apprentissage automatique ...................................... 96 3.3.3 Discussion générale ......................................................................................... 104

3.3.4 Leçons pour la prochaine expérience .............................................................. 107

3.4 Conclusion ............................................................................................................. 108

Chapitre 4 : Diagnosticité en simulation de commandement et contrôle (C2) ................ 110 4.1 Particularités de méthodologie ............................................................................... 112

4.1.1 Participants ...................................................................................................... 112 4.1.2 Tâches expérimentales .................................................................................... 112

4.1.3 Devis ............................................................................................................... 114 4.1.4 Procédure ......................................................................................................... 116

4.1.5 Paramètres d’apprentissage automatique ........................................................ 116 4.2 Résultats ................................................................................................................. 119

4.2.1 Analyse des réponses subjectives .................................................................... 119

4.2.2 Analyse de la performance et de l’effort ......................................................... 122 4.2.3 Analyse des métriques physiologiques ........................................................... 124

4.2.4 Analyse des modèles d’apprentissage automatique ........................................ 127 4.2.5 Méta-analyse des classificateurs ..................................................................... 135

4.2.6 Analyse de paramètres supplémentaires ......................................................... 144 4.3 Discussion .............................................................................................................. 147

4.3.1 Discussion sur les mesures .............................................................................. 147

4.3.2 Discussion des modèles d’apprentissage automatique .................................... 153 4.3.3 Discussion générale ......................................................................................... 162

4.4 Conclusion ............................................................................................................. 165 Chapitre 5 : Discussion générale ..................................................................................... 166

5.1 Sommaire des résultats .......................................................................................... 166 5.2 Contributions théoriques ........................................................................................ 168

5.2.1 Introduction de nouvelles métriques physiologiques ...................................... 168

5.2.2 Redéfinition du rôle de l’exigence mentale .................................................... 170 5.2.3 Distinction entre l’effort mental et le stress .................................................... 172

5.3 Contribution méthodologique ................................................................................ 173 5.3.1 Avantage – Grand nombre de métriques physiologiques ............................... 173 5.3.2 Avantage – Méthode orientée vers la pratique ................................................ 174 5.3.3 Limites – Fatigue confondue avec d’autres facteurs ....................................... 176 5.3.4 Limite – Pas de comparaison de performance entre les modalités ................. 177

5.4 Contributions pratiques .......................................................................................... 178 5.4.1 Augmentation de l’accessibilité des mesures physiologiques ........................ 178

vii

5.4.2 Supporter la conception du travail et l’élaboration de contre-mesures cognitives

.................................................................................................................................. 180

5.4.3 Modèles interindividuels ................................................................................. 181 5.5 Défis à relever ........................................................................................................ 183

5.5.1 Augmenter la robustesse face aux mouvements et aux bruits du signal ......... 183 5.5.2 Augmenter la robustesse face à la parole ........................................................ 185 5.5.3 Considérer plus de dimensions ........................................................................ 186

Conclusion ....................................................................................................................... 189 Références ....................................................................................................................... 190

viii

Liste des tableaux

Tableau 1- Propriétés psychométriques et métrologiques utilisées ce projet ...................... 16 Tableau 2 - Synthèse des effets physiologiques des composantes de la charge mentale...... 32 Tableau 3 - Description des fonctions utilisées pour calculer les métriques

physiologiques ...................................................................................................................... 52 Tableau 4 - Utilisation des fonctions par type de signal physiologique ............................... 52

Tableau 5 - Sous-ensemble de métriques testées dans cette analyse .................................... 54 Tableau 6 - Exemple de prédiction d’un modèle pour deux catégories ............................... 57 Tableau 7 - Critères déterminant la qualité des classificateurs ........................................... 58 Tableau 8 - Définition des variables d’intérêt ...................................................................... 64 Tableau 9 - Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX

(partie 1/2) ............................................................................................................................ 67

Tableau 10 - Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX

(partie 2/2) ............................................................................................................................ 68 Tableau 11 - Scores moyens de performance dans les quatre conditions ............................ 70 Tableau 12 - Scores moyens de l’effort dans les quatre conditions ..................................... 72 Tableau 13 - Taille d’effet des métriques physiologique ...................................................... 74

Tableau 14 - Moyenne du d de Cohen par groupe de métriques physiologiques ................. 75 Tableau 15 - Vérification de l’indépendance des variables objectives ................................ 76

Tableau 16 - Vérification de l’indépendance des variables subjectives ............................... 76 Tableau 17 - Vérification de l’indépendance des variables objectives/subjectives ............. 77 Tableau 18 - Performance en test des variables en fonction des métriques utilisées

pour un classificateur SVM .................................................................................................. 78 Tableau 19 - Performance en test des réponses subjectives du NASA-TLX pour un

classificateur SVM ................................................................................................................ 79 Tableau 20 - Performance en test des variables en fonction des métriques utilisées

pour un classificateur linéaire .............................................................................................. 80 Tableau 21 - Performance en test des réponses subjectives du NASA-TLX pour un

classificateur linéaire ........................................................................................................... 81

Tableau 22 - Régression logistique multiple effectuée sur la performance en

classification ......................................................................................................................... 82

Tableau 23 - Pourcentage de la contribution des modalités physiologiques selon les

classificateurs ....................................................................................................................... 83 Tableau 24 - Métriques ayant les plus grands poids pour la classification de la classe

« Repos initial » .................................................................................................................... 85 Tableau 25 - Métriques ayant les plus grands poids pour la classification de la classe

« Difficulté » ......................................................................................................................... 85 Tableau 26 - Métriques ayant les plus grands poids pour la classification de la classe

« Stress » ............................................................................................................................... 86 Tableau 27 - Métriques ayant les plus grands poids pour la classification de la classe

« Tâche » .............................................................................................................................. 86 Tableau 28 - Métriques ayant les plus grands poids pour la classification de la classe

« Performance » ................................................................................................................... 87

Tableau 29 - Métriques ayant les plus grands poids pour la classification de la classe

« Effort » ............................................................................................................................... 87

ix

Tableau 30 - Performance des classificateurs en fonction du chevauchement des

époques ................................................................................................................................. 88

Tableau 31 - Régression logistique multiple effectuée sur la performance en

classification ......................................................................................................................... 89 Tableau 32 - Définition des variables d’intérêt .................................................................. 118 Tableau 33 - Tailles d’effet des ANOVA menées sur les réponses du NASA-TLX ............. 121 Tableau 34 - Coefficients de corrélation entre le temps passé sur la tâche et les

dimensions du NASA-TLX .................................................................................................. 122 Tableau 35 - Scores moyens de performance dans les quatre conditions .......................... 123 Tableau 36 - Scores moyens de l’effort dans les quatre conditions ................................... 124 Tableau 37 - Taille d’effet des métriques physiologique .................................................... 126 Tableau 38 - Moyenne du d de Cohen par groupe de métriques physiologiques ............... 127

Tableau 39 - Vérification de l’indépendance des variables objectives .............................. 128

Tableau 40 - Vérification de l’indépendance des variables subjectives ............................. 128

Tableau 41 - Vérification de l’indépendance des variables objectives/subjectives ........... 129 Tableau 42 - Performance en test des variables en fonction des métriques utilisées et

de la durée des époques pour un classificateur SVM ......................................................... 131 Tableau 43 - Performance en test des réponses subjectives du NASA-TLX en fonction

de la durée des époques pour un classificateur SVM ......................................................... 132 Tableau 44 - Performance en test des variables en fonction des métriques utilisées et

de la durée des époques pour un classificateur linéaire .................................................... 134 Tableau 45 - Performance en test des réponses subjectives du NASA-TLX en fonction

de la durée des époques ...................................................................................................... 135

Tableau 46 - Régression logistique multiple effectuée sur la performance en

classification (difficulté) ..................................................................................................... 136

Tableau 47 - Régression logistique multiple effectuée sur la performance en

classification (stress) .......................................................................................................... 137

Tableau 48 - Régression logistique multiple effectuée sur la performance en

classification (ordre des conditions) .................................................................................. 137 Tableau 49 - Régression logistique multiple effectuée sur la performance en

classification (ordre des époques) ...................................................................................... 138 Tableau 50 - Régression logistique multiple effectuée sur la performance en

classification (performance) ............................................................................................... 138 Tableau 51 - Régression logistique multiple effectuée sur la performance en

classification (effort) .......................................................................................................... 139 Tableau 52 - Pourcentage de la contribution des modalités physiologiques ..................... 140 Tableau 53 - Métriques ayant les plus grands poids pour la classification de la classe

« Repos Initial » .................................................................................................................. 142 Tableau 54 - Métriques ayant les plus grands poids pour la classification de la classe

«Stress » .............................................................................................................................. 142 Tableau 55 - Métriques ayant les plus grands poids pour la classification de la classe

« Ordre des conditions » .................................................................................................... 143 Tableau 56 - Métriques ayant les plus grands poids pour la classification de la classe

«Ordre des époques » ......................................................................................................... 143

Tableau 57 - Métriques ayant les plus grands poids pour la classification de la classe

«Effort (vies sauvées) »....................................................................................................... 144

x

Tableau 58 - Performance des classificateurs en fonction du type de classificateur et

de l’imputation .................................................................................................................... 146

Tableau 59 - Performance des classificateurs en fonction du type de classificateur et

du rebalancement des données. .......................................................................................... 147

xi

Liste des figures

Figure 1 : Représentation schématique du modèle de Wickens (2008). ................................ 4 Figure 2 : Exemple d’un électroencéphalogramme et d’un système de spectroscopie

proche infrarouge. ................................................................................................................. 21 Figure 3 : Synthèse méthodologique .................................................................................... 41 Figure 4 : Le Bioharness 3 .................................................................................................... 46

Figure 5 : Positionnement des électrodes électrodermales. .................................................. 47 Figure 6 : Lunette ASL Mobile Eye. .................................................................................... 48 Figure 7 : Exemple des signaux physiologique recueillis lors des séances

expérimentales. ..................................................................................................................... 49 Figure 8 : Exemple d’un découpage en époques. ................................................................. 50

Figure 9 : Exemple du tableau de données créé après le calcul des métriques. ................... 53

Figure 10 : Relation entre la performance et kappa pour deux seuils de hasard

différents. .............................................................................................................................. 58 Figure 11 : Représentation schématique de la tâche de n-back. ........................................... 62 Figure 12 : Exemple de la tâche de recherche visuelle (difficile). ....................................... 62 Figure 13 : Résultats du NASA-TLX lors du n-Back. ........................................................ 66

Figure 14 : Résultats du NASA-TLX lors de la recherche visuelle. .................................... 66 Figure 15 : Performance en fonction de la difficulté et de la tâche. ..................................... 70

Figure 16 : Performance en fonction du stress et de la tâche. .............................................. 71 Figure 17 : Score d’effort en fonction de la difficulté et de la tâche. ................................... 72 Figure 18 : Contribution des modalités physiologiques selon le classificateur. ................... 84

Figure 19 : Interface du logiciel de gestion de crise. .......................................................... 113 Figure 20 : Exemple d’un panneau montrant les propriétés d’un incident. ........................ 114

Figure 21 : Classificateurs de l’ordre des conditions. ........................................................ 119 Figure 22 : Résultats du NASA-TLX lors de la tâche de C2. ............................................ 120

Figure 23 : Temps de réponse en fonction de la difficulté et du stress. ............................. 123 Figure 24 : Contribution des modalités physiologiques selon le classificateur. ................. 141

xii

Liste des abréviations

- ADASYN : Algorithme d’échantillons synthétique (de l’anglais : Adaptive

Synthetic Sampling Approach for Imbalanced Learning)

- ANOVA : Analyse de la variance

- C2 : Commandement et contrôle

- ECG : Électrocardiogramme

- EDA : Relatif à l’activité électrodermale

- GAZ : Relatif à l’activité oculaire (de l’anglais : gaze)

- HF : Haute fréquence

- LF : Basse-fréquence

- NASA-TLX : Nom court du questionnaire subjectif NASA Task Load Index

- PUP : Relatif à l’activité pupillaire

- RR : Relatif aux intervalles entre les battements cardiaques

- RSP : Relatif à la respiration

- SVM : Machine à vecteur de support (de l’anglais : support vector machine)

- TSST : Trier Social Stress Task

- VLF : Très basses fréquences

xiii

Remerciements

Je tiens à remercier mon directeur de thèse, le Dr Sébastien Tremblay, pour son encadrement

lors de la réalisation de mon doctorat. Tout au cours de mon cheminement, Sébastien m’a

donné l’impression d’être son homme de confiance, ce qui est incontestablement le plus beau

souvenir que je vais garder de mon doctorat. Je me considère extrêmement chanceux d’avoir

eu un directeur aussi engagé à me voir me développer professionnellement. Grâce à lui, j’ai

été exposé à des projets des plus enrichissants. Il m’a également donné l’occasion de voyager,

de rencontrer et de collaborer avec des experts à travers le monde. J’en lui en suis

profondément reconnaissant.

J’aimerais également remercier les Drs François Vachon et Mickaël Causse pour leur rôle au

sein de mon comité de thèse. Merci à François pour sa rigueur et son expertise, sans qui des

failles méthodologiques et intellectuelles auraient certainement échappé à ma vigilance.

Merci à Mickaël pour ses commentaires toujours constructifs, pour les opportunités de projet

à l’ISAE et, plus particulièrement, pour m’avoir toujours traité avec beaucoup

professionnalisme.

La réalisation de ce doctorat a été pour moi l’occasion d’apprendre un grand nombre de

savoirs qui font aujourd’hui de moi, je l’espère, un meilleur scientifique. Une quantité

importante de ces acquis est due à la patience de mes collègues et collaborateurs à me

transmettre leur précieuse expertise. Je tiens à remercier mes prédécesseurs au laboratoire,

les Drs Cindy Chamberland, Jean-François Gagnon et Benoît Roberge-Vallières, pour leur

judicieux conseils et la générosité du temps qu’ils m’ont accordé. I wish to extend this

gratitude toward Dr Joel Suss for his truly appreciated mentoring. I would also like to thank

Dr Tiago H. Falk for giving me the opportunity to perform an internship at MuSAE lab, in

Montreal. This internship allowed me to significantly brush up my machine learning and

neurophysiological skills as well as exchange with his lab resourceful members. Je remercie

également le Dr Frédéric Dehais et les membres de l’ISAE, à Toulouse, pour leurs conseils

sincèrement appréciés.

xiv

Je tiens aussi à remercier les nombreux collègues universitaires avec qui j’ai eu le plaisir de

collaborer, mais qui ont également rendu le travail quotidien tellement plus agréable. Merci

à Catherine, Alexandre et Alexandre, Serge et Jean-Denis et tous les membres des

laboratoires Co-DOT et PACE de l’université Laval. Merci aussi aux membres de l’Unité de

Recherche Mixte en Sciences Urbaines pour leur chaleureuse compagnie.

En dehors du contexte professionnel, je tiens à souligner le support indéfectible de tous mes

amis pendant mes années d’études. Merci notamment à ma bonne amie Josée de m’avoir

continuellement encouragé et d’avoir écouté inconditionnellement mes idées (des plus

farfelues aux plus sérieuses). Merci à mes amis de longue date, Martin et Cyrille, pour leurs

encouragements. Merci à Stéphane, sans qui mes analyses ne seraient toujours pas terminées.

Finalement, je souhaite remercier ma famille, sans qui les moments sans espoir auraient eu

raison de moi. Merci à mes frères, Nicolas et Alex, pour tous les bons moments que je passe

avec vous. Merci à Jocelyn et à Susan. J’apprécie toujours votre présence et suis très

reconnaissant de la sagesse que vous me transmettez. Enfin, merci à ma mère France et à

mon père Marc. Être votre fils est une chance que je ne peux quantifier.

1

Introduction

Les applications, comme des systèmes d’aide à la décision (p.ex. Görges et coll., 2013; Shen,

Carswell, Santhanam et Bailey, 2012) ou de système d’automatisation adaptative

(p.ex. Aricò et coll., 2016; Dixon & Wickens, 2006) sont généralement considérés comme

ayant un grand potentiel pour améliorer les conditions de travail humain et même sauver des

vies. La prémices de plusieurs de ces systèmes consiste souvent à adapter la conception ou

le fonctionnement du système en fonction d’une mesure de la charge mentale des individus.

Malgré les bénéfices promis de ces systèmes, certains auteurs suggèrent qu’il est nécessaire

de repenser la manière dont est mesurée la charge mentale (p.ex. Matthew, Reinerman-Jones,

Wohleber et coll., 2015), sans quoi ses applications ne pourront pas fonctionner à leur plein

potentiel. De plus, les applications concrètes tardent encore à être implémentées dans des

milieux de travail humain (Friedman, Brouwer et Nijholt, 2017).

La charge mentale est un concept très utile dans les domaines dont l’objet d’étude et

d’analyse est le travail et la performance humaine – la psychologie, les sciences cognitives,

et l’ergonomie. Depuis plusieurs années, un grand nombre de recherches sont effectuées afin

de quantifier la charge mentale liée au travail humain. La charge mentale peut se mesurer à

partir du comportement et de la performance des opérateurs humains. Toutefois, cette

approche a comme limite de ne pas permettre la mesure de la charge si aucun comportement

observable n’est réalisé. Il est également possible de mesurer la charge de travail à l’aide de

questionnaires. L’utilisation de questionnaires requiert soit des interruptions chaque fois

qu’une mesure est requise, soit une analyse post hoc. Les mesures neurologiques, comme

l’électroencéphalographie, peuvent permettre de contrer ces deux problèmes. Bien que des

progrès soient effectués afin de faciliter l’utilisation des mesures neurologiques, il n’est pas

toujours possible d’envisager leur utilisation dans des contextes de travail réel. Les mesures

physiologiques périphériques présentent un grand potentiel pour quantifier la charge mentale

et elles sont plus faciles à implémenter que les mesures neurologiques. Les mesures

physiologiques périphériques présentent toutefois, elles aussi, un problème : la charge

mentale peut se diviser en plusieurs sous-composantes et très peu de mesures physiologiques

permettent de distinguer avec précision l’influence de chacune de ces sous-composantes. Ces

sous-composantes, comme l’effort mental, le stress ou la fatigue, peuvent avoir des

2

implications différentes. Ainsi, dans un contexte de travail réel, un excès d’effort mental ne

sera pas réglé de manière identique à un excès de fatigue. Le problème de l’identification de

la source de la charge mentale réfère à un problème de diagnosticité. Ce projet de thèse vise

à établir si la physiologie périphérique a le potentiel de donner une mesure diagnostique de

la charge mentale.

Dans la première expérience de cette thèse, des participants ont été invités à accomplir des

tâches expérimentales simples pendant que leurs signaux physiologiques étaient enregistrés.

Dans cette expérience, deux sous-composantes de la charge mentale étaient modulées : le

niveau d’exigence mentale et le niveau de stress. Une approche d’apprentissage automatique

a été menée sur les signaux physiologiques. Cette analyse a permis de montrer qu’il était

possible de prédire l’exigence mentale, l’effort mental, le stress ainsi que la fatigue dans un

contexte de tâche expérimentale simple. Dans la deuxième expérience de thèse, les

participants étaient invités à compléter des scénarios de simulation de gestion de crise, plus

proches de ce qui peut être vécu dans un contexte de travail réel. Encore une fois, l’exigence

mentale et le stress étaient modulés. Le contre-balancement permettait cette fois-ci

d’investiguer l’effet de la fatigue. Le stresseur utilisé a également été modifié. Cette fois-ci,

un stresseur psychosocial a été retenu. Finalement, un plus grand nombre de participants ont

été évalués, et les séances expérimentales étaient plus longues, ce qui a permis une meilleure

taille du jeu de données. Les résultats suggèrent qu’il est possible, en n’utilisant que la

physiologie périphérique, de prédire l’effort mental, le stress ainsi que la fatigue d’un

individu réalisant une tâche de gestion de crise.

3

Chapitre 1 : Le concept et les mesures de la charge mentale

1.1 La charge mentale et ses composantes

La charge mentale est un concept très populaire en psychologie cognitive. La communauté

scientifique a commencé à étudier la charge mentale dans les années 70 (Wierwille, 1979)

mais le concept est devenu plus présent dans la littérature au cours de la décennie suivante

(voir Young, Brookhuis, Wickens et Hancock, 2015, pour une revue des écrits). À l’époque,

le terme charge de travail (anglais : workload) est utilisé pour décrire la quantité objective

de travail à réaliser, sans égards aux capacités et compétences de celui qui réalise le travail.

Le concept de charge mentale est subséquemment introduit afin de considérer les capacités

et compétences de l’humain à effectuer son travail (voir : Rouse, Edwards et Hammer.,

1993). Depuis le début des recherches sur le sujet, des centaines d’études traitant de la charge

mentale ont été publiées (voir Wickens, 2017). Young et coll. (2015) ont recensé une centaine

d’études publiées depuis 1980 et présentent les principaux thèmes à l’étude pour chaque

décennie : la mesure de la charge mentale dans les années 1980, l’amélioration de la

définition du concept dans les années 1990 et l’exploration d’applications concrètes dans les

années 2000. Encore aujourd’hui, des efforts sont investis à développer de nouvelles mesures

de la charge mentale de même qu’à préciser les définitions, qui ne font pas consensus (Young

et coll., 2015).

Dans sa forme la plus simple, la charge mentale peut être définie comme étant le ratio entre

les ressources cognitives utilisées et la capacité cognitive maximale d’un individu.

Lorsqu’une tâche est réalisée, celle-ci consommerait des ressources cognitives. Selon cette

vision, la performance et la quantité de ressources cognitives investie suivent une relation

linéaire. Lorsque la quantité de ressources cognitives consommée atteint la capacité

maximale d’un individu, la performance plafonne (ou même décline; Durantin, Gagnon,

Tremblay & Dehais, 2014; Matthews & Campbell, 2009) et l’individu atteint sa charge

mentale maximale. Malgré que cette conceptualisation unidimensionnelle de la charge

mentale soit attirante en raison de sa simplicité, elle a également fait l’objet de plusieurs

critiques. À titre d’exemple, le paradigme de la tâche secondaire (Wickens, 2008) permet

plutôt de suggérer que la charge mentale soit multidimensionnelle. Les résultats obtenus au

sein de ce paradigme suggèrent que dans certains cas, il est possible d’ajouter une tâche

4

secondaire à une tâche primaire sans pour autant affecter la performance. Ce patron de

résultats est en conflit avec la conceptualisation unidimensionnelle de la charge de travail

puisqu’il suggère qu’un individu peut avoir atteint une charge mentale maximale dans une

tâche tout en étant capable d’investir de nouvelles ressources cognitives dans une nouvelle

tâche. Ce phénomène a donné naissance à la théorie des ressources multiples. Selon cette

théorie, les tâches peuvent être catégorisées selon trois divisions : 1) le niveau de processus

(perception, cognition et réponse), 2) l’encodage (spatial ou verbal) et 3) la modalité (visuelle

ou auditive). Cette catégorisation est présentée visuellement à la Figure 1. Tant que deux

tâches n’utilisent pas les mêmes niveaux de chaque dimension, le déclin de la performance

devrait être faible, ce qui suggère plusieurs dimensions de la charge mentale.

Figure 1 : Représentation schématique du modèle de Wickens (2008).

Bien qu’il s’agisse d’un modèle fréquemment utilisé, la théorie des ressources multiples n’est

pas la seule qui aborde la multidimensionnalité de la charge mentale. Hoedemaeker (2002)

divise la charge mentale en trois composantes : la charge visuelle, la charge motrice et la

charge mentale. Au lieu de diviser la charge mentale en se basant sur son fonctionnement,

Hart et Staveland (1988) suggèrent de diviser la charge mentale selon les différentes manières

dont celle-ci peut être perçue de manière subjective par les individus. Pour certaines

5

personnes, la charge mentale provient de la difficulté de la tâche qu’ils sont en train de

réaliser. D’autres individus vont plutôt considérer le temps qui leur est alloué pour réaliser

cette tâche comme un indice de charge mentale (voir Hollnagel, 2002). Dans le questionnaire

de charge de travail qu’ils ont développé, le NASA-TLX, Hart et Staveland (1988) suggèrent

six dimensions à la charge mentale : l’exigence mentale, l’exigence temporelle, l’exigence

physique, la performance, l’effort et la frustration. Dans un autre questionnaire visant à

mesurer la charge de travail, Reid (1988) propose plutôt 3 dimensions : la charge temporelle,

l’effort mental et le stress psychologique. Contrairement à la théorie des ressources multiples

et à la division de Hoedemaeker (2002), les modèles de Hart et Staveland (1988) et Reid

(1988) incluent tous deux une composante plus affective que cognitive (respectivement : la

frustration et le stress psychologique). En plus des différentes dimensions proposées par ces

auteurs, plusieurs autres dimensions, telles que la fatigue, la motivation ou l’engagement,

peuvent être considérées comme des composantes de la charge mentale. Les sections

suivantes font un survol des différentes composantes de la charge mentale qu’il est possible

de retrouver dans la littérature.

1.1.1 Exigence, effort et motivation

La charge mentale prend sa source d’une exigence de travail à réaliser (anglais : task

demand). Cette exigence de travail occupe une place importante dans la conceptualisation de

la charge mentale puisqu’elle est souvent considérée comme l’un des premiers intrants dans

plusieurs modèles qui visent à expliquer la charge mentale (p. ex. : Moray, 2013,

Parasuraman et Hancock, 2001, Wickens, 2008). Lorsqu’on parle d’exigence mentale, il est

nécessaire de faire la distinction entre l’exigence réelle de la tâche de l’exigence perçue.

L’exigence réelle correspond à la quantité, l’intensité ou encore la difficulté objective d’une

tâche. L’exigence perçue, de son côté, correspond à l’évaluation subjective, que fait un

individu, de l’exigence réelle. L’exigence réelle d’une tâche est généralement facile à

quantifier. À moins que le travail à réaliser soit inconnu, l’exigence réelle correspond

généralement à la définition de la tâche. L’exigence réelle est très souvent manipulée

expérimentalement dans les études se penchant sur la charge mentale en augmentant la

difficulté des tâches ou en augmentant la quantité totale de travail à effectuer (p. ex., Backs

et Seljos, 1994; Bailey et Iqbal 2008; Carroll, Turner et Prasad, 1986; Engström, Markkula,

6

Victor et Merat, 2017; Galy, Cariou et Mélan, 2012). Tout comme l’exigence réelle, il est

possible de mesurer l’exigence subjective. Pour le faire, il est toutefois nécessaire d’utiliser

des outils de mesure, comme des questionnaires (p.ex. Delignières, Famose, & Genty, 1994;

Hart & Staveland, 1988) ou encore par l’observation du comportement et de la performance

des individus (voir Gawron, 2000).

Dans l’ensemble, il est possible d’affirmer que l’augmentation de l’exigence mentale (réelle

ou subjective) entraîne une hausse de la charge mentale (Ayres, 2006). L’exigence à elle

seule ne peut toutefois pas expliquer toutes les variations de la charge mentale. Par exemple,

Thomas et Tsai (2012), suggèrent que l’anxiété ressentie par les individus peut venir biaiser

leur perception de l’exigence. Selon leurs travaux empiriques, les individus anxieux

percevraient une exigence plus élevée. Les auteurs suggèrent également que la distance

psychologique (définie de manière similaire au niveau d’engagement envers la tâche) et

physique (comme la distance entre l’individu et son écran d’ordinateur) permet de mitiger

les effets de l’anxiété sur l’évaluation de l’exigence. De leur côté, Colle et Reid (1998)

démontrent comment l’exigence réelle peut biaiser l’évaluation de la charge mentale. Ils

expliquent que, lorsqu’on demande à un individu d’évaluer l’exigence d’un ensemble de

stimuli quelconques, celui-ci tend à diviser l’étendue de l’exigence en certaines catégories et

à regrouper les stimuli sous chacune de ces catégories. Ainsi, si l’étendue de l’exigence est

petite (c.-à-d. : s’il n’y a pas beaucoup de différence entre les niveaux de difficulté), les

individus vont quand même évaluer un grand contraste entre ces niveaux. Tel qu’expliqué

par les auteurs, ce biais provoque une inflation de la charge mentale perçue lorsque l’étendue

de l’exigence mentale est faible et une diminution de la charge mentale perçue lorsque

l’étendue de l’exigence mentale est grande.

L’exigence mentale peut aussi être modulée par la pression temporelle (c.-à-d., le temps

disponible pour effectuer la tâche). La pression temporelle affecte l’exigence mentale

(Hollnagel, 2002), en dégradant notamment la performance de la mémoire de travail

(Barrouillet, Bernardin et Camos, 2004). Certains auteurs suggèrent toutefois de la

différencier de l’exigence. Sweller, van Merrienboer et Pass (1998), qui s’intéressent au

domaine de l’apprentissage, font notamment la distinction entre charge intrinsèque et charge

7

extrinsèque. Selon cette théorie, la charge intrinsèque réfère aux éléments inhérents de la

tâche (p.ex., la difficulté, la quantité de travail à réaliser) alors que la charge extrinsèque

réfère aux facteurs externes (p.ex. l’environnement, le bruit et le temps accordé pour réaliser

la tâche). Il existe d’ailleurs des appuis empiriques permettant de différencier les effets

provenant de la charge intrinsèque et extrinsèque sur la charge mentale, ce qui suggère que

l’exigence mentale (associée plutôt à l’exigence intrinsèque) doit être différente du stress

associé plutôt à la charge extrinsèque (Galy, Cariou et Mélan, 2012).

Dans la plupart des recherches où l’exigence mentale est modulée, il est assumé que les

individus motivés vont augmenter l’effort investi au fur et à mesure que l’exigence augmente

(Gendolla et Wright, 2005). Certains indices empiriques laissent toutefois croire que

l’exigence et l’effort ne varient pas toujours en même temps. En effet, on peut supposer que

l’augmentation de la difficulté puisse décourager les individus, diminuer leur niveau de

motivation et, par le fait même, empêcher les individus d’investir plus d’effort (Capa,

Audiffren et Ragot, 2008). Il est également possible que les individus n’aient plus de

ressources cognitives disponibles, ce qui signifie qu’il leur est difficile de fournir plus

d’effort. Ces indices suggèrent donc que l’exigence mentale et l’effort mental sont

conceptuellement différents. Le concept d’effort mental a été popularisé par Kahneman

(1973). Sa vision de l’effort mental n’est pas sans rappeler la théorie du contrôle utilisée en

ingénierie (voir Skogestad et Postlehwaite, 2007). Kahneman suggère effectivement que

l’effort mental est le résultat d’une boucle de rétroaction faisant intervenir l’exigence de la

tâche, l’objectif souhaité et les capacités cognitives disponibles. Selon Kanheman (voir aussi

Gaillard, 1993; Hockey, 1997), l’exigence mentale et l’effort mental devraient être

considérés comme des concepts différents. Pourtant, la définition de ces concepts se recoupe

à certains niveaux. Wickens et Hollands (2000) définissent l’exigence mentale comme étant

« […] la quantité de ressources qui doit être allouée afin de maintenir la performance ».

Hockey (1993, 1997) définit quant à lui l’effort mental comme étant la stratégie

compensatoire qui vise à protéger la performance lorsque la demande de la tâche augmente.

Bien que similaires, ces deux définitions font ressortir une différence fondamentale entre

l’exigence mentale et l’effort mental. Alors que l’exigence mentale est associée à la

perception de la tâche imposée (ce que l’individu sent qu’il doit faire), l’effort mental est

8

plutôt vu comme étant la quantité réelle d’investissement cognitif fourni par l’individu (voir

aussi Matthews, Warm et coll., 2010; Paas et Van Merrienboer, 1993).

Gaillard (1993) détaille quelques éléments clés qui caractérisent l’effort mental. Tout

d’abord, l’investissement d’énergie par l’effort mental, perçue par la sensation « d’essayer

plus fort », représenterait la seule manière directe de changer l’état énergétique mental d’un

individu. Selon Gaillard (1993), les autres composantes de l’état énergétique mental, comme

la fatigue et les émotions, ne peuvent pas être directement modulées. L’effort mental se

distingue de l’activation (anglais : arousal). En effet, l’effort mental représente une forme

d’activation dédiée à exécuter un travail cognitif alors que l’activation est plutôt une

excitation générale du corps (provoqué par plusieurs sources comme la joie, la colère ou le

stress). Selon ce même auteur, il est nécessaire d’investir un effort mental lorsque l’activation

est faible (p.ex. par monotonie ou fatigue), mais également lorsque l’activation est élevée

(p.ex. sous l’effet du stress) afin de neutraliser ou ignorer ces distracteurs. Il est également

précisé que l’effort mental se distingue du travail effectué ou de la performance. En effet,

lorsqu’un processus cognitif est automatisé, il est reconnu pour ne requérir aucun ou peu

d’effort pour être réalisé. Contrairement à l’exigence, il peut être difficile d’obtenir une

mesure objective de l’effort mental. En effet, celui-ci est à la fois fonction de l’exigence

perçue et de la performance atteinte.

L’effort mental se rapproche au plan conceptuel de la motivation ou de l’engagement. La

théorie de la motivation de Brehm (Brehm et Self, 1989) est souvent citée en

psychophysiologie et distingue la volonté d’agir d’un individu (la motivation potentielle) de

son effort réel (l’intention de la motivation). Selon Matthews, Warm et coll. (2010),

l’engagement est défini par l’activation d’énergie, la motivation et la concentration. Malgré

l’intérêt qu’apporte l’identification de ces dimensions de la charge mentale, il n’en demeure

pas moins qu’elles sont difficiles à distinguer les unes des autres.

1.1.2 Stress, anxiété et frustration

Tel que relevé plus tôt, certains modèles de la charge mentale intègrent une composante

affective, comme la frustration (Hart et Staveland, 1988) ou encore le stress psychologique

9

(Reid, 1988). Le stress est un concept psychologique très étudié. Une simple recherche

utilisant le mot clé stress sur la plateforme APA PsycNET identifie 10874 articles de revues

scientifiques publiées en 2016. En opposition, les mots clés mental workload ou encore

simplement workload, obtiennent respectivement 102 et 366 résultats pour la même année.

L’intérêt massif porté envers le stress s’explique notamment par l’impact de ce dernier sur la

santé des individus (Jones, Latreille et Sloane, 2016). La plupart des chercheurs étudiant le

stress ne le considèrent pas à priori comme une composante de la charge mentale. Une revue

de l’historique de la recherche dans le domaine du stress permet toutefois de réaliser que les

deux concepts sont liés de près. Les chercheurs ont commencé à s’intéresser au stress date

au début du 20e siècle. Yerkes et Dodson (1908) sont souvent considérés comme ayant été

les premiers à se pencher sur ce phénomène (Staal, 2004). Leurs travaux ont éventuellement

mené à l’élaboration de la loi de Yerkes-Dodson1, qui suggère que l’augmentation de

l’activation augmente la performance de l’individu jusqu’à un certain point à partir duquel

une activation encore plus élevée fait diminuer la performance. À cette époque, il n’était pas

mention d’aucune dimension émotive du stress (on utilisait le terme « activation » plutôt que

« stress » d’ailleurs). Il est toutefois possible de remarquer que, tout comme la charge

mentale, la performance est centrale dans leur définition du stress. Hans Selye (1975) propose

de diviser le stress en deux composantes, soit l’eustress et la détresse. Selon Selye, un stress

qui contribue à la bonne performance se qualifie d’eustress, alors qu’un stress qui n’est pas

résolu est qualifié de détresse. Basé sur des travaux empiriques et des observations (souvent

faites chez des rats) du système endocrinologique, Selye suggère toutefois une réaction

physiologique unique au stress, qu’il s’agisse d’eustress ou de détresse.

Cette séparation dichotomique entre une composante plus cognitive et une composante plus

émotionnelle du stress est reprise par la théorie énergétique de Gaillard et Wientjes (1994),

également reprise par Dyregrov, Solomon, et Basso (2000). Cette théorie est basée sur la

manière dont le corps investit de l’énergie pour réguler ses états en vue d’atteindre une

1 Cette loi, aussi appelée « Loi en U inversée » (anglais : Inverted-U), est soutenue par plusieurs travaux (voir

Anderson, 1976; Andreano & Cahill, 2012; Bierman et coll., 2005; Johnston, Moreno, Regas, Tyler et Foreyt,

2012; Le, Oh et coll., 2011; Zajenkowski, 2013). Elle fait toutefois l’objet de nombreuses critiques (voir

Diamond et coll., 2007; Teigen, 1994; Winton, 1987).

10

performance optimale. Les auteurs proposent de distinguer deux types de demandes : la

charge mentale et le stress; ainsi que deux mobilisations énergétiques associées : l’effort et

la détresse. Selon eux, l’effort mental est défini comme un processus demandant de l’énergie

et de l’efficacité afin de réaliser une tâche. Selon cette définition, l’effort mental devrait

provoquer une émotion positive (comme un sentiment d’accomplissement) à la fin de la

tâche. D’un autre côté, les mêmes auteurs définissent également le stress comme un état où

l’individu se sent menacé et où il a peur de perdre le contrôle de la situation. Toujours selon

eux, la mobilisation d’énergie n’est pas efficace pendant une période de stress et mènerait

plutôt à ressentir en fin de tâche des émotions négatives, telles que l’anxiété. Contrairement

à l’approche de Selye, l’approche énergétique distingue toutefois les mécanismes associés à

l’effort et la détresse (Gaillard, Wientjes, 1994; Frankenhaeuser, 1986). Tel que relevé par

Staal (2004), certains auteurs préfèrent ne pas mentionner le stress et se fient plutôt à la

charge mentale pour expliquer la performance alors que d’autres vont parler de détresse en

référant plutôt à la pression temporelle (p.ex. Hendy, Farrell et East, 2001).

1.1.3 Fatigue, vigilance et ennui

Lorsque les individus passent un temps prolongé à effectuer une tâche, il est possible que ces

derniers subissent une baisse de vigilance ou encore souffrent d’ennui, ce qui peut venir

affecter leur charge mentale. Cette section fait un survol des composantes de la charge

mentale plutôt associées au temps passé sur la tâche, centrées notamment autour du concept

de la fatigue. Au sens large, la fatigue est définie comme une baisse de performance causée

par des contraintes physiologiques ou psychologiques (Kalsbeek, Merrow, Roenneberg et

Foster, 2012). Lorsqu’on parle de la fatigue, il est nécessaire de différencier deux concepts

parfois confondus : celui de la somnolence (ou privation de sommeil) et celui de la fatigue

mentale. La somnolence peut être définie comme un état similaire à la fatigue mentale, mais

provoquée par un manque de sommeil, un sommeil de mauvaise qualité ou un débalancement

des rythmes circadiens (May et Baldwin. 2009). La fatigue mentale, elle-même, peut être

définie de différentes manières. Pour Granjean (1979), la fatigue mentale est définie comme

un état d’épuisement et d’inhibition associé à une moins grande efficacité et à une moins

grande vigilance. Pour Boksem et Tops (2008), la fatigue est aussi un état d’épuisement, mais

elle serait également associée à une aversion à continuer l’activité en cours ainsi qu’une

11

diminution de l’implication dans ladite activité. Dans Shen et coll. (2006), les auteurs

relèvent que la fatigue mentale peut être aiguë (considérée comme normale et momentanée)

ou chronique. Si la fatigue chronique est, par définition, associée à un problème de santé, les

deux types de fatigue peuvent avoir de nombreux effets sur les individus. Suite à un sondage

effectué auprès de travailleurs américains (Ricci et coll. 2007), 38 % des individus ont

rapporté être fatigués. La majorité de ces individus ont rapporté avoir perdu du temps de

productivité en raison de la fatigue. La fatigue mentale serait associée à de nombreux

accidents (Baker, Olson, et Morisseau, 1994, Idogawa, 1991) de même qu’à des problèmes

de santé (Boksem, Meijman et Lorist, 2006; Chaudhuri et Behan, 2000; Lorist, Boksem et

Ridderinkhof, 2005; ten Caat et coll., 2008).

Typiquement, la fatigue mentale est causée par l’effort mental soutenu. Cet effort mental

soutenu n’a pas nécessairement besoin d’être long pour provoquer de la fatigue. Par exemple,

dans Matthews et Desmond (2002), les auteurs utilisent une tâche de conduite automobile

simulée afin d’étudier la fatigue mentale des conducteurs. Ils montrent une difficulté à

détecter la présence de piétons après seulement 24 minutes de simulation. Dans Pattyn et

coll. (2007), les auteurs démontrent, en utilisant une tâche expérimentale simple, que les

effets du temps passé à exécuter la tâche peuvent être visibles dès 30 minutes d’effort mental.

Les auteurs émettent l’hypothèse que la baisse de performance serait provoquée par l’ennui

plutôt que par la fatigue mentale provoquée par un effort soutenu. Toutefois, certains auteurs

suggèrent que les tâches typiques de vigilance sont cognitivement exigeantes, même en

présence d’ennui, ce qui suggère que les effets de la fatigue mentale peuvent être présents

même lorsque les tâches semblent monotones (Warm, Parasuraman et Matthews, 2008). De

plus, les mesures subjectives de la fatigue montrent que les individus ne sont pas toujours en

mesure de bien estimer leur degré de fatigue. Dans Lim et coll. (2010), les auteurs ne trouvent

pas de corrélation significative entre les variations de temps de réaction et les variations de

la fatigue autorapportée, et suggèrent donc que les individus ont du mal à évaluer l’impact

de la fatigue après une période de forte charge cognitive. Lorsqu’on demande aux individus

d’évaluer leur fatigue mentale, ces derniers se basent parfois sur le temps qu’ils ont investi

sur la tâche plutôt que d’estimer leur niveau réel de fatigue (Haga, Shinoda et Kokbun, 2002).

12

Il semble exister une interaction théorique entre l’exigence mentale, l’effort mental et la

fatigue mentale (tous selon les définitions de ce projet). La fatigue mentale provoque

généralement une baisse de l’effort mental (Borghini et coll. 2014, Hockey, 1997). Par

exemple, dans Wright et coll. (2003), les auteurs induisent soit une fatigue faible ou élevée

aux participants à l’aide d’une tâche d’arithmétique et leur demandent par la suite de réaliser

une seconde tâche. Les auteurs indiquent aux participants que si leur performance dépasse

un certain seuil, ils auront une plus grande récompense. Les résultats font ressortir que les

participants non fatigués fournissent un effort plus élevé si la récompense est élevée plutôt

que faible alors que l’inverse est observé pour les participants fatigués. Un résultat similaire

a été trouvé par Nolte et coll. (2008). Compte tenu des interactions précédemment énoncées,

il peut être possible de croire que la fatigue n’est en réalité qu’une absence d’effort. Certains

travaux empiriques laissent pourtant croire qu’il est quand même possible d’être fatigué et

de fournir un effort élevé. Boksem et Tops (2008) montrent que la fatigue est un signal

biologique qui survient lorsque le coût (l’effort) est élevé, mais que la perception de la

récompense est faible. Selon eux, ce mécanisme diminue la motivation qui, par la suite, tend

à faire diminuer l’effort. Ainsi, la fatigue est donc ressentie lorsque l’effort est jugé trop élevé

pour les bénéfices estimés. Dans Hockey (1997), les auteurs rapportent également deux

études (Holdings 1983, Meijman et coll., 1992) dans lesquels les auteurs ont démontré que

lors d’une période de fatigue mentale, les individus avaient tendance à choisir des stratégies

à effort moindre, mais qu’un certain effort pouvait néanmoins être mis en branle pendant de

brèves périodes. Mis à part une difficulté à investir de l’effort, la fatigue mentale peut mener

à une baisse d’attention (Boksem, Lorist et Meijman, 2005), des difficultés au niveau du

choix stratégique (Van der Linden, Frese et Meijman, 2003; Van der Linden, Frese et

Sonnentag, 2003), une diminution de la qualité de l’activité motrice (Duncan et coll., 2015)

ainsi qu’une diminution de la performance à des tâches d’effort physique soutenu.

1.2 Mesures de la charge mentale

Un effort considérable est investi afin d’élaborer des mesures de la charge mentale. Plusieurs

raisons justifient cet intérêt. Les mesures de la charge mentale peuvent guider la conception

d’interfaces ou de systèmes d’aide à la décision (p.ex. Görges et coll., 2013; Shen, Carswell,

Santhanam et Bailey, 2012), aider à comprendre et optimiser l’apprentissage (p.ex. Wiebe,

13

Roberts & Behrend, 2010) ou encore, évaluer l’impact de changements organisationnels

(p.ex. Colligan, Potts, Finn et Sinkin, 2015). Ils peuvent également permettre la conception

de systèmes informatiques intelligents qui adaptent le niveau d’automatisation du travail afin

de garder la charge mentale de l’humain dans sa zone optimale (p.ex. Aricò et coll., 2016;

Dixon & Wickens, 2006). La section suivante vise donc à faire un survol des méthodes de

mesures de la charge mentale. Avant de détailler ces méthodes, une revue des considérations

psychométriques sera effectuée. Ces considérations permettent de qualifier différents aspects

des mesures de la charge mentale et, éventuellement, permettent de les comparer entre elles.

Par la suite, le chapitre couvrira les trois principaux types de mesure de la charge mentale :

1) les mesures comportementales, 2) les mesures subjectives et 3) les mesures

physiologiques.

1.2.1 Considérations psychométriques

Lorsqu’il est question de mesurer un concept psychologique, il est nécessaire de s’assurer de

ses propriétés psychométriques, telles que la validité, la fiabilité, la sensibilité et la

spécificité. La validité réfère au degré auquel un instrument (c.-à-d. un questionnaire, une

mesure physiologique) mesure réellement ce qu’il prétend mesurer2 (Chadha, 2009). La

fiabilité correspond au degré auquel un instrument donne un résultat constant lorsque la

mesure est répétée dans une situation similaire (Chadha, 2009), par exemple, en répétant la

mesure sur une même personne à un moment différent dans le temps. La fiabilité est

également très essentielle comme propriété psychométrique puisqu’elle qualifie l’erreur ou

l’incertitude qui est associée à la mesure. La sensibilité et la spécificité sont deux autres

propriétés psychométriques importantes, mais pourtant parfois négligées. La sensibilité est

la probabilité d’un instrument à retourner une valeur positive lorsque le résultat est positif

(Glaros et Kline, 1988)3. De manière analogue, la spécificité est la probabilité d’un

instrument à retourner une valeur négative lorsque le résultat est négatif (Glaros et Kline,

2 Le concept de la validité comporte plusieurs sous-divisions telles que la validité interne, externe ainsi que la

validité du test, elle-même sous-divisée en 3 (validité de contenu, de construit et de critère). Bien que cette

thèse soit étroitement associée à la validité externe et la validité de construit, d’autres termes plus adaptés au

domaine seront utilisés pour décrire ces caractéristiques (voir Chadha, 2009). 3 Le terme « sensibilité » peut avoir une signification différente en traitement de signal et métrologie

(voir Asch et coll., 2011). Ce document utilise la définition de « sensibilité » telle qu’utilisée en psychométrie.

14

1988). Pour distinguer les deux, on fait souvent appel à l’exemple du dépistage du cancer. Si

un test de dépistage est hautement sensible, il risque de repérer facilement tous les individus

ayant un cancer, mais il risque également de signaler un cancer chez des individus sains (c.-

à-d. générer beaucoup de faux positifs). À l’inverse, un test de dépistage hautement

spécifique a rarement tort lorsqu’il diagnostique un cancer, mais n’arrive parfois pas à repérer

un cancer lorsqu’il est présent. À titre d’exemple physiologique, il est généralement reconnu

que le rythme cardiaque est très sensible à l’activité physique. Lors d’un effort physique, la

probabilité d’observer un rythme cardiaque plus élevé est grande. Les exemples de spécificité

physiologique sont beaucoup plus rares. Au mieux, il est suggéré que certaines combinaisons

de signes physiologiques pourraient être spécifiques à un concept psychologique (Fairlough

et coll., 2009). Des instruments de mesure, qui seraient à la fois hautement sensibles et

hautement spécifiques, sont évidemment désirables puisqu’ils pourraient permettre, avec une

bonne certitude, la détection des composantes de la charge mentale. Cette combinaison

optimale de sensibilité et de spécificité, permettant de discriminer une hypothèse de ses

alternatives, est appelée la diagnosticité (Matthews, Reinerman-Jones, Barber et Abich.,

2015; Trope et Mackie, 1987). Une mesure hautement diagnostique peut permettre de repérer

les comportements, les états mentaux et les manifestations physiologiques de phénomènes

mentaux, c’est-à-dire l’ensemble des manifestations qui sont spécifiques à ces concepts. Par

exemple, si une telle mesure existait, il pourrait être possible de mesurer l’effort mental à

l’aide d’un ensemble de signes physiologiques, tout en garantissant qu’il ne s’agit pas de

stress ou encore de variables confondantes, comme la consommation de café, l’exercice

physique ou encore les particularités individuelles.

Mis à part les propriétés psychométriques classiques présentées jusqu’ici, certaines autres

propriétés métrologiques affectent également la mesure. Ces propriétés regroupent les

considérations temporelles, qui décrivent les temps et les délais requis pour effectuer une

mesure, ainsi que les considérations pratiques, qui décrivent comment l’outil de mesure peut

être efficace dans un contexte appliqué. Parmi les caractéristiques temporelles, trois

paramètres sont particulièrement importants : 1) la durée de prise de mesure, 2) le délai avant

l’obtention de la mesure et 3) la résolution temporelle de mesure. La durée de prise de mesure

correspond au temps requis par l’instrument avant de pouvoir fournir une mesure. Le délai

15

avant l’obtention de la mesure correspond au temps entre la fin de la prise de mesure et le

moment où la mesure est obtenue4. Finalement, la résolution temporelle de mesure

correspond au temps minimum qu’il est nécessaire d’attendre avant d’obtenir une seconde

mesure (Asch et coll., 2011). Il est nécessaire de préciser que les caractéristiques présentées

ici ne font pas nécessairement référence aux propriétés des appareils de mesure eux-mêmes,

mais plutôt aux propriétés des mesures de concepts psychologiques. À titre d’exemple, il est

possible d’utiliser un électrocardiogramme en prenant 1000 mesures par secondes, ce qui

correspond à une résolution temporelle très élevée. Toutefois, cela ne signifie pas que la

mesure de la charge mentale peut être renouvelée 1000 fois par seconde. Selon la méthode

utilisée, il faudra peut-être attendre plusieurs secondes avant d’obtenir une nouvelle mesure

de la charge mentale, ce qui diminue ainsi la résolution temporelle de la mesure

psychologique. Quant aux considérations pratiques, on peut distinguer : 1) la tolérance au

bruit, 2) la portabilité, 3) l’acceptabilité et 4) la facilité d’implémentation. La tolérance au

bruit est définie comme étant la capacité d’un instrument à fournir une mesure résistante aux

paramètres indésirables (le « bruit ») comme l’activité physique, les variations d’éclairage

ou les déplacements de l’appareil de mesure (Johnson, 2006). La portabilité représente la

capacité d’un appareil de mesure à être transporté facilement. L’acceptabilité représente le

degré de volonté d’un utilisateur à porter ou utiliser l’appareil de mesure (Matthews,

Reinerman-Jones, Barber et Abich, 2014). Quant à la facilité d’implémentation, elle regroupe

les considérations comme le coût, l’expertise requise et la complexité de l’implémentation

(Matthews, Reinerman-Jones, Barber et Abich, 2014). Le Tableau 1 synthétise les

informations précédentes.

4 La durée de prise de mesure et le délai ne sont pas des propriétés typiquement définies dans la littérature.

Toutefois, il est jugé nécessaire de les ajouter pour capturer des propriétés temporelles de mesure qui ne

peuvent pas être exprimées par la résolution temporelle.

16

Tableau 1-

Propriétés psychométriques et métrologiques utilisées ce projet

Propriété Description

Validité Degré auquel un instrument mesure réellement ce

qu’il prétend mesurer.

Fiabilité Degré auquel un instrument donne un résultat

constant lorsque la mesure est répétée.

Sensibilité Probabilité d’un instrument à retourner une valeur

positive lorsque le résultat est positif.

Spécificité Probabilité d’un instrument à retourner une valeur

négative lorsque le résultat est négatif

Diagnosticité Propriété d’une mesure à discriminer une hypothèse

de ses alternatives.

Durée de mesure Temps requis par l’instrument avant de pouvoir

fournir une mesure.

Délai d’obtention Temps entre la fin de la prise de mesure et le moment

où la mesure est obtenue.

Résolution temporelle Temps minimum qu’il est nécessaire d’attendre avant

d’obtenir une seconde mesure.

Tolérance au bruit Capacité d’un instrument à fournir une mesure

résistante aux paramètres indésirables.

Portabilité Capacité d’un appareil de mesure à être transporté

facilement.

Acceptabilité Degré de volonté d’un utilisateur à porter ou utiliser

l’appareil de mesure.

Facilité d’implémentation Coût, l’expertise requise et la complexité de

l’implémentation

1.2.2 Mesures comportementales

Les mesures comportementales regroupent toutes les mesures qui peuvent être prises en

observant les actions d’un individu. Il peut s’agir de mouvements physiques, de décisions ou

encore de la performance des individus à une tâche. Les origines des mesures

comportementales remontent aux tout débuts de la psychologie, notamment avec

l’émergence de la psychologie expérimentale et de la psychophysique (voir Wertheimer,

2012). Dans l’interprétation de concepts psychologiques de bas niveau, les mesures

comportementales peuvent être faciles à interpréter. Un des atouts des mesures

comportementales et son bon niveau d’acceptabilité. En effet, il existe plusieurs cas où il est

possible de mesurer le comportement ou la performance de l’individu sans avoir besoin de le

17

déranger, de l’interrompre et même sans affecter sa tâche. À titre d’exemple, il est possible

de mesurer l’interaction avec un ordinateur (c.-à-d. l’utilisation du clavier ou de la souris)

afin de prédire le niveau de fatigue de l’utilisateur (Pimenta, Carneiro, Neves et Novais,

2016) ou encore de mesurer les paramètres de conduite (Horberry et coll., 2006) sans que les

utilisateurs n’aient à faire quoi que ce soit. Ces mesures ont toutefois quelques limitations.

Le problème le plus proéminent des mesures comportementales provient du fait que de

nombreux phénomènes psychologiques n’élicitent pas, à tout coup, un comportement. À titre

d’exemple, un individu peut effectuer un effort mental (p.ex. planifier son travail, prédire

l’issu d’une situation) sans nécessairement que cela ne soit observable. En terme

psychométrique, cela revient à dire que les mesures comportementales ont parfois une faible

sensibilité. Cette limitation affecte également la résolution temporelle des mesures

comportementale puisqu’il est nécessaire d’attendre les actions avant de mettre à jour la

mesure.

Les mesures comportementales de la charge mentale peuvent être divisées en deux catégories

(Cain, 2007; Gawron, 2008). Premièrement, il est possible de se baser sur la performance de

la tâche principale des individus. Selon cette méthode, plus un individu est chargé

mentalement, plus la performance (c.-à-d. son temps de réaction ou encore sa précision)

diminue (Cain, 2007; Gawron, 2008). Tel que noté par Wierwille et Eggemeier (1993), les

mesures de la performance de la tâche principale peuvent avoir une bonne sensibilité sur le

niveau de charge mentale. Toutefois, comme les individus sont capables de s’adapter à leur

charge de travail, notamment à cause de leur entraînement, leurs expériences et leurs

stratégies (O’Donnell et Eggemeier, 1986) il est possible que cette sensibilité soit fortement

réduite et que la performance ne varie que très peu lorsque la charge de travail change.

O’Donnel et Eggemeier (1986) notent également que les mesures de la charge mentale par la

performance à la tâche principale sont biaisées lorsque la charge est très faible ou très élevée

et que ces mesures sont souvent non généralisables à d’autres tâches. Les mesures

comportementales peuvent également se baser sur la méthode de la tâche secondaire. L’idée

derrière cette méthode est d’introduire une tâche secondaire artificielle, plus courte et moins

complexe, à une tâche primaire et prédire la charge mentale à partir de la performance à cette

seconde tâche. Les tâches secondaires sont souvent des tâches expérimentales (tâches de

18

mémoire ou d’arithmétique; voir Cain, 2007). La méthode de la tâche secondaire est très

utilisée dans la recherche sur la charge mentale (Cain, 2007; voir par exemple Lansman et

Hunt, 1982; Merat, Jamson, Lai et Carsten, 2012; Weinger et coll., 1994) et plusieurs travaux

montrent que la performance à la tâche secondaire est parfois sensible aux variations de

charge mentale de la tâche principale (voir Wierwille et Eggemeier, 1993). Bien que cette

méthode convienne à une recherche en laboratoire, elle diminue fortement l’acceptabilité

dans des situations réelles puisqu’elle provoque des interruptions. Dans certains cas, il est

possible d’utiliser une tâche secondaire faisant partie du travail humain afin de mitiger les

effets sur l’acceptabilité. L’introduction d’une tâche secondaire peut également avoir comme

effet de changer les stratégies de la tâche principale (Meshkati et Hancock, 1995), ce qui

affecte également la validité de la mesure.

1.2.3 Mesures subjectives

Les mesures subjectives font référence aux questions qui visent à comprendre l’état

psychologique des individus tel que ressenti par ces derniers. Les mesures subjectives

peuvent être très structurées, comme avec un questionnaire, mais également plus informelles,

comme avec une entrevue. Il serait laborieux de faire une synthèse de toutes les formes de

mesures subjectives utilisées dans l’histoire de la psychologie. On peut toutefois souligner

que ces mesures sont utilisées dans la psychologie de la personnalité (p.ex. Ashton et Lee,

2007; Goldberg, 1992), dans le traitement de troubles psychologiques (p.ex. Duval et coll.,

2018; Lovibond & Lovibond, 1995), ou encore en psychologie cognitive et en facteurs

humains (voir Rubio, Diaz, Martín et Puente, 2004). Il peut être difficile de résumer la

performance en validité et fiabilité des mesures subjectives de manière globale. On peut

toutefois préciser qu’il existe de nombreuses méthodes statistiques permettant d’éprouver ces

questionnaires (voir Chadha, 2009). Une des plus grandes forces des mesures subjectives est

la haute diagnosticité qu’elles peuvent atteindre (Cain, 2007). Ce type de mesure bénéficie

également d’une très grande facilité d’implémentation à faible coût. Contrairement aux

mesures comportementales, les mesures subjectives peuvent être prises même en l’absence

d’actions physiques. De plus, il est possible d’élaborer des questionnaires qui ne sont pas

spécifiques à une tâche en particulier. Cet avantage permet de facilement comparer les tâches

entre elles. Ces mesures ont toutefois quelques désavantages. Étant donné la nature subjective

19

de cette méthode, il est impossible d’atteindre une validité absolue. Les mesures subjectives

sont reconnues pour être affectées par de nombreux biais cognitifs. Ces mesures dépendent

également de la mémoire des personnes interrogées. Plus le délai entre l’événement et la

mesure est long, plus l’individu doit se fier à sa mémoire pour répondre au questionnaire, ce

qui peut mener à des imprécisions. Tout comme l’introduction de tâches secondaires (voir

1.2.2), les mesures subjectives provoquent des interruptions. Les mesures subjectives ont des

caractéristiques temporelles qui peuvent être peu désirables. Des questionnaires trop élaborés

peuvent avoir une durée de mesure très longue. Dans certains cas, il n’est pas non plus

envisageable de répéter ces questionnaires plusieurs fois de suite.

Parmi les questionnaires les plus fréquemment utilisés afin de mesurer la charge mentale, on

retrouve l’échelle de Cooper-Harper (Cooper et Harper, 1969), le Subjective Workload

Assessment Technique (Reid, Eggemeier et Shingledecker, 1982) ou encore le NASA-TLX

(Hart & Staveland, 1988). Certains autres questionnaires peuvent également être utilisés pour

mesurer des sous-dimensions de la charge mentale. C’est le cas du Dundee Stress State

Questionnaire (Helton, Matthews et Warm, 2009), qui vise à distinguer l’engagement, la

détresse et l’inquiétude. Contrairement aux mesures comportementales, les mesures

subjectives de la charge mentale ne sont pas toujours des bons prédicateurs de la performance

(Vidulich, 1988; Yeh et Wickens, 1988). Tel que noté par Cain (2007), cette propriété n’est

toutefois pas vue comme un problème par tous les auteurs (p.ex. Brookhuis et de Waard,

2002). Étant donné la faible résolution temporelle de ces outils, les mesures subjectives sont

parfois jugées inefficaces pour relever des changements abrupts de charge de travail

(Wierwille, 1988).

1.2.4 Mesures physiologiques

Il est difficile de retracer les origines exactes des mesures physiologiques. Tel qu’écrit dans

Stern, Ray et Quigley (2001), la psychophysiologie à « une histoire courte, mais un long

passé », signifiant que malgré le jeune âge du nom psychophysiologie (vers les années 1950),

il est possible de retracer des exemples de mesures physiologiques jusqu’à l’antiquité. On

pourrait suggérer que les mesures physiologiques modernes ont débuté avec l’apparition

d’appareils tels que l’électroencéphalogramme (en 1926, voir Haas, 2003) ou

20

l’électrocardiogramme (en 1982, voir Birse, 2004) avant même l’apparition de la psychologie

expérimentale (Parot et Richelle, 1992). Depuis, un grand nombre de disciplines s’intéressent

aux mesures physiologiques (p.ex. l’endocrinologie, la pharmacologie, les neurosciences

cognitives et même, jusqu’à un certain égard l’intelligence artificielle; Rosenzweig,

Breedlove et Leiman, 2002). Contrairement aux mesures comportementales et subjectives, il

est très difficile de faire une synthèse des propriétés psychométriques des mesures

physiologiques, puisque celles-ci sont fortement dépendantes des différentes techniques

disponibles. Dans l’ensemble, on peut toutefois souligner que les mesures physiologiques ont

souvent le potentiel d’être prises en continu, un avantage qui n’est pas partagé par les mesures

comportementales et subjectives.

Les mesures physiologiques de la charge mentale peuvent se diviser en deux grandes

catégories : les mesures neurologiques et les mesures périphériques. Les mesures

neurologiques regroupent toutes les techniques qui permettent de mesurer directement

l’activité cérébrale, comme l’électroencéphalographie et la spectroscopie proche infrarouge.

L’électroencéphalographie mesure les variations du champ électrique causé par l’activité

neuronale. Pour ce faire, des électrodes sont placées sur la tête des individus. Bien que les

électrodes puissent être placées n’importe où, il existe une cartographie et une nomenclature

qui est souvent recommandée d’utiliser afin d’uniformiser les résultats et la discussion

scientifique (Homan, Herman et Purdy, 1987). Selon le modèle d’électroencéphalogramme,

il peut être nécessaire ou préférable de placer un gel conducteur entre la tête et les électrodes

afin d’améliorer la qualité de la mesure. La spectroscopie proche infrarouge est similaire à

l’électroencéphalographie. Toutefois, contrairement à l’électroencéphalographie, elle ne

mesure pas le champ électrique du cerveau, mais plutôt le niveau de réflexion de lumière

proche infrarouge de la tête. La spectroscopie proche infrarouge se base sur le fait que le

niveau d’oxygénation du cerveau change le degré auquel la lumière proche infrarouge est

reflétée. À l’aide d’une combinaison d’illuminateurs et d’optodes (c.-à-d. de capteurs de

lumière), la concentration d’oxygène des différentes parties du cerveau peut être estimée.

Comme mentionné plus haut, bien que les électrodes puissent être posées n’importe où sur

la tête, les optodes sont typiquement placées au niveau du cortex préfrontal (voir Coyle, Ward

et Markham, 2007; Ferrari, Motola et Quaresima, 2004; Siesler, Ozaki, Kawata et Heise,

21

2008). La Figure 2 montre un exemple d’un électroencéphalogramme et d’un système de

spectroscopie proche infrarouge.

Figure 2 : Exemple d’un électroencéphalogramme et d’un système de spectroscopie proche

infrarouge5.

Les mesures périphériques, quant à elles, sont celles qui ne mesurent pas l’activité cérébrale.

Les mesures périphériques peuvent aussi mesurer l’activité nerveuse, comme l’activité

sympathique et parasympathique (p. ex. Sztajzel, 2004) ou encore, mesurer l’activité

métabolique ou motrice (p. ex. Visser, Looze, De Graaff et Van Dieën, 2004). Parmi celles-

ci, on retrouve l’activité oculaire, la respiration, l’activité cardiaque, l’activité électrodermale

et l’analyse salivaire. L’activité oculaire est typiquement mesurée par des caméras. Ces

caméras peuvent être installées de différentes manières (p.ex. fixées au poste de travail, fixée

à l’écran d’ordinateur, installées sur une lunette) et servent à filmer l’œil. À l’aide d’une

forme de calibration, souvent requise avec ces appareils, il est possible d’estimer la direction

du regard, de mesurer le diamètre de la pupille et de repérer les clignements des yeux. La

respiration peut également être mesurée de plusieurs manières. Une des manières les plus

simples et les plus utilisées consiste à placer une bande autour du thorax de l’individu et de

mesurer l’étirement de cette bande causée par la respiration. L’activité cardiaque peut aussi

être mesurée par différentes techniques, la plus commune étant l’électrocardiographie. Cette

technique consiste à placer des électrodes sur l’individu (souvent au niveau de la poitrine)

5 À gauche; Kallioinen (2012); à droite; Walej (2017).

22

afin de mesurer les variations de champs électriques causées par les battements du cœur. Pour

l’activité électrodermale, des électrodes, qui sont souvent placées sur la main ou les doigts

des individus sont utilisés. Une fois installé, un faible courant électrique circule dans ces

électrodes et permet la mesure de la conductance électrique, laquelle varie avec le niveau de

sudation. Finalement, l’analyse salivaire est typiquement effectuée à l’aide d’une tige

cotonnée que les participants placent dans leur bouche de manière à recueillir un échantillon

de salive. Une fois le prélèvement salivaire terminé, une analyse chimique de l’échantillon

de salive prélevée est effectuée afin de déterminer la concentration des différents marqueurs

d’intérêt (p.ex. le cortisol salivaire).

1.3 Mesures physiologiques périphériques des dimensions de la charge mentale

Tel que noté dans la section précédente (1.2), chaque type de mesure offre des avantages et

des inconvénients différents. Les mesures physiologiques sont toutefois les seules pouvant

fournir une mesure continue, ce qui est très souhaitable dans la conception de système

adaptatif (Mehta et Parasuraman, 2013). De plus, des progrès technologiques récents ravivent

l’intérêt envers les mesures physiologiques en mitigeant les désavantages qui leur étaient

typiquement associés dans le passé. La miniaturisation des appareils (p.ex. comme le EyeX

de Tobii; Tobii, 2017) et la diminution de leur coût augmente de manière significative leur

facilité d’implémentation. La présence de plus en plus commune des téléphones intelligents

offre également la proximité d’une grande puissance de calcul et de stockage de donnée,

souvent requis pour les mesures physiologiques. Finalement, les progrès récents en

apprentissage automatique ouvrent la porte à une interprétation plus profonde et plus précise

des mesures physiologiques.

1.3.1 Le potentiel des mesures physiologiques périphériques

Puisqu’elles mesurent directement le centre de l’activité mentale, les mesures neurologiques

sont généralement considérées meilleures que les mesures périphériques pour prédire la

charge mentale des individus (Chanel, Kronegg, Grandjean et Pun, 2006; Christensen,

Estepp, Wilson et Russell, 2012; Hogervorst, Brouwer et van Erp, 2014). Toutefois, les

caractéristiques temporelles et pratiques (décrite plus haut, voir Tableau 1) des appareils

neurologiques amènent quelques désavantages à ce type de mesure. Certaines techniques,

23

comme l’analyse en composantes indépendantes, pour retirer les clignements du signal

électroencéphalographique (Makeig, Bell, Jung et Seknowski, 1996) et l’application de la loi

de Beer-Lambert (Kocsis, Herman et Eke, 2006) en spectroscopie imposent un délai

supplémentaire avant l’obtention de la mesure. De plus, malgré que les appareils

électroencéphalographiques et de spectroscopie proche infrarouge aient des résolutions

temporelles assez élevées, plusieurs mesures similaires sont parfois requises avant d’avoir

une mesure fiable, ce qui diminue un peu la résolution temporelle réelle de la mesure de la

charge mentale. En revanche, pour la plupart des mesures périphériques, le délai avant

l’obtention de la mesure est souvent faible puisque le traitement des données peut être simple.

Les mesures périphériques nécessitent toutefois des fenêtres d’analyses plus longues que les

mesures neurologiques.

Les mesures neurologiques ont également des désavantages majeurs lorsqu’il est question de

les utiliser en dehors des laboratoires. Notamment, ces mesures sont reconnues pour avoir

une faible résistance au bruit (Coffey, Brouwer et van Erp, 2012). Même de légères

perturbations, comme le clignement des yeux et le serrage des dents, amènent un bruit

considérable dans la mesure. La portabilité des systèmes électroencéphalographiques et

spectroscopiques aussi est variable. Les systèmes axés sur la recherche sont souvent filaires,

ce qui réduit grandement la mobilité. L’acceptabilité de ces systèmes est également faible à

moyenne. Pour la plupart des situations de travail réelles, il est inconcevable d’installer et de

porter un électroencéphalogramme pour une période de travail prolongé. Les systèmes les

plus portables peuvent être acceptables dans des situations particulières, par exemple

l’installation d’électrodes encéphalographiques dans le casque de militaires (von Rosenberg

et coll., 2016). Finalement, le coût élevé et la complexité de ces systèmes les rendent

généralement peu faciles à implémenter dans des contextes de travail humain.

En revanche, la tolérance au bruit des mesures périphériques est généralement meilleure que

pour les mesures neurologiques. En plus de l’activité cardiaque, des appareils de mesure

destinés aux athlètes, tels que le Bioharness de Zephyr (Bioharness, 2017), la veste Hexoskin

(2017) ou le capteur BSXinsight (2017), permettent de mesurer la température corporelle,

l’activité respiratoire ou encore le niveau d’acide lactique sanguin, et ce, malgré la présence

24

d’activité physique. Dans le domaine de la mesure oculaire, le EyeX de Tobii (Tobii, 2017),

qui permet de suivre le regard sur n’importe quel écran d’ordinateur standard, est déjà utilisé

dans le domaine du jeu vidéo afin d’altérer l’expérience de jeu. Il faut toutefois noter que

cette résistance au bruit n’est pas parfaite. Les mesures électrodermales, par exemple, sont

encore peu résistantes aux mouvements du corps et aux impacts, même faibles. Les mesures

pupillaires, quant à elles, sont toujours influencées par la luminosité ambiante et le

mouvement des yeux. La portabilité des systèmes périphériques peut être moyenne à

excellente. Certaines montres intelligentes disposent déjà de capacités de mesures

physiologiques périphériques (Lee, Lee et Chung, 2015; Nathan, Thomas et Jafari, 2017).

Les lunettes Tobii (Tobii, 2017), quant à elles, sont relativement portables. L’analyse

salivaire est maintenant également possible sur des téléphones intelligents (Zangheri et coll.,

2015). Cette portabilité est généralement bénéfique à une bonne acceptabilité en contexte de

travail réel. Finalement, le coût des mesures périphériques est généralement plus faible que

celui des mesures neurologiques. L’utilisation d’appareils périphériques grands publics tels

que le Fitbit (2017) et la présence d’applications mobiles pour interpréter les lectures

montrent que ces systèmes sont plutôt faciles à implanter. En attendant des améliorations

significatives sur les propriétés de mesure des appareils neurologiques, il devient essentiel de

développer des systèmes de mesure de la charge mentale n’utilisant strictement que des

modalités périphériques.

1.3.2 Justification des dimensions de la charge mentale

Tel que montré à la section 1.1, la charge mentale peut être divisée en plusieurs sous-

dimensions comme l’exigence, la pression temporelle ou la motivation. Ces dimensions ont

des définitions et implications différentes les unes des autres. Si ces dimensions sont

ignorées, il devient difficile de décrire précisément les effets physiologiques de la charge

mentale. Il est donc nécessaire de discuter des effets physiologiques des composantes de la

charge mentale plutôt que de la charge mentale elle-même. Cette implication amène toutefois

un autre problème. Les chercheurs n’utilisent ne divisent pas tous la charge mentale de la

même manière, ce qui rends difficile de décrire avec parcimonie les effets physiologiques de

la charge mentale. Il est donc nécessaire de choisir une division adéquate des dimensions de

la charge mentale, de manière à simultanément avoir précision et parcimonie. Dans ce projet,

25

quatre dimensions seront retenues, soit : 1) l’exigence mentale, 2) l’effort mental, 3) le stress

et 4) la fatigue.

L’exigence mentale est retenue comme dimension de la charge mentale. Deux raisons

justifient ce choix. L’exigence mentale est une composante majeure de plusieurs modèles de

charge mentale. Elle est souvent considérée comme le premier intrant de la charge mentale

et elle est un facteur très souvent manipulé dans les études portant sur la charge mentale (voir

section 1.1.1). Deuxièmement, il est nécessaire de conserver l’exigence mentale afin de

mettre à l’épreuve sa pertinence dans les modèles physiologiques. Dans les études

psychophysiologiques où l’exigence est manipulée, il est fréquent que les effets

physiologiques soient justifiés par ces autres composantes (p.ex. : l’effort mental, la

motivation). Toutefois, très peu de preuves empiriques permettent d’assurer que l’exigence

mentale à des effets physiologiques propres à elle. Tel que précisé dans la section 1.1.1,

l’exigence peut être objective ou subjective. Si l’exigence mentale a des effets

physiologiques, ils proviennent nécessairement de l’exigence subjective. Toutefois, il est

possible de se demander si les manifestations physiologiques sont réellement causées par

l’exigence ou s’ils ne sont pas plutôt provoqués par les autres composantes de la charge

mentale. Il est donc essentiel de séparer l’exigence des autres dimensions.

L’effort mental est retenu comme seconde dimension de la charge mentale. Plus précisément,

l’effort mental est défini comme étant la quantité de ressources cognitives réellement fournie

par l’individu pour répondre à l’exigence qui lui est imposée. Cette définition s’approche de

celles relevées dans Matthews et Campbell., 2010, de Pass et Van Merrienboer (1993) et de

Gaillard (1993). Encore une fois, plusieurs raisons motivent ce choix. Tout d’abord, cette

définition est fortement associée à une vision physiologique de la charge mentale. Les

travaux de Gaillard (1993) et Frankenhauser (1986) suggèrent qu’il existe des réactions

physiologiques propres à l’effort mental. Le concept d’effort mental est également

parcimonieux puisqu’il englobe toutes les formes d’effort qu’il est possible de fournir (p.ex.

l’effort mnémonique, la recherche visuelle, la vigilance). Finalement, la séparation entre

l’exigence et l’effort mental à une visée pratique. Dans un système intelligent où la quantité

de travail à effectuer est adaptée automatiquement, il peut être bénéfique d’adapter non

26

seulement selon l’exigence perçue par l’individu, mais également selon son niveau d’effort.

Si l’exigence et l’effort sont élevés, il est probable que l’individu ait simplement atteint sa

charge mentale maximale. Cependant, une situation où l’exigence perçue est élevée, mais

que l’effort est faible peut indiquer que l’utilisateur est peu motivé/engagé dans sa tâche ou

encore qu’il n’est pas capable de la réaliser. Étant donné la proximité conceptuelle (Matthews

et Campbell, 2010; Venables, Fairclough, 2009) entre l’effort et l’engagement (ou la

motivation), les dimensions d’engagement et motivation de seront englobées dans celle de

l’effort mental.

Le stress est également retenu comme dimension dans ce projet. Le stress sera défini de

manière similaire à la définition de Gaillard et Wientjes (1994) et représentera plutôt une

composante affective négative associée à la charge mentale. Ce choix est motivé par le fait

qu’il s’agisse d’une vision bien adaptée pour les mesures physiologiques (Frankenhauser,

1986). Le choix d’inclure le stress comme dimension est d’abord motivé par la place

importante qu’occupe le stress dans la littérature (voir section 1.1.2). Ce choix est également

influencé par la nécessité d’être capable de distinguer une composante affective négative des

composantes plutôt cognitives de la charge mentale (comme l’exigence et l’effort). En effet,

une situation où l’effort mental est élevé sans stress peut indiquer que l’individu est concentré

et qu’il est préférable de ne pas le déranger. À l’inverse, un stress élevé sans effort peut

vouloir suggérer, par exemple, que l’individu n’est pas en mesure de bien travailler et qu’il

a besoin d’assistance. Cette distinction ne serait pas possible si une seule mesure générale de

charge de travail était prise. Étant donné que peu de travaux ont investigué parallèlement les

différences physiologiques des sous-dimensions du stress lui-même, comme la pression

temporelle, l’anxiété, la frustration ou la peur, il est choisi de regrouper toutes ses sous-

dimensions dans un seul axe de stress.

Finalement, la fatigue est retenue pour quatrième et dernière dimension dans ce projet. Tel

que détaillé dans la section 1.1.3, la fatigue peut représenter la fatigue mentale, associée à un

effort mental soutenu, ainsi qu’à la somnolence, plutôt associée à un manque de sommeil.

Bien que la littérature fait ressortir des différences conceptuelles et physiologiques entre les

deux types de fatigue (voir : Borghini et coll., 2014; Shen, Barbera et Shapiro, 2006), ce

27

projet s’intéressera principalement à la fatigue mentale comme dimension de la charge

mentale. Conceptuellement, la fatigue est un peu plus distincte des autres dimensions

utilisées dans ce projet. Elle n’est d’ailleurs pas toujours considérée dans les modèles de la

charge mentale. D’inclusion de cette dimension permettra toutefois de vérifier si la fatigue

se distingue physiologiquement de l’absence d’effort ou si ces deux concepts sont bels et

bien différents.

1.3.3 Effets physiologiques des dimensions de la charge mentale

Il est difficile de décrire avec exactitude les effets physiologiques des composantes de la

charge mentale puisque ceux-ci sont rarement élicités indépendamment des autres. Cette

section fait un survol des effets physiologiques qui sont typiquement associés à ces

composantes. Puisque ce projet se concentre sur les mesures périphériques, les mesures

neurologiques ne seront pas détaillées dans cette section.

1.3.3.1 Exigence mentale

Dans Carroll et coll. (1986), les auteurs mesurent le rythme cardiaque au repos de même qu’à

trois niveaux de difficulté (facile, difficile et impossible) dans le cadre de deux tâches

mentales différentes. Ils montrent que le rythme cardiaque augmente entre le repos et la tâche,

mais qu’il semble également augmenter avec la difficulté. Ces effets sont également observés

dans des travaux plus récents (Fairclough, Venables, Tattersall, 2005). En plus du rythme

cardiaque, certains travaux suggèrent que la variabilité cardiaque est augmentée par

l’exigence mentale (Stuiver et Mulder, 2014), quoique ces variations ne seraient pas toujours

observables (Wilson, 1992), possiblement à cause de différences dans la nature exacte de la

charge mentale qui est imposée aux individus. Quelques recherches montrent que l’exigence

fait augmenter le ratio des basses sur les hautes fréquences de la variabilité cardiaque

augmente (Durantin, Gagnon, Tremblay et Dehais, 2014; Hjortskov et coll., 2004) ainsi que

la pression sanguine (Hjortskov et coll., 2004; Papadelis et coll., 2003). Toutefois, il est

incertain si cette augmentation est causée par l’exigence ou l’effort investi (voir section 1.1.1

pour définitions de ces concepts). Le rythme respiratoire de son côté semble diminuer lors

des périodes d’exigence ou d’effort mental (Bernardi et coll., 2000). Certains résultats

suggèrent que l’exigence mentale entraîne des variations au niveau de la réponse

28

électrodermale, notamment lorsque des métriques classiques liées à l’activité électrodermale

sont utilisées, comme la durée de la réponse et la probabilité d’observation d’une réponse

électrodermale (Collet, Salvia et Petit-Boulanger, 2014; Galy, Cariou et Mélan, 2012). Plus

précisément, ces deux métriques ont tendance à augmenter avec l’exigence de la tâche. Des

variations de la réponse électrodermale sont également observées avec l’utilisation

d’analyses fréquentielles, moins communes pour ce genre de signal (Shimomura et coll.,

2008). L’exigence mentale affecte le diamètre pupillaire (Beatty, 1982), à la fois lorsqu’il est

mesuré pendant la durée d’une activité (Palinko, Kun, Shyrokov et Heeman, 2010) ou associé

à des événements particuliers (Reiner et Gelfeld, 2014). Dans Wilson (2002), il est montré

que l’exigence mentale est associée à une diminution de la fréquence de clignement. Cette

diminution est toutefois typiquement associée à une charge visuelle (Veltman et Gaillard,

1996) et n’est pas généralisée à toutes les augmentations de l’exigence ou du niveau d’effort

(Recarte et coll., 2008).

1.3.3.2 Effort mental

Tout comme pour l’exigence mentale, il est généralement accepté que l’augmentation de

l’effort mental est associée à une augmentation du rythme cardiaque et de la fréquence

respiratoire. Toutefois, certains travaux obtiennent des résultats divergents. Dans Fairclough

et Houston (2004), une augmentation de l’effort mental diminue le niveau de glucose

sanguin, un indice associé à la consommation d’énergie pour fournir un effort, sans pour

autant affecter le rythme cardiaque ou la variabilité cardiaque. En utilisant deux tâches à

niveaux d’effort différents (une tâche de surveillance et un jeu vidéo) Hoover, Singh, Fishel-

Brown et Muth (2012) suggèrent de leur côté que la variabilité cardiaque est affectée par

l’effort. Dans Bernardi et coll. (2000), les auteurs suggèrent que l’effort mental affecte

l’activité respiratoire, mais que cette variation est fortement influencée par la parole. Selon

les auteurs, le simple fait de lire un texte en silence diminue la vitesse de respiration et la

variabilité respiratoire. Lorsque l’activité mentale requiert une vocalisation, la vitesse

respiratoire est encore modifiée, mais les effets sur la variabilité peuvent être plus difficiles

à cerner. Le diamètre pupillaire peut aussi renseigner sur le niveau d’effort mental (Beatty,

1982; Kahneman, 1973; van der Wel & van Steenbergen, 2018). Dans Peysakhovich, Causse,

Scannella et Dehais (2015), il est suggéré que l’amplitude de la variation du diamètre

29

pupillaire est fonction de l’effort mental. Il est également proposé qu’une analyse

fréquentielle permette de renseigner sur le niveau d’effort sans pour autant être affecté par la

luminosité ambiante.

1.3.3.3 Stress

Au niveau cardiaque, le stress est associé à une augmentation du rythme et un changement

(parfois positif, parfois négatif) de variabilité cardiaque (Castaldo et coll., 2015; van Hedger,

Necka, Barakzai, Norman, 2017). Dans Dishman et coll. (2000), il est suggéré que les

individus ayant eu une semaine stressante ont une diminution de la composante des hautes

fréquences (0,15 à 0,50 Hz) et ce, peu importe leur âge, genre, anxiété rapportée et leur forme

physique. Dans leur étude, Dishman et coll. (2000) suggèrent que l’anxiété rapportée

n’affecte aucune métrique de la variabilité cardiaque. Ce résultat n’est pas nécessairement

partagé par tous les auteurs (Watkins, Grossman, Krishnan et Sherwood, 1998). Selon les

auteurs, cette absence d’effet pourrait être causée par le type de stress utilisé dans leur étude.

Cette hypothèse est supportée par les travaux de Schubert et coll. (2009) qui suggèrent qu’un

stress chronique, similaire à celui investigué dans Dishman et coll. (2000), est associé à moins

d’effets sur les métriques de variabilité cardiaque qu’un stresseur à court terme (une tâche

d’exposé oral). Dans Schubert et coll. (2009), il est montré que les stresseurs chroniques sont

aussi négativement corrélés aux hautes fréquences cardiaques (toutefois de manière non

significative). Pour un stresseur court terme, à l’inverse, les hautes fréquences cardiaques

sont augmentées. Dans (Hjortskov et coll., 2004), il est observé que le ratio des basses sur

les hautes fréquences de la variabilité cardiaque augmente lors de la présence d’un stresseur

à court terme, une fois de plus, ce résultat n’est pas partagé par tous les auteurs (Castaldo et

coll., 2015). Le stress est également associé à une augmentation de la pression sanguine

(Räikkönen et coll., 1999; Schnall et coll., 1998). Au niveau respiratoire, le stress (anxiété et

inquiétude) est généralement associé à une augmentation du rythme respiratoire, une

augmentation du volume respiratoire, un rythme respiratoire plus irrégulier ainsi qu’une

respiration plus thoracique qu’abdominale (Boiten, Frijda et Wientjes, 1994; Grossman,

1983). Les émotions comme la tristesse et la peur sont également associées à une respiration

rapide et de faible amplitude (Bloch, Lemeignan et Aguilera, 1991). Le stress est lié à

l’activité électrodermale. Selon Ax (1953), la colère fait augmenter la fréquence des réponses

30

électrodermales alors que la peur fait augmenter le niveau de sudation général. Ces résultats

sont répliqués dans des études plus récentes (Carrillo et coll., 2001; Reinhardt, Schmahl,

Wüst et Bohus, 2012; Silvestrini et Gendolla, 2007). Ces résultats ne sont toutefois pas

toujours observables avec constance (Boucsein, 1992). Le lien entre l’activité pupillaire et le

stress est également investigué dans certains travaux de recherche et démontre notamment

que stress augmente le diamètre pupillaire (p.ex. Pedrotti et coll., 2014). Les métriques de

l’activité pupillaire sont sensibles à la valence (plaisante ou déplaisante) de capsules vidéo

(Soleymani, Pantic et Pun, 2012) ou de sons plaisants/aversifs (Partala et Surakka, 2003).

Suite à l’immersion de leur main dans l’eau glacée (le stresseur « cold-pressor-test »), il a

été montré que le diamètre pupillaire suivait une augmentation dans les 30 premières

secondes suivies d’une diminution dans les minutes suivantes (Tassorelli et coll., 1995).

1.3.3.4 Fatigue

La signature physiologique de la fatigue mentale, quant à elle, est plutôt différente des trois

précédentes. Lagory et coll. (2011) ont recruté des participants et ont d’abord fait passer un

questionnaire de fatigue (Krupp et coll., 1989) pour déterminer les individus fatigués et non

fatigués. Ils ont ensuite demandé aux participants de réaliser une tâche d’arithmétique

échelonnée sur quatre niveaux de difficulté. Ils rapportent que les individus peu fatigués ont

un rythme cardiaque plus faible au repos. Lors de la tâche, le rythme cardiaque des

participants non fatigués augmente avec la difficulté, plafonne à la condition difficile et est

à son plus faible à la condition impossible. Pour les participants fatigués, le patron est

similaire, mais plafonne plutôt à la condition moyenne. La pression sanguine, aussi mesurée

dans leur expérience, présente généralement une augmentation plus faible entre le repos et la

tâche pour les participants fatigués. Ces résultats peuvent suggérer que les individus fatigués

ont une activité cardiovasculaire plus prononcée pour compenser les effets de la fatigue, mais

que ces derniers rencontrent une limitation à investir de l’effort lorsque la difficulté

augmente. En plus du rythme cardiaque, il est suggéré que la variabilité cardiaque soit aussi

affectée par la fatigue mentale. Selon Patel et coll. (2011), le ratio des basses fréquences sur

les hautes fréquences cardiaques est plus faible après une fatigue générée par une tâche de

conduite simulée (d’une durée non précisée; Patel, Lal, Kavanagh et Rossiter, 2011). Ces

résultats ne sont toutefois pas corroborés par Tran et coll. (2009). Dans cette étude, les auteurs

31

invitent les participants à réaliser une autre tâche de conduite simulée et enregistrent les

métriques de la variabilité cardiaque au début et à la fin de la tâche. La tâche est arrêtée

lorsqu’un évaluateur externe juge que le participant présente des signes de fatigue (la durée

moyenne n’est pas précisée). Ils suggèrent que le ratio des basses fréquences sur les hautes

fréquences cardiaques augmente avec la fatigue. Si la durée de la tâche et leur niveau de

monotonie peuvent être retenus comme facteurs explicatifs, cette contradiction montre

principalement que la signature cardiovasculaire de la fatigue mentale n’est pas triviale. Dans

Pattyn et coll. (2008), une tendance semble suggérer que la respiration augmente avec le

temps passé sur la tâche, mais les auteurs indiquent que l’analyse statistique réfute cette

augmentation. Wu, Wanyan et Zhuang (2015) montrent plutôt que la respiration ralentie avec

le temps passé sur la tâche. Cette hypothèse est également supportée par Tran et coll. (2009).

Dans un contexte de tâches expérimentales, Mizuno et coll. (2011) suggèrent que la puissance

des hautes fréquences cardiaques diminue et le ratio des basses fréquences sur les hautes

fréquences cardiaques augmente après huit heures de tâches mentales. Le lien entre la fatigue

et l’activité électrodermale est largement investigué au niveau de la fatigue chronique, mais

semble peu investigué avec la fatigue mentale. Dureman et Bodén (1972) ont utilisé une tâche

de conduite simulée et enregistré le niveau et la fréquence de réponses électrodermales lors

de 12 périodes de 10 minutes de tâches. Les résultats suggèrent une diminution du niveau

électrodermal au travers le temps. Dans Wu, Wanyan et Zhuang (2015), il est rapporté que

le niveau électrodermal de participants effectuant une tâche de pilotage simulée découpée en

10 phases de 10 minutes. Contrairement à Dureman et Bodén (1972), les auteurs rapportent

qu’aucun effet n’est décelé entre le temps et l’activité électrodermale. Un grand nombre de

recherches montre également des liens entre la fatigue et l’activité oculaire. La fatigue est

associée à un diamètre pupillaire plus faible (Morad, Lemberg, Yofe et Dagan, 2000), une

augmentation de la durée du clignement des yeux, du temps de fermeture et d’ouverture lors

des clignements (Caffier, Erdmann et Ullsperger, 2003) ainsi qu’une diminution de la

fréquence de clignements (Borghini et coll., 2014). Ces travaux portent toutefois sur la

somnolence plutôt que la fatigue. La littérature suggère finalement que le taux de clignement

des yeux est associé à la fatigue (Fukuda, Stern, Brown et Russo, 2005).

32

1.3.4 Synthèse

Le Tableau 2 fait une synthèse des effets physiologiques périphériques des composantes de

la charge mentale selon les travaux cités précédemment. Cette revue ne se veut pas

nécessairement une preuve définitive des effets physiologiques de chaque dimension, mais

plutôt un rassemblement d’observations qui sont typiquement observées. En observant le

Tableau 2, il est possible de remarquer que de nombreuses combinaisons de manifestation

physiologiques et de dimensions de charge mentale sont encore peu étudiées. On peut

également constater que même avec plusieurs marqueurs physiologiques différents, il peut

être très difficile de cerner avec précision les dimensions de la charge mentale qui sont en

cause.

Tableau 2 -

Synthèse des effets physiologiques des composantes de la charge mentale

Marqueur physiologique Exigence Effort Stress Fatigue

Cardiaque

Rythme ↑ ● ↑ ↓

Variabilité ↑ ● ●

Ratio LF/HF ↑ ↑ ● ●

Électrodermal

Niveau ↑ ●

Durée de réponse ↑

Probabilité de réponse ↑ ↑

Fréquentiel ↑

Respiratoire

Fréquence ↑ ↑ ↑ ●

Amplitude ↓

Volume ↑

Variabilité ↑ ↑

Oculaire

Diamètre pupillaire ↑ ↑ ● ↓

Amplitude de variation ↑ ●

Basses fréquences ↑ ↑

Hautes fréquences ↓

Fréquence clignements ● ● ● ↑

Durée de clignements ↑

Note. ↑ : Augmentation, ↓ : Diminution, ● : Effets contradictoires ou complexes,

(case vide) : non étudié ou non relevé dans cette synthèse. Pour les références, consulter les

quatre sections précédentes (1.3.3.1 à 1.3.3.4).

33

1.4 Problématique

Les mesures physiologiques périphériques ont un potentiel très intéressant pour mesurer la

charge mentale. Deux problématiques majeures limitent toutefois leur utilisation. Cette

section détaillera ces limitations.

1.4.1 Manque de diagnosticité

Tel qu’il est possible d’observer à la lumière de la section précédente, les mesures

physiologiques souffrent d’un problème de diagnosticité. En effet, il est rapidement possible

de remarquer que plusieurs sous-dimensions de la charge mentale (telles que définies dans

ce projet) élicitent les mêmes effets physiologiques et que certains devis expérimentaux ne

permettent pas d’affirmer s’il s’agit d’une dimension ou d’une autre. Cette vision est

également partagée par certains auteurs (Matthews, Reinerman-Jones, Barber et Abich,

2015). Rappelons que la diagnosticité est définie par la qualité d’une mesure à discriminer

une hypothèse et ses alternatives. Dans le cas spécifique de la charge mentale, ce problème

signifie que les mesures physiologiques périphériques ne sont pas en mesure de distinguer

quelle sous-composante de la charge mentale est à l’origine de cette dernière. La diagnosticité

est pourtant primordiale afin de raffiner la manière dont les individus ou les systèmes

intelligents répondent aux variations de la charge mentale. Un effort mental moyen sans

stress peut indiquer que l’utilisateur est en période bénéfique de flow (Csikszentmihalyi,

1991; Shernoff et coll., 2003). À l’inverse, un stress intense sans effort peut indiquer un

besoin d’assistance pour réaliser une tâche. Il peut également être bénéfique de distinguer

l’exigence mentale de la fatigue mentale afin d’identifier les périodes où des pauses sont

nécessaires sans pour autant en suggérer lorsque l’individu est prêt à faire un travail exigeant.

Une partie du problème de diagnosticité provient de la confusion qu’il existe entre les termes

définissant les composantes de la charge mentale. Dans plusieurs études, la difficulté

(l’exigence mentale) est manipulée et il est assumé que cette manipulation augmente l’effort

mental (Gaillard, 1993). Même en supposant que les participants augmentent leur effort avec

l’exigence, il est impossible de le garantir seulement par leur participation à une condition

plus difficile. Une autre confusion peut être remarquée dans certains articles qui utilisent le

terme mental stress (p.ex. Boonnithi et Phongsuphap, 2011; Castaldo et coll., 2015;

34

Shimomura et coll., 2008; Vuksanović, 2007), confondant ainsi l’exigence mentale et le

stress.

Mis à part la question des termes, une autre composante critique du problème de la

diagnosticité provient de la signature physiologique des sous-composantes (exigence, effort,

stress et fatigue) de la charge mentale. Plusieurs exemples peuvent être rapportés pour

illustrer ce problème. Tel que noté dans la section 1.3, le rythme cardiaque et respiratoire

augmente pour l’exigence mentale, l’effort ainsi que pour le stress. Dans l’exemple de Carroll

et coll. (1986), où les participants doivent réaliser la tâche à trois niveaux de difficulté (facile,

difficile et impossible), les manifestations physiologiques sont rapportées comme ayant été

causées par l’exigence mentale. Toutefois, l’effort et le stress peuvent aussi avoir contribué.

Il est d’ailleurs possible de spéculer que la condition impossible provoque une baisse d’effort

(si les participants réalisent que la tâche est impossible) ainsi qu’une augmentation du stress

(si les participants ne réalisent pas que la tâche est impossible). Le ratio des basses fréquences

sur les hautes fréquences cardiaques est souvent associé à l’effort mental. Plus précisément,

une augmentation du ratio est associée à une hausse de l’effort mental (Bernadi et coll., 2000;

Durantin, Gagnon, Tremblay et Dehais; 2015). Toutefois, l’augmentation du ratio peut être

produite par des stresseurs à court terme, comme le Trier Social Stress Task ainsi que des

stresseurs chroniques (Lucini, Fede, Parati et Pagani, 2005). Matthews, Reinerman-Jones,

Barber et Abich, (2015) suggèrent aussi que certaines manipulations de l’effort mental et du

stress provoquent les mêmes réactions physiologiques (voir aussi Castaldo et coll., 2015).

Certaines dimensions de la charge mentale sont un peu plus faciles à distinguer les unes des

autres. Plusieurs études ont démontré que l’effort mental augmentait le rythme cardiaque, le

ratio des basses et des hautes fréquences cardiaques et la pression sanguine (Durantin et coll.,

2014; LaGory, Dearen, Tebo et Wright, 2011; Mehler, Reimer et Coughlin, 2012). À

l’inverse, la fatigue mentale est généralement reconnue pour diminuer ces mêmes métriques

(Patel, Lal, Kavanagh et Rossiter, 2011). Toutefois, ces études montrent également que plus

la fatigue mentale augmente, plus il est difficile de mesurer l’effort mental. Un système

diagnostique de la charge mentale pourrait déterminer si la fatigue n’est en réalité qu’une

35

absence d’effort mental combiné avec du temps passé sur la tâche ou si ces deux concepts

coexistent de manière indépendante.

Il est pratiquement impossible d’associer une seule métrique (p.ex. rythme cardiaque, niveau

électrodermal, diamètre pupillaire) physiologique avec une seule dimension de la charge

mentale. L’article de Fairclough et Houston (2004), mentionné précédemment, est un

exemple de mise en garde contre les indicateurs physiologiques uniques. De tels articles

montrent que pour atteindre une bonne diagnosticité de la charge mentale, il est nécessaire

d’utiliser plusieurs métriques provenant de plusieurs modalités physiologiques. En plus

d’utiliser plusieurs modalités, il peut également être bénéfique de reconsidérer l’approche

statistique traditionnelle. Malgré la problématique de diagnosticité, les articles détaillés dans

la section 1.3 sont essentiels puisqu’ils renseignent sur la manière dont le corps réagit aux

différentes dimensions et permettent d’enrichir notre compréhension des mécanismes

psychophysiologiques. Cette approche traditionnelle limite toutefois notre capacité à établir

des modèles robustes pouvant prédire la charge mentale.

En réponse à cette limitation, certains auteurs utilisent plutôt une approche par apprentissage

automatique. Plusieurs exemples illustrant cette approche peuvent être retrouvés dans la

littérature. Dans Casson (2014), la charge mentale d’individus effectuant une tâche de vol

simulé est classifiée à l’aide d’un réseau de neurones artificiel entraîné sur des données

électroencéphalographiques. Malgré la précision satisfaisante du classificateur à différencier

une charge mentale facile et difficile (86 %), le classificateur ne renseigne pas sur la

diagnosticité de la charge mentale. Dans Soleymani, Pantic et Pun (2012), les auteurs

entraînent un classificateur sur des données oculométriques et électroencéphalographiques

pour prédire le niveau émotionnel de participants regardant des vidéos. Contrairement à

l’article précédent, la classification se fait cette fois sur deux axes différents, celui de

l’excitation (anglais : arousal) et de la valence. Dans Mühl, Jeunet et Lotte (2014),

l’apprentissage automatique est utilisé pour classifier deux dimensions, cette fois associées à

la charge mentale : l’exigence et le stress. Leurs résultats suggèrent que la classification des

deux dimensions reste possible. Toutefois, comme pour l’expérience de Casson (2014),

seulement l’électroencéphalographie est utilisée, ce qui peut limiter l’applicabilité en

36

contexte de travail réel. Sano et Picard (2013) montrent qu’il est possible de prédire le stress

à l’aide de senseurs intégrés à un téléphone mobile. Dans Arnrich et coll. (2010), des senseurs

portables et peu intrusifs sont utilisés, cette fois pour classifier le stress de l’exigence mentale.

Leurs résultats montrent qu’il est possible de distinguer les deux dimensions en utilisant

seulement des capteurs de pression intégrés dans une chaise. Toutefois, leur classificateur

distingue entre stress et exigence, et non pas les différents niveaux de stress et d’exigence

simultanément. Cette conceptualisation limite le caractère diagnostique du classificateur et

rend impossible, par exemple, la détection de situations où l’individu est à la fois stressé et

soumis à une haute exigence mentale. La classification des composantes de la charge mentale

ne se limite pas à l’exigence et au stress. Si l’électroencéphalographie est souvent utilisée

pour classifier la fatigue (Borghini et coll., 2014), certains auteurs suggèrent d’utiliser

uniquement des mesures périphériques. Patel et coll. (2011), par exemple, utilisent la

variabilité cardiaque pour classifier la fatigue de conducteurs. Dans Pedrotti et coll. (2014),

les auteurs entraînent des réseaux de neurones n’utilisant que le diamètre pupillaire afin de

déterminer, de manière diagnostique, la source du stress. Malgré un bon succès en

classification, les auteurs indiquent eux-mêmes que leur système ne serait pas aussi robuste

s’il était mis à l’essai dans des contextes de travail réels. À la lumière de la revue de littérature

effectuée, aucune étude n’a préalablement tenté de classifier simultanément quatre

dimensions de la charge mentale (exigence, effort, stress et fatigue) simultanément en

utilisant uniquement des modalités physiologiques périphériques.

1.4.2 Difficulté à intégrer dans des milieux de travail humain

Les situations de travail humain font généralement intervenir une multitude de processus

cognitifs différents (p.ex. l’attention, la mémoire à court terme). Les recherches visant à

décrire ces processus sont souvent menées dans des environnements contrôlés (c.-à-d. des

laboratoires) et utilisent des tâches expérimentales simples (p.ex. : tâche de Stroop, de

rotation mentale, n-back ou encore recherche visuelle). Par exemple, afin d’étudier le lien

entre la consommation de café et la vigilance, les expérimentateurs peuvent demander aux

participants d’éviter la consommation de café une journée avant l’expérience et fournir eux-

mêmes une tasse de café aux participants le jour de l’expérience. De plus, afin de s’assurer

que le processus investigué est bel et bien la vigilance, les chercheurs peuvent décider

37

d’utiliser une tâche très simple (p.ex. : repérer des lettres dans une plus longue chaîne de

lettres; Frewer et Lader, 1991) au lieu d’une simulation de conduite de voiture, qui fait

intervenir d’autres facteurs confondants comme l’expertise ou la dextérité manuelle. L’étude

isolée des composantes de la cognition humaine est parfois appelée microcognition (Hoffman

& McNesse, 2009). Cette approche a l’avantage de permettre un grand contrôle des variables

d’intérêt et des variables confondantes à l’étude (Brewer, 2000). Elle a toutefois une limite,

celle de risquer de manquer de validité écologique. En d’autres mots, il est possible que les

résultats obtenus lors de ces expériences se transposent mal aux situations de travail réelles.

En réponse à ces limitations, certains chercheurs ont commencé à s’intéresser à la cognition

humaine dans des environnements de travail réels. Cette approche est plutôt dite macro-

cognitive. À l’inverse de la microcognition, la macro-cognition s’intéresse à l’étude de la

cognition humaine lorsque celle-ci requiert simultanément plusieurs processus différents. En

plus du réalisme et des facteurs confondants, l’approche macro-cognitive s’intéresse

également à la complexité du travail humain. Une tâche complexe peut, par exemple, contenir

plusieurs sources d’information (Zhang, Li, Wu et Wu, 2009), plusieurs solutions possibles

(Lazzara, Pavlas, Fiore et Salas, 2010), des conflits entre les tâches à réaliser (Braarud et

Kirwan, 2010) ainsi que de l’ambiguïté (Braarud et Kirwan, 2011; Lazzara et coll., 2010).

L’intégration de la macro-cognition est un enjeu essentiel à considérer pour les mesures

physiologiques de la charge mentale. Cependant, un grand nombre de recherches dans ce

domaine utilisent une approche microcognitive (Brindle et coll., 2017; Caywood et coll.,

2017; Dierolf et coll., 2017, Durkee et coll., 2013, Jansen et coll., 2016; Mühl, Jeunet et

Lotte, 2014; Reiner et Gelfeld, 2014; Scanlon, Sieben, Holyk et Mathewson, 2017). Tel que

précisé plus haut, ces recherches ne sont pas non-pertinentes puisqu’elles permettent de

mieux contrôler les facteurs confondants. Elles laissent toutefois beaucoup de doutes sur leur

transférabilité aux contextes réels et complexes. Les recherches en contexte appliqué ne sont

pas non plus inexistantes, mais présentent parfois quelques problèmes. Par exemple, une

grande proportion de la recherche sur la charge mentale en contexte appliqué est dédiée aux

domaines du transport (Young et coll., 2015) tel que le pilotage d’avions (Gateau et coll.,

2015, Wu, Wanyan et Zhuang, 2015) ou encore la conduite automobile (Brookhuis et de

38

Waard, 2010; Brookhuis et coll., 2009; Lansdown, Brook-Carter et Kersloot, 2004) alors que

d’autres domaines sont relativement peu explorés.

Malgré le nombre élevé d’études menées sur les mesures physiologiques de la charge

mentale, certains chercheurs croient que trop peu d’entre elles s’intéressent aux contextes de

travail réels. C’est le cas de Friedman, Brouwer et Nijholt (2017) qui suggèrent que les

interfaces cerveau-humains ou corps-humain ne sont encore que très peu répandues dans les

domaines non médicaux. Ils suggèrent aussi que l’émergence d’interfaces grand public à

faible validité scientifique risque d’induire le public en erreur quant aux portées réelles de

tels systèmes. En bref, aucune étude ne semble avoir présentement exploré les limites de la

diagnosticité physiologique de la charge mentale avec une approche macro-cognitive. Il est

donc incertain d’à quel point la variabilité de l’expérience subjective des individus influence

les mesures physiologiques de la charge mentale et s’il en reste possible d’en distinguer ses

composantes.

1.5 Objectif de la thèse

Les mesures physiologiques périphériques représentent l’une des meilleures avenues pour

prédire la charge mentale de manière non intrusive et continue. Toutefois, tel que présenté

précédemment, plusieurs problèmes limitent sévèrement l’utilisation de ces mesures. Cette

thèse a comme objectif d’investiguer un système physiologique prédictif de la charge mentale

abordant simultanément les deux limitations majeures de ce genre de système. Tout d’abord,

et principalement, cette thèse vise à déterminer s’il est possible d’atteindre une diagnosticité

de la charge mentale à l’aide de capteurs physiologiques périphériques. Le groupement de

différents construits psychologiques différents, tel que l’exigence, l’effort mental, le stress

ou encore la fatigue, sous un seul concept générique (la charge mentale) est inadéquat. Les

définitions, implications et conséquences de ces différents construits ne sont pas les mêmes.

Une vision unidimensionnelle de la charge mentale contredit un ensemble de nouvelles

preuves empiriques et rappelle l’ère de l’activation (Yerkes et Dodson, 1908) de laquelle la

psychologie s’est distancée depuis quelques années. Puisque l’utilisation de marqueurs

physiologique unique, comme le ratio des basses et hautes fréquences de la variabilité

cardiaque, ne permet pas d’atteindre une bonne diagnosticité, cette thèse s’inscrit dans une

39

approche d’apprentissage automatique qui peut mieux gérer la complexité de la signature

physiologique des sous-dimensions de la charge mentale. Pour déterminer à quel point les

mesures physiologiques de la charge mentale sont diagnostiques, deux expériences, dans

lesquelles chaque dimension est manipulée, sont effectuées. Subséquemment, diverses

analyses sont utilisées afin d’identifier les dimensions de la charge mentale qui peuvent être

significativement prédites par l’apprentissage automatique.

Deuxièmement, ce projet de thèse vise à vérifier si la diagnosticité des mesures

physiologiques périphériques est encore atteignable dans un contexte similaire à celui du

travail humain. Pour vérifier cette hypothèse, deux expériences sont menées. La première

s’inscrit dans une approche microcognitive afin d’atteindre une diagnosticité physiologique

optimale. En complément, la seconde expérience s’inscrit plutôt dans une approche macro-

cognitive réaliste dans laquelle l’intégration du système prédictif est évaluée dans un contexte

pouvant être affecté par des variables externes confondantes.

Mis à part ces deux objectifs, ce projet de thèse tente de répondre à diverses sous-questions

de recherche. L’exploration de ces sous-questions permettra d’enrichir la connaissance sur

les mesures physiologiques périphériques de la charge mentale. Le projet vise notamment à

vérifier la contribution des différentes modalités physiologiques sur la diagnosticité de la

charge mentale. Ultimement, l’exploration de cette sous-question de recherche pourrait

permettre de diminuer la complexité et les coûts d’un système de prédiction de la charge

mentale en suggérant, par exemple, un ensemble de métriques issues d’une seule modalité

physiologique ayant le potentiel d’être diagnostique par elle seule. Le projet de thèse vise

également à explorer l’effet de certains choix techniques sur la performance en diagnosticité.

Ces choix techniques, comme la durée des signaux utilisés ou l’algorithme d’apprentissage

automatique, sont parfois choisis de manière arbitraire par les chercheurs. L’exploration des

effets de ces choix peut permettre de guider les recherches futures sur le sujet.

40

Chapitre 2 : Stratégie méthodologique

Tel que montré précédemment, d’un faible nombre de métriques physiologiques peut rendre

difficile la diagnosticité de la charge mentale. Les études suggèrent plutôt qu’il faut tenir

compte de plusieurs indices physiologiques de différentes modalités dans le but d’atteindre

cette diagnosticité. Afin de tirer profit de la contribution de chaque type de modalité

physiologique et d’utiliser simultanément plusieurs métriques physiologiques, cette thèse

utilisera une approche par apprentissage automatique. La méthodologie générale de ce cette

thèse se résume à :

1) Mesurer l’activité physiologique sous plusieurs combinaisons différentes de

composantes de la charge mentale.

2) Calculer un grand nombre de métriques physiologiques.

3) Fournir ces métriques à un système d’apprentissage automatique afin de vérifier s’il

peut apprendre à prédire correctement les diverses combinaisons de charge mentale.

La Figure 3 synthétise l’approche méthodologique utilisée dans cette thèse. Les sections

subséquentes décriront ces étapes plus en détail.

41

Figure 3 : Synthèse méthodologique

Expériences

• Une expérience utilisant des tâches simples

• Une expérience utilisant une simulation fonctionnelle

Mesures

• 5 modalités physiologiques (cardiaques, respiratoires, électrodermales, pupillaires et oculaires)

• Mesures subjectives, de performance et d'effort

Découpage et prétraitement

• Époques à durée fixe (120 ou 300 secondes)

• Prétraitement simple de l’activité physiologique

Calcul de métriques

• Total de 180 métriques physiologiques

• 4 sous-ensembles de métriques

Organisation en schèmes

• Test des données en validation croisée : prédiction d’un participant à la fois à partir des données des autres participants

Imputation des données

• Imputation des données manquantes par une analyse des composantes principales itérative

Rééquilibrage des classes

• Utilisation d’une implémentation ADASYN de MATLAB

Entraînement des modèles

• Machine à vecteur de support

• Modèle linéaire

Calcul de la performance

• Calcul de la précision

• Calcul du Kappa de Cohen

42

2.1 Expériences

Tel que décrit précédemment, peu d’études investiguent les mesures physiologiques de la

charge mentale avec une approche macro-cognitive, ce qui retarde l’implémentation

d’interfaces corps-ordinateur en dehors des laboratoires. Il est donc primordial d’élaborer un

devis expérimental focalisant sur le réalisme et la complexité d’une tâche réelle de travail

humain. L’applicabilité hors laboratoire n’est toutefois pas le seul objectif de cette thèse.

Celle-ci vise également à examiner la diagnosticité de mesures physiologiques en utilisant

strictement des mesures physiologiques périphériques. Afin d’explorer à quel point ces

objectifs sont atteignables, une première expérience est menée par une approche

microcognitive. Cette première expérience utilise une combinaison de tâches expérimentales

classiques, qui se comparent facilement aux résultats d’autres travaux de recherche dans ce

domaine. Il existe différentes tâches expérimentales utilisées en psychologie comme la tâche

de Stroop (MacLeod, 1991; Mattia, Heimberg et Hope, 1993), la rotation mentale (Peters et

coll., 1995; Vandenberg et Kuse, 1978), la tâche de n-back (Brouwer et coll., 2012; Herff et

coll., 2014; Jansma, Ramsey, Coppola et Khan, 2000) ou encore la recherche visuelle

(Recarte, Pérez, Conchillo & Nunes, 2008). Bien que souvent utilisée, la tâche de Stroop

requiert que les participants vocalisent leur réponse, ce qui peut influencer la réponse

physiologique (Bernardi et coll., 2000). Quant à la tâche de rotation mentale, il est suggéré

qu’il existe des différences importantes sur la performance entre les hommes et les femmes

(Jordan et coll., 2002; Moè, 2009). Cette tâche n’est donc pas retenue. Dans ce projet, on

utilisera plutôt les tâches de n-back et de recherche visuelle. La tâche de n-back est déjà

largement utilisée en psychologie cognitive et peut être présentée de différentes manières

(voir p.ex. Mandrick et coll., 2016). Bien que faisant intervenir la vision, la tâche de n-back

est peu stimulante au niveau de la charge visuelle. Étant donné que la charge visuelle est

souvent considérée comme une composante de la charge mentale, il est essentiel de faire

intervenir une seconde tâche, plutôt axée sur la composante visuelle de la charge mentale.

C’est pour cette raison que la tâche de recherche visuelle est également retenue. Dans les

deux cas, la difficulté des tâches peut facilement être modulée de manière objective. Les deux

tâches présentent également comme bénéfice de pouvoir être effectués devant un écran

d’ordinateur, demandent peu de mouvement physique pouvant interférer avec les mesures

43

physiologiques et peuvent être conçues de manière à garder constante la luminosité de l’écran

(un enjeu important pour les mesures pupillaires).

La seconde expérience de ce projet vise à vérifier à quel point la diagnosticité de la charge

mentale à l’aide de mesures périphériques reste possible dans un contexte de tâche réaliste et

complexe. Il peut cependant être difficile de mener une expérience directement sur le terrain

avec une approche purement macro-cognitive. En effet, il est souvent difficile d’avoir accès

à un nombre suffisant de professionnels, ce qui pourrait être désirable dans la conception de

systèmes corps-ordinateurs destinés aux situations de travail. Dans un contexte de mesures

physiologiques, il peut aussi s’avérer complexe de procéder à l’installation de capteurs

physiologiques sans risquer de déranger les sujets dans leur tâche. Finalement, il est rarement

possible de manipuler directement les variables d’intérêt (c.-à-d. l’exigence mentale, le

stress) dans un contexte réel sans faire appel à un devis quasi expérimental. Dans le but

d’obtenir un compromis se rapprochant de la macro-cognition, mais ayant quand même

l’avantage du contrôle expérimental de la microcognition, ce projet de thèse utilisera une

simulation fonctionnelle. Une simulation fonctionnelle consiste à recréer, en laboratoire, une

tâche très similaire à celle qui peut être vécue dans un travail réel (Cacciabue et Hollnagel,

1995). Selon Cacciabue et Hollnagel (1995), la simulation fonctionnelle doit être une

représentation isomorphique de la tâche réelle, c’est-à-dire qu’elle doit préserver la même

forme que la tâche investiguée, mais à une échelle plus petite. Tel que précisé par les auteurs,

la simulation fonctionnelle est idéale lors qu’on investigue les effets de la cognition, plutôt

que la cognition elle-même, ce qui est le cas dans cette seconde expérience. Il s’agit une

approche méthodologique qui permet de capturer les composantes essentielles d’une tâche

réelle tout en limitant l’influence de facteurs indésirables. La simulation fonctionnelle permet

une manipulation directe des variables expérimentales. Elle permet également la création de

scénarios expérimentaux qui peuvent être répétés entre les participants et pour lesquels les

données peuvent facilement être enregistrées pour analyses futures. Les simulations

fonctionnelles sont utilisées depuis plusieurs années (p.ex. Grandlund, 2003; Major, Hedlund

et Philipps, 1997; Vachon et coll., 2016; voir aussi Gray, 2002, pour d’autres exemples).

Dans Grandlund (2003), on suggère que la simulation fonctionnelle capture les aspects

cruciaux de la tâche d’experts tout en étant suffisamment simple et motivante pour que des

44

non-experts puissent l’exécuter. Dans cette expérience, la simulation fonctionnelle est une

réplique d’un environnement de commandement et contrôle en sécurité urbaine. Dans Gray

(2002), propose cinq niveaux différents de simulation fonctionnelle, passant de la simulation

à haute-fidélité de systèmes complexes (le type de simulation le plus immersif) jusqu’à la

tâche de laboratoire (la simulation la moins immersive). Le présent projet se situe

possiblement au second niveau de l’échelle de Gray (2002), c’est-à-dire un micromonde.

Toujours selon l’auteur, les micromondes permettent un peu de réalisme, sans toutefois

contraindre la généralisation des résultats obtenus à un domaine particulier, ce qui est

souhaitable dans le cas présent. En effet, le but de cette étude n’est pas tant de valider une

mesure physiologique en contexte de gestion de crise, mais plutôt d’évaluer une mesure

physiologique de la charge mentale dans un contexte de travail générique. De plus, les

micromondes ont comme bénéfice de pouvoir être compris et vécus par des non-experts, ce

qui est aussi le cas dans la présente étude. Le micromonde utilisé dans cette étude pourra

permettre d’induire, avec un haut niveau de contrôle expérimental, différentes dimensions de

la charge mentale. Celles-ci pourront toutefois être vécues de manières subjectives, comme

il peut être le cas dans un environnement de travail réel. Le détail exact des tâches mises de

l’avant se retrouve au Chapitre 3 et au Chapitre 4.

2.2 Mesures

La section suivante détaille les mesures brutes qui sont effectuées dans ce projet.

Premièrement, les mesures subjectives (questionnaires), les mesures de performance ainsi

que les mesures d’effort investi sont décrites. Ensuite, les différents appareils de mesure

physiologique utilisés sont détaillés.

2.2.1 Mesures subjectives et comportementales

Trois autres types de mesures sont effectués pendant les séances expérimentales : 1) des

mesures subjectives, 2) de performance et, 3) d’effort. Les mesures subjectives permettent

de valider les manipulations expérimentales effectuées, ou d’expliquer les effets de la

manipulation sur le ressenti des participants. Le questionnaire NASA-TLX est retenu pour

mesurer la charge mentale. Ce questionnaire a l’avantage d’être largement utilisé, ce qui

permet d’en comparer les résultats avec d’autres études. Sa courte durée permet de le passer

45

à plusieurs reprises pendant une expérience sans trop interrompre le participant.

Ordinairement, le NASA-TLX est composé de six questions (six dimensions) de la charge

mentale, soit : l’exigence mentale, l’exigence temporelle, l’exigence physique, l’effort, la

performance, la frustration. Dans ce cas-ci, puisqu’aucune manipulation de l’exigence

physique n’est prévue dans les expériences, la question est retirée. Dans le but de couvrir

directement toutes les dimensions de ce projet, deux autres dimensions sont adjointes au

questionnaire, soit le stress et la fatigue. Finalement, une troisième question est ajoutée afin

de capturer la charge mentale globale du participant (appelée « état général »). En plus des

mesures subjectives, des mesures de performance sont aussi effectuées. Puisque ces mesures

sont spécifiques aux tâches utilisées, celles-ci seront décrites dans les chapitres dédiés aux

expériences (voir Chapitre 3 et Chapitre 4). Finalement, des mesures de l’effort mental sont

effectuées. Comme l’effort mental est fonction à la fois de l’exigence mentale et de la

performance, il est difficile d’en obtenir une mesure objective. Afin d’estimer l’effort mental,

une formule arbitraire est proposée (de manière similaire à l’équation de l’efficacité mentale

dans Galy, Cariou et Mélan, 2012). Deux propositions guident cette formule. 1) Si la tâche

est jugée facile et que la performance est faible, il est probable que le participant fournisse

un effort faible. 2) Si la tâche est jugée difficile et que la performance est élevée, il est

probable que le participant fournisse un effort élevé. En tenant compte de ces deux extrêmes,

il est possible de proposer que les situations de tâches jugées faciles pour lesquelles la

performance est élevée, ou les situations de tâches jugées difficiles pour lesquelles la

performance est faible aient des valeurs d’effort mental moyen. Pour calquer ce

comportement, il est suggéré que l’effort mental représente le produit entre l’exigence

mentale et la performance (voir Équation 1). Pour tenir compte de l’exigence perçue, la

valeur brute de l’évaluation de l’exigence mentale obtenue par le NASA-TLX est utilisée.

Effort mental = Exigence perçue × Performance

Équation 1 : Équation de l’effort mental

2.2.2 Mesures physiologiques

Le Bioharness 3 de Zephyr, une bande thoracique, est utilisé pour mesurer l’activité

cardiaque et respiratoire (voir Figure 4). L’appareil fournit une mesure

46

électrocardiographique échantillonnée à 250 Hz. La mesure électrocardiographique effectuée

par le Bioharness 3 est plutôt tolérante au bruit, notamment à l’exercice physique. Cette

propriété fait en sorte que les mesures cardiaques ne subissent que très peu de perte de signal.

La respiration est mesurée par l’extension de la bande thoracique et échantillonnée à 18 Hz.

La mesure de la respiration par le Bioharness 3 est, elle aussi, tolérante au bruit. Toutefois,

l’appui sur le dossier de chaise peut altérer l’élasticité de la ceinture et dégrader le signal de

la respiration. Pour cette raison, certaines pertes peuvent être observées.

Figure 4 : Le Bioharness 3

L’activité électrodermale a été mesurée par un Biopac MP100. Des électrodes sont placées

sur les phalanges médiales de l’index et du majeur sur la main non dominante du participant

(voir Figure 5). Le Biopac MP100 fournit une mesure échantillonnée à 1000 Hz. La mesure

de l’activité électrodermale par le Biopac MP100 est très sensible aux mouvements de la

main. Les participants reçoivent comme instruction de poser leur main sur la table de travail

et de limiter, le plus possible, tout mouvement ou contraction inutile.

47

Figure 5 : Positionnement des électrodes électrodermales.

L’activité pupillaire est mesurée avec une lunette ASL Mobile Eye (voir Figure 6). Cette

lunette utilise une caméra infrarouge qui filme le reflet de l’œil dans un monocle. Le logiciel

de capture fournit une mesure du diamètre pupillaire à un taux d’échantillonnage de 30 Hz.

La mesure pupillaire reste bonne malgré les mouvements du participant. Les participants ne

doivent pas toucher la lunette, mais certains ont du mal à respecter cette consigne. Le port

d’un casque d’écoute, superposé aux lunettes, rend difficile l’immobilisation de la lunette.

En plus du mouvement, le diamètre pupillaire est sensible à la luminosité ambiante, aux

lentilles cornéennes, au maquillage, à la morphologie du visage et à la couleur de l’œil. Les

mesures du diamètre pupillaire ont donc parfois été perdues momentanément. Les

mouvements oculaires sont aussi mesurés avec la lunette ASL Mobile Eye. Le logiciel fournit

une mesure de la position du regard, elle aussi échantillonnée à 30 Hz.

48

Figure 6 : Lunette ASL Mobile Eye.

La Figure 7 est une capture d’écran issue du programme MATLAB utilisé pour effectuer les

analyses. Cette figure montre un exemple des signaux physiologiques obtenus par les

appareils précédemment détaillés6. Dans cet exemple, 20 seconde de signaux physiologiques

sont représentés. Le signal électrocardiographique (haut-gauche), est utilisé pour calculer la

durée entre les battements cardiaques (milieu-gauche). Le graphique des mouvements

oculaires (bas-droite) présente deux courbes puisque la lunette d’oculométrie enregistre la

position horizontale et verticale des yeux.

6 Note concernant la figure : RR = Activité cardiaque, RSP = Activité respiratoire, EDA = Activité

électrodermale, PUP = Activité pupillaire, GAZ = Position du regard (de l’anglais gaze).

49

Figure 7 : Exemple des signaux physiologique recueillis lors des séances expérimentales.

2.3 Découpage en époque et prétraitement des signaux

Lorsqu’un participant a terminé l’expérience, les signaux physiologiques sont découpés de

manière à ne garder que ceux qui couvrent les tâches expérimentales ou les périodes de repos

initial (anglais : baseline). Les signaux couvrant des périodes extérieures aux tâches et au

repos initial, comme le début de l’expérience et les pauses, ne sont pas analysés. Chaque

signal est ensuite redécoupé en sous-divisions (appelés « époques ») ayant une durée fixe.

Dans ce projet, deux longueurs d’époques sont retenues, soit 120 et 300 secondes. Ce choix

est déterminé par l’activité cardiaque, qui nécessite typiquement un minimum de 120 ou 300

50

secondes pour permettre des analyses fréquentielles. Toutes les modalités physiologiques

utilisent ces durées d’époques. La modalité cardiaque a été retenue pour guider la durée des

époques (voir Pereira, Almeida, Cunha et Aguiar, 2017) puisque les autres modalités peuvent

très bien être utilisées avec des époques plus courtes. Les époques sont découpées à partir du

début des conditions expérimentales (les tâches, qui seront détaillées aux Chapitre 3 et

Chapitre 4). Les portions de signal présentes à la fin des conditions expérimentales, qui n’ont

pas la durée requise pour faire une époque, sont rejetées. Les portions rejetées sont minimes

(5% du signal appartenant aux conditions expérimentales au plus). Il est jugé préférable de

perdre la fin que le début afin de bien capturer la transition entre le repos et la condition

expérimentale. À moins d’avis contraire lors d’une analyse, il est choisi de n’avoir aucun

chevauchement entre les époques, c’est-à-dire que chaque époque débute là où la précédente

se termine. La Figure 8 montre le processus de découpage en époque pour un signal arbitraire.

Dans cette figure, une condition expérimentale de 5 minutes est découpée en deux époques

de 2 minutes.

Figure 8 : Exemple d’un découpage en époques.

Les signaux physiologiques subissent un prétraitement afin de diminuer l’influence du bruit

et des pertes de mesure. Pour l’activité cardiaque, les battements qui sont jugés trop courts

(moins de 0,375 seconde) ou trop longs (1,5 seconde) sont retirés et estimés. Pour la

respiration, un filtre passe-bas est appliqué au signal (fréquence de passage : 0,80 Hz,

fréquence de coupure : 1,00 Hz). Ce filtrage permet de préserver les fréquences pertinentes

de la respiration, qui se situent entre 0,20 Hz et 0,33 Hz (Lindh et coll., 2013). Un filtre passe-

bas est également appliqué au signal électrodermal (fréquence de passage : 0,50 Hz,

fréquence de coupure : 0,75 Hz; Boucsein, 2012). Pour la pupille, les valeurs du diamètre

pupillaire trop petites et trop grandes (en dessous de 60 et au-dessus de 120 pixels) sont

retirées et estimées. Un filtre passe-bas (fréquence de passage : 1,00 Hz, fréquence de

Condition expérimentale (5 min) Pause Pause

Époque 1 (2 min) Époque 2 (2 min) Perte (1 min)

51

coupure : 2,00 Hz) est par la suite appliqué. Quant aux mouvements oculaires (les

coordonnées X et Y de la position des yeux), une moyenne mobile basée sur les 60 derniers

échantillons (environ 2 secondes) est appliquée afin de réduire le bruit présent dans les

mouvements des yeux.

2.4 Calcul des métriques physiologiques

À ce point, les signaux des cinq modalités physiologiques sont découpés autour des moments

d’intérêt (les conditions expérimentales). Ces signaux sont toutefois des courbes difficiles à

interpréter à l’œil nu. De plus, les algorithmes retenus dans ce projet ne peuvent en faire

usage. De ce fait, Il est nécessaire de calculer des métriques à partir de ces courbes. La

moyenne, l’écart-type ou le maximum d’un signal de 5 minutes représentent des exemples

de métriques qui peuvent être calculées. Le calcul des métriques est effectué par cinq

fonctions programmées en MATLAB. Elles fournissent chacune un nombre prédéterminé de

métriques (voir Tableau 3). Certaines fonctions ont la capacité d’être appliquées sur plus

d’une modalité physiologique. Le Tableau 4 montre quelle fonction est appliquée sur chaque

type de modalité physiologique et indique le nombre total de métriques par modalité

physiologique. Au total, 180 métriques physiologiques sont calculées. Pour chaque époque

découpée précédemment, un échantillon contenant les 180 métriques physiologiques est créé.

Les échantillons peuvent être vus comme les lignes d’un tableau, alors que les métriques

peuvent être considérées comme les colonnes. Chaque échantillon demeure associé à des

métadonnées comme le numéro du participant, la condition expérimentale, l’ordre de

passation/d’époque ainsi que les mesures subjectives, de performance et d’effort. La Figure

9 montre un exemple du tableau de données créé à ce point. Il est important de noter que les

métriques physiologiques sont normalisées (transformées en variables centrées réduites) par

participant.

52

Tableau 3 -

Description des fonctions utilisées pour calculer les métriques physiologiques

Fonction Description Nb. de

métriques

Statistiques

descriptives

Fournit des métriques de base comme la moyenne,

l’écart-type, le minimum et maximum. 10

Analyse de la

variabilité

cardiaque

Fournit des métriques relatives à la variabilité

cardiaque. 41

Analyse spectrale Fournit la puissance spectrale en 10 bandes. 10

Analyse des pics Détecte les pics et vallées dans le signal et fournit des

métriques comme leur nombre ou leur amplitude. 20

Analyse des

fixations/saccades

Fournit des métriques relatives aux fixations et

saccades oculaires. 9

Tableau 4 -

Utilisation des fonctions par type de signal physiologique

Fonction Type de signal physiologique

RR RSP EDA PUP GAZ

Statistiques descriptives 10 10 10 10

Analyse de la variabilité cardiaque 41

Analyse spectrale 10 10 10

Analyse des pics 20 20 20

Analyse des fixations/saccades 9

Nombre total de métriques physiologiques 51 40 40 40 9

Note. RR = Activité cardiaque, RSP = Activité respiratoire, EDA = Activité électrodermale,

PUP = Activité pupillaire, GAZ = Position du regard (de l’anglais gaze).

53

Métadonnées Métriques physiologiques

Par

tici

pan

t

Co

ndit

ion

exp

érim

enta

le

Ord

re

(co

nd

itio

n)

Ord

re

(ép

oqu

e)

Mét

riq

ue

1

Mét

riq

ue

2

Mét

riq

ue

179

Mét

riq

ue

180

1001 100 … 1 1 -0,88 -1,97 … 1,86 -0,91

1001 100 … 1 2 1,68 0,57 … 2,14 1,70

1001 100 … 1 3 0,97 2,49 … -0,83 0,99

1001 101 … 2 1 -1,78 -1,92 … -0,18 -0,36

1001 101 … 2 2 0,19 -0,91 … -1,92 1,71

1001 101 … 2 3 -1,16 1,42 … 1,52 -1,76

1001 110 … 3 1 -2,46 0,59 … -0,23 -2,14

1001 110 … 3 2 -1,17 1,46 … 2,48 2,10

1001 110 … 3 3 0,68 -0,96 … -2,43 0,64

1001 111 … 4 1 0,82 -1,27 … 0,24 2,43

1001 111 … 4 2 2,33 1,48 … -0,28 -1,51

1001 111 … 4 3 -1,34 1,50 … 1,57 1,70

1002 100 … 2 1 2,24 0,20 … -1,79 -0,91

1002 100 … 2 2 1,17 1,21 … 2,41 -0,20

1002 100 … 2 3 -0,96 0,60 … 2,45 -0,28

1002 101 … 3 1 -0,72 0,65 … -1,84 2,26

1002 101 … 3 2 0,47 -1,77 … 1,36 1,74

1002 101 … 3 3 -1,05 1,56 … -2,43 2,05

1002 110 … 4 1 0,24 -0,30 … 1,31 1,23

1002 110 … 4 2 -0,18 0,04 … -0,53 -1,60

1002 110 … 4 3 2,33 2,47 … 1,06 0,20

1002 111 … 1 1 -2,48 -0,43 … -2,31 -1,93

1002 111 … 1 2 -0,21 1,99 … -0,89 0,19

1002 111 … 1 3 1,05 -1,43 … -2,15 -1,98

Figure 9 : Exemple du tableau de données créé après le calcul des métriques.

Dans le cadre de la thèse, quatre sous-ensembles de métriques physiologiques sont testés. Un

premier sous-ensemble (RR-RSP-EDA-PUP-GAZ) contient les 180 métriques. Étant donné

que les métriques des mouvements oculaires sont, la plupart du temps, spécifiques à une

tâche (Van Orden, Limbert, Makeig et Jung, 2001), il est choisi de tester un ensemble

(RR-RSP-EDA-PUP) dans lequel elles ne sont pas incluses. Un troisième sous-ensemble

(RR-RSP-EDA) vise à tester un système sans oculométrie, plutôt axé sur la portabilité dans

un contexte de travail. Finalement, un dernier sous-ensemble (RR-RSP) vise à tester si un

seul appareil (le Bioharness 3) est suffisant pour prédire la charge mentale. Le Tableau 5

montre les sous-ensembles et le nombre total de métriques physiologiques qu’ils contiennent.

Un échantillon

(une ligne) est créé

par époque. 180 métriques

(colonnes) sont

calculées par

échantillons.

54

Tableau 5 -

Sous-ensemble de métriques testées dans cette analyse

Contenu du sous-ensemble Nombre de métriques

RR-RSP-EDA-PUP-GAZ 180

RR-RSP-EDA-PUP 171

RR-RSP-EDA 131

RR-RSP 91

2.5 Organisation des schèmes de classification

En apprentissage automatique, les échantillons sont typiquement divisés en trois groupes : le

groupe d’entraînement, le groupe de validation et le groupe de test. Le groupe d’entraînement

est généralement celui qui contient le plus d’échantillons. C’est avec le contenu de ce groupe

qu’on entraîne le modèle. Le groupe de validation sert à faire le choix des paramètres du

modèle. Afin de vérifier la performance du modèle, un ensemble de tests, contenant des

échantillons qui n’ont ni servi à entraîner le modèle ni servi à faire un choix des paramètres,

est finalement utilisé. Dans ce projet, il est désiré que les modèles puissent prédire les

résultats des nouveaux participants en utilisant les données d’autres participants. Pour ce

faire, un schème de classification à validation croisée est utilisé. Ainsi, les données de

l’ensemble de test sont toujours celles d’un seul participant et les données

d’entraînement/validation sont celles de tous les autres participants. Ce découpage est répété

pour chaque participant. Les données d’entraînement/validation sont par la suite redécoupées

à l’aide d’un autre schème de validation croisée en cinq groupes afin d’optimiser la qualité

du modèle. Ce découpage tient encore une fois compte des participants. À moins d’indication

contraire, tous les résultats présentés sont ceux des groupes de test.

2.6 Imputation des données

L’ensemble de données contient des valeurs manquantes. Lors des séances expérimentales,

les appareils peuvent temporairement perdre la mesure (p. ex. décollement des électrodes,

déplacement des caméras d’oculométrie). Les appareils peuvent également mesurer des

données aberrantes qui sont supprimées lors du prétraitement des données. Dans MATLAB,

l’algorithme d’apprentissage automatique utilisé ne peut pas recevoir de données

55

manquantes. Il est donc nécessaire d’effectuer un traitement sur les données manquantes

avant de procéder à l’entraînement des classificateurs. Dans ce projet, il a été choisi de

procéder à une imputation des données manquantes par analyses de composantes principales.

La boîte à outils MDI Toolbox 4 (Folch-Fortuny, Arteaga et Ferrer, 2016), programmée en

MATLAB, est utilisée afin de procéder à l’imputation. Afin d’éviter la contamination entre

les données d’entraînement, de validation et de test, l’imputation est effectuée

indépendamment sur chacun des ensembles.

2.7 Rééquilibrage des classes

Une fois les données séparées en sous-ensembles d’entraînement/validation/test, il est

possible que les valeurs de la variable d’intérêt (appelés « classes ») ne soient pas équilibrées.

Un sous-ensemble est jugé non équilibré si la variable d’intérêt n’y est pas représentée de

manière égale à travers les échantillons. Par exemple, si le sous-ensemble d’entraînement

contient 200 échantillons et que 170 d’entre eux appartiennent à la classe « 0 » (et que les

30 échantillons restants appartiennent à la classe « 1 »), il est possible de considérer que le

sous-ensemble n’est pas équilibré. De manière générale, une légère variation autour du point

d’équilibre n’est pas considérée comme problématique. Toutefois, un modèle construit avec

des données fortement déséquilibrées peut risquer d’être peu performant. Ce faisant, il est

nécessaire de s’assurer que les sous-ensembles d’entraînement soient équilibrés. Pour pallier

ces problèmes, il existe des techniques permettant la construction d’échantillons

supplémentaires (dits « échantillons synthétiques ») à partir des échantillons existants. Les

méthodes SMOTE et ADASYN sont des exemples d‘algorithmes pouvant faire ce genre de

manipulation (He et coll., 2008; Wang et coll. 2006). Dans ce projet, une implémentation

MATLAB de ADASYN (Seidhoff, 2015) est utilisée afin de rééquilibrer les sous-ensembles

d’entraînement. Les déséquilibres se situant entre 45 % et 55 % ne sont pas corrigés

puisqu’ils sont considérés comme de légères variations. Les ensembles de validation et de

test ne sont pas rééquilibrés afin de retourner une prédiction la plus juste possible.

2.8 Entraînement des modèles

Dans ce projet, deux méthodes d’apprentissage automatique sont utilisées. Ces deux

techniques sont basées sur les machines à vecteur de support (anglais : Support Vector

56

Machine). L’implémentation de cette technique est réalisée par les fonctions fitcsvm

(MATLAB-fitcsvm, 2018) et fitclinear de MATLAB (MATLAB-fitclinear, 2018). Dans le

premier cas, un noyau gaussien est utilisé. La seconde technique utilise une méthode linéaire

basée sur les machines à vecteur de support. Afin de simplifier le texte, le premier

classificateur est appelé « Modèle SVM » ou « Classificateur SVM » et le second « Modèle

linéaire » ou « Classificateur linéaire ». Les machines à vecteur de support sont retenues pour

leur tolérance à la haute dimensionnalité (les 180 métriques physiologiques), leur simplicité

et leur performance. Tout comme d’autres algorithmes d’apprentissage automatique, les

machines à vecteur de support sont sujettes au surapprentissage (anglais : overfitting). Pour

éviter ce problème, une recherche aléatoire sur différents paramètres est effectuée. Pour le

classificateur SVM, les paramètres C (anglais : box constraint) et KS (anglais : kernel scale)

sont utilisés. Pour le classificateur linéaire, le paramètre λ (paramètre de régularisation) est

utilisé. Ainsi, 50 recherches aléatoires sont effectuées pour les modèles SVM et 100 sont

effectués pour les modèles linéaires. Les autres paramètres sont maintenus aux valeurs par

défaut déterminées par MATLAB.

2.9 Calcul de la performance

Une fois l’entraînement du classificateur terminé, tous les ensembles de tests de chaque

participant sont regroupés et la valeur de sortie du modèle est comparée à la valeur réelle de

la variable d’intérêt. Le Tableau 6 montre un exemple de résultats possibles pour deux classes

d’une variable d’intérêt (k = 2), soit la classe « 0 » et la classe « 1 ». Entre les différentes

colonnes, la valeur de sortie du classificateur est affichée. Entre les différentes lignes, c’est

plutôt la valeur réelle de la variable qui est montrée. Le nombre inscrit dans chaque cellule

indique combien de fois la combinaison se produit. En prenant le rapport de la somme de la

diagonale sur le nombre d’éléments de la matrice (N), la précision du classificateur est

obtenue (c.-à-d. le ratio de fois où le classificateur prédit correctement la classe). Dans le cas

du Tableau 6, la précision du classificateur (po) est calculée à l’Équation 2.

57

Tableau 6 -

Exemple de prédiction d’un modèle pour deux catégories

Valeur réelle = 0 Valeur réelle = 1

Valeur prédite = 0 167 12 ∑ = 179

Valeur prédite = 1 19 48 ∑ = 67

∑ = 186 ∑ = 60 ∑ = 246

Note. Diagonale de la matrice en gris.

𝑝𝑜 =∑ 𝑑𝑖𝑎𝑔

𝑁=

167+48

167+12+19+48= 0,8740 ≅ 87 %

Équation 2 : Calcul de la précision d’une matrice de confusion.

Pour déterminer la qualité de cette précision, il est également important de connaître sa

différence par rapport au seuil du hasard. Le seuil du hasard est défini par la précision vers

laquelle un classificateur tend s’il est complètement aléatoire. Un classificateur ayant une

précision près du seuil du hasard est jugé comme étant mauvais alors qu’un classificateur

ayant une précision près de 100 % est jugé comme étant parfait. Comme différentes variables

d’intérêt peuvent avoir différents seuils de hasard, il est difficile d’utiliser la précision afin

de qualifier la qualité d’un classificateur. Pour résoudre ce problème et comparer la précision

des classificateurs, un second indice de performance : le Kappa de Cohen, est utilisé. Le

Kappa de Cohen (abrégé κ) est un indice qui tient compte du seuil du hasard. L’Équation 3

et l’Équation 4 montrent comment calculer le κ. Ainsi, pour une précision égale au seuil du

hasard, κ a une valeur de 0. Dans le cas d’une précision parfaite, κ a une valeur de 1. La

Figure 10 montre un exemple de la relation entre la précision et le κ pour deux valeurs de

seuil de hasard différent.

𝜅 ≡ 1 −1 − 𝑝𝑜

1 − 𝑝𝑒= 1 −

1 − 0,8740

1 − 0,6166= 0,6714

Équation 3 : Kappa de Cohen calculé sur la matrice de confusion du Tableau 6.

𝑝𝑒 =1

𝑁2∑ 𝑛𝑘1

𝑘

𝑛𝑘2 =1

2462(186 ⋅ 179 + 60 ⋅ 67) = 0,6166

Équation 4 : Seuil du hasard calculé sur la matrice de confusion du Tableau 6.

58

Figure 10 : Relation entre la performance et kappa pour deux seuils de hasard différents.

Il existe des guides pour interpréter la valeur de κ (Landis et Koch, 1977). Toutefois, tout

comme pour le calcul d’une taille d’effet, il est important de tenir compte du domaine afin

d’établir un barème réaliste. Dans ce cas-ci, le barème est assoupli pour s’adapter au projet.

Afin d’avoir la certitude que les classificateurs font mieux que le hasard, la probabilité

d’erreur (le « p » critique) est calculée. Pour les modèles, une valeur de probabilité d’erreur

sévère (soit p < 0,001) est choisie. Pour toutes les autres analyses effectuées dans ce

document, les effets pour lesquels p < 0,05 sont retenus. Ce choix est justifié par le fait que

ces analyses ne sont pas les hypothèses principales défendues par ce projet. Le Tableau 7

montre de quelle manière la qualité d’un classificateur est jugée en fonction de κ et p. À

moins d’avis contraire les barres d’erreurs présentes sur les graphiques montrent un intervalle

de confiance de 95% autour de la moyenne (Masson et Loftus, 2003).

Tableau 7 -

Critères déterminant la qualité des classificateurs

Qualité du classificateur k p

Mauvais - > 0,05

Tendance - [0,001 – 0,05]

Acceptable < 0,2 <0,001

Bon > 0,2 <0,001

0 % 100 %

Précision du classificateur (hasard = 50 %)

-1 1

Kappa 0

50 %

0 % 100 %

Précision du classificateur (hasard = 33 %)

-1 1 Kappa

0

33 %

59

Chapitre 3 : Diagnosticité dans des tâches simples

Les mesures physiologiques présentent un grand potentiel pour prédire la charge mentale des

individus. Contrairement aux mesures comportementales et subjectives, les mesures

physiologiques offrent la possibilité de fournir une lecture continue de la charge mentale sans

qu’il soit nécessaire d’interrompre les individus. Bien que les mesures neurologiques offrent

typiquement un meilleur potentiel pour mesurer la charge mentale (Chanel, Kronegg,

Grandjean et Pun, 2006; Christensen, Estepp, Wilson et Russell, 2012; Hogervorst, Brouwer

et van Erp, 2014), les mesures périphériques ont comme avantage d’être plus résistantes aux

mouvements et sont moins dispendieuses, offrant ainsi un bon potentiel dans des situations

de travail réelles.

Plusieurs mesures issues de l’activité cardiaque, respiratoire, électrodermale et oculaire

montrent des différences significatives entre les différents niveaux de charge mentale.

Certains chercheurs développent déjà des systèmes pour tenter de prédire la charge mentale

à l’aide de capteurs physiologiques périphériques (p.ex. Arnrich, 2010; Patel et coll., 2011).

Toutefois, la charge mentale peut prendre source dans plusieurs sous-dimensions, comme

l’exigence, l’effort, le stress ou encore la fatigue. Tel que détaillé dans le chapitre précédent,

les différentes sous-dimensions peuvent fréquemment provoquer des réactions

physiologiques similaires. C’est notamment le cas pour la probabilité de réponse

électrodermale, qui est associée à la fois à l’exigence mentale (Galy, Cariou et Mélan, 2012)

et au stress (Reinhardt, Schmahl, Wüst et Bohus, 2012). En plus des similitudes entre les

sous-dimensions, les mesures physiologiques sont souvent inconsistantes au sein d’une

même dimension (p.ex. Castaldo, 2015). Très peu d’études se sont penchées sur les potentiels

diagnostiques des mesures physiologiques périphériques de la charge mentale. En d’autres

mots, il est présentement quasi-impossible de déterminer si une manifestation physiologique

périphérique est causée par l’exigence, l’effort, le stress ou la fatigue.

Pourtant, une mesure diagnostique de la charge mentale pourrait être bénéfique dans

plusieurs contextes. Les effets d’une fatigue trop élevée peuvent être mitigés par une pause

(Engelmann et coll., 2010; Li, Lim et Chen, 2016). Cette pause pourrait toutefois être peu

utile si c’est l’exigence mentale qui est trop élevée. Un système diagnostique peut également

60

être utile afin de maintenir les travailleurs dans leur « zone optimale » de charge mentale.

Bien que le stress soit souvent considéré comme néfaste pour la performance, certaines

études suggèrent qu’un niveau faible à moyen d’anxiété puisse bonifier la performance

(Carrier, Higson, Klimoski et Peterson. 1984; Moore et coll., 2013). Ainsi, un système

diagnostique de mesure de la charge mentale pourrait aider à préserver un stress minimum

sans toutefois empêcher l’effort mental des individus.

Le but de ce chapitre est donc de déterminer s’il est possible d’obtenir une mesure

diagnostique de la charge mentale dans un contexte de tâches simples. Par tâches simples, il

est question des tâches typiquement utilisées en laboratoire pour lesquelles un grand contrôle

expérimental est observé. Bien que la visée de ce projet de thèse ait une portée plutôt

appliquée aux situations de travail réel, il faut garder en tête que peu d’études ont investigué

la diagnosticité de la charge mentale avec des mesures physiologiques périphériques et qu’il

est difficile de se prononcer sur la magnitude exacte des résultats qu’il est possible d’obtenir.

Mis à part les particularités méthodologiques, détaillées plus bas, le reste de la méthodologie

suit ce qui a été décrit au Chapitre 2. Afin de recueillir des données physiologiques, un groupe

de participant a réalisé une expérience contenant deux tâches expérimentales simples.

Pendant l’expérience, l’exigence des tâches et le niveau de stress ont été modulés de manière

à faire varier la source de la charge mentale. Des modèles de prédiction sont construits pour

six variables d’intérêt, détaillés plus bas, ainsi que pour les dimensions du questionnaire de

charge mentale. Les résultats montrent que les six variables d’intérêt retenues sont

prédictibles avec des résultats plutôt satisfaisants, suggérant qu’il est possible d’atteindre une

mesure diagnostique de la charge mentale en utilisant la physiologie périphérique. En plus

de la performance des classificateurs, ce chapitre propose des suggestions supplémentaires

afin de mieux guider l’élaboration du chapitre suivant, portant cette fois-ci sur les situations

de travail réelles.

61

3.1 Particularités de méthodologie

3.1.1 Participants

Dans cette première expérience, 30 participants ont été recrutés à l’Université Laval et se

sont fait offrir une rémunération de 10$. Sur ces participants, deux ont été rejetés. Pour

participer à l’étude, les participants devaient avoir une vision normale ou corrigée, aucun

problème psychologique, tel qu’un déficit d’attention ou un trouble neurologique, ni aucun

problème cardiorespiratoire tel que l’asthme.

3.1.2 Tâches expérimentales

Deux tâches expérimentales ont été utilisées dans cette expérience. La première était une

tâche de n-back. Dans cette version, les participants utilisaient un ordinateur pour accomplir

la tâche. Des lettres blanches sur un fond gris étaient affichées une après l’autre. À chaque

lettre, le participant devait indiquer si la lettre était la même que la précédente (condition

facile dite « n = 1 ») ou la même que l’avant-précédente (condition difficile dite « n = 2 »).

Une représentation schématique de la tâche est affichée à la Figure 11. Pour signaler une

cible (c.-à-d. : indiquer que la lettre est la même), les participants devaient appuyer sur la

touche « M » du clavier. Les participants recevaient également l’instruction d’appuyer sur la

touche « Z » du clavier si la lettre présentée était non-cible. Seules les cibles correctes étaient

enregistrées comme des bonnes réponses. Les fausses alarmes, les cibles ratées, les omissions

et les entrées multiples étaient toutes considérées comme des erreurs. Chaque lettre était

présentée 2 secondes. Au total, 60 lettres étaient affichées par bloc expérimental. Bien que le

temps de réponse était aussi enregistré, seul le ratio de bonne réponse a été retenu comme

mesure de performance. La seconde tâche utilisée était une tâche de recherche visuelle

(Recarte, Pérez, Conchillo & Nunes, 2008). Dans les conditions faciles, les participants

avaient comme instruction d’appuyer sur l’unique lettre « A » présente sur l’écran (lettre

cible) au travers de lettres distractives (39 lettres). Dans les conditions difficiles, les

participants devaient appuyer sur la voyelle non inclinée (lettre cible) au travers de lettres

distractives, inclinées et non inclinées (encore 39 lettres) (voir Figure 12). Dans cette tâche,

60 recherches étaient effectuées par bloc expérimental. Pour cette tâche, la performance était

mesurée en calculant le temps de réponse moyen par bloc expérimental.

62

Figure 11 : Représentation schématique de la tâche de n-back.

Figure 12 : Exemple de la tâche de recherche visuelle (difficile).

3.1.3 Devis

La difficulté et le niveau de stress étaient tous deux manipulés lors de cette expérience. La

difficulté et le stress étaient divisés en deux niveaux (respectivement : facile/difficile;

calme/stressant). La difficulté était manipulée en alternant entre les conditions faciles et

63

difficiles décrites plus haut. Le stress était manipulé en introduisant une punition sonore

aversive. Le principe de la punition sonore aversive est de faire jouer un son désagréable dans

les écouteurs des participants (Patel et coll., 2015). Afin de maximiser la surprise et le

désagrément, le son aversif était joué de manière semi-aléatoire aux participants (c.-à-d. :

l’occurrence était aléatoire, mais un nombre fixé était garanti d’être joué au travers de la

condition stressante). Toujours dans le but de maximiser le niveau de stress, les participants

recevaient comme instruction que l’occurrence du son était associée à leur performance,

c’est-à-dire que moins bons ils étaient, plus le son allait être présent. En réalité, l’occurrence

du son n’était pas liée à la performance. Le son aversif avait une durée de 1 seconde et était

joué dans environ 75% des essais lors des blocs expérimentaux stressants. Chaque

combinaison de niveau de difficulté, de stress et de tâche était complétée par les participants

(pour un total de huit conditions expérimentales).

Au moment de la réalisation de l’étude, une plus grande importance était attribuée aux

facteurs de la difficulté et du stress. Ces deux facteurs étaient donc contrebalancés. Afin de

diminuer le nombre total de participants requis, il a été choisi de ne pas contrebalancer l’ordre

des tâches. Tous les participants commençaient donc par la tâche de n-back (4 conditions

contrebalancées : facile/calme; facile/stressant; difficile/calme; difficile/stressant) et

terminaient par la tâche de recherche visuelle (4 mêmes conditions).

3.1.4 Procédure

Les participants étaient accueillis par l’expérimentateur et étaient invités à lire et signer un

formulaire de consentement. Par la suite, l’expérimentateur procédait à l’installation des

capteurs physiologiques. Une fois fait, les participants remplissaient un questionnaire

démographique. Tous les participants commençaient par les 4 conditions de la tâche de n-

back, puis terminaient par les 4 conditions de la tâche de recherche visuelle. À la fin de

chaque condition expérimentale, les participants remplissaient le questionnaire NASA-TLX.

Avant de réaliser chaque tâche, les participants effectuaient deux séances de pratique (une

facile, une difficile). S’ils n’avaient pas bien compris la tâche, ils pouvaient recommencer la

pratique.

64

3.1.5 Paramètres d’apprentissage automatique

Les classificateurs utilisés dans cette étude sont tous binaires, c’est-à-dire qu’ils apprennent

à discerner entre seulement deux options. Il est donc nécessaire de définir comment chaque

variable d’intérêt est séparée en deux. Le Tableau 8 synthétise cette information. Comme

l’ordre des tâches est fixé, il n’est pas nécessaire d’entraîner un classificateur supplémentaire

d’ordre des conditions. De plus, comme les conditions expérimentales sont plutôt courtes, on

choisit de ne pas entraîner de classificateur pour l’ordre des époques à l’intérieur d’une même

condition. Pour les dimensions subjectives, les variables d’intérêt sont les neuf dimensions

du NASA-TLX et leur valeur est déterminée par l’infériorité ou la supériorité par rapport à

la moyenne du participant. Étant donné que les conditions expérimentales durent entre 120

et 160 secondes, on choisit des époques de 120 secondes sans chevauchement.

Tableau 8 -

Définition des variables d’intérêt

Nom de la

classe Description

Repos initial Détermine si le participant est en repos initial ou en condition

expérimentale.

Difficulté Détermine si la condition actuelle est facile ou difficile.

Stress Détermine si la punition sonore est absente ou présente.

Tâche Détermine si le participant est en n-back ou en recherche visuelle.

Performance Détermine si la performance de la condition est inférieure ou

supérieure à la moyenne de ce participant.

Effort Détermine si l’effort fourni pendant la condition est inférieur ou

supérieur à la moyenne de tous les participants.

3.2 Résultats

3.2.1 Analyse des réponses subjectives

La Figure 13 et la Figure 14 présentent les scores bruts des réponses au questionnaire

NASA-TLX pour les 2 tâches expérimentales. Une série d’ANOVAS à mesures répétées est

effectuée sur ces valeurs afin de déterminer les effets de difficulté, du stresseur et de la tâche.

65

Les résultats de ces ANOVAS sont présentés au Tableau 9 et au Tableau 10. L’analyse

montre que l’exigence mentale est augmentée par la difficulté (𝜂𝑝2 = 0,73; p < 0,001) et la

présence du stresseur (𝜂𝑝2 = 0,41; p = 0,0021). À l’inverse, l’augmentation de la difficulté et

du stress diminue la performance (𝜂𝑝2 = 0,62; p < 0,001; 𝜂𝑝

2 = 0,37; p = 0,0038) et l’état

général (𝜂𝑝2 = 0,64; p < 0,001; 𝜂𝑝

2 = 0,44; p = 0,0014). L’exigence temporelle est également

augmentée par la difficulté et le stresseur (𝜂 = 0,37 p < 0,0041; 𝜂𝑝2 = 0,54; p = 0,0002).

L’ANOVA suggère toutefois une interaction entre le stresseur et la tâche (𝜂𝑝2 = 0,49;

p < 0,001). Lorsque le stresseur est faible, l’exigence temporelle est plus élevée pour le

n-back. À l’inverse, lorsque le stresseur est présent, l’exigence temporelle est plus élevée

pour la recherche visuelle. L’ANOVA suggère que la difficulté a augmenté l’effort investi

(𝜂𝑝2 = 0,37; p = 0,0044) et la fatigue ressentie (𝜂𝑝

2 = 0,47; p < 0,001). Pour les dimensions de

la frustration et du stress, on décèle trois effets simples. Les participants ont rapporté une

frustration/stress plus élevée lors des tâches difficiles (𝜂𝑝2 = 0,64; p < 0,001; 𝜂𝑝

2 = 0,59;

p < 0,001), plus élevée lorsque le stresseur était présent (𝜂𝑝2 = 0,40; p = 0,0027; 𝜂𝑝

2 = 0,72;

p < 0,001) et plus élevée lors de la tâche de n-back (𝜂𝑝2 = 0,30; p = 0,0114; 𝜂𝑝

2 = 0,23;

p = 0,0319). Aucun effet n’a été rapporté pour la dimension du focus. Afin d’évaluer l’effet

du temps sur les dimensions du NASA-TLX, on effectue une série de corrélation linéaire.

Étant donné que la variable du temps est ordinale (l’ordre de passation des conditions

expérimentales), on utilise la corrélation de Spearman. Ces corrélations sont effectuées pour

les deux tâches individuellement. La corrélation pour toute l’expérience n’est pas calculée

étant donné que l’ordre des tâches est toujours le même et que l’effet entre les deux tâches

est couvert dans l’ANOVA. L’analyse suggère que le temps n’a affecté aucune dimension

du NASA-TLX lors de la tâche de n-back. L’effort (r = 0,19; p = 0,0498) et la frustration

(r = 0,21; p = 0,0252) ont augmenté avec le temps lors de la tâche de recherche visuelle.

66

Figure 13 : Résultats du NASA-TLX lors du n-Back.7 8

Figure 14 : Résultats du NASA-TLX lors de la recherche visuelle.

7 d/D = (difficulté faible / difficulté élevée); s/S = (stress faible / stress Élevé). 8 Il est pertinent de rappeler ici qu’à moins d’avis contraire, les barres d’erreurs représentent l’intervalle de

confiance à 95% (Masson et Loftus; 2003).

0

1

2

3

4

5

6

7

8

9

10

Ex.M. Ex.T. Per. Eff. Fru. Foc. Fat. Str. É.G.

ds dS Ds DS

0

1

2

3

4

5

6

7

8

9

10

Ex.M. Ex.T. Per. Eff. Fru. Foc. Fat. Str. É.G.

ds dS Ds DS

67

Tableau 9 -

Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX (partie 1/2)

Dimension Facteurs 𝜂𝑝2 p

Exigence mentale

D 0,7323 < 0,001

S 0,4165 0,0021

T 0,0393 0,4023

D x S 0,1073 0,1585

D x T 0,0814 0,2226

S x T 0,0063 0,7395

D × S x T 0,0631 0,2856

Exigence

temporelle

D 0,3752 0,0041

S 0,5405 0,0002

T 0,0013 0,8810

D x S 0,0002 0,9519

D x T 0,1192 0,1361

S x T 0,4906 < 0,001

D × S x T 0,0290 0,4731

Performance

D 0,6278 < 0,001

S 0,3793 0,0038

T 0,0038 0,7969

D x S 0,0853 0,2115

D x T 0,0937 0,1893

S x T 0,0330 0,4437

D × S x T 0,0056 0,7536

Effort

D 0,3701 0,0044

S 0,0503 0,3420

T 0,0011 0,8919

D x S 0,0881 0,2039

D x T 0,1240 0,1279

S x T 0,1332 0,1136

D × S x T 0,0002 0,9570

Frustration

D 0,6447 < 0,001

S 0,4019 0,0027

T 0,3060 0,0114

D x S 0,0070 0,7255

D x T 0,0048 0,7709

S x T 0,0684 0,2655

D × S x T 0,0162 0,5929

Note. D = Difficulté, S = Stresseur, T = Tâche, p < 0.05 en gras.

68

Tableau 10 -

Tailles d’effet des ANOVAS menées sur les réponses du NASA-TLX (partie 2/2)

Dimension Facteurs 𝜂𝑝2 p

Focus

D 0,1705 0,0704

S 0,1227 0,1301

T 0,0274 0,4858

D x S 0,0441 0,3744

D x T 0,0044 0,7815

S x T 0,0276 0,4838

D × S x T 0,0063 0,7391

Fatigue

D 0,4785 < 0,001

S 0,0062 0,7424

T 0,0005 0,9283

D x S 0,0003 0,9460

D x T 0,1396 0,1046

S x T 0,1202 0,1343

D × S x T 0,0074 0,7178

Stress

D 0,5979 < 0,001

S 0,7250 < 0,001

T 0,2312 0,0319

D x S 0,0793 0,2292

D x T 0,0318 0,4516

S x T 0,0010 0,8946

D × S x T 0,0266 0,4922

État général

D 0,6466 < 0,001

S 0,4409 0,0014

T 0,0110 0,6598

D x S 0,0431 0,3796

D x T 0,0596 0,2995

S x T 0,0141 0,6176

D × S x T 0,0516 0,3355

Note. D = Difficulté, S = Stresseur, T = Tâche, p < 0.05 en gras.

3.2.2 Analyse de la performance et de l’effort

Le Tableau 11 présente les scores moyens aux tâches expérimentales. Pour le n-back, le score

est exprimé sous forme de proportion de cibles atteintes (PC). Pour la recherche visuelle, le

score est présenté en temps de réponse inverse (1/s) afin de préserver le sens des données

(plus le score est élevé, meilleur est le participant). Exceptionnellement, la normalisation de

la performance se fait par la méthode « minmax », c’est-à-dire que chaque valeur de

performance représente une fraction entre le meilleur et le pire score brut (entre tous les

participants) pour la tâche. Ce choix est justifié par le désir de pouvoir ajouter le facteur

69

« tâche » lors de l’analyse de la variance (si les scores étaient normalisés par la moyenne et

l’écart-type, la moyenne des deux tâches serait nulle et on ne pourrait pas mesurer l’effet de

la tâche sur le score. Une performance globale, contenant les scores normalisés des deux

tâches, est également rapportée. Une ANOVA à mesure répétée par participants est menée

sur les scores normalisés globaux des deux tâches. Cette analyse rapporte des effets simples

de la difficulté (𝜂𝑝2 = 0,82; p < 0,001) et de la tâche (𝜂𝑝

2 = 0,84; p < 0,001). On dénote

toutefois une interaction entre ces deux facteurs (𝜂𝑝2 = 0,80; p < 0,001). La Figure 15, qui

détaille cette interaction, montre que la tâche de n-back est généralement plus difficile, mais

que l’augmentation de la difficulté dégrade davantage la performance lors de la recherche

visuelle. Une autre interaction, cette fois moins forte, est également présente entre le stress

et la tâche (𝜂𝑝2 = 0,22; p = 0,0356). La Figure 16 montre que la présence du stresseur semble

dégrader légèrement la performance lors du n-back, mais l’augmente tout aussi légèrement

lors de la recherche visuelle9. La faible puissance statistique de ce résultat permet toutefois

de douter la présence d’un effet réel du stresseur. Dans le but de déterminer l’effet du temps

sur la performance, on calcule le coefficient de corrélation de Spearman entre l’ordre de la

condition et la performance. Cette analyse montre que le temps n’a affecté la performance

d’aucune des deux tâches.

9 Bien que les barres d’erreur soient calculés par la méthode de Masson et Loftus (2003), l’utilisation d’un

devis à mesure répétée et la faible puissance statistique (p = 0,0356) empêche de voir l’interaction sur le

graphique.

70

Tableau 11 -

Scores moyens de performance dans les quatre conditions

Dimension Difficulté →

Stress ↓ Faible Élevée

Performance

n-back (PC)

Faible 0,9379 0,7727

Élevé 0,9176 0,7345

Performance

R.-Visuelle (1/s)

Faible 0,6900 0,1591

Élevé 0,7162 0,1883

Performance globale Faible 0,8163 0,4464

Élevé 0,8169 0,4614

Note. PC = Proportion de cibles atteintes. Scores normalisés par la méthode « minmax ».

Figure 15 : Performance en fonction de la difficulté et de la tâche.

0

0,2

0,4

0,6

0,8

1

Difficulté faible Difficulté élevée

Per

form

ance

norm

alis

ée

N-back

Recherche visuelle

71

Figure 16 : Performance en fonction du stress et de la tâche.

Une analyse similaire est effectuée sur les scores d’effort. L’effort était calculé en faisant le

produit de la performance (normalisée) et de l’évaluation (brute) de la dimension « exigence

mentale » du NASA-TLX. Le Tableau 12 rapporte l’effort pour les deux tâches séparées ainsi

que pour la combinaison des deux. Une ANOVA à mesure répétée par participant est

effectuée sur l’effort combiné des deux tâches afin de déterminer les contributions de la

difficulté, du stress et de la tâche. L’ANOVA suggère la présence d’un effet simple de la

tâche (𝜂𝑝2 = 0,77; p < 0,001) ainsi qu’une interaction entre la difficulté et la tâche (𝜂𝑝

2 = 0,73;

p < 0,001; voir Figure 17). L’interaction suggère qu’un effort similaire est investi lors des

deux tâches quand la difficulté est facile. Toutefois, l’augmentation de la difficulté fait

augmenter l’effort dans la tâche de n-back, mais fait diminuer cette dernière lors de la

recherche visuelle. Tout comme la performance, l’effort n’a pas varié avec le temps passé

sur chacune des deux tâches.

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Stress faible Stress élevé

Per

form

ance

no

rmal

isée

N-back

Recherche visuelle

72

Tableau 12 -

Scores moyens de l’effort dans les quatre conditions

Dimension Difficulté →

Stress ↓ Faible Élevée

Effort (n-back) Faible 0,3741 0,5261

Élevé 0,3957 0,5184

Effort (Recherche

visuelle)

Faible 0,2820 0,0835

Élevé 0,2990 0,1105

Effort global Faible 0,3289 0,2907

Élevé 0,3473 0,3145

Figure 17 : Score d’effort en fonction de la difficulté et de la tâche.

3.2.3 Analyse des métriques physiologiques

Étant donné le nombre élevé de métriques physiologique (180), il n’est pas réaliste de

présenter la variance de chacune d’entre elles pour les six variables d’intérêt de cette

expérience. Seulement quelques métriques physiologiques parmi les plus communes de la

littérature seront présentées. Pour l’activité cardiaque, on présente la moyenne de la durée

entre les battements (RRMoy), la variabilité cardiaque (RRSDNN), ainsi que le ratio LF/HF

(RRLF/HF). Pour la respiration, on présente la durée moyenne des respirations (RSPDur) ainsi

que l’amplitude moyenne des inspirations (RSPAMoy). Pour l’activité électrodermale, on

0

0,1

0,2

0,3

0,4

0,5

0,6

Difficulté faible Difficulté élevée

Eff

ort

N-back

Recherche visuelle

73

présente le niveau électrodermal moyen (EDAMoy) et la durée moyenne des réponses

(EDADur). Pour la pupille, on ne présente que le diamètre moyen (PUPMoy). Finalement, pour

les mouvements oculaires, on présente le nombre de fixations (GAZNF), ainsi que la durée

totale des saccades (GAZTotS). Des tests-t sont effectués afin de déterminer si les différences

sont significatives entre les deux niveaux de chaque variable d’intérêt. Les résultats sont

présentés au Tableau 13 (valeurs normalisées). Il est possible de voir que le RRMoy diminue10

entre le repos initial et la tâche, diminue avec l’augmentation de la difficulté ou de l’effort et

augmente lors de la tâche de recherche visuelle. Aucune différence significative n’est

observée pour la variabilité cardiaque (RRSDNN). Quant au ratio RRLF/HF, on peut voir que ce

dernier augmente entre la tâche de n-back et la recherche visuelle. La durée de respiration

(RSPDur)11 observée est plus courte lorsque la performance et l’effort sont élevés. Quant à

l’amplitude respiratoire (RSPAmoy), celle-ci est plus élevée lors des tâches, lorsque la

difficulté est élevée et lorsque la performance est faible. Au niveau de l’activité

électrodermale, l’analyse montre que toutes les variables d’intérêt présentent des différences

significatives. Plus précisément, le niveau électrodermal (EDAMoy) est plus élevé lors du

repos, lorsque la tâche est facile ou stressante, lors du n-back et lorsque la performance et

l’effort sont élevés. Un patron inverse est observable pour l’amplitude des pics

électrodermaux (EDADur), à l’exception du stress, pour lequel aucun effet n’est observé. Au

niveau pupillaire, il est montré que le diamètre pupillaire (PUPMoy) est plus élevé lorsque les

participants sont stressés, lorsqu’ils fournissent un effort et lors de la tâche de n-back.

Finalement, aucune variation significative n’est observée pour les deux métriques oculaires.

Une analyse est également effectuée afin de visualiser la variabilité de toutes les métriques

physiologiques en fonction des variables d’intérêt. Cette information est synthétisée au

Tableau 14. Le tableau présente la moyenne du d de Cohen pour chaque sous-ensemble de

métriques physiologique et chaque variable d’intérêt. Les d de Cohen sont calculés en valeur

absolue pour ne capturer que la magnitude de la taille d’effet (et non la direction). Le tableau

montre que presque tous les sous-ensembles de métriques physiologiques sont différents

10 Affirmer que le RRMoy diminue est l’équivalent de dire que le rythme cardiaque augmente (et vice versa). 11 Affirmer que le RSPDur diminue est l’équivalent de dire que le rythme respiratoire augmente (et vice versa).

74

entre le repos initial et la tâche. L’analyse des pics respiratoires, l’analyse statistique de

l’activité électrodermale ainsi que l’analyse pupillaire semblent présenter de la variance entre

les deux niveaux de difficulté. De manière générale, la variance physiologique semble faible

entre le stress faible et élevé. Les différences sont principalement observées dans l’analyse

des pics électrodermaux ainsi que dans l’analyse statistique pupillaire. Il semble y avoir une

variance très élevée entre les deux tâches, et ce pour presque tous les sous-ensembles de

métriques physiologiques. Pour la performance, la variance semble observable dans l’analyse

respiratoire, dans l’analyse statistique électrodermale ainsi que dans l’analyse fréquentielle

pupillaire. Quant à l’effort, la majorité des sous-ensembles physiologiques semblent

présenter de la variance entre l’effort faible et l’effort élevé.

Tableau 13 -

Taille d’effet des métriques physiologique

Métrique

d de Cohen

Repos

initial Difficulté Stress Tâche Perf. Effort

RRMoy 0,36 -0,33 -0,01 0,85 0,15 -0,42

RRSDNN 0,73 -0,15 0,18 0,14 0,07 0,05

RRLF/HF 0,13 0,18 -0,16 0,34 -0,21 -0,25

RSPDur 1,12 0,20 -0,13 0,13 -0,23 -0,25

RSPAMoy 1,66 0,39 0,01 0,05 -0,36 -0,18

EDAMoy 0,59 -0,60 0,35 -1,26 0,84 0,73

EDADur 0,07 0,27 -0,15 0,78 -0,28 -0,51

PUPMoy 1,86 0,15 0,86 -0,29 0,04 0,67

GAZNF 1,01 0,03 -0,04 0,07 -0,07 0,12

GAZTotS 0,94 0,04 0,12 -0,32 -0,02 0,08

Note. p < 0,05 en gras.

75

Tableau 14 -

Moyenne du d de Cohen par groupe de métriques physiologiques

Type de

métrique

Moyenne du d de Cohen

Repos

initial Difficulté Stress Tâche Perf. Effort

RR SD 0,45 0,17 0,11 0,55 0,11 0,25

VC 0,32 0,17 0,15 0,30 0,20 0,19

RSP

SD 0,41 0,23 0,07 0,37 0,32 0,27

AS 0,53 0,23 0,08 0,44 0,24 0,31

AP 0,83 0,27 0,08 0,36 0,29 0,29

EDA

SD 0,52 0,47 0,23 0,73 0,57 0,50

AS 0,12 0,13 0,21 0,06 0,13 0,13

AP 0,20 0,24 0,29 0,54 0,20 0,38

PUP

SD 1,51 0,27 0,28 0,45 0,23 0,33

AS 0,28 0,31 0,16 0,64 0,39 0,41

AP 1,29 0,17 0,11 0,34 0,17 0,11

GAZ FS 0,84 0,16 0,08 0,32 0,12 0,20

Global 0,58 0,22 0,15 0,40 0,24 0,26

Note. SD = Statistiques descriptives, VC = Variabilité cardiaque, AS = Analyse spectrale,

AP = Analyse de pics, FS = Analyse des fixations/saccades, d ≥ 0,25 en gras.

3.2.4 Analyse des modèles d’apprentissage automatique

Avant d’entraîner les modèles de classification, il peut être pertinent de présenter comment

chaque variable se distingue ou ressemble aux autres. Ainsi, pour chaque paire de variables

d’intérêt, on calcule le Kappa de Cohen. Si, par exemple, une paire présente un κ près de -1

ou près de 1, il n’est pas nécessaire d’entraîner deux classificateurs étant donné que ces

derniers sont presque identiques. Dans cette étude, on choisit que le seuil maximum entre

deux variables soit |κ| < 0,80; ce qui correspond à environ 90% de similitude entre les

variables. Le Tableau 15 montre que les variables de cette analyse sont plutôt différentes.

Aucune comparaison n’est faite avec la variable « Repos initial » étant donné qu’il n’existe

pas de niveaux de difficulté, de stress de performance et d’effort lors du repos initial. Il y a

une forte association négative entre la difficulté et la performance. Mais cette différence n’est

pas assez forte pour justifier de retirer l’une ou l’autre des deux variables. Le Tableau 16

présente les mêmes résultats, mais pour les variables subjectives. Encore une fois, aucune

variable n’est suffisamment associée à une autre pour justifier son retrait. Finalement, le

Tableau 17 présente la vérification de l’indépendance entre les variables objectives et

76

subjectives. Certaines paires, comme la difficulté et l’exigence mentale (κ = 0,48), la

difficulté et l’état général (κ = 0,48), la performance réelle et subjective (κ = 0,58) sont

moyennement associés, mais pas assez pour considérer les deux variables comme identiques.

Tableau 15 -

Vérification de l’indépendance des variables objectives

Stress Tâche Performance Effort

Difficulté 0,0118 0,2570 -0,7251 -0,1128

Stress -0,0154 -0,0271 0,1142

Tâche -0,3130 -0,3939

Performance 0,2800

Note. Mesure fournie en κ entre les variables.

Tableau 16 -

Vérification de l’indépendance des variables subjectives

Ex.T. Perf. Eff. Fru. Foc. Fat. Str. É.G.

Ex.M. 0,3255 -0,4070 0,3039 0,3246 0,1255 0,1441 0,3872 -0,4017

Ex.T. -0,2480 0,3624 0,2671 0,0318 -0,0611 0,4045 -0,1880

Per. -0,1410 -0,4687 -0,1537 -0,1977 -0,3518 0,4481

Eff. 0,2400 -0,0538 -0,1013 0,3364 -0,0254

Fru. 0,1910 0,1544 0,4490 -0,2286

Foc. 0,2342 0,1537 -0,1692

Fat. 0,0584 -0,2710

Str. -0,1915

Note. Mesure fournie en κ entre les variables.

77

Tableau 17 -

Vérification de l’indépendance des variables objectives/subjectives

Difficulté Stress Tâche Performance Effort

Ex.M. 0,4870 0,1735 -0,1068 -0,4150 0,3758

Ex.T. 0,2410 0,2936 0,0006 -0,1468 0,1988

Per. -0,5821 -0,2083 -0,0108 0,5861 -0,1644

Eff. 0,2251 0,1544 -0,0198 -0,0676 0,1904

Fru. 0,3477 0,3072 -0,2043 -0,3234 0,2610

Foc. 0,0930 0,1702 -0,0673 -0,1435 0,1624

Fat. 0,2399 0,0256 0,0811 -0,2823 0,0465

Str. 0,2499 0,4232 -0,2431 -0,2070 0,3217

É.G. -0,4853 -0,1516 -0,0505 0,5407 -0,0618

Note. Mesure fournie en κ entre les variables.

Le Tableau 18 présente la performance des classificateurs SVM pour l’ensemble de tests en

fonction de la classe et du sous-ensemble de métrique physiologique. Les variables du repos

initial et de la tâche présentent les performances les plus élevées (respectivement κ = 0,72 et

κ = 0,76; lorsque toutes les métriques sont fournies). Pour ces deux variables, les prédictions

restent significatives même lorsque le sous-ensemble le plus petit (RR-RSP) est utilisé. Le

classificateur de la difficulté atteint une performance plutôt bonne (κ = 0,38) et seul le groupe

RR-RSP n’a pas permis d’atteindre une classification significative. La performance du

classificateur de stress est légèrement plus faible (κ = 0,26) et n’est significative qu'avec les

groupes RR-RSP-EDA-PUP-GAZ et RR-RSP-EDA-PUP. Quant à la performance et l’effort,

la qualité de prédiction est également bonne (κ = 0,40 et κ = 0,34; respectivement) et la

prédiction n’est non significative que pour le groupe RR-RSP. Quant aux variables

subjectives (le NASA-TLX, voir Tableau 19), seule la dimension du stress s’est montrée

significative (κ = 0,29). Les résultats sont similaires pour la performance en prédiction pour

le classificateur linéaire (voir Tableau 20 pour les valeurs exactes). La différence la plus

importante se trouve au niveau de la classification du stress. En effet, seul le groupe

RR-RSP-EDA-PUP a pu atteindre une classification significative (κ = 0,38) pour cette

variable. Quant aux dimensions subjectives, le classificateur linéaire (Tableau 21) a été

capable d’atteindre une classification significative pour la dimension du stress (κ = 0,28) et

celle de l’exigence temporelle (κ = 0,22).

78

Tableau 18 -

Performance en test des variables en fonction des métriques utilisées pour un classificateur

SVM

Classe Métriques Époques de 120 secondes

κ p

Repos initial

RR-RSP-EDA-PUP-GAZ 0,7211 < 0,001

RR-RSP-EDA-PUP 0,6696 < 0,001

RR-RSP-EDA 0,4595 < 0,001

RR-RSP 0,4312 < 0,001

Difficulté

RR-RSP-EDA-PUP-GAZ 0,3855 < 0,001

RR-RSP-EDA-PUP 0,2925 < 0,001

RR-RSP-EDA 0,3237 < 0,001

RR-RSP 0,1722 0,0164

Stress

RR-RSP-EDA-PUP-GAZ 0,2635 < 0,001

RR-RSP-EDA-PUP 0,2969 < 0,001

RR-RSP-EDA 0,1761 0,0037

RR-RSP 0,0817 0,1710

Tâche

RR-RSP-EDA-PUP-GAZ 0,7676 < 0,001

RR-RSP-EDA-PUP 0,7389 < 0,001

RR-RSP-EDA 0,6334 < 0,001

RR-RSP 0,4786 < 0,001

Performance

RR-RSP-EDA-PUP-GAZ 0,4028 < 0,001

RR-RSP-EDA-PUP 0,3765 < 0,001

RR-RSP-EDA 0,3607 < 0,001

RR-RSP 0,1636 0,0063

Effort

RR-RSP-EDA-PUP-GAZ 0,3483 < 0,001

RR-RSP-EDA-PUP 0,3218 < 0,001

RR-RSP-EDA 0,3097 < 0,001

RR-RSP 0,1989 0,0021

Note. p < 0,001 en gras.

79

Tableau 19 -

Performance en test des réponses subjectives du NASA-TLX pour un classificateur SVM

Classe Métriques Époques de 120 secondes

κ p

Exigence mentale RR-RSP-EDA-PUP-GAZ 0,0451 0,4903

Exigence

temporelle RR-RSP-EDA-PUP-GAZ 0,1150 0,0750

Performance RR-RSP-EDA-PUP-GAZ 0,1099 0,1052

Effort RR-RSP-EDA-PUP-GAZ 0,1696 0,0096

Frustration RR-RSP-EDA-PUP-GAZ 0,0896 0,1707

Focus RR-RSP-EDA-PUP-GAZ 0,0035 0,9599

Fatigue RR-RSP-EDA-PUP-GAZ 0,0922 0,1651

Stress RR-RSP-EDA-PUP-GAZ 0,2999 < 0,001

État général RR-RSP-EDA-PUP-GAZ 0,1809 0,0059

Note. p < 0,001 en gras.

80

Tableau 20 -

Performance en test des variables en fonction des métriques utilisées pour un classificateur

linéaire

Classe Métriques Époques de 120 secondes

κ p

Repos initial

RR-RSP-EDA-PUP-GAZ 0,6483 < 0,001

RR-RSP-EDA-PUP 0,7223 < 0,001

RR-RSP-EDA 0,3703 < 0,001

RR-RSP 0,3605 < 0,001

Difficulté

RR-RSP-EDA-PUP-GAZ 0,2989 < 0,001

RR-RSP-EDA-PUP 0,2989 < 0,001

RR-RSP-EDA 0,1785 0,0078

RR-RSP 0,0997 0,1608

Stress

RR-RSP-EDA-PUP-GAZ 0,1967 0,0026

RR-RSP-EDA-PUP 0,3888 < 0,001

RR-RSP-EDA 0,1106 0,0687

RR-RSP -0,0252 0,6723

Tâche

RR-RSP-EDA-PUP-GAZ 0,7604 < 0,001

RR-RSP-EDA-PUP 0,7801 < 0,001

RR-RSP-EDA 0,5772 < 0,001

RR-RSP 0,5246 < 0,001

Performance

RR-RSP-EDA-PUP-GAZ 0,4273 < 0,001

RR-RSP-EDA-PUP 0,5076 < 0,001

RR-RSP-EDA 0,4051 < 0,001

RR-RSP 0,1113 0,0634

Effort

RR-RSP-EDA-PUP-GAZ 0,3393 < 0,001

RR-RSP-EDA-PUP 0,2797 < 0,001

RR-RSP-EDA 0,2318 < 0,001

RR-RSP 0,2442 < 0,001

Note. p < 0,001 en gras.

81

Tableau 21 -

Performance en test des réponses subjectives du NASA-TLX pour un classificateur linéaire

Classe Métriques Époques de 120 secondes

κ p

Exigence mentale RR-RSP-EDA-PUP-GAZ 0,0123 0,8507

Exigence

temporelle RR-RSP-EDA-PUP-GAZ 0,2211 < 0,001

Performance RR-RSP-EDA-PUP-GAZ 0,0517 0,4286

Effort RR-RSP-EDA-PUP-GAZ 0,1812 0,0065

Frustration RR-RSP-EDA-PUP-GAZ 0,0973 0,1394

Focus RR-RSP-EDA-PUP-GAZ -0,1222 0,0615

Fatigue RR-RSP-EDA-PUP-GAZ 0,1026 0,1165

Stress RR-RSP-EDA-PUP-GAZ 0,2871 < 0,001

État général RR-RSP-EDA-PUP-GAZ 0,1756 0,0072

Note. p < 0,001 en gras.

3.2.5 Méta-analyse des classificateurs

Les résultats présentés précédemment semblent suggérer que la classification est meilleure

lorsque plus de métriques physiologiques sont fournies. Afin de valider cette observation et

de mieux décrire la performance des classificateurs, une régression logistique multiple est

effectuée. Pour chaque échantillon testé par les classificateurs, l’exactitude de la

classification est retenue comme variable dépendante (une variable binaire ayant pour valeur

« 0 » si la classification est incorrecte ou « 1 » si la classification est correcte). Les variables

indépendantes retenues sont le niveau de difficulté, le niveau de stress, la tâche, le niveau de

performance, le niveau d’effort, le sous-ensemble de métriques physiologique ainsi que le

type de classificateur. Les résultats de cette analyse sont présentés au Tableau 22. L’analyse

suggère que la classification est moins bien réussie lorsque les participants fournissent un

effort élevé (β = -0,25; p < 0,001). L’analyse montre aussi que la probabilité de bien classifier

un échantillon augmente lorsque plus de métriques physiologiques sont fournies. Il ne semble

pas y avoir eu une grande différence sur la performance en classification entre le sous-

82

ensemble RR-RPS-EDA-PUP (β = 0,51; p < 0,001) et le sous-ensemble

RR-RSP-EDA-PUP-GAZ (β = 0,49; p < 0,001). Les autres facteurs n’ont pas eu d’influence

sur la performance de classification. On note toutefois une tendance non significative à mieux

classifier lorsque la difficulté est élevée (β = 0,13; p = 0,0834).

Tableau 22 -

Régression logistique multiple effectuée sur la performance en classification

Variable indépendante Coefficient (β)

Constante 0,5539

Difficulté élevée 0,1311

Stress élevé -0,0323

Recherche visuelle (vs. n-back) -0,0492

Performance élevée -0,0794

Effort élevé -0,2516

Métriques RR-RSP-EDA (vs. RR-RSP) 0,2948

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,5191

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,4963

Classificateur linéaire (vs. SVM) -0,0499

Note. p < 0,001 en gras.

La contribution particulière des métriques peut être examinée en analysant les poids

déterminés par les classificateurs. Cette analyse ne peut être effectuée que pour le

classificateur linéaire puisque l’utilisation du kernel rend difficile l’interprétation des poids

du classificateur SVM (Cornuéjols et Miclet, 2010). Le Tableau 23 présente le pourcentage

des poids de chaque modalité physiologique selon le classificateur et le sous-ensemble de

métrique physiologique. Ce pourcentage est ajusté au nombre de métriques présent dans

chaque type de modalité physiologique. Pour le repos initial, lorsque toutes les métriques

sont fournies, les contributions les plus importantes proviennent de la pupille et des

mouvements oculaires. Lorsque les mouvements oculaires sont retirés, la respiration devient

tout aussi importante que la pupille. Finalement, lorsque la pupille est retirée, la respiration

devient la principale source d’information pour le classificateur. Pour la difficulté, on

remarque que les poids sont répartis plutôt également, sauf pour les mouvements oculaires,

qui ne comptent que pour 6% de la contribution. Pour le classificateur du stresseur, la

majorité de la contribution provient de la pupille. Pour la tâche, les poids sont répartis plutôt

uniformément, sauf pour les mouvements oculaires (9%) et la respiration (entre 7% et 37%).

83

Encore une fois, les mouvements oculaires ne sont que peu utilisés pour la classification de

la performance (3%). Lorsque les métriques restantes sont RR-RSP-EDA, 57% des poids

proviennent de l’EDA. Quant à l’effort, la pupille et les mouvements oculaires sont très

utilisés lorsque toutes les métriques sont fournies. Les poids semblent répartis uniformément

pour tous les autres sous-ensembles de métriques. La Figure 18 présente graphiquement les

valeurs de ce tableau pour le groupe RR-RSP-EDA-PUP-GAZ.

Tableau 23 -

Pourcentage de la contribution des modalités physiologiques selon les classificateurs

Classe Métriques Pourcentage de contribution

RR RSP EDA PUP GAZ

Repos initial

RR-RSP-EDA-PUP-GAZ 3% 18% 2% 34% 44%

RR-RSP-EDA-PUP 6% 43% 7% 45% -

RR-RSP-EDA 3% 93% 4% - -

RR-RSP 17% 83% - - -

Difficulté

RR-RSP-EDA-PUP-GAZ 17% 11% 29% 37% 6%

RR-RSP-EDA-PUP 14% 13% 29% 44% -

RR-RSP-EDA n.s.

RR-RSP n.s.

Stress

RR-RSP-EDA-PUP-GAZ n.s.

RR-RSP-EDA-PUP 10% 7% 19% 63% -

RR-RSP-EDA n.s.

RR-RSP n.s.

Tâche

RR-RSP-EDA-PUP-GAZ 28% 7% 21% 35% 9%

RR-RSP-EDA-PUP 30% 7% 20% 43% -

RR-RSP-EDA 44% 15% 41% - -

RR-RSP 63% 37% - - -

Performance

RR-RSP-EDA-PUP-GAZ 14% 16% 37% 30% 3%

RR-RSP-EDA-PUP 11% 16% 39% 33% -

RR-RSP-EDA 21% 22% 57% - -

RR-RSP n.s.

Effort

RR-RSP-EDA-PUP-GAZ 13% 10% 15% 35% 27%

RR-RSP-EDA-PUP 20% 12% 17% 52% -

RR-RSP-EDA 31% 32% 37% - -

RR-RSP 56% 44% - - -

Note. Résultats rapportés seulement pour le classificateur linéaire. Seuls les classificateurs

ayant atteint le seuil de signification sont rapportés. Les autres sont marqués « n.s. ». À

cause de l’arrondissement des valeurs, la somme d’une ligne peut ne pas toujours donner

100%.

84

Figure 18 : Contribution des modalités physiologiques selon le classificateur.

Pour clore cette analyse, la liste des 10 métriques physiologiques les plus utilisées par chaque

classificateur est analysée (lorsque toutes les métriques sont fournies). L’analyse montre que

le repos initial (Tableau 24) est caractérisé par une pupille fortement dilatée (voir rang 1-2)

variant beaucoup de manière lente (rang 9-6 respectivement), un grand nombre de saccades

oculaires (voir rang 3) et une respiration profonde, irrégulière et lente (voir rang 4-5-8

respectivement). Une difficulté élevée (Tableau 25) est caractérisée par un rythme cardiaque

plus élevé (temps inter battement plus faible) (rang 1-4), une diminution des basses

fréquences de l’EDA (rang 2), une transition vers les hautes fréquences pupillaires (rang-3-

8-10) et une pupille initialement petite qui augmente de manière progressive avec la tâche

(rang 5-6). Le classificateur du stress (Tableau 26) a déterminé qu’un stress élevé faisait

augmenter le diamètre de la pupille (rang 1-2), faisait augmenter ses fréquences moyennes et

hautes (rangs 8-10 et 3-4 respectivement), faisait augmenter le maximum des basses

fréquences cardiaques (rang 4) et générait des pics amples d’activité électrodermale dans la

bande 70 à 80 mHz (rangs 6-7-9). Le classificateur de tâche (Tableau 27) montre que la tâche

de recherche visuelle, à l’instar de la tâche de n-back, était caractérisée par une pupille

initialement petite, croissante pendant la tâche (rangs 1-3) et variant de manière lente (rangs

7-8). On remarque également une diminution de l’EDA (rangs 2-10) et de l’activité cardiaque

(rangs 5-6) et une activité cardiaque étendue sur une plus grande plage (rangs 4-9). Une

performance (Tableau 28) élevée est caractérisée par une transition vers les basses fréquences

0%

10%

20%

30%

40%

50%

60%

70%

Repos initial Difficulté Stress Tâche Performance Effort

Po

urc

enta

ge

con

trib

uti

on

RR RSP EDA PUP GAZ

85

de l’EDA (rangs 1-3, le rang 9 contredit toutefois un peu cette suggestion), un EDA élevé

(rangs 2-4-8) et une diminution du diamètre pupillaire (rangs 5-6). Finalement, un effort élevé

(Tableau 29) est caractérisé par une pupille de grand diamètre (rangs 1-2), une transition vers

les basses fréquences pupillaires (rangs 4-5-9), un moins grand nombre de saccades (rang 6),

une respiration plus lente (rangs 7) et une activité cardiaque plus lente et irrégulière (rangs

3-8).

Tableau 24 -

Métriques ayant les plus grands poids pour la classification de la classe « Repos initial »

Rang Modalité Métrique βMoy

1 PUP Médiane 0,1120 ± 0,0267

2 PUP Moyenne 0,1100 ± 0,0254

3 GAZ Somme des saccades 0,1085 ± 0,0376

4 RSP Amplitude moyenne des pics 0,1009 ± 0,0330

5 RSP Écart-type des temps intervallées 0,0893 ± 0,0211

6 PUP Maximum du temps inter pic 0,0870 ± 0,0223

7 GAZ Écart-type du temps de saccades 0,0835 ± 0,0366

8 RSP Puissance de la bande 0.125 à 0.150 Hz 0,0693 ± 0,0298

9 PUP Écart-type 0,0672 ± 0,0212

10 RR Maximum bande VLF (Méthode Lomb-Scargle) 0,0614 ± 0,0245

Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.

Tableau 25 -

Métriques ayant les plus grands poids pour la classification de la classe « Difficulté »

Rang Modalité Métrique βMoy

1 RR Médiane -0,1434 ± 0,0241

2 EDA Puissance de la bande 20 à 30 mHz -0,1309 ± 0,0295

3 PUP Puissance de la bande 200 à 225 mHz 0,1303 ± 0,0259

4 RR Moyenne -0,1239 ± 0,0198

5 PUP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1151 ± 0,0153

6 PUP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,1146 ± 0,0150

7 PUP Amplitude moyenne des pics -0,1121 ± 0,0315

8 PUP Puissance de la bande 150 à 175 mHz -0,1121 ± 0,0251

9 PUP Moyenne de la pente des pics -0,1008 ± 0,0318

10 PUP Puissance de la bande 175 à 200 mHz 0,0981 ± 0,0237

Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.

86

Tableau 26 -

Métriques ayant les plus grands poids pour la classification de la classe « Stress »

Rang Modalité Métrique βMoy

1 PUP Moyenne 0,2262 ± 0,0406

2 PUP Médiane 0,2260 ± 0,0384

3 PUP Puissance de la bande 200 à 225 mHz 0,1183 ± 0,0339

4 RR Maximum bande VLF (Méthode Welch) 0,1172 ± 0,0340

5 PUP Puissance de la bande 225 à 250 mHz 0,0993 ± 0,0305

6 EDA Amplitude moyenne des pics 0,0942 ± 0,0186

7 EDA Puissance de la bande 70 à 80 mHz 0,0925 ± 0,0233

8 PUP Puissance de la bande 175 à 200 mHz 0,0894 ± 0,0301

9 EDA Pente moyenne des pics 0,0851 ± 0,0190

10 PUP Puissance de la bande 150 à 175 mHz 0,0785 ± 0,0316

Note. Pour la classe « Stress », on utilise exceptionnellement le groupe de métrique

« RR-RPS-EDA-PUP » étant donné que le groupe « RR-RPS-EDA-PUP-GAZ » n’a pas

donné une classification satisfaisante. Intervalle de confiance calculé avec loi de Student,

α = 0,05.

Tableau 27 -

Métriques ayant les plus grands poids pour la classification de la classe « Tâche »

Rang Modalité Métrique βMoy

1 PUP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,2068 ± 0,0226

2 EDA Minimum -0,1909 ± 0,0236

3 PUP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1907 ± 0,0236

4 RR Minimum 0,1852 ± 0,0258

5 RR Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1812 ± 0,0255

6 RR Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,1694 ± 0,0256

7 PUP Moyenne du temps de montée des pics -0,1694 ± 0,0218

8 PUP Puissance de la bande 0 à 25 mHz -0,1552 ± 0,0157

9 RR Maximum 0,1537 ± 0,0219

10 EDA Médiane -0,1460 ± 0,0249

Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.

87

Tableau 28 -

Métriques ayant les plus grands poids pour la classification de la classe « Performance »

Rang Modalité Métrique βMoy

1 EDA Puissance de la bande 20 à 30 mHz 0,1532 ± 0,0261

2 EDA Minimum 0,1343 ± 0,0156

3 PUP Puissance de la bande 200 à 225 mHz -0,1290 ± 0,0225

4 EDA Moyenne 0,1225 ± 0,0140

5 PUP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,1216 ± 0,0157

6 PUP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,1211 ± 0,0158

7 EDA Minimum des temps interpics -0,1167 ± 0,0187

8 EDA Médiane 0,1142 ± 0,0146

9 PUP Puissance de la bande 175 à 200 mHz 0,1115 ± 0,0210

10 RSP Minimum des temps interpics -0,1092 ± 0,0263

Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.

Tableau 29 -

Métriques ayant les plus grands poids pour la classification de la classe « Effort »

Rang Modalité Métrique βMoy

1 PUP Moyenne 0,1544 ± 0,0394

2 PUP Médiane 0,1488 ± 0,0408

3 RR Maximum bande LF (méthode Lomb-Scargle) 0,1115 ± 0,0341

4 PUP Puissance de la bande 0 à 25 mHz 0,0978 ± 0,0281

5 PUP Puissance de la bande 75 à 100 mHz -0,0846 ± 0,0361

6 GAZ Moyenne du temps de saccades -0,0842 ± 0,0343

7 RSP Puissance de la bande 0 à 25 mHz 0,0841 ± 0,0334

8 RR Asymétrie de la distribution 0,0822 ± 0,0286

9 PUP Puissance de la bande 175 à 200 mHz -0,0816 ± 0,0290

10 EDA Minimum du temps de montée de pics -0,0815 ± 0,0321

Note. Intervalle de confiance calculé avec loi de Student, α = 0,05.

3.2.6 Analyses de paramètres supplémentaires

Lors de ces analyses, il a été nécessaire de faire certains choix techniques, tels que le

pourcentage de chevauchement des époques et le nombre de classificateurs entraînés pour

faire un choix de validation. Étant donné le temps de calcul, il n’est pas possible d’explorer

les effets de toutes les combinaisons de paramètres techniques sur la performance en

classification. Toutefois, quelques analyses supplémentaires simples peuvent être effectuées

afin de déterminer leur impact. Comme première analyse, on vérifie l’effet du

chevauchement des époques sur la performance en classification. Deux chevauchements

88

d’époques sont examinés, soit 0% (aucun chevauchement) et 50%. Les résultats sont

présentés au Tableau 30. Les données sans chevauchement sont tirées du Tableau 18 et du

Tableau 20 déjà décrit plus haut. La classe du repos initial n’est pas représentée pour

simplifier les analyses. Tous les modèles de ce tableau sont entraînés avec toutes les

métriques physiologiques. L’analyse montre que l’inclusion du chevauchement n’améliore

pas la qualité de la classification. On décèle même plutôt une tendance à la faire diminuer

(β = -0,09; p = 0,08). Comme relevé précédemment, l’effort élevé est associé à une moins

bonne qualité de classification. Cette fois-ci, on note un effet significatif de la difficulté

(β = 0,21; p = 0,0167). Il semble que lorsque les tâches sont difficiles, les classificateurs sont

plus performants.

Tableau 30 -

Performance des classificateurs en fonction du chevauchement des époques

Variable Classificateur Chevauchement des

époques

Époques de

120 secondes

κ p

Difficulté

SVM 0% 0,3855 < 0,001

SVM 50% 0,2677 < 0,001

Linéaire 0% 0,2989 < 0,001 Linéaire 50% 0,2952 < 0,001

Stress

SVM 0% 0,2635 < 0,001

SVM 50% 0,2409 < 0,001

Linéaire 0% 0,1967 0,0026

Linéaire 50% 0,2588 < 0,001

Tâche

SVM 0% 0,7676 < 0,001

SVM 50% 0,6224 < 0,001

Linéaire 0% 0,7604 < 0,001

Linéaire 50% 0,6803 < 0,001

Performance

SVM 0% 0,4028 < 0,001

SVM 50% 0,4000 < 0,001

Linéaire 0% 0,4273 < 0,001

Linéaire 50% 0,3788 < 0,001

Effort

SVM 0% 0,3483 < 0,001

SVM 50% 0,3204 < 0,001

Linéaire 0% 0,3393 < 0,001

Linéaire 50% 0,2566 < 0,001

Note. Résultats présentés avec toutes les métriques (RR-RSP-EDA-PUP-GAZ), (p < 0,001

en gras).

89

Tableau 31 -

Régression logistique multiple effectuée sur la performance en classification

Variable indépendante Coefficient

Constante 1.0208

Difficulté élevée 0,2140

Stress élevé -0,0252

Recherche visuelle (vs. n-back) -0,0414

Performance élevée -0,0891

Effort élevé -0,3624

Classificateur linéaire (vs. SVM) -0,0244

Chevauchement (vs. sans chevauchement) -0,0935

Note. p < 0,001 en gras.

3.3 Discussion

Les résultats présentés précédemment montrent qu’il a été possible d’entraîner des

classificateurs pouvant prédire différentes variables d’intérêt relatives à cette expérience. Il

est toutefois nécessaire de discuter des résultats obtenus afin de voir s’ils permettent bien

l’atteinte des objectifs de ce projet. La présente section discutera d’abord des différentes

mesures (subjectives, comportementales et physiologiques) qui ont été enregistrées. Cette

discussion permettra de mieux décortiquer les variations de la charge mentale telle qu’elle a

été vécue par les participants. La discussion poursuivra avec une analyse des classificateurs,

de leur performance ainsi que de leur fonctionnement. Finalement, un bref retour sur les

objectifs globaux et des suggestions pour l’expérience suivante concluront la section.

3.3.1 Discussion sur les mesures

Cette expérience avait pour but de provoquer diverses formes de charge mentale lors de la

réalisation de tâches expérimentales simples. Bien que les manipulations expérimentales de

difficulté, de stress et de tâches aient été faites de manière à être indépendantes les unes des

autres, l’expérience, telle que vécue par les participants, peut avoir été différente. Cette

section détaillera les diverses mesures, subjectives, comportementales et physiologiques, afin

de mieux comprendre comment les différentes composantes de la charge mentale ont évolué

au cours de l’expérience.

90

3.3.1.1 Discussion sur les mesures subjectives

Les résultats du NASA-TLX permettent de décortiquer la charge mentale subjective des

participants. Tel qu’on peut s’y attendre, l’augmentation de la difficulté a provoqué une

augmentation de l’exigence mentale perçue. Malgré que, dans cette étude, le stresseur retenu

visait à être distinct de l’exigence mentale, les participants ont indiqué que la présence du

stresseur augmentait aussi l’exigence mentale. Ce résultat est probablement causé par les

instructions qu’on reçut les participants. Ces instructions leur disaient que la présence de la

punition sonore aversive était causée par une mauvaise performance. Rappelons que cette

punition sonore était, en réalité, déclenchée de manière aléatoire. Cette augmentation de

l’exigence mentale n’est toutefois pas une erreur de conception de l’expérience. En effet, les

instructions précisaient aussi que la punition sonore n’était pas associée à une tâche plus

difficile. Il est donc possible que les participants n’aient pas cru les instructions ou qu’ils les

aient oubliés au moment de faire la tâche. Il est également possible que la présence du

stresseur ait créé une forme de charge extrinsèque (voir Galy, Cariou et Mélan, 2012) et que

les participants l’aient perçu ainsi au lieu de par le stress.

Un patron similaire a été observé pour l’exigence temporelle. La difficulté et le stress ont

tous deux augmenté l’exigence temporelle perçue. Une interaction a toutefois été observée

entre le stress et la tâche. Cette interaction peut facilement être expliquée en comparant les

deux tâches. La principale difficulté de la tâche de n-back provient possiblement de la charge

en mémoire qu’elle impose (Schoofs, Preuß, Wolf, 2008). Même si les participants recevaient

comme instruction de répondre le plus rapidement possible, ces derniers n’ont pas considéré

que la tâche était plus temporellement exigeante à la difficulté élevée. À l’inverse, la tâche

de recherche visuelle était beaucoup plus associée à une exigence temporelle puisque les

participants avaient très peu de temps pour effectuer leur recherche. L’exigence temporelle

est souvent associée au stress (p.ex. Matthews et Campbell, 2010). Étant donné que

l’exigence temporelle était plus élevée lors de la recherche visuelle, on pourrait faire

l’hypothèse que cette dernière était plus stressante. Les résultats des analyses montrent

toutefois le contraire. Dans l’ensemble, la tâche de n-back a été perçue comme plus stressante

et plus frustrante. Le stress et la frustration, bien que fortement influencée par la présence du

91

stresseur, ont également augmenté avec la difficulté, renforçant encore une fois la difficulté

à éliciter de manière indépendante de l’exigence ou du stress.

Étrangement, les participants ont indiqué qu’ils n’ont pas effectué un effort plus grand

lorsque le stresseur était présent, mais seulement lorsque la difficulté augmentait.

L’augmentation de l’effort provoqué par la difficulté est attendue. Ce résultat montre que la

charge mentale n’était pas maximale lors des conditions faciles, puisque les participants

avaient encore des ressources supplémentaires à investir lors des niveaux de difficulté élevés.

L’absence d’effort supplémentaire lors de la présence du stresseur peut laisser croire que

certains participants se sont doutés que la punition sonore n’était pas réellement associée à

leur performance puisqu’ils n’ont pas senti le besoin d’investir plus d’effort lorsque celle-ci

était présente. Cette punition « injustifiée » peut donc avoir été une source de frustration et

de dérangement chez les participants. Les scores de frustration et de stress sont d’ailleurs

plus élevés en présence du stresseur. Les corrélations entre le temps passé sur la recherche

visuelle et l’effort/la frustration NASA-TLX pourrait d’ailleurs être expliqués par le fait que

plus l’expérience progressait, plus les participants entendaient la punition sonore et plus ils

étaient frustrés l’entendre malgré leur performance. Malgré que la présence du stresseur n’ait

que très peu affecté la performance, les participants ont rapporté avoir eu une moins bonne

performance lors des conditions stressantes. L’hypothèse la plus probable pour expliquer ce

résultat se trouve probablement dans les instructions de la tâche, qui, encore une fois,

précisaient que la punition sonore était provoquée par leur mauvaise performance.

Quant à l’évaluation subjective de la fatigue, seul un effet de la difficulté a été observé.

Malgré que la tâche de recherche visuelle ait toujours passé en deuxième, les participants

n’ont pas rapporté être plus fatigués lors de cette dernière. La fatigue était aussi constante à

l’intérieur des quatre essais de chaque tâche. Cette absence d’effet est possiblement causée

par la faible durée totale de l’expérience. En effet, chaque essai prenait un peu plus de 2

minutes à compléter, ce qui fait que le temps total de passation, incluant les pauses et les

questionnaires, était de moins d’une heure.

92

3.3.1.2 Discussion sur les mesures comportementales

L’effet simple de la difficulté sur la performance est un indice qui suggère que la

manipulation expérimentale a été réussie et que l’exigence mentale était effectivement plus

élevée lors des conditions difficiles. Malgré que la tâche de n-back ait été jugée plus

stressante, plus frustrante et également plus exigeante, celle-ci a été mieux réussie que la

tâche de recherche visuelle. Il est possible de faire l’hypothèse que ce résultat est causé par

la fatigue des participants (étant donné que la recherche visuelle passait toujours en

deuxième). Les mesures subjectives et la courte durée de l’expérience laissent toutefois croire

que la fatigue n’a pas eu un effet considérable pendant l’expérience. L’interaction entre la

difficulté et la tâche suggère simplement que l’écart entre les niveaux de difficulté était plus

grand pour la tâche de recherche visuelle que pour le n-back. Mis à part les hypothèses

relatives à la charge mentale, il est important de garder en-tête que la performance des deux

tâches ont été obtenue en faisant une normalisation entre le meilleur et le pire score de chaque

tâche. Il est donc nécessaire d’être prudent dans la comparaison de la performance entre les

deux tâches.

Quant à la mesure de l’effort, les résultats montrent que celui-ci était plus élevé lors de la

tâche de n-back. Ils montrent également que l’effort augmentait avec la difficulté lors du

n-back, mais diminuait avec la difficulté lors de la recherche visuelle. En comparaison avec

l’exigence mentale, l’effort mental est rarement mesuré. Celui-ci est plutôt estimé avec des

marqueurs physiologiques (p.ex. Fairclough et Houston, 2004). Il est donc difficile de

comparer les résultats obtenus avec la littérature. Peu d’indices laissent croire que les

individus vont fournir moins d’effort à une tâche de recherche visuelle plutôt que de n-back.

Tout comme pour la performance, cette baisse pourrait être attribuable à la fatigue. Il est

également possible que l’évaluation subjective de l’exigence mentale ait été biaisée lors de

l’expérience. En effet, comme l’ordre des tâches n’était pas contrebalancé, ou encore que les

deux tâches n’étaient pas mélangées, il n’y avait qu’un seul moment dans toute l’expérience

où les participants passaient de n-back à la recherche visuelle, diminuant le nombre

d’occasions où ces derniers pouvaient comparer les deux tâches entre-elles. Quant à

l’interaction, elle suggère que l’augmentation de la difficulté, lors de la tâche de n-back, était

accompagnée d’une évaluation plus prononcée de l’exigence mentale. À l’inverse, la baisse

93

d’effort en recherche visuelle suggère que les participants avaient des résultats moins bons,

mais qu’ils ne considéraient pas que la tâche était plus difficile.

3.3.1.3 Discussion sur les mesures physiologiques

Afin de complémenter les mesures subjectives et comportementales, il est possible d’analyser

aussi les mesures physiologiques. Toutefois, il est important de garder à l’esprit qu’une des

problématiques de ce projet de thèse est le manque de diagnosticité des mesures

physiologiques périphériques de la charge mentale. Il est donc nécessaire d’interpréter les

manifestations physiologiques mesurées dans cette expérience avec prudence. Tel que décrit

dans la section des résultats, seulement 10 des 180 métriques physiologiques sont détaillées

plus en profondeur.

Malgré que la littérature détaille en grand nombre les effets de l’exigence et du stress sur les

diverses métriques cardiaques, et particulièrement celles associées à la variabilité cardiaque,

celles-ci, de manière générale, n’ont pas présenté de fortes différences entre les différents

niveaux de difficulté et de stress. Rappelons que trois métriques cardiaques ont été retenues

pour une analyse plus détaillée (la durée entre les battements cardiaques, la variabilité

cardiaque et le ratio des basses sur les hautes fréquences cardiaques). La durée entre les

battements cardiaque est, au mieux, un indicateur général de l’activation de l’individu (Betts,

2013). Il est donc normal que cette dernière diminue entre le repos et la tâche et qu’elle

diminue avec l’augmentation de la difficulté et de l’effort. Deux hypothèses peuvent être

retenues pour l’augmentation de la durée entre les battements cardiaques pour la tâche de

recherche visuelle (par rapport à la tâche de n-back). Il est d’abord possible de suggérer que

le simple fait de rester assis ait diminué le rythme cardiaque. Toutefois, Fairclough, Venables

et Tattersall (2005) suggèrent que le rythme cardiaque devrait être plus sensible à l’exigence

qu’au temps passé sur la tâche. Il est donc possible que la tâche de recherche visuelle ait été

moins exigeante et moins stressante. Il est toutefois difficile de se prononcer exactement sur

ce point; les mesures subjectives suggèrent que la recherche visuelle était moins stressante,

mais les mesures comportementales suggèrent qu’elle était plus difficile. Le stresseur n’a pas

eu d’effet sur les trois métriques cardiaques retenues. Ce résultat peut sembler étonnant

considérant que des travaux similaires (p.ex. Mandrick et coll., 2016) repèrent un effet du

94

stresseur sur le rythme et la variabilité cardiaque. Il est possible que l’absence d’effet soit

causée par la faible durée des essais expérimentaux. Typiquement, des périodes de 5 minutes

sont utilisées pour détecter la variabilité cardiaque (Kleiger, Stein et Bigger, 2005). La tâche

est la seule variable dépendante qui a influencé de manière significative le ratio des basses

sur les hautes fréquences cardiaques. Étant donné que le ratio des basses sur les hautes

fréquences est réputé augmenter avec l’exigence, le stress et l’effort et parfois même avec la

fatigue, le ratio des basses sur les hautes fréquences cardiaques permet difficilement de

contribuer au diagnostic.

Les métriques respiratoires obtenues à partir de l’analyse fréquentielle ont fait ressortir de la

variabilité pour plusieurs variables d’intérêt, notamment celles associées à la difficulté, à la

performance et à l’effort. La diminution de la durée respiratoire associée avec l’augmentation

de la performance et l’effort concorde avec Bernardi et coll. (2000). L’absence d’effet de la

difficulté et du stress permet de faire l’hypothèse que la durée respiratoire est un indicateur

un peu plus spécifique à l’effort mental réel investi et moins à l’exigence et au stress. Il est

toutefois possible que l’absence d’effet ait été causée par un faible écart entre les niveaux de

difficulté et une faiblesse du stresseur de manière générale. Quant à l’amplitude respiratoire,

celle-ci a augmenté avec la difficulté et la performance, mais pas avec l’effort. Cette

augmentation pourrait avoir été causée par les soupirs des participants, potentiellement plus

présents lors des tâches difficiles (Vlemincx et coll., 2011). Cet indice n’est toutefois pas une

preuve que les soupirs étaient présents ni que ces derniers sont spécifiques à la difficulté.

L’analyse des métriques retenues par les classificateurs pourra peut-être permettre de vérifier

cette hypothèse.

Au niveau électrodermal, les métriques provenant des statistiques descriptives semblent

celles qui ont présenté le plus de variabilité. L’analyse spectrale, de son côté, n’a pas permis

de faire ressortir un grand nombre de différences entre aucune condition. Il est possible que

la bande fréquentielle utilisée n’ait pas été suffisamment large. Dans Shimorura et coll.

(2008), il est précisé que l’analyse spectrale est effectuée entre 0,03 et 0,5 Hz; soit une bande

plus large que dans cette expérience (0 à 0,1 Hz). Toutefois, l’augmentation de la fréquence

de coupure supérieure aurait également eu comme effet d’augmenter la présence des artéfacts

95

du mouvement des mains, qui était déjà fortement présent sur les signaux. Il faut également

prendre en compte que l’analyse spectrale n’est pas typiquement populaire avec les mesures

électrodermales (Boucsein, 2012). Les deux métriques retenues pour la réponse

électrodermale ont présenté plusieurs différences significatives. La différence importante du

niveau électrodermal entre le repos initial et la tâche est possiblement due au fait que le repos

initial était effectué juste après l’arrivée du participant et l’installation des capteurs

physiologiques. Il est donc possible que le simple fait d’être resté assis sur une chaise pendant

l’expérience ait diminué le niveau électrodermal (Boucsein, 2012). Cette raison pourrait aussi

expliquer la baisse entre la tâche de n-back et la recherche visuelle (laquelle, rappelons-le,

était toujours effectuée après la tâche de n-back). L’effet du temps n’a toutefois pas empêché

le niveau électrodermal de remonter à certains moments. L’analyse montre en effet que la

présence du stresseur, la haute performance et l’effort élevé ont tous fait augmenter le niveau

électrodermal. Ce niveau a aussi significativement diminué lors de l’augmentation de la

difficulté. Les variables d’intérêt ont aussi eu plusieurs effets sur la durée des réponses

électrodermales. Typiquement, plus la durée est longue, moins il y a de réponses

électrodermales qui font remonter le niveau, ce qui signifie que les deux sont généralement

inversés. C’est ce qui est observé dans cette étude. À première vue, il est étonnant que le

stresseur n’ait pas diminué la durée des réponses (Carrillo et coll., 2001). Il est toutefois

possible qu’au lieu d’augmenter le nombre de réponses, la présence du stresseur ait provoqué

quelques réponses d’une très grande amplitude. L’analyse détaillée des classificateurs pourra

peut-être permettre de répondre à cette question.

Les métriques pupillaires, et particulièrement celles associées aux statistiques descriptives et

aux analyses fréquentielles, ont permis de détecter une forte variabilité pour la majorité des

variables d’intérêt. L’induction du stress a provoqué une forte augmentation du diamètre

pupillaire. Bien que certains travaux suggèrent que des stresseurs puissent augmenter le

diamètre pupillaire (p.ex. Partala et Surakka, 2003), un grand nombre de travaux documente

également que des distractions sonores puissent être à l’origine de ces augmentations (p.ex.

Marois, Labonté, Parent & Vachon, 2018; Nieuwenhuis et coll., 2011; Wang & Munoz,

2015). Il est intéressant de remarquer que, malgré l’absence d’effet de la difficulté et de la

performance, l’effort a été associé à une très forte augmentation du diamètre moyen, ce qui

96

suggère que le diamètre pupillaire pourrait être plus spécifique à l’effort que la difficulté de

la tâche.

Finalement, les métriques oculaires n’ont présenté que très peu de variabilité. L’absence

d’effet des variables d’intérêt sur les métriques oculaires (GAZNF et GAZTotS) peut

s’expliquer par deux raisons. Premièrement, les métriques des mouvements oculaires utilisés

dans ce projet sont rudimentaires. Deuxièmement, il a été choisi de n’inclure aucune métrique

basée sur la scène et les régions d’intérêt.

3.3.2 Discussion des modèles d’apprentissage automatique

Dans l’ensemble, les modèles d’apprentissage automatique ont atteint des performances très

intéressantes. Selon la méta-analyse des classificateurs, les meilleurs résultats ont été obtenus

par le sous-ensemble RR-RSP-EDA-PUP. La performance légèrement inférieure de

l’ensemble RR-RSP-EDA-PUP-GAZ est peut-être attribuable au fait que les métriques du

groupe GAZ n’ont que très peu contribué à la classification.

La méta-analyse des classificateurs a également révélé que lorsque les participants

fournissaient un effort élevé, la qualité de classification diminuait (pour tous les

classificateurs, pas juste ceux de l’effort). Ce résultat peut vouloir suggérer que la signature

physiologique de l’effort mental domine celles des autres dimensions. La revue de littérature

effectuée au Chapitre 1 ne permet pas de lier cette hypothèse à des travaux passés. Selon cette

revue de littérature, c’est plutôt la fatigue qui aurait une signature physiologique dominante

par rapport aux autres. Tel que relevé plus tôt, les résultats subjectifs et la faible durée de

l’expérience ne permettent pas de suggérer que la fatigue a eu des effets majeurs dans cette

expérience. Il est donc impossible de valider la dominance de la signature physiologique de

la fatigue. Mais l’apparence de dominance de la signature physiologique de l’effort, telle que

relevée dans cette étude, pourrait répondre à la moitié de la question. Il serait ainsi intéressant,

dans une étude subséquente, de vérifier si l’effort élevé et la fatigue élevée diminuent la

qualité de la classification. Un tel résultat pourrait peut-être signifier que l’effort mental et la

fatigue ne sont pas orthogonaux et qu’ils constituent plutôt un seul et même axe de la charge

97

mentale (c.-à-d. qu’il serait possible de faire un effort, ou d’être fatigué, mais pas de faire les

deux en même temps).

La méta-analyse des classificateurs a également révélé qu’aucune des deux méthodes de

classification (SVM ou linéaire) n’a permis d’atteindre une meilleure classification. Les

classificateurs SVM sont généralement réputés pour être moins tolérants à la haute

dimensionnalité (versus les classificateurs linéaires). Étant donné l’absence de différence, on

peut faire l’hypothèse que la haute dimensionnalité du présent projet n’a pas été nuisible au

classificateur SVM.

Quant au chevauchement des époques, l’analyse a montré que celle-ci n’affecte pas la qualité

de classification. L’inclusion du chevauchement dans les mesures physiologiques peut

apporter certains bénéfices. Celui-ci permet d’augmenter le nombre d’échantillons

disponibles pour l’entraînement, la validation et l’évaluation des classificateurs. Plus le

chevauchement est élevé, plus grand est le nombre d’échantillons supplémentaire qu’il est

possible d’ajouter. L’ajout du chevauchement permet aussi de capturer des comportements

physiologiques qui échappent parfois aux fonctions calculant les métriques. Dans ce projet,

il est possible que le nombre élevé de métriques ait déjà capturé l’information suffisante à la

classification, ce qui pourrait expliquer pourquoi le chevauchement n’a pas contribué à

l’amélioration de la classification.

3.3.2.1 Classificateurs du repos initial

Il était attendu que les classificateurs du repos initial atteignent une performance très élevée

(voir par exemple Gateau et coll., 2015; Girouard et coll., 2009; Healey et Picard, 2005).

Lors du repos initial, aucune exigence n’est imposée sur les participants et leur effort mental

est presque nul. Leurs niveaux de stress et de fatigue, bien que possiblement non nuls au

départ, n’ont pas encore été affectés par la tâche. Il est donc probable que l’état du repos

initial soit fortement différent de celui des tâches et donc, facilement classifiable.

Bien que le poids de tous les classificateurs n’ait pas été analysé, il semblerait que ce

classificateur est celui qui s’est le plus basé sur les mouvements oculaires pour prendre ses

98

décisions. Les résultats suggèrent que, pendant le repos initial, les individus effectuaient

beaucoup de saccades et que ces dernières avaient une durée plus variable que lors des tâches.

Mis à part de rester assis et au repos, les participants n’ont pas reçu d’instructions (p.ex.

regarder une croix de fixation sur l’écran). Il est donc probable que ces saccades soient

causées par le vagabondage oculaire des participants. L’écran noir, qui était présent lors du

repos initial, pourrait également expliquer l’augmentation du diamètre pupillaire et ses

grandes variations en contraste aux tâches. En plus du vagabondage oculaire, le classificateur

linéaire du repos initial s’est également basé sur des métriques cardiorespiratoires. Au niveau

cardiaque, le classificateur s’est partiellement basé sur une augmentation des très basses

fréquences cardiaques pour repérer le repos initial. Le rôle des très basses fréquences

cardiaques n’est pas bien cerné dans la littérature. Cette manifestation pourrait avoir été

provoquée par l’activité physique (mouvements) que les participants ont faite juste avant le

repos initial. Les très basses fréquences cardiaques pourraient, de manière analogue, avoir

diminué lors des tâches à cause de l’inactivité physique. Au niveau respiratoire, le

classificateur a notamment retenu que le repos initial était associé à une plus grande

variabilité dans la durée des respirations, ce qui concorde relativement bien avec la littérature

qui suggère que la respiration à une plus haute fréquence lors des périodes non chargées

(Bernardi et coll. 2000).

3.3.2.2 Classificateurs de difficulté

Dans le meilleur cas (classificateur : SVM, sous-ensemble : RR-RSP-EDA-PUP-GAZ), le

classificateur de la difficulté a atteint une performance qui correspond à une précision

d’environ 69%. Ce résultat signifie que les modèles développés dans ce projet atteignent

donc une performance similaire à ceux obtenus par des électroencéphalogrammes (71% lors

de la classification entre n-back 1 et 2, Liu et coll., 2017; 76% lors de la classification entre

n-back 0 et 2, Mühl, Jeunet et Lotte, 2014; bien que certains arrivent à des performances plus

élevés, Brouwer et al., 2012) et largement meilleure que les modèles utilisant la spectroscopie

proche infrarouge fonctionnelle (59,5% et 58,% lors de la classification entre n-back 1 et 2;

Liu et coll., 2017; Herff et coll., 2014; respectivement). Ces résultats sont très satisfaisants

considérant que les classificateurs de ce projet : 1) n’utilisent que des capteurs périphériques,

2) classifient la difficulté sans égard à laquelle des deux tâches est effectuée, 3) classifient la

99

difficulté malgré le niveau de stress des participants et 4) se généralisent sur de nouveaux

participants (ce qui n’était pas le cas dans Herff et coll. (2014) ni dans Liu et coll. (2017). Un

des classificateurs de la difficulté (classificateur : SVM, sous-ensemble : RR-RSP-EDA) a

également atteint une performance intéressante, cette fois-ci sans avoir besoin de

l’oculométrie (groupes PUP et GAZ). Ce résultat suggère qu’il pourrait être possible de

classifier l’exigence mentale à l’aide de systèmes très portables et faciles à implémenter dans

des milieux de travail.

La pupille était la modalité physiologique la plus utile pour discriminer les différents niveaux

de difficulté. Tout comme le classificateur de la difficulté du présent projet, Peysakhovich et

coll. (2015), suggèrent que l’augmentation de la charge mentale provoque une transition vers

les hautes fréquences pupillaires. La bande fréquentielle utilisée dans ce projet est plus large

dans Peysakhovich et coll. (2015), ce qui empêche de faire une comparaison précise. Le

passage vers les hautes fréquences pupillaires observé dans cette étude (175 à 225 mHz)

semble toutefois similaire à celui observé dans Murata et Iwase (1998), qui utilisent une

bande plus proche de ce projet. Bien que le diamètre pupillaire soit généralement associé à

l’exigence mentale (Beatty, 1982; Palinko et coll., 2010), le classificateur de la difficulté de

ce projet a plutôt retenu la croissance pupillaire (plutôt que le niveau moyen) comme

indicateur de difficulté. Ce résultat est peut être causée par la courte durée des segments de

tâches, qui n’a peut-être pas laissé le temps au diamètre de se stabiliser. Certaines métriques

cardiaques ont également contribué à la classification de la difficulté. Bien que typiquement

non spécifique à l’exigence mentale, la moyenne et médiane de la durée entre les battements

cardiaques ont fortement contribué à la classification de la difficulté. Tel qu’il était possible

de prévoir en observant la faible variabilité de métriques associées à la variabilité cardiaque,

celles-ci ne semblent pas avoir contribué énormément à la classification de la difficulté.

Encore une fois, la courte durée des époques est possiblement la cause de cette absence. À

l’inverse, malgré que les métriques spectrales de la réponse électrodermale aient présenté très

peu de variabilité, une de ces métriques a fortement influencé la classification de la difficulté.

Plus spécifiquement, l’augmentions de la difficulté semble avoir été associée à une baisse

d’une bande des très basses fréquences électrodermales. Ce résultat ne concorde pas avec la

baisse du niveau électrodermale et l’augmentation de la durée des réponses observée lors de

100

l’analyse des métriques physiologiques. En effet, la baisse constante observée pendant les

conditions difficiles devrait plutôt être associée à une augmentation des basses fréquences

électrodermales. Il est donc possible que la baisse du niveau électrodermale ait été réalisée

dans plusieurs bandes spectrales différentes, mais que celle repérée par le classificateur soit

un indice spécifique associée à la difficulté. D’autres travaux seront nécessaires pour

confirmer ce résultat.

3.3.2.3 Classificateurs de stress

La classification du stress aussi atteint des performances intéressantes. Pour le classificateur

SVM, la meilleure performance correspond à environ 65% de précision. Le classificateur

linéaire a atteint une performance plus élevée (environ 69%). Dans les deux cas, ces

performances ont été atteintes avec le sous-ensemble RR-RSP-EDA-PUP. Ces résultats sont

d’un ordre similaire à Parent et coll. (soumis pour publication) dans lequel les classificateurs

d’un stresseur similaire (c.-à-d. une punition sonore) ont atteint une performance de 63% en

se basant sur la spectroscopie proche infrarouge fonctionnelle. Il est difficile de fournir plus

de comparaison puisque de nombreuses études n’utilisent pas une définition de stress tel

qu’utilisé dans ce projet, mais plutôt un stress mental, correspondant plutôt à une variation

d’exigence (p.ex. Al-Shargie et coll., 2016; Zhai et Barreto, 2006).

Il est intéressant de noter que les sous-ensembles n’ayant pas accès à la pupille ne sont pas

parvenus à classifier correctement le stress. L’analyse des poids suggère d’ailleurs que

plusieurs métriques de la pupille ont contribué à la classification du stress. Contrairement au

classificateur de la difficulté, qui s’est basé sur l’augmentation du diamètre pupillaire, les

classificateurs du stress se sont basés sur le niveau moyen du diamètre pupillaire (un résultat

allant dans la même lignée que ceux de Pedrotti et coll., 2014). De plus, les résultats suggèrent

qu’au lieu d’une transition des basses vers les hautes fréquences pupillaires, le stress était

associé à une augmentation de la puissance de plusieurs bandes fréquentielles. Deux

hypothèses sont retenues pour expliquer la prévalence et le comportement de la pupille dans

la classification du stress. Premièrement, il est possible que les effets de l’exigence et du

stress sur la pupille soient sensiblement les mêmes. Tel que montré par Partala et Surakka

(2003), la pupille tend effectivement à avoir un plus grand diamètre lors des sons aversifs. Il

101

est donc possible que les classificateurs de la difficulté et du stress se soient basés sur des

critères similaires, mais qu’ils aient pu repérer des différences très subtiles (comme la

différence entre le niveau moyen et l’augmentation du niveau) afin de séparer les deux

concepts. Comme seconde hypothèse, il faut également envisager que la difficulté et le stress,

tel qu’induit dans cette expérience, aient tous deux provoqué un état mental similaire. Les

instructions données au participant précisaient que l’occurrence du stresseur (la punition

sonore) était associée à une mauvaise performance. Il est donc possible que l’augmentation

du diamètre pupillaire ait été provoquée par un effort mental plutôt qu’un état de détresse.

Finalement, il est également possible que la punition sonore ait provoqué une capture

attentionnelle, laquelle est connue pour avoir des effets sur le diamètre pupillaire (Marois,

Labonté, Parent et Vachon, 2018).

3.3.2.4 Classificateurs de tâche

Rappelons que dans ce projet, le type de tâche n’a pas été retenu comme dimension de la

charge mentale. Tel que décrit dans la section 1.1, certains auteurs suggèrent de diviser la

charge mentale selon la modalité de tâche. C’est par exemple le cas de Hoedemaeker (2002)

qui sépare entre autres la charge visuelle de la charge mentale. Néanmoins, il a quand même

été choisi d’entraîner et tester des classificateurs visant à prédire la tâche effectuée par les

participants. Banville (2015) rapporte la performance en classification entre sept différentes

tâches mentales à l’aide d’électroencéphalographie et de spectroscopie proche infrarouge

fonctionnelle. Selon ses résultats, la performance en classification binaire (c.-à-d. entre deux

des sept tâches) varie de κ = 0,40 à κ = 0,82 selon la paire de tâches observées, ce qui signifie

que les meilleurs résultats de classification de tâche dans cette expérience (κ = 0,78) sont

plutôt élevés, considérant qu’ils n’utilisent que des mesures périphériques. La classification

de la tâche est également restée plutôt bonne, même en absence de métriques oculaires.

Les tâches de n-back et de recherche visuelle diffèrent largement en termes d’exigence

visuelle. Le n-back ne requiert que peu de mouvements oculaires, puisque tous les stimuli

sont placés au même endroit, au centre de l’écran. À l’inverse, la tâche de recherche visuelle

demande un balayage visuel sur toute la surface de l’écran. Malgré cette différence majeure,

l’ajout du sous-ensemble de métrique GAZ, lequel regroupant les métriques relatives aux

102

fixations et saccades, n’a que peu contribué à la qualité de classification de la tâche. Dans le

cas du classificateur linéaire, la performance en classification est même moins bonne en

présence du sous-ensemble GAZ (en comparaison avec le sous-ensemble

RR-RSP-EDA-PUP). En analysant les poids des métriques du classificateur linéaire, on

confirme également que les métriques du groupe GAZ n’ont que très peu contribué à la

qualité de classification de la tâche. Bien qu’optimale avec le sous-ensemble

RR-RSP-EDA-PUP, la classification de la tâche a été quand même possible jusqu’avec le

plus petit sous-ensemble (RR-RSP). Ce résultat peut paraître étonnant vu les différences

importantes en termes d’exigence visuelle entre les tâches. Il est donc clair que des

manifestations cardiorespiratoires ont été suffisantes pour distinguer les deux tâches.

Quelques hypothèses peuvent être retenues pour expliquer ce résultat. Tout d’abord, l’ordre

des tâches n’étant pas contrebalancé, il est possible que le classificateur de tâche ait plutôt

regardé des marqueurs associés au temps passé à faire l’expérience. Lorsqu’on observe les

métriques ayant eu la plus grande importance pour ce classificateur, on remarque d’ailleurs

qu’elles correspondent aux manifestations de la détente et la relaxation, comme une baisse

du rythme cardiaque (Vuksanović et Gal, 2007) et baisse du niveau électrodermal dans la

tâche de recherche visuelle (Kappeler-Setz et coll., 2013). Il est également possible que le

classificateur de tâche ait plutôt été un autre classificateur d’effort mental. En effet, les

analyses subjectives et comportementales, ainsi que l’analyse de l’indépendance des classes

objectives, suggèrent toutes que la tâche de recherche visuelle était associée à une

performance et un effort mental plus faible, ce qui pourrait suggérer que les classificateurs

ont plutôt repéré des manifestations d’effort mental plutôt que de la tâche ou du temps passé

à faire la tâche.

3.3.2.5 Classificateurs de performance

L’analyse de l’indépendance des classes suggère une association très forte entre la difficulté

et la performance. Cette association est attendue puisque la normalisation de la difficulté s’est

faite de manière intraindividuelle. Il a donc été très fréquent que les conditions faciles

correspondent aussi aux performances qui étaient supérieures à la moyenne personnelle des

individus et que les conditions difficiles correspondent aux performances inférieures à leur

moyenne. Malgré cette association, les classificateurs de la difficulté et de la performance

103

semblent être très différents. Tout d’abord, les classificateurs de la performance ont obtenu

une performance en classification généralement plus élevée que les classificateurs de la

difficulté. Le meilleur classificateur de la performance a obtenu une performance de κ = 0,51

versus un κ = 0,30 pour l’équivalent en difficulté. Cette meilleure performance en

classification pourrait suggérer que les mesures physiologiques sont plus facilement

influencées par l’état réel de l’individu que dans la condition dans laquelle il se trouve.

Les classificateurs de performance et de difficulté ne se sont pas non plus basés sur les mêmes

métriques physiologiques pour établir leurs prédictions. Le classificateur de performance est

celui qui semble s’être le plus fortement basé sur la réponse électrodermale. Dans l’ensemble,

une performance élevée a été associée à une augmentation globale du niveau électrodermal

et une augmentation du nombre de réponses électrodermales. Ce résultat est attendu puisque

lorsque la difficulté est élevée (donc la performance souvent faible), on observe un patron

électrodermal inverse. Au niveau pupillaire, une performance élevée a été associée à une

diminution du diamètre pupillaire ainsi qu’une apparence de transition des hautes vers les

moyennes fréquences pupillaires, ce qui s’oppose encore une fois aux métriques retenues par

le classificateur de la difficulté.

3.3.2.6 Classificateurs d’effort

Les classificateurs d’effort ont été entraînés de manière à repérer les essais expérimentaux

pour lesquels les individus percevaient une exigence élevée et performaient quand même

bien. Contrairement à la performance, l’analyse de l’indépendance des classes a suggéré que

l’effort était très différent de la difficulté. C’est également le seul des trois classificateurs qui

a pu atteindre une performance significative avec le groupe de métrique RR-RSP, ce qui

suggère l’identification de métriques cardiorespiratoires associées à l’effort mental. Il est

difficile de comparer la performance des classificateurs d’effort avec d’autres travaux

puisque celui-ci est rarement défini de manière séparée à la difficulté dans la littérature. La

performance des classificateurs d’efforts a toutefois atteint des niveaux similaires aux

classificateurs de la difficulté; et ces derniers atteignent des performances similaires à des

systèmes n’utilisant que l’électroencéphalographie.

104

L’analyse des métriques montre que l’effort élevé était associé à un diamètre pupillaire plus

élevé. Ce comportement est similaire au classificateur du stress et renforce l’idée que les

deux classificateurs ont, en réalité, repéré la signature de l’effort mental plutôt que du stress.

Toutefois, les deux classificateurs n’ont pas retenu les mêmes bandes fréquentielles de

l’analyse pupillaire pour effectuer leur classification. Ces résultats pourraient avoir été causés

par la présence ou l’absence des punitions sonores. Au niveau cardiaque, l’effort mental était

associé à une augmentation de la bande des basses fréquences, ce qui concorde avec la

littérature qui suggère une augmentation de la bande des basses fréquences (Vuksanović et

Gal, 2007), et, indirectement, une augmentation du ratio des basses sur les hautes fréquences

(Cinaz et coll., 2013). L’effort élevé était également associé à des saccades oculaires plus

courtes. Cet indice renforce une fois de plus la validité du classificateur puisque des courtes

saccades oculaires sont parfois associées à une plus grande difficulté (Nakayama Takahashi

et Shimizu, 2002) et une plus grande efficacité (Ellis, 2009)

3.3.2.7 Classificateurs subjectifs

À la lumière de la revue de littérature effectuée dans ce projet, très peu de travaux de

recherche ont tenté de prédire la charge mentale subjective à l’aide de marqueurs

physiologiques. Bien que la majorité des dimensions du NASA-TLX n’ait pas pu être prédite,

les dimensions de l’exigence temporelle et du stress ont été prédites avec une performance

plutôt satisfaisante (κ > 0,2). L’analyse de l’indépendance des classes suggère aussi que ces

deux dimensions n’étaient pas fortement associées, ni entre elles ni avec les dimensions

objectives (voir Tableau 16 et Tableau 17). On peut donc suggérer que l’exigence temporelle

et le stress sont deux états mentaux que les individus sont capables d’évaluer de manière

consistante avec leurs réactions physiologiques.

3.3.3 Discussion générale

Le but de ce chapitre était de déterminer s’il est possible d’obtenir une mesure diagnostique

de la charge mentale dans un contexte de tâches cognitives « simples ». Pour qu’une mesure

soit diagnostique, deux conditions sont requises. Tout d’abord, il est nécessaire que le (ou

les) classificateur d’une dimension de la charge mentale atteigne une performance

satisfaisante en classification (sensibilité). Deuxièmement, il est nécessaire que le

105

classificateur de chaque dimension atteigne sa performance tout en ayant été exposé aux

variations des autres dimensions (spécifiques). Rappelons que quatre dimensions de la charge

mentale sont investiguées : l’exigence mentale, l’effort mental, le stress et la fatigue. La

section suivante discute de chacune de ces quatre dimensions en intégrant les classificateurs

qui sont les plus conceptuellement associés à chaque dimension.

Conceptuellement, les classificateurs les plus en lien avec l’exigence mentale sont sans aucun

doute ceux de la difficulté, de la performance ainsi que de l’exigence mentale et temporelle

subjective. Les résultats suggèrent que l’exigence mentale objective (la difficulté) est

beaucoup plus facile à prédire que l’exigence mentale subjective. S’il a été possible de prédire

l’exigence temporelle, les indices laissent plutôt croire que ce dernier était plutôt associé au

stress. Au niveau physiologique, bien que tous les classificateurs se soient fortement basés

sur la réponse pupillaire, il semble que la signature physiologique de l’exigence mentale soit

relativement distincte du celle associée au stress. Finalement, les résultats suggèrent qu’il est

peut-être préférable d’entraîner des classificateurs sur la performance des individus plutôt

que sur la difficulté de la tâche. Il faut garder en tête que les classificateurs obtenus dans cette

expérience ne se généraliseront possiblement pas bien dans d’autres contextes. En effet, bien

que deux tâches différentes (charge en mémoire et charge visuelle) aient été utilisées, il est

possible d’imaginer d’autres formes d’exigence mentale, comme la planification de stratégies

ou le travail multitâche, qui pourraient causer des réactions physiologiques différentes à

celles reconnues par les classificateurs de cette expérience. De plus, les classificateurs de

cette expérience n’ont pas été entraînés sur des périodes d’exigence mentale prolongées.

Toutefois, à la lumière des résultats obtenus, il semble réaliste d’utiliser les mesures

physiologiques périphériques pour prédire de manière diagnostique le niveau d’exigence

mentale dans des tâches expérimentales simples.

L’effort est, évidemment, associé aux classificateurs d’effort objectif et subjectif et, de

manière indirecte, à la classification de la performance objective et subjective. La

classification objective de l’effort a atteint des performances très intéressantes. De plus, le

choix des métriques physiologiques fait par le classificateur suggère que le concept

correspond bien à celui de l’effort mental. Comme pour tous les classificateurs de cette

106

expérience, il est fort possible que le classificateur de l’effort ne généralise pas bien à d’autres

contextes. Toutefois, le fait qu’il ait été possible de prédire l’effort uniquement avec les

métriques cardiorespiratoires suggère un certain potentiel à généraliser à d’autres contextes.

En effet, le sous-ensemble cardiorespiratoire est le plus parcimonieux, ce qui peut être un

indice d’une meilleure capacité à généraliser (Cornuéjols et Miclet, 2010). À la lumière des

résultats obtenus, il est possible d’affirmer que les mesures physiologiques périphériques

permettent de prédire de manière diagnostique le niveau d’effort mental dans des tâches

expérimentales simples.

Les classificateurs les plus en lien avec le concept de stress sont possiblement ceux du stress

(objectif), du stress (subjectif), de la frustration (subjective) et de l’exigence temporelle

(subjective). Malgré la bonne performance obtenue lors de la classification du stress objectif,

les résultats suggèrent d’être prudents sur la capacité diagnostique des classificateurs du

stress. En effet, le choix du stresseur semble avoir motivé les participants à fournir un effort

plus élevé lorsque ce dernier était présent. De plus, la signature physiologique repérée par le

classificateur du stress ressemble un peu à celle de l’effort. Il est donc possible que les

classificateurs de stress entraîné dans le cadre de la présente étude ne soient en réalité que

des classificateurs d’effort. Les classificateurs de stress subjectifs n’étaient pas associés

directement à la punition sonore. Il est donc possible de suggérer que la prédiction

diagnostique du stress, à l’aide des mesures périphériques, soit quand même réalisable. Des

travaux supplémentaires seront toutefois nécessaires pour s’en assurer.

Quant à la fatigue, les classificateurs les plus conceptuellement associés sont ceux de la tâche,

de la fatigue subjective et, partiellement, ceux du repos initial. Dans l’ensemble, les indices

laissent croire que la fatigue n’a pas fortement influencé les participants de cette expérience.

En effet, l’expérience avait une durée plutôt courte et les mesures subjectives et

comportementales révèlent peu d’effet causé par la fatigue. La classification subjective de la

fatigue n’a pas été fructueuse. La classification du repos initial a été réussie, mais peu

d’indices laissent croire que le classificateur soit spécifique à la fatigue. La classification de

la tâche a été bien réussie dans l’ensemble. Les classificateurs de la tâche n’ont pas retenu

fortement les métriques oculaires, ce qui permet de suggérer qu’ils ont classifié l’état des

107

individus plutôt que la tâche elle-même. Toutefois, il est difficile d’affirmer si cet état est bel

et bien la fatigue ou s’il s’agit plutôt d’une classification de la baisse d’effort observée dans

la recherche visuelle. Dans l’ensemble, on peut donc affirmer qu’il semble possible de prédire

la fatigue de manière diagnostique en utilisant la physiologie périphérique, mais qu’une

expérience supplémentaire sera nécessaire pour s’en assurer.

3.3.4 Leçons pour la prochaine expérience

Le stresseur retenu dans cette expérience a atteint son but en imposant un stress (tel que défini

dans ce projet) aux participants. Toutefois, les indices laissent croire qu’il a également

provoqué une augmentation de l’effort. Ce résultat n’est pas nécessairement une mauvaise

chose. Dans des contextes de travail réel, la détresse, l’anxiété et/ou la peur sont rarement

élicitées de manière indépendante. L’investissement de ressources cognitives accompagne

souvent le stress, soit pour résoudre le stresseur ou en mitiger ses conséquences. Ainsi, la

signature physiologique du stress telle qu’identifiée dans ce projet conserve une certaine

validité écologique. Toutefois, il serait intéressant d’augmenter l’orthogonalité entre l’effort

et le stress afin de mieux cerner la signature physiologique du stress. L’utilisation d’une autre

forme de stresseur pourrait également permettre de distinguer les effets physiologiques

causés par le stress de ceux causés par les distractions auditives.

L’analyse de l’indépendance des classes a montré que les variables d’intérêt retenues dans la

présente étude étaient, dans l’ensemble, différentes les unes des autres. Sans dépasser le seuil

retenu, la difficulté et la performance ont toutefois présenté une forte association. Étant donné

que la performance (telle que prédite par le classificateur) a été calculée en vérifiant si le

participant avait une performance supérieure ou inférieure à sa propre moyenne pour chaque

tâche, il a été très fréquent que les meilleures performances soient obtenues dans les

conditions faciles et que les pires performances soient obtenues dans les conditions difficiles.

Dans une expérience future, il pourrait être intéressant de prédire la performance à partir de

la moyenne de tous les participants afin d’éviter cette similitude.

La courte durée des époques (2 minutes) retenue dans cette expérience a possiblement causé

quelques problèmes. Les métriques physiologiques associées à la variabilité cardiaque ne

108

semblent pas avoir eu une grande pertinence, ce qui est étonnant considérant leur popularité

et leur taille d’effet typiquement plus grande que les métriques statistiques classiques. De

plus, malgré la bonne performance atteinte par la majorité des classificateurs, il est possible

que ces derniers ne généralisent pas à des tâches plus longues. C’est notamment le cas du

classificateur de la difficulté, qui a plutôt retenu l’augmentation du diamètre pupillaire (plutôt

que le diamètre moyen) comme indicateur de difficulté. En pratique, le diamètre pupillaire

ne peut pas augmenter indéfiniment. Il est toutefois possible d’imaginer un scénario où

l’exigence mentale reste élevée pendant de longues périodes. Afin de gagner en

généralisation, il serait pertinent de vérifier si des tâches et des époques plus longues rester

classifiables avec une précision satisfaisante.

Dans cette expérience, une régression logistique a été effectuée sur l’ensemble des

classificateurs afin de déterminer les paramètres qui améliorent ou diminuent la

classification. Dans la prochaine expérience, il pourrait être intéressant de faire une telle

analyse sans grouper les classificateurs (en d’autres mots, de faire une régression logistique

par variable d’intérêt retenue). Cette analyse pourrait permettre de déterminer si la signature

physiologique de certaines sous-dimensions de la charge mentale dominent (ou masques)

celle des autres sous-dimensions. Par exemple, si la signature physiologique de la fatigue est

bel et bien dominante, tel que suggéré à la section 1.3.3.4, alors la classification de toutes les

autres sous-dimensions risque d’être moins bonne lorsque la fatigue est élevée. De manière

similaire, si l’effort et la fatigue ne sont en réalité qu’un seul et même concept, la régression

logistique pourrait montrer que l’effort est difficile à classifier lorsque la fatigue est élevée

et, de manière analogue, que la fatigue est difficile à classifier lorsque l’effort est élevé.

3.4 Conclusion

Le patron de résultats obtenus a montré que les mesures physiologiques étaient capables de

prédire plusieurs dimensions distinctes de la charge mentale avec une précision qui approche

parfois celle obtenue à l’aide d’électroencéphalogrammes. Les résultats permettent entre

autres de bien dissocier la signature de l’exigence mentale et celle de l’effort, deux concepts

souvent regroupés ensemble dans la littérature. Les classificateurs ont aussi été capables de

prédire le niveau de stress objectif et même subjectif des individus. En plus de la bonne

109

performance atteinte par les classificateurs, il est important de garder en-tête que ceux-ci ont

été entraînés de manière à se généraliser à de nouveaux participants, ce qui est rarement tenté

dans les études de ce domaine. De plus, les classificateurs ont été entraînés sur deux tâches

différentes, ce qui permet de les rendre plus robustes à la modalité de tâche.

Au lieu de limiter les classificateurs à quelques métriques physiologiques, les modèles ont

été entraînés à partir d’un grand nombre de métriques souvent non spécifiques à la modalité.

Cette approche a permis de décortiquer les subtilités physiologiques qui sont propres à

chaque dimension de la charge mentale. Bien que les meilleures performances aient été

atteintes en combinant toutes les modalités physiologiques, les résultats suggèrent qu’il est

possible de prédire les dimensions de la charge mentale avec des appareils peu dispendieux

et hautement portables.

110

Chapitre 4 : Diagnosticité en simulation de commandement et

contrôle (C2)

Les tâches expérimentales, comme celles utilisées dans le chapitre précédent, permettent un

grand contrôle des variables d’intérêt et des variables confondantes à l’étude (Brewer, 2000).

Ces tâches souffrent toutefois d’un manque de validité écologique. Ce manque provient du

grand nombre de dimensions cognitives présentes dans les tâches réelles de travail humain.

Si on choisit d’observer, par exemple, une tâche de simulation de C2, des facteurs

confondants comme l’expérience avec les jeux vidéo peuvent faciliter la tâche de certains

individus (p.ex. en améliorant les aptitudes de recherche visuelle; Castel, Pratt et Drummond,

2005; Green et Bavelier 2006). Dans ce cas, ces expériences préalables peuvent augmenter

l’utilisation d’automatismes et diminuer l’effort mental à fournir (Boot et coll., 2008; Paas,

1992; Schlickum et coll., 2009). Dans un même contexte, l’utilisation d’un langage

émotionnellement chargé peut également influencer le stress ressenti de certains individus et

affecter leurs capacités cognitives (Kuhlmann et Wolf, 2005).

Pourtant, tel que détaillé dans la section 1.4.2, trop peu de recherches sur les mesures

physiologiques de la charge mentale sont menées dans des contextes de travail réels

(Friedman, Brouwer et Nijholt, 2017). Les études qui s’y intéressent favorisent d’ailleurs

souvent les mêmes domaines d’application, notamment, celui du transport (Young et coll.,

2015). De plus, certaines études investiguant la mesure physiologique de la charge mentale

en contexte appliqué sont contingentes aux particularités du domaine, ce qui limite la

transférabilité vers d’autres domaines et qui empêche l’établissement de signatures

physiologiques universelles des composantes de la charge de travail. À titre d’exemple,

Cohen, Brinkman et Neerincx (2015) proposent un modèle pour prédire la performance

d’étudiants utilisant un simulateur naval. Le modèle requiert, en entrée, des variables

physiologiques, mais également la difficulté objective des scénarios de simulation, ce qui

signifie que le modèle pourrait difficilement être utilisable en contexte réel où la difficulté

objective n’est pas toujours quantifiable.

111

En réponse à ces limitations, ce chapitre a comme objectif d’étudier la diagnosticité des

mesures physiologiques périphériques de la charge mentale en simulation de C2. Les

simulations sont des reproductions simplifiées des environnements de travail dans lesquels

les éléments pertinents à la recherche sont préservés. Les simulations présentent plusieurs

avantages en comparaison aux études menées directement dans les environnements de

travail. Puisque la simulation est une représentation isomorphique de la tâche (c.-à-d. qui

préserve la même forme que la tâche originale, mais à une plus petite échelle), il est possible

de recruter des non-experts pour la cueillette de données. Il est souvent difficile de recruter

un grand nombre d’experts. Au sein d’une seule ville, il est d’ailleurs possible que le nombre

d’experts C2 disponible soit d’ailleurs insuffisant pour former l’échantillon de donnée requis

pour l’apprentissage automatique. La passation de participants non experts offre comme

avantage d’obtenir un échantillonnage de données plus important. Les simulations permettent

également un plus grand contrôle expérimental. Contrairement au chapitre précédent, dans

lequel des tâches expérimentales simples étaient utilisées, il est attendu que la tâche de C2

provoque une plus grande étendue dans les expériences subjectives qui seront vécues. Il est

donc essentiel d’utiliser le potentiel de contrôle expérimental des simulations afin de

s’assurer qu’il existe au moins une base de comparaison entre les différents participants.

Dans ce chapitre, les participants sont invités à effectuer une simulation du travail d’un

gestionnaire de crise (Gagnon, Couderc, Rivest, 2013). La méthode utilisée dans ce chapitre

est similaire à la précédente. La difficulté et le stress sont manipulés afin de former 4

conditions expérimentales distinctes. Afin d’éviter les réactions physiologiques associées aux

distractions auditives, la punition sonore aversive est remplacée par un stresseur psychosocial

(c.-à-d. la présence d’un acteur). Contrairement au chapitre précédent, une seule tâche est

utilisée, ce qui permet d’éviter la confusion entre la fatigue et la tâche effectuée. La

simulation de travail étant plus longue que les tâches expérimentales, il est possible de tester

des époques plus longues et d’entraîner des classificateurs déterminant le temps passé sur la

tâche. Les époques testés dans ce chapitre ont une durée de 2 ou 5 minutes (respectivement,

7 ou 3 échantillons par condition de 15 minutes). Tel que prévu, les résultats de cette

expérience montrent que la diagnosticité de la charge mentale est plus difficile à atteindre

dans une simulation de travail. Les dimensions de la difficulté et de la performance, qui

112

étaient prédictibles dans le chapitre précédent, ne le sont plus maintenant. L’effort mental,

quant à lui, reste prédictible. L’analyse approfondie des classificateurs suggère que ces

derniers se sont mieux généralisés et donnent des résultats forts enrichissants sur les

dimensions physiologiques de la charge mentale.

4.1 Particularités de méthodologie

4.1.1 Participants

Quarante-huit participants (35 femmes, 19 à 57 ans) ont été recrutés à l’Université Laval et

se sont fait offrir une rémunération de 20 $. Pour participer à l’étude, les participants devaient

avoir une vision normale ou corrigée, aucun problème psychologique, tel qu’un déficit

d’attention ou un trouble neurologique, ni aucun problème cardiorespiratoire tel que

l’asthme.

4.1.2 Tâches expérimentales

Une seule tâche expérimentale a été utilisée dans cette expérience. La tâche était une

simulation de gestion de crise sur la plateforme SYnRGY de Thales (Gagnon, Couderc,

Rivest, 2013). Dans ce logiciel, les participants ont comme mission de répondre à divers

événements d’urgence comme des accidents de voiture, des incendies et des alertes à la

bombe. L’interface qui leur permet de répondre à ces incidents prend forme d’une carte

interactive. Les participants voient, sur cette carte, la localisation des unités d’urgence dont

ils disposent ainsi que la localisation des incidents. Un exemple de l’affichage type du logiciel

est montré à la Figure 19. À l’aide de divers panneaux, les participants peuvent afficher les

propriétés des événements (p.ex. : nombre de personnes impliquées, nombre de victimes,

rayon d’action de la bombe) ou encore des propriétés de leurs unités (p.ex. : vitesse de

déplacement, vitesse d’intervention, capacité à désamorcer des bombes) (voir Figure 20). En

plus de répondre aux incidents, les participants doivent continuellement monitorer et prioriser

leurs interventions. Dans certaines situations, il peut devenir avantageux d’annuler

l’assignation d’une unité pour la réaffecter à un nouvel événement plus grave. Par exemple,

l’occurrence d’une alerte à la bombe peut demander l’intervention de policiers déjà en route

vers un accident mineur de la route. De plus, les participants doivent coordonner les

différentes unités d’urgence dont ils disposent. Par exemple, lors d’un incendie, la présence

113

des pompiers est obligatoire pour sauver des victimes. Les ambulanciers et policiers peuvent

accélérer le sauvetage, mais seulement si les pompiers sont présents. Le logiciel calcule

diverses métriques lors de la simulation. Dans cette expérience, deux d’entre-elles ont été

retenues comme métriques de performance : 1) le pourcentage de victimes sauvées, calculé

en prenant le ratio entre le nombre de personnes sauvées et le nombre de victimes possibles

dans le scénario, ainsi que, 2) le temps de réponse moyen, calculé en prenant le temps entre

l’occurrence d’un événement et la présence sur les lieux d’une unité d’urgence.

Figure 19 : Interface du logiciel de gestion de crise.

114

Figure 20 : Exemple d’un panneau montrant les propriétés d’un incident.

Les participants devaient contrôler deux instances de SYnRGY, une instance pour les forces

policières et une autre pour les pompiers. L’ordinateur sur lequel était menée l’expérience

était muni de deux écrans. Chaque écran était dédié à une instance du logiciel de gestion de

crise. L’écran de gauche était toujours dédié aux forces policières, alors que l’écran de droite

était toujours dédié aux pompiers. Les deux instances du logiciel affichaient la même

simulation. Toutefois, il n’était pas possible de contrôler les forces policières sur l’instance

des pompiers (et vice-versa).

4.1.3 Devis

La difficulté et le stress étaient manipulés en deux niveaux dans cette expérience. Chaque

participant devait donc réaliser quatre simulations (une fois pour chaque combinaison de

niveau de difficulté et de stress). Chaque simulation avait une durée fixe de 15 minutes. Dans

les simulations faciles, le logiciel de gestion de crise imposait six incidents aux participants.

115

Dans les simulations difficiles, le logiciel imposait 12 incidents aux participants. Les

scénarios commençaient tous avec une période sans incident de quelques minutes, suivi par

une augmentation graduelle de la difficulté. Les scénarios devaient tous être différents pour

éviter une mémorisation. Toutefois, les scénarios ont été créés de manière à être les plus

équivalents possible : la distance entre les unités d’intervention et les incidents était similaire,

la gravité des incidents était similaire et les unités requises pour sauver les victimes étaient

aussi similaires. Dans les deux scénarios à détresse faible, le participant réalisait la tâche

alors qu’il était seul dans le local d’expérimentation. Dans les deux scénarios à détresse

élevée, un stresseur psychosocial était imposé au participant. Ce stresseur s’inspire du Trier

Social Stress Task (TSST) (Kudielka et coll., 2007), une tâche souvent utilisée en

psychologie afin d’augmenter le niveau de stress du participant. Typiquement, le TSST

consiste à faire croire au participant qu’un comité d’experts souhaite évaluer ses capacités

intellectuelles. Le participant est ainsi invité à faire une courte présentation orale et à résoudre

une tâche d’arithmétique devant le comité d’experts. En réalité, le comité d’experts est

composé d’acteurs, et la performance à la présentation orale et à la tâche d’arithmétique n’est

pas évaluée. Cette manipulation sert seulement à recréer un stresseur psychosocial. Dans

cette expérience, le stresseur psychosocial prenait une forme similaire. Avant de débuter les

deux simulations à haut niveau de détresse, l’expérimentateur indiquait au participant qu’un

étudiant au doctorat, spécialisé en gestion de crise, allait venir l’observer pendant deux

simulations. Avant la première simulation à haut niveau de détresse, l’expérimentateur

demandait au participant de préparer une courte présentation orale (2-3 minutes) pour vendre

ses talents en gestion de crise à l’acteur. L’expérimentateur laissait 2 à 3 minutes au

participant pour préparer sa présentation. L’acteur était ensuite présenté et le participant était

invité à faire sa présentation. Les participants qui faisaient des présentations trop courtes se

faisaient poser quelques questions par l’acteur afin d’assurer d’un temps similaire entre les

participants. Lorsque la présentation était terminée, le participant était invité à faire une des

quatre simulations de gestion de crise. Pendant cette simulation, l’acteur restait aux côtés du

participant et prenait des notes. À la fin de la simulation, le participant était invité à faire une

courte tâche d’arithmétique. L’acteur demandait au participant de débuter à partir du

nombre 2023 et de soustraire successivement 17 en donnant verbalement sa réponse à chaque

fois. En cas d’erreur, l’acteur informait le participant qu’il devait recommencer à partir d’où

116

il était rendu. L’acteur terminait la tâche lorsque le participant était rendu à 1683 ou lorsque

2 minutes s’étaient écoulées. Une fois la tâche d’arithmétique terminée, le participant était

invité à faire une autre simulation de gestion de crise. L’acteur restait à nouveau pour

observer et prendre (de manière fictive) des notes. À la fin de la deuxième simulation à haut

niveau de détresse, l’acteur quittait la salle. Les niveaux de difficulté, de stress et les scénarios

de simulation étaient tous contrebalancés de manière à éviter un effet d’ordre. Les deux

scénarios à haut niveau de stress étaient toutefois toujours passés un après l’autre de manière

à assurer un stress le plus élevé possible.

4.1.4 Procédure

Les participants étaient accueillis par l’expérimentateur et étaient invités à lire et signer un

formulaire de consentement. Par la suite, l’expérimentateur procédait à l’installation des

capteurs physiologiques. Une fois fait, les participants remplissaient un questionnaire

démographique. Avant de réaliser la tâche, les participants recevaient un entraînement sur le

logiciel de gestion de crise. Cet entraînement prenait la forme d’une présentation Powerpoint.

La présentation était accompagnée d’une voix et présentait plusieurs captures d’écran et

vidéos pour augmenter la qualité de l’apprentissage. En plus de la présentation, les

participants avaient accès à une instance du logiciel et pouvaient utiliser cette instance pour

pratiquer ce qu’ils apprenaient en temps réel. Les participants pouvaient interrompre la

présentation à tout moment pour interroger l’expérimentateur. À la fin du tutoriel,

l’expérimentateur utilisait une liste de vérification afin de s’assurer que le logiciel était bien

maîtrisé par le participant. Le participant complétait par la suite les 4 conditions

expérimentales. Entre chaque condition, le participant était invité à remplir un questionnaire

NASA-TLX et à prendre une courte pause.

4.1.5 Paramètres d’apprentissage automatique

Les classificateurs utilisés dans cette étude sont tous binaires, c’est-à-dire qu’ils apprennent

à discerner entre deux options seulement. Il est donc nécessaire de définir comment chaque

variable d’intérêt est séparée en deux. Ces définitions sont détaillées au Tableau 32. La seule

exception est la variable de l’ordre des conditions. On souhaite être capable de prédire dans

quelle condition, parmi les 4, le participant se retrouve. Comme les classificateurs sont

117

binaires, il est nécessaire d’entraîner plus d’un classificateur pour obtenir quatre valeurs

d’ordre possible. La Figure 21 montre comment trois classificateurs sont ainsi configurés

pour prédire cette variable. Un premier classificateur détermine si le participant a terminé sa

première condition. Un second classificateur détermine si le participant a terminé sa seconde

condition. Finalement, un dernier classificateur détermine si le participant a terminé sa

troisième condition. Pour faire un choix final, on effectue simplement la « somme » de ces

trois classificateurs. Il existe donc quatre sommes possibles : 0, 1, 2 et 3 (pour 1ère, 2e, 3e et

4e condition). Étant donné que les trois classificateurs sont entraînés séparément, il est

possible que les trois ne concordent pas lors de la phase de test. Par exemple, il est possible

que le premier classificateur indique « 0 » (première condition), que le 2e classificateur

indique « 0 » (1ère ou 2e condition) et que le 3e indique « 1 » (4e condition). Dans ce cas, la

somme serait quand même de 1. On dirait alors que le classificateur a déterminé que le

participant serait dans la 2e condition. Cette implication n’affecte pas la validité des résultats,

seulement le fonctionnement interne du classificateur. Des stratégies différentes pourraient

être appliquées pour obtenir quatre classes à partir de classificateurs binaires (voir Hsu et

Lin, 2002). Ce choix a été fait pour simplifier la classification.

Dans ce chapitre, il a été choisi de calculer la performance en la comparant (c.-à-d. en

normalisant) à ceux des autres participants pour le même scénario. Dans le chapitre

précédent, la performance était normalisée par participant, ce qui a provoqué une association

assez forte entre la performance et la difficulté. En normalisant entre les participants, on

entraîne le classificateur à reconnaître les meilleurs participants, plutôt que les meilleures

performances de chaque participant. L’effort est déterminé de la même manière au chapitre

précédent.

118

Tableau 32 -

Définition des variables d’intérêt

Nom de la

variable Description

Repos initial Détermine si le participant est en repos initial ou en condition

expérimentale.

Difficulté Détermine si la condition actuelle est facile ou difficile.

Stress Détermine si l’acteur est présent ou absent.

Ordre des

conditions

Détermine si le participant est à sa 1ère, 2e, 3e ou 4e condition

expérimentale.

Ordre des époques

Détermine si le participant est à la première époque (120 ou 300

secondes) de la condition expérimentale ou s’il a déjà passé cette

époque.

Performance

(% de vie)

Détermine si la performance du participant, basée sur le

pourcentage de vies sauvées, est supérieure ou inférieure aux autres

participants pour ce scénario.

Performance

(temps de

réponse)

Détermine si la performance du participant, basée sur le temps de

réponse, est supérieure ou inférieure aux autres participants pour ce

scénario.

Effort (% de vie)

Détermine si l’effort du participant, basé sur le pourcentage de vies

sauvées, est supérieur ou inférieur aux autres participants pour ce

scénario.

Effort (temps de

réponse)

Détermine si l’effort du participant, basé sur le temps de réponse

aux incidents, est supérieur ou inférieur aux autres participants pour

ce scénario.

Note. Pour, l’ordre des conditions, une configuration à trois classificateurs est utilisée. Voir

Figure 21.

119

Figure 21 : Classificateurs de l’ordre des conditions.

4.2 Résultats

4.2.1 Analyse des réponses subjectives

La Figure 22 présente les moyennes des différentes dimensions du NASA-TLX dans chacune

des conditions expérimentales. Une série d’ANOVA à mesures répétées sont menées ces

scores. Les variables indépendantes retenues pour ces ANOVA sont la difficulté et le

stresseur. Les résultats de ces ANOVA sont présentés au Tableau 33. Le tableau montre que

la variation de la difficulté a influencé plusieurs dimensions du NASA-TLX. Dans les deux

scénarios difficiles, les participants ont rapporté, avec une importante taille d’effet, une plus

grande exigence mentale (𝜂𝑝2 = 0,45; p < 0,001) et temporelle (𝜂𝑝

2 = 0,50; p < 0,001), une plus

faible performance (𝜂𝑝2 = 0,58; p < 0,001), une frustration (𝜂𝑝

2 = 0,45; p < 0,001) et un stress

(𝜂𝑝2 = 0,27; p < 0,001) plus élevé et ont rapporté être dans un moins bon état général

(𝜂𝑝2 = 0,38; p < 0,001). Les participants ont rapporté être légèrement plus fatigués après les

scénarios difficiles (𝜂𝑝2 = 0,12; p = 0,0177). La présence du stresseur semble avoir affecté

moins de dimensions. On peut déceler que les participants ont rapporté un stress

marginalement plus élevé en présence de l’examinateur (𝜂𝑝2 = 0,09; p = 0,0477). Finalement,

les participants ont rapporté être dans un moins bon état général en présence de l’examinateur

Classificateur 1 :

Est-ce que le participant a

terminé une condition?

Classificateur 2 :

Est-ce que le participant a

terminé 2 conditions?

Classificateur 3 :

Est-ce que le participant a

terminé 3 conditions?

Échantillon

Oui

Non

Oui

Non

Oui

Non

+1

+0

+1

+0

+1

+0

+1

Ordre de

condition

120

(𝜂𝑝2 = 0,11; p = 0,0272). Aucune interaction significative n’a été relevée. Afin de vérifier

l’effet de la fatigue sur les réponses subjectives, des corrélations sont calculées entre le temps

passé sur la tâche et les scores bruts et NASA-TLX. Étant donné que le temps passé sur la

tâche est une variable ordinale, on utilise des corrélations de type Spearman. Les résultats de

ces corrélations sont présentés au Tableau 34. On peut y voir que le temps passé sur la tâche

a influencé plusieurs dimensions du NASA-TLX. Avec le temps passé sur la tâche, les

participants ont rapporté une diminution de l’exigence mentale (r = -0,21; p < 0,001) et

temporelle (r = -0,15; p < 0,001), une augmentation de la performance (r = 0,23; p = 0,0019),

une diminution importante de la frustration (r = -0,37; p < 0,001) et du stress (r = -0,31; p <

0,001) et une augmentation importante de la fatigue (r = 0,37; p < 0,001).

Figure 22 : Résultats du NASA-TLX lors de la tâche de C2.

0

1

2

3

4

5

6

7

8

9

10

Ex.M. Ex.T. Per. Eff. Fru. Foc. Fat. Str. É.G.

ds dS Ds DS

121

Tableau 33 -

Tailles d’effet des ANOVA menées sur les réponses du NASA-TLX

Dimension Facteur 𝜂𝑝2 p

Exigence mentale

D 0,4523 < 0,001

S 0,0018 0,7784

D × S 0,0028 0,7279

Exigence

temporelle

D 0,5013 < 0,001

S 0,0237 0,3070

D × S 0,0067 0,5888

Performance

D 0,5836 < 0,001

S 0,0285 0,2623

D × S 0,0067 0,2394

Effort

D 0,0655 0,0860

S 0,0413 0,1756

D × S 0,0053 0,6291

Frustration

D 0,4497 < 0,001

S 0,0320 0,2344

D × S 0,0004 0,8862

Focus

D 0,0545 0,1185

S 0,0322 0,2326

D × S 0,0157 0,4067

Fatigue

D 0,1212 0,0177

S 0,0294 0,2543

D × S 0,0214 0,3317

Stress

D 0,2695 < 0,001

S 0,0862 0,0477

D × S 0,0012 0,8191

État général

D 0,3753 < 0,001

S 0,1061 0,0272

D × S 0,0064 0,5967

Note. D = Difficulté, S = Stresseur, p < 0.05 en gras.

122

Tableau 34 -

Coefficients de corrélation entre le temps passé sur la tâche et les dimensions du

NASA-TLX

Dimension rspearman p

Exigence mentale -0,2180 0,0033

Exigence temporelle -0,1571 0,0352

Performance 0,2304 0,0019

Effort -0,1196 0,1098

Frustration -0,3787 < 0,001

Focus 0,0362 0,6296

Fatigue 0,3872 < 0,001

Stress -0,3111 < 0,001

État général 0,0458 0,5419

Note. p < 0.05 en gras.

4.2.2 Analyse de la performance et de l’effort

Dans le but de vérifier l’effet des conditions expérimentales sur la performance, on effectue

à nouveau des ANOVA en utilisant cette fois les métriques de performance comme variables

dépendantes. Le Tableau 35 rapporte les valeurs moyennes des trois métriques de

performance. Une ANOVA est effectuée sur ces variables. Les résultats montrent que

l’augmentation de la difficulté a fortement diminué le pourcentage de vies sauvées

(𝜂𝑝2 = 0,93; p < 0,001). L’augmentation de la difficulté a également eu un faible effet sur le

nombre d’assignations (𝜂𝑝2 = 0,10; p = 0,0282). Quant au temps de réponse, il semble y avoir

eu une interaction entre les deux facteurs (𝜂𝑝2 = 0,12; p = 0,0146), un effet du stresseur

(𝜂𝑝2 = 0,09; p = 0,0342) et aucun effet de la difficulté. La Figure 23, qui détaille l’interaction,

suggère que la présence de l’examinateur faisait diminuer le temps de réponse, mais

seulement lorsque la difficulté était élevée. Les corrélations entre l’effet du temps passé sur

la tâche et la performance sont également calculées. Ces dernières montrent que plus les

individus passaient du temps sur la tâche, plus ils diminuaient leur temps de réponse

(r = -0,33; p < 0,001), plus ils sauvaient de vies (r = 0,21; p < 0,001) et plus ils effectuaient

d’assignations (r = 0,40; p < 0,001).

123

Tableau 35 -

Scores moyens de performance dans les quatre conditions

Dimension Difficulté →

Stress ↓ Faible Élevée

Nombre d’assignations Faible -0,1126 0,2103

Élevé -0,2248 0,1317

Pourcentage de vies

sauvées

Faible 0,7846 -0,7737

Élevé 0,6609 -0,6719

Temps de réponse Faible -0,1367 0,4409

Élevé -0,0873 -0,2168

Figure 23 : Temps de réponse en fonction de la difficulté et du stress.

Le Tableau 36 rapporte les valeurs moyennes de l’effort. Les métriques de l’effort étaient

calculées en prenant le produit entre les métriques de performance (normalisées par rapport

au meilleur possible par scénario) et l’évaluation brute de la dimension « Exigence mentale »

du NASA-TLX. Pour l’effort basé sur le temps de réponse, on ne décèle aucune interaction

ni aucun effet simple de la difficulté et du stress. Quant à l’effort basé sur le pourcentage de

vies sauvées, il semble y avoir eu un effet important de la difficulté (𝜂𝑝2 = 0,53; p < 0,001).

Le Tableau 36 suggère que, plus la difficulté était élevée, plus les participants fournissaient

un effort élevé. Il n’y a eu aucune interaction ni effet du stresseur pour cette mesure. Le temps

passé sur la tâche faisait diminuer l’effort investi par les participants. La corrélation est

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

Difficulté faible Difficulté élevée

Per

form

ance

(te

mps

de

réponse

)

norm

alis

ée

Stress faible

Stress élevé

124

significative pour l’effort basé sur le temps de réponse (r = -0,18; p = 0,0144), mais ne l’est

pas pour l’effort basé sur le pourcentage de vies sauvées.

Tableau 36 -

Scores moyens de l’effort dans les quatre conditions

Dimension Difficulté →

Stress ↓ Faible Élevée

Effort (vies sauvées) Faible 0,1813 0,3575

Élevé 0,1881 0,4995

Effort (temps de

réponse)

Faible 0,2058 0,2252

Élevé 0,2067 0,2980

4.2.3 Analyse des métriques physiologiques

Étant donné le nombre élevé de métriques physiologique (180), il n’est pas réaliste de

présenter la variance de chacune d’entre elles pour chaque variable d’intérêt de cette

expérience. Seulement quelques métriques physiologiques seront présentées. Pour l’activité

cardiaque, on présente la moyenne de la durée entre les battements (RRMoy), la variabilité

cardiaque (RRSDNN), ainsi que le ratio LF/HF (RRLF/HF). Pour la respiration, on présente la

durée moyenne des respirations (RSPDur) ainsi que l’amplitude moyenne des inspirations

(RSPAMoy). Pour l’activité électrodermale, on présente le niveau électrodermal moyen

(EDAMoy) et la durée moyenne des réponses (EDADur). Pour la pupille, on ne présente que le

diamètre moyen (PUPMoy). Finalement, pour les mouvements oculaires, on présente le

nombre de fixations (GAZNF), ainsi que la durée totale des saccades (GAZTotS). Des tests-t

sont effectués afin de déterminer si les différences sont significatives entre les deux niveaux

de chaque variable d’intérêt. Les résultats sont présentés au Tableau 37 (valeurs normalisées).

Le tableau montre que la durée moyenne des battements était plus faible lors du repos initial

que lors de la simulation de C2. Le temps passé sur la tâche (ordre des conditions) a augmenté

la durée moyenne des battements. Les battements étaient également plus longs lors de la

première époque de chaque condition. La durée entre les battements cardiaques n’a pas été

influencée par les conditions expérimentales (difficulté et stress), toutefois, cette dernière a

diminué lors des conditions où l’effort était élevé. La variabilité cardiaque était plus élevée

lors du repos initial que lors de la simulation et a augmenté avec le temps passé sur la tâche

125

(ordre des conditions). La variabilité cardiaque était aussi plus longue lors des premières

époques. La variabilité cardiaque était également plus haute lors des conditions où la

performance était élevée. À l’inverse, la variabilité cardiaque a diminué lors de la présence

du stresseur (l’évaluateur) et a diminué lorsque l’effort était plus élevé. Le ratio des basses

sur les hautes fréquences cardiaques n’a montré aucune variation détectable. Au niveau

respiratoire, les résultats montrent que la respiration était plus longue lors du repos initial et

lorsque le stresseur était présent. La durée respiratoire était toutefois plus courte lors des

conditions difficiles et lorsque la performance augmentait. La respiration était plus ample

lors du repos initial et lors de la première époque de chaque condition. L’amplitude

respiratoire diminuait toutefois entre les conditions. Un patron similaire était observé pour le

niveau électrodermal. En effet, ce dernier était plus élevé lors du repos initial et plus élevé

lors des premières époques. Tout comme l’amplitude respiratoire, le niveau électrodermal

diminuait entre les conditions. Les résultats montrent aussi que le niveau électrodermal

n’était pas affecté par les deux facteurs du devis (difficulté et stress), mais qu’il diminuait

lorsque la performance était faible et augmentait lorsque l’effort était élevé. Quant à la durée

des réponses électrodermales, celle-ci était plus courte lors du repos initial, plus longue

lorsque le stresseur était présent et plus longues vers la fin de l’expérience. Pour la pupille,

les résultats montrent que le diamètre pupillaire était plus grand lors du repos initial et qu’il

avait tendance à diminuer avec l’ordre des conditions. Le diamètre pupillaire était plus grand

lors des premières époques. Finalement, au niveau oculaire, les résultats montrent qu’il y a

eu plus de fixations lors du repos initial, plus de fixations vers les premières époques des

conditions et un peu plus de fixations lorsque le temps de réponse était élevé. À l’inverse,

l’effort (basé sur le temps de réponse) a semblé causer moins de fixations oculaires. Quant

au temps total passé en saccade, celui-ci était plus élevé lors du repos initial et vers les

premières époques de chaque condition. À l’inverse, il y avait un temps total de saccade plus

court lorsque le stresseur était présent et lorsque l’effort était élevé.

Une analyse est également effectuée afin de visualiser la variabilité de toutes les métriques

physiologiques en fonction des variables d’intérêt. Cette information est synthétisée au

Tableau 38. Le tableau présente la moyenne du d de Cohen pour chaque sous-ensemble de

métriques physiologique et chaque variable d’intérêt. Les d de Cohen sont calculés en valeur

126

absolue pour ne capturer que la magnitude de la taille d’effet (et non la direction). Ces tests

sont menés sur un découpage d’époques de 300 secondes. Mis à part pour le repos initial,

très peu de sous-ensembles de métrique physiologique ont montré une taille d’effet moyenne

élevée (supérieure au seuil de 0,25). Pour la variable du repos initial, tous les sous-ensembles

ont présenté des tailles d’effet moyennes élevées. Pour la difficulté, le stress, la performance

et l’effort, aucun sous-ensemble n’a dépassé le seuil fixé. Les sous-ensembles cardiaques,

électrodermaux, pupillaires et oculaires ont présenté une variabilité élevée entre la première

époque et les époques subséquentes de chaque condition. L’ordre des conditions, quant à lui,

a causé une variation plus importante au niveau des sous-ensembles cardiaques, respiratoires

et électrodermaux. Il est également possible de noter que cette variation était surtout observée

dans les sous-ensembles de statistique descriptive.

Tableau 37 -

Taille d’effet des métriques physiologique

Métrique

d de Cohen

R.Ini. Diff. Stress Ordre

cond.

Ordre

époq.

Perf.

(%)

Perf.

(temps)

Effort

(%)

Effort

(temps)

RRMoy -0,46 0,07 -0,05 1,18 0,36 0,16 -0,11 -0,28 -0,16

RRSDNN 0,63 -0,13 -0,31 0,92 0,54 0,22 0,00 -0,23 -0,22

RRLF/HF 0,21 -0,03 -0,15 0,07 0,07 0,03 0,05 0,00 0,03

RSPDur 1,19 -0,18 0,30 -0,09 0,03 -0,17 0,04 -0,14 -0,07

RSPAMoy 1,64 -0,06 0,10 -0,37 0,23 -0,05 0,00 0,11 0,05

EDAMoy 0,52 0,01 -0,12 -0,60 0,98 -0,27 0,09 0,30 0,20

EDADur -0,32 -0,03 0,20 0,19 -0,11 0,04 0,00 -0,15 -0,07

PUPMoy 1,35 0,16 0,00 -0,44 -0,82 0,09 0,08 0,12 0,10

GAZNF 2,04 -0,15 -0,16 0,06 0,29 -0,11 0,17 -0,12 -0,18

GAZTotS 2,58 -0,12 -0,22 0,12 0,45 -0,06 0,16 -0,10 -0,18

Note. p < 0,05 en gras.

127

Tableau 38 -

Moyenne du d de Cohen par groupe de métriques physiologiques

Type de

métrique

Moyenne du d de Cohen

R.Ini. Diff. Stress Ordre

(c.)

Ordre

(e.)

Perf.

(%)

Perf.

(temps)

Effort

(%)

Effort

(temps)

RR SD 0,48 0,08 0,15 0,58 0,31 0,10 0,06 0,21 0.13

VC 0,22 0,07 0,19 0,23 0,25 0,06 0,05 0,10 0.09

RSP

SD 0,62 0,07 0,12 0,28 0,18 0,06 0,07 0,15 0.12

AS 0,37 0,08 0,19 0,21 0,14 0,12 0,06 0,10 0.07

AP 0,88 0,10 0,16 0,20 0,11 0,08 0,08 0,09 0.08

EDA

SD 0,60 0,05 0,10 0,29 0,89 0,15 0,06 0,16 0.12

AS 0,44 0,13 0,17 0,03 0,31 0,02 0,10 0,06 0.04

AP 0,44 0,07 0,23 0,17 0,22 0,10 0,06 0,14 0.08

PUP

SD 1,07 0,15 0,09 0,18 0,72 0,08 0,06 0,14 0.13

AS 0,86 0,12 0,10 0,06 0,51 0,04 0,03 0,14 0.13

AP 0,67 0,12 0,16 0,08 0,23 0,07 0,07 0,10 0.11

GAZ FS 1,99 0,12 0,15 0,10 0,36 0,09 0,14 0,09 0.15

Global 0,61 0,09 0,16 0,20 0,30 0,08 0,07 0,12 0,10

Note. SD = Statistiques descriptives, VC = Variabilité cardiaque, AS = Analyse spectrale,

AP = Analyse de pics, FS = Analyse des fixations/saccades, d ≥ 0,25 en gras.

4.2.4 Analyse des modèles d’apprentissage automatique

Avant d’entraîner les modèles de classification, il peut être pertinent de présenter comment

chaque variable se distingue ou ressemble aux autres. Ainsi, pour chaque paire de variables

d’intérêt, on calcule le Kappa de Cohen. Si, par exemple, une paire présente un κ près de -1

ou près de 1, il n’est pas nécessaire d’entraîner deux classificateurs étant donné que ces

derniers sont presque identiques. Dans cette étude, on choisit que le seuil maximum entre

deux variables soit |κ| < 0,80; ce qui correspond à environ 90% de similitude entre les

variables. Le Tableau 39 montre la vérification de cette indépendance pour les variables

objectives. La variable de l’ordre des époques n’est pas présentée puisqu’il n’y avait pas de

variabilité avec les autres variables entre les époques d’une même condition. Dans

l’ensemble, le tableau suggère que ces variables sont fortement indépendantes. La seule

exception au tableau est l’association entre l’effort basé sur le pourcentage de vies et l’effort

basé sur le temps de réaction (κ = 0,71). Cette valeur reste toutefois considérablement sous

le seuil critique fixé. Le Tableau 40 présente la même analyse pour les variables subjectives.

Aucune paire de variables n’excède le seuil critique fixé. On note simplement que la valeur

128

maximale d’association entre deux axes du NASA-TLX est κ = 0,60 (entre l’exigence

mentale et temporelle). Finalement, le Tableau 41 présente la vérification d’indépendance

des variables entre les variables objectives et subjectives. Encore une fois, aucune variable

n’excède le seuil critique fixé. On note également une certaine association entre la difficulté

objective et la performance subjective (κ = -0,61). Les autres associations restent plutôt

faibles.

Tableau 39 -

Vérification de l’indépendance des variables objectives

Stress Ord. (c.) Per. (PV) Per. (TR) Eff. (PV) Eff. (TR)

Diff. 0,0055 0,0024 -0,0928 0,0490 0,1479 0,3477

Stress -0,0318 0,0709 -0,2049 0,0928 0,0929

Ord. (c.) 0,2380 -0,1337 -0,2130 -0,1842

Per. (PV) -0,0761 0,0587 -0,1206

Per. (TR) -0,0315 -0,0819

Eff. (PV) 0,7172

Note. Mesure fournie en κ entre les variables

Tableau 40 -

Vérification de l’indépendance des variables subjectives

Ex.T. Perf. Eff. Fru. Foc. Fat. Str. É.G.

Ex.M. 0,6048 -0,4356 0,2328 0,5045 0,0823 0,1586 0,5401 -0,3239

Ex.T. -0,3686 0,3209 0,3957 0,0352 0,0708 0,5181 -0,1919

Per. -0,1269 -0,5131 -0,1563 -0,1587 -0,4113 0,5192

Eff. 0,3754 0,0104 0,1146 0,3214 -0,1041

Fru. 0,0505 0,1038 0,4633 -0,3792

Foc. 0,1714 0,0986 -0,2251

Fat. 0,1803 -0,2459

Str. -0,3229

Note. Mesure fournie en κ entre les variables.

129

Tableau 41 -

Vérification de l’indépendance des variables objectives/subjectives

Diff Stress Ord. (c.) Per.

(PV)

Per.

(TR)

Eff.

(PV)

Eff.

(TR)

Ex.M. 0,4875 0,1266 -0,2095 -0,2328 -0,0216 0,5134 0,6349

Ex.T. 0,4212 0,1262 -0,1501 -0,1018 -0,0173 0,2488 0,3442

Per. -0,6179 -0,0381 0,2179 0,2363 -0,1334 -0,2014 -0,3327

Eff. 0,1365 0,1916 -0,1204 -0,0806 0,0315 0,2258 0,1647

Fru. 0,4111 0,0938 -0,4115 -0,1777 0,1440 0,1738 0,2718

Foc. 0,0392 0,1150 0,0133 -0,1427 0,0079 0,0337 0,0672

Fat. 0,1694 0,1148 0,3061 -0,0271 -0,0623 0,0385 0,1274

Str. 0,3552 0,1260 -0,2380 -0,1901 0,0315 0,2915 0,3852

É.G. -0,4208 -0,1912 0,0220 0,1697 -0,0400 -0,1365 -0,2692

Note. Mesure fournie en κ entre les variables.

Le Tableau 42 rapporte les résultats des prédictions des huit variables en utilisant un

classificateur SVM. Les résultats présentés sont en fonction de la durée des époques, soit 120

ou 300 secondes, ainsi que du sous-ensemble de métriques physiologiques utilisées. La

variable du repos initial est celle qui a présenté la meilleure performance. Les valeurs de

Kappa pour cette classe varient entre 0,61 et 0,78. Les résultats montrent que Kappa est

toujours plus élevé lorsque la durée des époques est de 300 secondes. De plus, la performance

augmente avec la quantité de métriques physiologiques utilisées. Pour la difficulté, aucun

classificateur n’est arrivé à atteindre le seuil de signification de p < 0,001, ni même le seuil

pour être considéré comme une tendance (p < 0,05). Pour le stress, les valeurs de Kappa

varient entre 0,10 et 0,19. La performance semble encore une fois positivement associée au

nombre de métriques fournies. Les résultats de prédiction de l’ordre des conditions sont

plutôt bons et constants. Dans les différents classificateurs, les valeurs de Kappa se

maintiennent entre 0,23 et 0,29; avec des valeurs de probabilité critique sous le seuil de

signification. La prédiction de l’ordre des époques est également plutôt élevée. La valeur de

Kappa varie entre 0,39 et 0,70. Encore une fois, la performance augmente avec le nombre de

métrique et semble plus grande avec des époques plus longues. La prédiction de la

performance s’est montrée plutôt infructueuse. Un seul classificateur a atteint le seuil pour

être considéré comme acceptable (RR-RSP-EDA-PUP, époques de 120 secondes, κ = 0,10;

p < 0,001). L’effort basé sur le nombre de vies sauvées a pu être prédit pour des époques de

300 secondes et les métriques RR-RSP-EDA-PUP (κ = 0,15; p < 0,001), et a presque atteint

130

le seuil de signification lorsque toutes les métriques étaient fournies. Quelques tendances ont

également pu être décelées, notamment pour le stress (RR-RSP-EDA et RR-RSP, époques

de 300 secondes, κ = 0,11; p = 0,0157 et κ = 0,11; p = 0,0073) et pour l’effort mental

(RR-RSP-EDA-PUP-GAZ, époques de 300 secondes, κ = 0,15; p = 0,0012). Quant à l’effort

basé sur le temps de réponse, les résultats sont plutôt infructueux. Le Tableau 43 rapporte les

résultats des prédictions des neuf questions du NASA-TLX. Seuls les résultats pour les

classificateurs ayant toutes les métriques physiologiques sont présentés. Contrairement aux

classes objectives, les classes subjectives semblent être plus faciles à prédire en utilisant des

époques de 120 secondes. Sur les neuf dimensions du NASA-TLX, aucune n’a pu être prédite

correctement avec des époques de 300 secondes. Seules les dimensions de l’exigence

mentale (κ = 0,12; p = 0,0164), de la frustration (κ = 0,09; p = 0,0428) et du stress (κ = 0,12;

p = 0,0071) ont présenté des tendances. Quant aux époques de 120 secondes, l’exigence

mentale (κ = 0,17; p < 0,001), la frustration (κ = 0,12; p < 0,001) et le stress (κ = 0,11;

p < 0,001) ont pu être prédits de manière significative.

131

Tableau 42 -

Performance en test des variables en fonction des métriques utilisées et de la durée des

époques pour un classificateur SVM

Classe Métriques

Époques de

120 secondes

Époques de

300 secondes

κ p κ p

Repos initial

RR-RSP-EDA-PUP-GAZ 0,7300 < 0,001 0,7850 < 0,001

RR-RSP-EDA-PUP 0,6601 < 0,001 0,6781 < 0,001

RR-RSP-EDA 0,6447 < 0,001 0,7696 < 0,001

RR-RSP 0,6116 < 0,001 0,6929 < 0,001

Difficulté

RR-RSP-EDA-PUP-GAZ 0,0568 0,0607 -0,0043 0,9263

RR-RSP-EDA-PUP 0,0345 0,2464 0,0500 0,2773

RR-RSP-EDA -0,0282 0,3273 -0,0227 0,6018

RR-RSP -0,413 0,1437 -0,0222 0,6105

Stress

RR-RSP-EDA-PUP-GAZ 0,1667 < 0,001 0,1923 < 0,001

RR-RSP-EDA-PUP 0,1496 < 0,001 0,2542 < 0,001

RR-RSP-EDA 0,1645 < 0,001 0,1061 0,0157

RR-RSP 0,1048 < 0,001 0,1148 0,0073

Ordre des

conditions

RR-RSP-EDA-PUP-GAZ 0,2808 < 0,001 0,2906 < 0,001

RR-RSP-EDA-PUP 0,2316 < 0,001 0,2889 < 0,001

RR-RSP-EDA 0,2868 < 0,001 0,2601 < 0,001

RR-RSP 0,2646 < 0,001 0,2939 < 0,001

Ordre des

époques

RR-RSP-EDA-PUP-GAZ 0,5626 < 0,001 0,7094 < 0,001

RR-RSP-EDA-PUP 0,4155 < 0,001 0,4610 < 0,001

RR-RSP-EDA 0,4453 < 0,001 0,4966 < 0,001

RR-RSP 0,4220 < 0,001 0,3948 < 0,001

Performance

(pourcentage

de vies

sauvées)

RR-RSP-EDA-PUP-GAZ 0,0473 0,1186 0,0453 0,3397

RR-RSP-EDA-PUP 0,0474 0,1138 0,0269 0,5746

RR-RSP-EDA 0,0588 0,0441 0,0454 0,3016

RR-RSP -0,0290 0,3150 0,0429 0,3227

Performance

(temps de

réponse)

RR-RSP-EDA-PUP-GAZ 0,0114 0,7115 -0,0051 0,919

RR-RSP-EDA-PUP 0,1038 < 0,001 0,0660 0,148

RR-RSP-EDA 0,0579 0,0488 0,0789 0,0701

RR-RSP 0,0561 0,0466 0,0572 0,1845

Effort

(pourcentage

de vies

sauvées)

RR-RSP-EDA-PUP-GAZ 0,0731 0,0157 0,1497 0,0012

RR-RSP-EDA-PUP 0,0584 0,0489 0,1530 < 0,001

RR-RSP-EDA 0,0583 0,0463 0,097 0,0259

RR-RSP -0,0075 0,8008 0,0764 0,0839

Effort

(temps de

réponse)

RR-RSP-EDA-PUP-GAZ 0,082 0,0075 -0,0252 0,5959

RR-RSP-EDA-PUP 0,0276 0,3580 0,0264 0,5773

RR-RSP-EDA 0,0307 0,3206 -0,027 0,5844

RR-RSP 0,0363 0,2070 0,0330 0,4623

Note. p < 0,001 en gras

132

Tableau 43 -

Performance en test des réponses subjectives du NASA-TLX en fonction de la durée des

époques pour un classificateur SVM

Classe Métriques

Époques de

120 secondes

Époques de

300 secondes

κ p κ p

Exigence

mentale RR-RSP-EDA-PUP-GAZ 0,1735 < 0,001 0,1293 0,0164

Exigence

temporelle RR-RSP-EDA-PUP-GAZ 0,0938 0,0031 -0,0095 0,8532

Performance RR-RSP-EDA-PUP-GAZ 0,0784 0,0102 0,0733 0,1133

Effort RR-RSP-EDA-PUP-GAZ -0,0604 0,0664 -0,0216 0,6571

Frustration RR-RSP-EDA-PUP-GAZ 0,1292 < 0,001 0,0967 0,0428

Focus RR-RSP-EDA-PUP-GAZ 0,0473 0,1266 0,0712 0,1239

Fatigue RR-RSP-EDA-PUP-GAZ 0,0715 0,0182 0,0885 0,0554

Stress RR-RSP-EDA-PUP-GAZ 0,1174 < 0,001 0,1286 0,0071

État général RR-RSP-EDA-PUP-GAZ -0,0087 0,7763 -0,0045 0,9239

Note. p < 0,001 en gras

Le Tableau 44 présente les mêmes résultats que le Tableau 42, mais cette fois en utilisant un

classificateur linéaire. Dans l’ensemble, les résultats sont comparables à ceux du

classificateur SVM. Toutefois, il semble que les résultats soient légèrement meilleurs pour le

classificateur linéaire, pour des époques de 300 secondes et pour un plus grand nombre de

métriques. Pour le repos initial, la performance varie entre 0,51 et 0,82. Encore une fois,

aucun classificateur n’a pu atteindre le seuil de signification pour la variable de la difficulté.

Pour le stress, tous les classificateurs ont atteint le seuil de signification avec des

performances variant entre 0,10 et 0,28. L’ordre des conditions a atteint des performances

entre 0,27 et 0,34 encore toutes significatives. L’ordre des époques atteint, encore une fois,

une très bonne classification lorsque toutes les métriques sont fournies et les époques sont

plus longues (κ = 0,72). Aucun classificateur de la performance ne s’est relevé significatif.

Pour l’effort basé sur le pourcentage de vies sauvées, deux classificateurs ont été capables

133

d’atteindre le seuil de signification, soit le classificateur RR-RSP-EDA-PUP-GAZ de

300 secondes (κ = 0,19; p < 0,001) et le classificateur RR-RSP-EDA-PUP de 300 secondes

(κ = 0,16; p < 0 ,001). Aucun classificateur de l’effort basé sur le temps de réponse ne s’est

montré significatif. Encore une fois, quelques tendances sont observées. Quelques

classificateurs arrivent presque à prédire la difficulté (κ = 0,08; p < 0,05), la performance

(pourcentage de vie et temps de réponse, RR-RSP-EDA-PUP-GAZ, époques de 300

secondes, κ = 0,12; p < 0,05) et l’effort selon le pourcentage de vies sauvées (RR-RSP-EDA,

époques de 300 secondes, κ = 0,12; p < 0,05). Quant à la classification des mesures du

NASA-TLX, celles-ci sont rapportées au Tableau 45. Encore une fois, aucun classificateur

n’a atteint le seuil suffisant pour être considéré comme significatif avec des époques de

300 secondes. L’exigence mentale (κ = 0,13; p < 0,001), la frustration (κ = 0,15; p < 0,001)

et le stress (κ = 0,19; p < 0,001) et la performance (κ = 0,10; p < 0,001) ont pu être prédits.

134

Tableau 44 -

Performance en test des variables en fonction des métriques utilisées et de la durée des

époques pour un classificateur linéaire

Classe Métriques

Époques de

120 secondes

Époques de

300 secondes

κ p κ p

Repos initial

RR-RSP-EDA-PUP-GAZ 0,7917 < 0,001 0,8235 < 0,001

RR-RSP-EDA-PUP 0,6556 < 0,001 0,7168 < 0,001

RR-RSP-EDA 0,5414 < 0,001 0,7179 < 0,001

RR-RSP 0,5199 < 0,001 0,6351 < 0,001

Difficulté

RR-RSP-EDA-PUP-GAZ 0,0751 0,0131 0,0085 0,8534

RR-RSP-EDA-PUP 0,0789 0,0070 0,0750 0,1010

RR-RSP-EDA -0,0216 0,4548 0,0492 0,2591

RR-RSP -0,0254 0,3674 0,0222 0,6070

Stress

RR-RSP-EDA-PUP-GAZ 0,1630 < 0,001 0,2821 < 0,001

RR-RSP-EDA-PUP 0,1847 < 0,001 0,1917 < 0,001

RR-RSP-EDA 0,1312 < 0,001 0,1856 < 0,001

RR-RSP 0,1095 < 0,001 0,1889 < 0,001

Ordre des

conditions

RR-RSP-EDA-PUP-GAZ 0,3040 < 0,001 0,3134 < 0,001

RR-RSP-EDA-PUP 0,3028 < 0,001 0,2833 < 0,001

RR-RSP-EDA 0,3079 < 0,001 0,3434 < 0,001

RR-RSP 0,2952 < 0,001 0,2715 < 0,001

Ordres des

époques

RR-RSP-EDA-PUP-GAZ 0,5188 < 0,001 0,7273 < 0,001

RR-RSP-EDA-PUP 0,5402 < 0,001 0,7345 < 0,001

RR-RSP-EDA 0,4903 < 0,001 0,6657 < 0,001

RR-RSP 0,2624 < 0,001 0,3779 < 0,001

Performance

(pourcentage

de vies

sauvées)

RR-RSP-EDA-PUP-GAZ 0,0287 0,3431 0,1200 0,0096

RR-RSP-EDA-PUP 0,0973 0,0011 0,0549 0,2289

RR-RSP-EDA 0,0726 0,0119 0,0323 0,4600

RR-RSP 0,0000 0,9724 0,0290 0,5122

Performance

(temps de

réponse)

RR-RSP-EDA-PUP-GAZ 0,0901 0,0032 0,1143 0,0134

RR-RSP-EDA-PUP 0,0452 0,1320 0,0596 0,1981

RR-RSP-EDA 0,0627 0,0298 0,0670 0,1238

RR-RSP 0,0737 0,0106 0,1045 0,0193

Effort

(pourcentage

de vies

sauvées)

RR-RSP-EDA-PUP-GAZ 0,0796 0,0085 0,1994 < 0,001

RR-RSP-EDA-PUP 0,0897 0,0024 0,1642 < 0,001

RR-RSP-EDA 0,0821 0,0044 0,1221 0,0053

RR-RSP 0,0151 0,5951 0,0885 0,0427

Effort

(temps de

réponse)

RR-RSP-EDA-PUP-GAZ 0,0480 0,1130 0,0437 0,3459

RR-RSP-EDA-PUP 0,0640 0,0321 0,0734 0,1090

RR-RSP-EDA 0,0129 0,6561 0,3240 0,4578

RR-RSP 0,0460 0,1439 0,0000 0,9962

Note. p < 0,001 en gras

135

Tableau 45 -

Performance en test des réponses subjectives du NASA-TLX en fonction de la durée des

époques

Classe Métriques

Époques de

120 secondes

Époques de

300 secondes

κ p κ p

Exigence

mentale RR-RSP-EDA-PUP-GAZ 0,1341 < 0,001 0,0716 0,1249

Exigence

temporelle RR-RSP-EDA-PUP-GAZ 0,0770 0,0114 0,0211 0,6476

Performance RR-RSP-EDA-PUP-GAZ 0,1060 < 0,001 0,0614 0,1839

Effort RR-RSP-EDA-PUP-GAZ -0,0147 0,6347 -0,0076 0,8701

Frustration RR-RSP-EDA-PUP-GAZ 0,1513 < 0,001 0,1522 0,0011

Focus RR-RSP-EDA-PUP-GAZ 0,0631 0,0398 0,0468 0,3116

Fatigue RR-RSP-EDA-PUP-GAZ 0,0816 0,0071 0,1399 0,0025

Stress RR-RSP-EDA-PUP-GAZ 0,1916 < 0,001 0,1179 0,0111

État général RR-RSP-EDA-PUP-GAZ -0,0195 0,5224 -0,0282 0,5426

Note. p < 0,001 en gras

4.2.5 Méta-analyse des classificateurs

Afin de déterminer les conditions qui favorisent une meilleure classification, une série de

régressions logistiques multiples sont effectuées. Contrairement à la première expérience, le

plus grand nombre d’échantillons disponible permet d’effectuer plusieurs régressions

logistiques multiples (au lieu d’une régression pour toutes les variables d’intérêt) tout en

préservant la puissance statistique nécessaire. Afin de simplifier l’analyse, les 2 variables

d’intérêt de l’effort et les 2 variables d’intérêt de la performance (basé sur le pourcentage de

vies sauvées/ basé sur le temps de réponse) sont groupées ensemble lors des régressions. Les

variables indépendantes retenues dans ces régressions sont les niveaux de difficulté et de

stress, l’ordre des conditions et des époques, le sous-ensemble de métriques physiologique,

le type de classificateur ainsi que la durée des époques.

136

Pour la difficulté (voir Tableau 44), les résultats montrent que cette dernière était

significativement mieux classifiée au fur et à mesure que l’ordre des conditions progressait

(donc, mieux classifiée vers la fin de l’expérience). Le stress (voir Tableau 45) était mieux

classifié lorsque le stresseur était présent lorsque l’effort était élevé. L’ordre des conditions

(voir Tableau 48) était mieux classifié lorsque la difficulté était élevée, lorsque le stress était

faible et était mieux classifié au début de l’expérience. Les classificateurs de l’ordre des

époques (voir Tableau 49) sont les seuls qui ont été influencés par les métriques

physiologiques et par la durée des époques. Dans l’ensemble, la classification de l’ordre des

époques était meilleure lorsque plus de métriques physiologiques étaient fournies et lorsque

des époques de 300 secondes étaient utilisées. La classification des époques était aussi

meilleure lorsque l’effort était élevé et devenait meilleure avec le temps (condition et

époques). La classification de la performance (voir Tableau 53), tout comme pour le stress,

était meilleure lorsque le stress et l’effort étaient élevés et au fur et à mesure que l’expérience

progressait. Finalement, la classification de l’effort (voir Tableau 54) était meilleure lorsque

le stress et la performance étaient élevés. L’effort était aussi mieux classifié au début de

l’expérience et à la fin des conditions expérimentales. L’effort était mieux classifié avec des

époques de 300 secondes. Le type de classificateur (linéaire ou SVM) n’a pas influencé la

qualité de la classification pour aucune variable.

Tableau 46 -

Régression logistique multiple effectuée sur la performance en classification (difficulté)

Variable indépendante Coefficient (β)

Constante -0,1855

Difficulté élevée 0,0233

Stress élevé -0,0293

Ordre des conditions 0,3673

Ordre des époques -0,0648

Performance (% de vies) 0,0472

Effort (% de vies) -0,0834

Métriques RR-RSP-EDA (vs. RR-RSP) -0,0023

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,1437

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,1194

Classificateur linéaire (vs. SVM) 0,0635

Époque de 300 secondes (vs. 120 secondes) -0,0186

Note. p < 0,001 en gras.

137

Tableau 47 -

Régression logistique multiple effectuée sur la performance en classification (stress)

Variable indépendante Coefficient (β)

Constante -0,0060

Difficulté élevée -0,0832

Stress élevé 0,1802

Ordre des conditions 0,1615

Ordre des époques 0,0086

Performance (% de vies) 0,0107

Effort (% de vies) 0,1319

Métriques RR-RSP-EDA (vs. RR-RSP) 0,0543

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,1288

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,1338

Classificateur linéaire (vs. SVM) 0,0295

Époque de 300 secondes (vs. 120 secondes) 0,0877

Note. p < 0,001 en gras.

Tableau 48 -

Régression logistique multiple effectuée sur la performance en classification (ordre des

conditions)

Variable indépendante Coefficient (β)

Constante 1,2487

Difficulté élevée 0,1172

Stress élevé -0,1636

Ordre des conditions -0,1004

Ordre des époques -0,2860

Performance (% de vies) 0,0263

Effort (% de vies) -0,0417

Métriques RR-RSP-EDA (vs. RR-RSP) 0,0868

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,0404

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,0340

Classificateur linéaire (vs. SVM) 0,0150

Époque de 300 secondes (vs. 120 secondes) -0,0491

Note. p < 0,001 en gras.

138

Tableau 49 -

Régression logistique multiple effectuée sur la performance en classification (ordre des

époques)

Variable indépendante Coefficient (β)

Constante 0,2365

Difficulté élevée 0,1052

Stress élevé -0,0582

Ordre des conditions 0,5763

Ordre des époques 0,4678

Performance (% de vies) 0,1137

Effort (% de vies) 0,2078

Métriques RR-RSP-EDA (vs. RR-RSP) 0,3823

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,4063

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,5802

Classificateur linéaire (vs. SVM) -0,0222

Époque de 300 secondes (vs. 120 secondes) 0,3721

Note. p < 0,001 en gras.

Tableau 50 -

Régression logistique multiple effectuée sur la performance en classification (performance)

Variable indépendante Coefficient (β)

Constante -0,0866

Difficulté élevée -0,0234

Stress élevé 0,0958

Ordre des conditions 0,1488

Ordre des époques -0,0792

Performance (% de vies) -0,0154

Effort (% de vies) 0,2142

Métriques RR-RSP-EDA (vs. RR-RSP) 0,0600

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,0805

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,0451

Classificateur linéaire (vs. SVM) 0,0060

Époque de 300 secondes (vs. 120 secondes) -0,0107

Note. p < 0,001 en gras.

139

Tableau 51 -

Régression logistique multiple effectuée sur la performance en classification (effort)

Variable indépendante Coefficient (β)

Constante -0,1872

Difficulté élevée 0,0390

Stress élevé 0,1062

Ordre des conditions -0,3045

Ordre des époques 0,1878

Performance (% de vies) 0,5415

Effort (% de vies) -0,0471

Métriques RR-RSP-EDA (vs. RR-RSP) 0,0328

Métriques RR-RPS-EDA-PUP (vs. RR-RSP) 0,0785

Métriques RR-RSP-EDA-PUP-GAZ (vs. RR-RSP) 0,0810

Classificateur linéaire (vs. SVM) 0,0207

Époque de 300 secondes (vs. 120 secondes) 0,1147

Note. p < 0,001 en gras.

La contribution particulière des métriques peut être examinée en analysant les poids

déterminés par les classificateurs. Cette analyse ne peut être effectuée que pour le

classificateur linéaire puisque l’utilisation du kernel rend difficile l’interprétation des poids

du classificateur SVM (Cornuéjols et Miclet, 2010). Le Tableau 52 présente le pourcentage

des poids de chaque modalité physiologique selon le classificateur et le sous-ensemble de

métrique physiologique. Ce pourcentage est ajusté au nombre de métriques présent dans

chaque type de modalité physiologique. Seuls les classificateurs significatifs sont présentés.

Pour le repos initial, lorsque toutes les métriques sont fournies, les contributions les plus

importantes proviennent des mouvements oculaires. Lorsque les mouvements oculaires sont

retirés, la respiration devient la plus importante. Pour le classificateur stress, les poids

semblent répartis de manière uniforme entre les modalités. La classification de l’ordre des

conditions s’est principalement basée sur les métriques cardiaques. Pour l’ordre des époques,

ce sont les métriques électrodermales qui ont été les plus pertinentes. Lorsque ces dernières

étaient absentes, ce sont les métriques cardiaques qui ont été les plus utiles. Finalement, la

classification de l’effort a utilisé des métriques de toutes les modalités, mais les métriques

pupillaires étaient un peu plus pertinentes. La Figure 24 présente graphiquement les valeurs

de ce tableau pour le groupe RR-RSP-EDA-PUP-GAZ.

140

Tableau 52 -

Pourcentage de la contribution des modalités physiologiques

Classe Métriques Pourcentage de contribution

RR RSP EDA PUP GAZ

Repos initial

RR-RSP-EDA-PUP-GAZ 1% 13% 2% 1% 83%

RR-RSP-EDA-PUP 4% 87% 5% 3% -

RR-RSP-EDA 4% 89% 6% - -

RR-RSP 10% 90% - - -

Difficulté

RR-RSP-EDA-PUP-GAZ n.s.

RR-RSP-EDA-PUP n.s.

RR-RSP-EDA n.s.

RR-RSP n.s.

Stress

RR-RSP-EDA-PUP-GAZ 24% 28% 22% 21% 5%

RR-RSP-EDA-PUP 28% 26% 23% 23% -

RR-RSP-EDA 34% 36% 30% - -

RR-RSP 35% 65% - - -

Ordre des

conditions

RR-RSP-EDA-PUP-GAZ 45% 17% 22% 6% 9%

RR-RSP-EDA-PUP 62% 15% 16% 7% -

RR-RSP-EDA 64% 20% 16% - -

RR-RSP 64% 36% - - -

Ordre des

époques

RR-RSP-EDA-PUP-GAZ 10% 2% 50% 16% 21%

RR-RSP-EDA-PUP 13% 3% 63% 20% -

RR-RSP-EDA 20% 8% 82% - -

RR-RSP 71% 29% - - -

Performance

(pourcentage

de vies

sauvées)

RR-RSP-EDA-PUP-GAZ n.s.

RR-RSP-EDA-PUP n.s.

RR-RSP-EDA n.s.

RR-RSP n.s.

Performance

(temps de

réponse)

RR-RSP-EDA-PUP-GAZ n.s.

RR-RSP-EDA-PUP n.s.

RR-RSP-EDA n.s.

RR-RSP n.s.

Effort

(pourcentage

de vies

sauvées)

RR-RSP-EDA-PUP-GAZ 19% 19% 16% 32% 13%

RR-RSP-EDA-PUP 23% 26% 21% 30% -

RR-RSP-EDA n.s.

RR-RSP n.s.

Effort

(temps de

réponse)

RR-RSP-EDA-PUP-GAZ n.s.

RR-RSP-EDA-PUP n.s.

RR-RSP-EDA n.s.

RR-RSP n.s.

Note. Résultats rapportés seulement pour le classificateur linéaire avec des époques de 300

secondes. Seuls les classificateurs ayant atteint le seuil de signification sont rapportés. Les

autres sont marqués « n.s. ». À cause de l’arrondissement des valeurs, la somme d’une ligne

peut ne pas toujours donner 100%.

141

Figure 24 : Contribution des modalités physiologiques selon le classificateur.

Pour clore cette analyse, la liste des 10 métriques physiologiques les plus utilisées par chaque

classificateur est analysée (lorsque toutes les métriques sont fournies). L’analyse montre que

le repos initial (Tableau 53) est caractérisé par un grand nombre de fixations et de saccades

(rangs 1-2-3 et 10). L’analyse montre que le classificateur a aussi repéré une respiration

ample et irrégulière (rangs 4-5-6-8) et un volume thoracique croissant (rangs 7 et 9). Le

classificateur du stress (Tableau 54) a retenu une respiration parfois lente (rang 1) et peu

profonde (rang 4). Au niveau cardiaque, le stress a provoqué une transition des très basses

fréquences vers les basses et hautes fréquences (rangs 2-5-7 et 8). La bande fréquentielle

pupillaire de 50 à 75 mHz a subi une diminution. Pour l’ordre des conditions (Tableau 55),

les classificateurs ont associé les dernières conditions à un rythme cardiaque plus lent (rang

1-2 et 4) et plus irrégulier (rangs 5 et 10). Le classificateur a aussi retenu un niveau

électrodermal plus faible (rangs 3-6 et 7) et une respiration plus basse et moins ample (rangs

8-9). Les premières conditions (Tableau 56) étaient caractérisées par un niveau électrodermal

élevé (rangs 1-3-9 et 10) subissant une forte baisse (rang 2). Les classificateurs ont également

retenu une augmentation de l’asymétrie de la distribution pupillaire (rang 4) et une baisse du

diamètre (rang 6). Les premières époques étaient aussi caractérisées par une plus grande

étendue et un plus faible minimum du rythme cardiaque (rang 5 et 7). Finalement, l’effort

élevé (Tableau 57) était associé avec une augmentation des plusieurs bandes pupillaires

(rangs 1-4 et 8), par une diminution du temps entre les pics pupillaires (rang 3) et par une

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Repos initial Stress Ordre (c.) Ordre (e.) Effort

Po

urc

enta

ge

con

trib

uti

on

RR RSP EDA PUP GAZ

142

plus faible distribution du diamètre pupillaire (rang 5). L’effort mental était aussi associé à

une plus grande asymétrie de la distribution des battements cardiaques (rang 2) et une baisse

des basses fréquences (rang 7).

Tableau 53 -

Métriques ayant les plus grands poids pour la classification de la classe « Repos Initial »

Rang Modalité Métrique βMoy

1 GAZ Ratio fixation/saccades 0,2277 ± 0,0095

2 GAZ Somme des saccades 0,1975 ± 0,0098

3 GAZ Moyenne des saccades 0,1820 ± 0,0150

4 RSP Écart-type du temps de montée des pics 0,1544 ± 0,0210

5 RSP Moyenne du temps de montée de pics 0,1326 ± 0,0170

6 RSP Amplitude moyenne des pics 0,0878 ± 0,0125

7 RSP Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,0863 ± 0,0132

8 RSP Écart-type des temps inter-vallées 0,0727 ± 0,0146

9 RSP Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,0698 ± 0,0128

10 GAZ Nombre de fixations 0,0642 ± 0,0146

Note. Poids présenté pour des époques de 300 secondes seulement.

Tableau 54 -

Métriques ayant les plus grands poids pour la classification de la classe «Stress »

Rang Modalité Métrique βMoy

1 RSP Maximum des temps inter-vallées 0,2098 ± 0,0182

2 RR Surface de la bande VLF (Méthode Lomb-

Scargle)

-0,1767 ± 0,0176

3 RSP Pente maximale des pics -0,1635 ± 0,0131

4 PUP Puissance de la bande 50 à 75 mHz -0,1617 ± 0,0167

5 RR Puissance de la bande HF (Méthode Lomb-

Scargle)

0,1601 ± 0,0112

6 EDA Puissance de la bande 40 à 50 mHz -0,1457 ± 0,0161

7 RR Maximum bande VLF (Méthode autorégressive) -0,1419 ± 0,0159

8 RR Maximum bande LF (Méthode Lomb-Scargle) 0,1411 ± 0,0174

9 PUP Puissance de la bande 150 à 175 mHz 0,1381 ± 0,0198

10 EDA Kurtosis de la distribution 0,1337 ± 0,0153

Note. Poids présenté pour des époques de 300 secondes seulement.

143

Tableau 55 -

Métriques ayant les plus grands poids pour la classification de la classe « Ordre des

conditions »

Rang Modalité Métrique βMoy

1 RR Moyenne 0,2009 ± 0,0258

2 RR Médiane 0,1934 ± 0,0262

3 EDA Minimum -0,1362 ± 0,0324

4 RR Maximum 0,1127 ± 0,0252

5 RR Écart-type 0,0794 ± 0,0217

6 EDA Médiane -0,0742 ± 0,0238

7 EDA Moyenne -0,0699 ± 0,0243

8 RSP Minimum -0,0579 ± 0,0200

9 RSP Amplitude moyenne des pics -0,0486 ± 0,0150

10 RR Étendue de la distribution 0,0465 ± 0,0169

Note. Comme la classification de « Ordre des condition » se fait avec trois classificateurs,

le tableau présente les poids et intervalles moyens de ces trois classificateurs. Note : Poids

présenté pour des époques de 300 secondes seulement.

Tableau 56 -

Métriques ayant les plus grands poids pour la classification de la classe «Ordre des

époques »

Rang Modalité Métrique βMoy

1 EDA Valeur « b », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 0,4046 ± 0,0128

2 EDA Valeur « a », modélisation linéaire : 𝑦 = 𝑎𝑥 + 𝑏 -0,4025 ± 0,0127

3 EDA Minimum 0,1870 ± 0,0226

4 PUP Asymétrie de la distribution 0,1612 ± 0,0223

5 RR Étendue de la distribution 0,1518 ± 0,0191

6 PUP Moyenne -0,1409 ± 0,0182

7 RR Minimum -0,1352 ± 0,0211

8 GAZ Moyenne des saccades 0,1309 ± 0,0236

9 EDA Médiane 0,1245 ± 0,0201

10 EDA Moyenne 0,1204 ± 0,0205

Note. Poids présenté pour des époques de 300 secondes seulement.

144

Tableau 57 -

Métriques ayant les plus grands poids pour la classification de la classe «Effort (vies

sauvées) »

Rang Modalité Métrique βMoy

1 PUP Puissance de la bande 225 à 250 mHz 0,1846 ± 0,0222

2 RR Asymétrie de la distribution 0,1702 ± 0,0242

3 PUP Minimum des temps inter-pics -0,1408 ± 0,0193

4 PUP Puissance de la bande 175 à 200 mHz 0,1197 ± 0,0180

5 PUP Étendue de la distribution -0,1019 ± 0,0165

6 EDA Étendue de la distribution 0,0990 ± 0,0165

7 RR Surface normalisée, bande LF (Méthode Lomb-

Scargle)

-0,0946 ± 0,0152

8 PUP Puissance de la bande 200 à 225 mHz 0,0946 ± 0,0148

9 RSP Écart-type de la pente des pics 0,0945 ± 0,0172

10 PUP Écart-type -0,0934 ± 0,0145

Note. Poids présenté pour des époques de 300 secondes seulement.

4.2.6 Analyse de paramètres supplémentaires

Lors de ces analyses, il a été nécessaire de faire certains choix techniques, tels que

l’imputation des données et l’utilisation d’échantillons artificiels pour balancer les classes

(ADASYN). Étant donné le temps de calcul, il n’est pas possible d’explorer les effets de

toutes les combinaisons de paramètres techniques sur la performance en classification. Pour

vérifier l’effet de ces paramètres, quelques analyses supplémentaires sont effectuées. Comme

première analyse, on vérifie l’effet de l’imputation de données contre quelques classificateurs

s’entraînant sur des ensembles sans imputation. Seulement une partie des variables d’intérêt

sont retenues pour cette analyse. Ces analyses sont faites en utilisant des époques de 300

secondes avec toutes les métriques physiologiques. Les résultats sont présentés au Tableau

58. Les résultats montrent que les variables qui n’étaient pas possibles de prédire ne le sont

toujours pas sans imputation. Une régression logistique multiple, similaire à celle effectuée

à la section 4.2.5 (variables indépendantes : difficulté, stress, ordre des conditions, ordre des

époques, type de classificateur et imputation), suggère que l’imputation n’a pas eu d’effet sur

la performance en classification (p > 0,05).

Comme seconde analyse, on investigue, de manière similaire, l’utilisation d’échantillons

synthétiques par ADASYN sur la performance en classification. Pour cette analyse, on retient

145

quatre variables d’intérêt pour lesquels les classes étaient fortement débalancées et pour

lesquelles des échantillons synthétiques ont été créés. Ces quatre variables sont celles du

repos initial, de l’ordre des époques ainsi que les sous-classificateurs « 1 » et « 3 » de l’ordre

des conditions (tel que détaillé à la Figure 21). Les résultats des deux derniers classificateurs

n’ont pas été présentés jusqu’à présent puisqu’ils étaient imbriqués dans le classificateur

l’ordre des conditions. Ils ont inclus dans cette analyse afin pour ne conserver que les

classificateurs fortement débalancés. Les résultats sont présentés au Tableau 59. À première

vue, aucune tendance particulière ne saute aux yeux. La régression logistique multiple

suggère toutefois que l’utilisation d’échantillons synthétique a eu un effet négatif sur la

performance en classification (β = -0,49, p < 0,001). Il est important de noter qu’étant donné

qu’aucun niveau de difficulté, de stress, d’ordre de condition et d’ordre d’époque d’est

déterminé pour le repos initial, les seules variables indépendantes utilisées dans cette

régression sont le type de classificateur et la présence (ou absence) du rééquilibrage des

classes.

146

Tableau 58 -

Performance des classificateurs en fonction du type de classificateur et de l’imputation

Classe Classificateur Imputation

Époques de

300 secondes

κ p

Difficulté

SVM Sans 0,0864 0,0134

SVM Avec -0,0043 0,9263

Linéaire Sans -0,0062 0,9115

Linéaire Avec 0,0085 0,8534

Stress

SVM Sans 0,2257 < 0,001

SVM Avec 0,1923 < 0,001 Linéaire Sans 0,2346 < 0,001 Linéaire Avec 0,2821 < 0,001

Ordre des

conditions

SVM Sans 0,3154 < 0,001

SVM Avec 0,2906 < 0,001 Linéaire Sans 0,2667 < 0,001

Linéaire Avec 0,3134 < 0,001

Ordre des

époques

SVM Sans 0,7597 < 0,001

SVM Avec 0,7094 < 0,001 Linéaire Sans 0,7390 < 0,001 Linéaire Avec 0,7273 < 0,001

Performance

(% de vies

sauvées)

SVM Sans 0,0635 0,2797

SVM Avec 0,0453 0,3397

Linéaire Sans 0,1102 0,0478

Linéaire Avec 0,1200 0,0096

Effort (% de

vies sauvées)

SVM Sans 0,0714 0,2153

SVM Avec 0,1497 0,0012

Linéaire Sans 0,1102 0,0478

Linéaire Avec 0,1994 < 0,001

Note. Époques de 300 secondes avec toutes les métriques physiologiques, (p < 0,0001 en

gras).

147

Tableau 59 -

Performance des classificateurs en fonction du type de classificateur et du rebalancement

des données.

Classe Classificateur Rebalancement

(ADASYN)

Époques de

300 secondes

κ p

Repos initial

SVM Sans 0,8340 < 0,001

SVM Avec 0,7850 < 0,001

Linéaire Sans 0,8000 < 0,001

Linéaire Avec 0,8235 < 0,001

Ordre des

époques

SVM Sans 0,7352 < 0,001

SVM Avec 0,7094 < 0,001

Linéaire Sans 0,6986 < 0,001

Linéaire Avec 0,7273 < 0,001

Ordre des

conditions

(1)

SVM Sans 0,3231 < 0,001

SVM Avec 0,3781 < 0,001

Linéaire Sans 0,3584 < 0,001

Linéaire Avec 0,3650 < 0,001

Ordre des

conditions

(3)

SVM Sans 0,4855 < 0,001

SVM Avec 0,4424 < 0,001

Linéaire Sans 0,4926 < 0,001

Linéaire Avec 0,4355 < 0,001

Note. Pour l’ordre des conditions, les classificateurs présentés ici sont les sous-

classificateurs de l’ordre des conditions utilisée dans les autres analyses. Données

présentées avec toutes les métriques physiologiques fournies et des époques de 300

secondes. (p < 0,001 en gras).

4.3 Discussion

4.3.1 Discussion sur les mesures

Cette expérience avait pour but de provoquer diverses formes de charge mentales lors d’une

simulation de C2. Malgré le devis expérimental, il est fort possible que la charge mentale

réelle des participants ait été différente de ce qui avait été prévu. Cette section détaillera les

diverses mesures, subjectives, comportementales et physiologiques, afin de mieux

comprendre comment les sous-dimensions de la charge mentale ont évolué au cours de

l’expérience.

148

4.3.1.1 Discussion sur les mesures subjectives

Tel qu’il est possible de s’y attendre, l’augmentation de la difficulté a provoqué une

augmentation de l’évaluation subjective de l’exigence mentale et temporelle et a provoqué

une diminution de la performance subjective. En effet, les scénarios difficiles comptaient

presque le double des événements des scénarios faciles et ils devaient être complétés dans le

même temps. Ce résultat suggère que la manipulation de la difficulté a bien été conçue.

L’augmentation de la difficulté a également augmenté l’évaluation subjective de la

frustration et du stress. Ce résultat semble contre-intuitif considérant que ces deux

dimensions sont plutôt conceptuellement associées au stress (voir section 1.1.2), d’autant

plus que la manipulation du stress n’a que très peu affecté ces dimensions. Il faut cependant

garder en-tête qu’il est difficile (voir impossible) d’augmenter l’exigence sans causer une

quelconque forme de stress (p.ex. Callister, Suwarno et Seals, 1992; Matthews, Campbell et

coll., 2002; Robinson, 2001). Il est intéressant de noter que l’augmentation de la difficulté

n’a eu qu’un très faible impact sur la perception de l’effort investi que les participants ont

ressenti. Ce résultat peut suggérer que les participants fournissaient déjà un effort maximum

dans la condition facile. Ainsi, il est possible que les participants n’aient eu que très peu de

ressources supplémentaires à investir lors des conditions difficiles.

En constatant le faible effet du stresseur psychosocial sur les réponses subjectives, il est

possible d’envisager que la présence de l’examinateur n’ait tout simplement pas eu l’effet

attendu. Bien que la manipulation du stress ait été basée sur un stresseur validé (Kudielka et

coll., 2007), l’implémentation de ce stresseur dans cette expérience ne suivait pas à la lettre

la procédure déjà établie. Toutefois, d’autres hypothèses peuvent également être retenues. Il

est possible que la tâche ait été tellement engageante que les individus ont oublié ou fait

abstraction de la présence de l’examinateur. Il est aussi possible de supposer que le stress

provoqué par la tâche ait été si important qu’il aurait fait ombre au stress provoqué par la

présence de l’examinateur. Bien que la présence du stresseur n’ait pas fait varier les

évaluations subjectives du stress et de la frustration, ce dernier a toutefois presque augmenté

l’évaluation subjective de l’effort. Ce résultat est intéressant considérant que les participants

ne recevaient aucune instruction de travailler plus fort lorsque l’évaluateur les observaient.

149

L’augmentation de la difficulté a également fait augmenter les évaluations subjectives de la

fatigue. Il est possible que ce résultat ait été causé par l’interprétation de la question du

NASA-TLX. Ainsi, au lieu d’évaluer leur fatigue de manière générale, les participants ont

possiblement évalué à quel point la condition expérimentale qu’ils venaient de compléter les

avait fatigués. L’analyse des corrélations entre le temps passé sur la tâche et les dimensions

du NASA-TLX suggère que la fatigue augmentait bel et bien au fil du temps. Toutefois, le

temps semble avoir provoqué une série d’autres changements au niveau subjectif. Plus

précisément, les participants ont rapporté ressentir une exigence plus faible, une meilleure

performance, une moins grande frustration et un moins grand stress. Ce résultat peut vouloir

suggérer un effet d’entraînement important. Malgré le tutoriel, la pratique et la vérification

de la part de l’expérimentateur, il est possible que les participants se soient trouvé des

stratégies qui ont facilité la réalisation des dernières conditions expérimentales.

4.3.1.2 Discussion sur les mesures comportementales

Dans l’ensemble, un nombre beaucoup plus important de victimes étaient sauvées dans les

conditions faciles en comparaison aux conditions difficiles, ce qui suggère une fois de plus

que la manipulation était réussie. Malgré qu’il y eût deux fois plus d’incidents dans les

conditions difficiles, l’augmentation du nombre d’assignations a été très faible. Ce résultat,

et le fait que les participants n’ont pas rapporté avoir investi beaucoup plus d’effort dans les

conditions difficiles, peut vouloir suggérer que les participants étaient déjà à capacité presque

maximale dans les conditions faciles et que la condition difficile était, en réalité, très difficile.

Toutefois, les mesures objectives de l’effort (basée sur le pourcentage de vies sauvées) ont

montré une grande sensibilité aux niveaux de difficulté.

La présence de l’évaluateur n’a pas affecté le temps de réponse dans les conditions faciles.

Toutefois, la présence d’une interaction sur la performance suggère que les participants

diminuaient leur temps de réponse lorsque l’évaluateur était présent (dans les conditions

difficiles) et l’augmentaient lorsque l’évaluateur était absent. Cette interaction peut

possiblement illustrer la dualité des stratégies court/long termes dans la simulation de C2.

Tel qu’introduit dans la section 4.1.2, les scénarios de simulation ont été conçus de manière

à forcer les participants à prioriser leurs interventions. Les participants pouvaient choisir des

150

stratégies orientées sur le court terme (p.ex. prioriser les incidents les plus près des unités

d’interventions) ou choisir des stratégies orientées sur le long terme (p.ex. concentrer les

unités sur des incidents majeurs, même s’ils sont plus distants). Dans les conditions à

difficulté faible, il est possible que les participants aient eu suffisamment d’unités pour gérer

les incidents sans adopter une stratégie spécifique. Toutefois, lors de la difficulté élevée, ce

choix était possiblement plus décisif. Ainsi, il est possible que la présence du stresseur ait

poussé les individus à des solutions plus rapides (Keinan, 1987; Starcke et Brand, 2016) et

que l’absence du stresseur ait laissé la liberté aux individus de trouver des solutions plus

élaborées et orientées vers le long terme. Il est toutefois pertinent de noter que ce choix

stratégique n’a pas influencé le nombre de vies sauvées.

Les corrélations effectuées sur les mesures de la performance et de l’effort renforcent la

suggestion que les participants devenaient meilleurs avec le temps. En effet, ceux-ci

démontraient une meilleure performance et un effort plus faible vers la fin de l’expérience.

4.3.1.3 Discussion sur les mesures physiologiques

Pour toutes les modalités, les métriques physiologiques ont présenté peu de variabilité face

aux variations de difficulté, de stress de performance et d’effort. Ce résultat peut sembler

étrange considérant que la littérature relève plusieurs effets des métriques cardiaques,

électrodermales, respiratoires et pupillaires/oculaires face à ces variables (voir section 1.3.3).

Il est possible que les tailles d’effets des métriques pertinentes aient été diluées au travers du

grand nombre de métriques utilisées (dont certaines pourraient avoir été impertinentes).

La baisse de la durée entre les battements cardiaque (c.-à-d. l’augmentation du rythme)

observée lors du repos initial peut possiblement s’expliquer par le fait que le repos initial a

été effectué juste après le tutoriel et la séance d’entraînement, ce qui a pu provoquer une

certaine forme activation. Il est intéressant de noter que, malgré l’absence d’effets de la

difficulté et du stresseur sur la durée entre les battements, ceux-ci étaient plus courts lorsque

l’effort était élevé et plus courts lors des dernières époques des conditions. Rappelons que les

dernières époques demandaient un effort considérablement plus élevé que la première

époque. Ces indices supportent la proposition que le rythme cardiaque soit associé à l’effort

151

mental (Kennedy et Schooly, 2000). Au niveau de la variabilité cardiaque, celle-ci a

augmenté dans les situations plus stressantes et les situations où l’effort requis était plus

élevé. Souvent, la variabilité cardiaque diminue en période de stress (Castaldo et coll., 2015).

Certains travaux empiriques utilisant un stresseur similaire à de cette expérience observe

toutefois une augmentation de la variabilité cardiaque (p.ex. Schubert et coll., 2009). La

revue de littérature de cette thèse n’a pas relevé d’études qui suggèrent une augmentation de

la variabilité cardiaque avec la fatigue (ou le temps passé à faire la tâche). Il est toutefois

possible de faire l’hypothèse que, dû à l’effet d’entraînement, l’effort mental a diminué avec

le temps, ce qui a fait augmenter la variabilité cardiaque. Étant donné que le ratio des basses

sur les hautes fréquences cardiaques est souvent utilisé en psychophysiologie, il est étonnant

de constater qu’aucune variable n’a provoqué de changement sur cette métrique. Il est

possible que cette insensibilité soit causée par la méthode de calcul du ratio12. Il est également

possible que les changements relativement rapides des sous-composantes de la charge

mentale aient empêché la stabilisation du ratio.

La métrique de la durée respiratoire a présenté quelques effets contradictoires avec la

littérature. La plus grande durée des respirations observée lors du repos initial ne concorde

pas avec le rythme cardiaque plus élevé qui a aussi été observé, ni avec les autres ouvrages

de la littérature qui montrent une augmentation de la durée respiratoire lors de la réalisation

de tâches mentales (Bernardi et coll., 2000). Ces indices laissent une fois de plus croire que

l’activité physiologique prise pendant le repos initial était teintée de la séance d’entraînement

qui la précédait. Bien que la diminution de la durée respiratoire associée à la difficulté soit

prévisible, l’augmentation de la durée respiratoire lors de la présence du stresseur est aussi

contre-intuitive à ce qui est typiquement relevé (Boiten, Frikda et Wientjes, 1994). Il faut

toutefois être prudent dans l’interprétation de ces résultats. Tout comme pour d’autres

modalités physiologiques, l’activité respiratoire est un système complexe sujet à de

nombreuses dynamiques non linéaires (Vlemincx et coll., 2013). Quant à l’amplitude

respiratoire, les résultats ont montré que celle-ci diminuait avec le temps passé sur la tâche.

12 Le code MATLAB utilisé pour calculer les métriques de la variabilité cardiaque offrait 3 méthodes

différentes (Burg, Lomb-Scargle et Ondelettes) pour le ratio des basses sur les hautes fréquences cardiaques.

152

À la lumière de la revue de littérature menée dans cette thèse, peu d’articles détaillent les

effets de la fatigue sur l’amplitude respiratoire. Selon Marcora, Staiano & Manning (2009),

l’amplitude respiratoire augmente avec la fatigue mentale. Leur étude se limite toutefois à

des périodes de 15 minutes. Il est possible qu’après un effort soutenu, l’amplitude respiratoire

diminue. Fairclough et Mulder (2011), suggère d’ailleurs que l’effort mental soutenu devrait

diminuer l’amplitude respiratoire.

Le niveau électrodermal a tendance à diminuer avec l’inactivité (Boucsein, 2012), ce qui

explique les diminutions entre le repos initial et la simulation, entre les conditions et entre la

première époque et les époques subséquentes. Le niveau électrodermal n’a pas varié avec la

difficulté, mais a diminué avec la performance et a augmenté avec l’effort. Tel que détaillé à

la section 1.3.3.1, l’activité électrodermale a tendance à augmenter avec l’exigence mentale

(Collet, Salvia et Petit-Boulanger, 2014; Galy, Cariou et Mélan, 2012). Toutefois, Boucsein

et Backs (2009) suggèrent que différentes formes d’activation peuvent provoquer différents

patrons de réponses électrodermales. Selon eux, les réponses plus affectives (dites fight or

flight, possiblement observées lorsque l’effort était élevé) seraient associées à plus de

réponses électrodermales de plus grande amplitude alors que l’activation de forme d’effort

mental (possiblement observés lorsque la performance était élevée) est associée à des longues

pauses entre les réponses (et donc, un niveau électrodermal plus faible). Les plus grandes

durées des réponses observées lorsque le stresseur était présent pourraient aussi être

expliqués par la plus grande amplitude des réponses électrodermales des réponses fight or

flight. Toutefois, ces hypothèses ne pourraient être validées que si toutes les métriques

électrodermales étaient analysées en profondeur.

La baisse du diamètre pupillaire observée au fil de l’expérience pourrait être due à la fatigue

(Morad, Lemberg, Yofe et Dagan, 2000). Alternativement, cette baisse pourrait aussi avoir

été causée par la baisse de l’exigence mentale perçue (Palinko, Kun, Shyrokov et Heeman,

2010). Cette hypothèse pourrait également expliquer pourquoi le diamètre pupillaire

augmentait lors des dernières époques des conditions (les époques où l’exigence et l’effort

étaient les plus élevés). Quant aux mouvements oculaires, le nombre de fixations semble

avoir diminué lorsque l’exigence était plus élevée (dernières époques des conditions, lorsque

153

l’effort était élevé et lorsque la performance était faible). Il est possible que l’exigence élevée

ait demandé une meilleure efficacité aux participants, ce qui peut expliquer le nombre

inférieur de fixations oculaires (Goldberg & Kotval, 1999). Selon Beck et coll., (2010), un

nombre élevé de fixation peut être un indicateur que des informations non nécessaires attirent

l’attention. Il est donc possible de faire l’hypothèse que les situations à exigence élevée ont

concentré leurs fixations sur l’information nécessairement seulement. L’hypothèse de

l’efficacité est également supportée par le temps de saccades plus court observé dans

certaines conditions (effort élevé, dernières époques des conditions et présence du stresseur;

Goldberg & Kotval, 1999).

4.3.2 Discussion des modèles d’apprentissage automatique

L’analyse des paramètres supplémentaires a permis d’investiguer l’effet de deux techniques

qui ont été utilisés dans ce projet de thèse : l’imputation des données et le rééquilibrage des

classes. Tel que détaillé à la section 2.6, l’imputation des données permet de conserver les

échantillons physiologiques pour lesquels une ou plusieurs métriques ne peuvent être

calculées. Malgré l’avantage théorique proposé par l’imputation des données, les résultats

suggèrent que celle-ci n’a pas influencé la performance des classificateurs. Quelques raisons

peuvent expliquer ce résultat. Tout d’abord, il est possible que la technique utilisée n’ait pas

été la plus adaptée pour cette situation. Les travaux de recherches sur l’imputation de données

suggèrent plusieurs méthodes différentes et recommandent généralement une analyse

approfondie des données avant de choisir une méthode (Schafer et Graham, 2002; Sinharay,

Stern et Russell, 2001). Il est également possible que les données manquantes n’aient pas été

réparties de manière suffisamment aléatoire, ce qui est requis avec la méthode utilisée dans

ce projet (Folch-Fortuny et coll., 2016). Finalement, il est possible que l’imputation ait été

majoritairement faite sur les ensembles EDA, PUP et GAZ alors que ceux-ci n’ont pas

contribué aussi fortement à la classification que les ensembles RR et RSP. Bien qu’aucune

analyse n’ait été effectuée sur l’origine des données manquantes, les rapports des

expérimentateurs et l’observation des ensembles de données suggèrent que le groupe

RR-RSP (obtenu par le Bioharness 3) était le sous-ensemble le moins affecté par les données

manquantes.

154

Le rééquilibrage des classes, tel que détaillé à la section 2.7, permet de créer des échantillons

synthétiques. Ces échantillons synthétiques permettent de supporter l’entraînement des

classificateurs pour lesquelles les classes sont fortement débalancées. Malgré que plusieurs

travaux de recherches montrent les bénéfices de telles pratiques (p.ex Batista, Prati et

Monard, 2004; He, Bai, Garcia et Li, 2008), les analyses de ce projet montrent que

l’utilisation d’échantillons synthétiques a plutôt été associé à une baisse de performance en

classification. Il est possible que ce résultat ait été amplifié par l’absence de nombreux

facteurs (comme la difficulté ou le stress) dans la régression logistique multiple.

Dans l’ensemble, l’imputation et le rééquilibrage des classes ont eu des effets moins

prometteurs que prévu. Il peut être quand même prudent et avantageux de néanmoins les

inclure dans la méthode. Dans un cas particulier de cette expérience, l’imputation a

notamment permis de rendre possible la prédiction de l’effort mental. L’inclusion de ces

méthodes doit toutefois être bien pesée : bien que les données relatives au temps

d’entraînement des classificateurs n’aient pas été présentées, les observations informelles

faites lors des analyses suggèrent que l’imputation et le rééquilibrage des classes ont

consommé un temps non négligeable lors de l’entraînement des classificateurs.

4.3.2.1 Classificateurs du repos initial

Comme il est observé dans d’autres travaux empiriques (p.ex. Gateau et coll., 2015; Girouard

et coll., 2009; Healey et Picard, 2005), la classification du repos initial s’est révélée être très

précise. Les métriques les plus pertinentes retenues pour la classification du repos initial était

principalement celles associées aux mouvements oculaires. Lors de la prise de mesure du

repos initial, les participants étaient invités à simplement attendre devant un écran noir, sans

aucune tâche à réaliser. Dans un tel cas, il est attendu que les métriques oculaires soient

différentes de celles de la tâche. Ces métriques suggèrent un fort vagabondage oculaire,

possiblement causé par le fait que les participants n’avaient rien de précis à faire lors du repos

initial. Il est possible de faire l’hypothèse que ce vagabondage ne soit pas typique de toutes

les formes de repos, ce qui diminue la capacité de généralisation du classificateur à d’autres

contextes. Toutefois, les résultats suggèrent que même avec le sous-ensemble RR-RSP, la

classification du repos initial était très bonne. Ce résultat suggère qu’un seul appareil, comme

155

le Bioharness 3 utilisé dans ce projet, pourrait être suffisant pour distinguer l’engagement

dans un contexte de travail similaire à celui de la gestion de crise, et ce, avec une précision

assez élevée. Lors du repos initial, la respiration était plus ample et plus irrégulière, ce qui

est semblable aux résultats d’autres travaux empiriques (p.ex. Bernardi et coll., 2000). Il est

donc possible de faire l’hypothèse que les classificateurs du repos initial ont le potentiel

généraliser à d’autres contextes similaires. Toutefois, puisque tous les niveaux de base ont

été pris avant l’expérience, le classificateur pourrait être confondu avec un autre classificateur

du temps passé sur la tâche.

4.3.2.2 Classificateurs de la difficulté

La classification de la difficulté n’a pas été concluante sous aucune condition, et ce, bien que

les indices suggèrent que la manipulation était réussie. Les travaux empiriques suggèrent que

les mesures physiologiques périphériques devraient être suffisantes pour classifier la

difficulté. La difficulté a d’ailleurs pu être classifiée avec une très bonne performance lors

du chapitre précédent.

L’explication de ce résultat se retrouve possiblement dans la différence entre l’exigence

objective et l’exigence subjective. Tel que détaillé à la section 1.1.1, ces deux formes

d’exigences ne varient pas toujours ensemble. Des facteurs, comme l’anxiété (Tsai, 2012) et

l’entraînement (Kalyuga, Chandler, Tuovinen et Sweller, 2001) des individus peuvent

provoquer différentes évaluations d’exigence pour une même tâche. Dans cette expérience,

il est donc possible que la perception l’exigence ait été très différente entre les individus. De

plus, tel que démontré plus tôt, la perception de l’exigence mentale n’a pas seulement été

modulée par la difficulté de la tâche, mais également par le temps passé sur la tâche. Les

classificateurs de la difficulté n’ont donc pas pu établir de lien entre les conditions

faciles/difficiles puisque cette distinction était possiblement trop peu représentative de

l’exigence mentale telle que perçue par les participants. Comme seconde hypothèse, il est

également possible d’envisager que les deux niveaux de difficulté aient tous deux étés trop

difficiles. Dans ce cas, il est possible que les signes physiologiques sensibles à la difficulté

aient plafonné ou même complètement changé de direction (voir Durantin, Gagnon,

Tremblay & Dehais, 2014).

156

4.3.2.3 Classificateurs de stress

Dans ce chapitre, le stress a été conceptualisé de manière à être le plus indépendant possible

des autres formes de charge mentale, comme l’exigence mentale, et indépendant d’autres

variables confondantes, comme la parole. La vérification de l’indépendance des classes

suggère d’ailleurs que le stress était différent des autres variables de cette expérience. Le fait

qu’il ait été possible de classifier cette variable suggère donc que la présence du stresseur

psychosocial (l’évaluateur) a bel et bien eu des effets physiologiques distincts sur les

participants. Ce résultat est particulièrement intéressant considérant que les mesures

subjectives n’ont pas décelé d’effets majeurs du stresseur. En d’autres mots, les participants

ont affirmé que la présence de l’évaluateur n’a pas affecté leur niveau de stress, mais les

classificateurs ont néanmoins été capables de détecter sa présence. Ces résultats mettent en

évidence les biais auxquels peuvent être soumis les mesures subjectives (Annett, 2002) et

montrent les avantages des mesures physiologiques contre ces biais.

Les résultats suggèrent que la classification du stress était possible même avec le plus petit

sous-ensemble (RR-RSP), ce qui implique qu’il pourrait être possible de classifier le stress

en contexte de C2 avec un seul appareil de mesure (le Bioharness 3). Malgré que la régression

linéaire multiple n’ait pas relevé de différences significatives entre les sous-ensembles, la

meilleure classification était obtenue lorsque toutes les métriques physiologiques étaient

fournies. Quant aux métriques retenues par le classificateur, celles-ci renforcent l’idée qu’il

s’agissait bien du stress qui était discriminé. L’augmentation des basses fréquences

cardiaques est en accord avec ce qui est principalement observé dans la littérature (Castaldo

et coll., 2015). Dans certaines études, les très basses fréquences cardiaques sont parfois

ignorées lorsque les périodes d’analyses sont courtes (p.ex. Herbert et coll., 2010; Hjortskov

et coll., 2004), mais les résultats suggèrent que cette métrique était très utile pour discriminer

le stress. Une diminution des très basses fréquences cardiaques peut notamment être observée

suite à un événement stressant comme un tremblement de terre (Huang et coll., 2001). Les

métriques respiratoires retenues pourraient être expliquées par la diminution des soupirs des

participants. Selon Vlemincx et coll. (2011), les soupirs sont typiquement observés après (et

non pendant) les périodes stressantes. Peu de travaux empiriques portant sur le stress

détaillent les deux métriques électrodermales retenues par le classificateur retenu (puissance

157

de la bande 40 à 50 mHz / kurtosis de la distribution). Toutefois, le fait que le kurtosis de

l’activité électrodermale était élevé lorsque le stresseur était présent peut suggérer que le

stress préservait le niveau électrodermal autour de la moyenne, possiblement par une série

de faibles réponses électrodermales. Bien qu’indirecte, cette manifestation est caractéristique

du stress (Carrillo et coll., 2001).

La classification du stress était meilleure lorsque les participants étaient sous l’influence du

stresseur. Étant donné que les effets physiologiques du stress mettent un certain temps à

disparaître (p.ex. Elzinga et Roelofs, 2005; Schoofs, Preuß et Wolf, 2008), il est possible que

le classificateur ait prédit que les participants étaient stressés même après que le stresseur ait

été retiré. Quant au fait que le stress était mieux classifié lorsque l’effort était élevé, il est

possible de faire l’hypothèse que les participants fournissant un effort étaient plus engagés

ou plus motivés à la tâche, les rendant simultanément plus enclins à vouloir bien performer

en présence de l’évaluateur.

4.3.2.4 Classificateurs de l’ordre des conditions

La classification de l’ordre des conditions a atteint de bonnes et plutôt constantes

performances au travers des différentes conditions. Toutefois, en comparaison à d’autres

travaux empiriques, cette performance s’est révélée plutôt faible. Il faut cependant considérer

que ces autres travaux empiriques utilisent des capteurs neurologiques (comme

l’électroencéphalogramme) (p.ex. Shen, Li, Ong, Shao et Wilder-Smith, 2008; Sun al. 2014),

des contrastes plus importants entre les niveaux de fatigue (p.ex. Riga, Goletsis, Bougia et

Fotiadis, 2011; Shen et coll., 2008) ou des définitions de la fatigue qui s’apparentent à

d’autres dimensions (telles que définies dans ce projet; Shen et coll., 2008).

La constance de performance entre les sous-ensembles de métriques est possiblement causée

par le fait que les métriques cardiaques étaient les plus déterminantes dans la classification

de l’ordre des conditions. Comme les métriques cardiaques étaient présentes dans tous les

sous-ensembles, l’ajout de métriques supplémentaires n’a pas contribué à offrir une meilleure

classification. Les classificateurs de l’ordre des conditions ont utilisé des métriques simples

qui peuvent concorder avec les travaux menés sur la fatigue mentale, notamment un

158

ralentissement du rythme cardiaque (Lagory et coll., 2001), et une respiration moins ample

Fairclough et Mulder (2011). La diminution du niveau électrodermal observée n’est pas

caractéristique de la fatigue (Wu, Wanyan et Zhuang, 2015), mais plutôt une conséquence de

l’inactivité (Boucsein, 2012). Considérant la diminution de l’effort qui a été observée entre

les conditions, il est également plausible que les signes physiologiques relevés par les

classificateurs des conditions soient ceux d’un effort mental plus faible. Cependant, les

classificateurs de l’effort mental (voir plus bas, section 4.3.2.7) ont relevé des manifestations

physiologiques très différentes des classificateurs de l’ordre des conditions.

La diminution de la qualité de classification de l’ordre des conditions observée au fur et à

mesure que le temps progressait peut s’expliquer par la stabilisation des signaux

physiologiques. Si l’activité électrodermale et le rythme cardiaque sont réputés diminuer

avec l’inactivité, il n’en reste pas moins que ces derniers doivent se stabiliser à un moment

ou un autre, ce qui peut avoir confondu le classificateur. La diminution de la qualité de

classification provoquée lors des périodes stressante peut possiblement s’expliquer par le fait

que le stress provoquait des réactions physiologiques qui s’opposaient à celles de l’ordre des

conditions (notamment au niveau de la variabilité cardiaque, voir section 1.3.3).

4.3.2.5 Classificateurs de l’ordre des époques

Les classificateurs de l’ordre des époques déterminaient si l’époque appartenait aux 120 ou

300 premières secondes d’une condition expérimentales. Tel que décrit dans la section 4.1.3,

chaque condition débutait avec une brève période de très faible intensité. Les résultats

montrent que les classificateurs ont atteint une très bonne performance en classification.

Comme première hypothèse, il est possible de suggérer que ces classificateurs repéraient

époques pour lesquelles le participant était engagé dans la tâche, mais pour lesquelles toutes

les sous-dimensions de la charge mentale étaient faibles. Les métriques physiologiques

retenues par ces classificateurs supportent d’ailleurs cette proposition. En effet, lors des

époques subséquentes (celles où la charge mentale était plus élevée), le diamètre pupillaire

était plus grand (Cabestrero, Crespo et Quirós, 2009). Il était également possible d’observer

un plus faible nombre de saccades oculaires, indiquant moins de recherche et plus

d’extraction d’information (Poole et Ball, 2005). Le niveau électrodermal des premières

159

époques subissait d’ailleurs une baisse plus constante que les époques subséquentes, ce qui

laisse suggérer que les époques subséquentes étaient sujettes à un plus grand nombre de

réponses électrodermales, elles aussi associées à une charge mentale plus élevée (Collet,

Salvia et Petit-Boulanger, 2014).

Les classificateurs de l’ordre des classifiaient mieux avec des époques de 300 secondes. Tel

que suggéré par l’analyse des poids des métriques, les classificateurs de l’ordre des époques

repéraient une importante baisse de l’activité électrodermale afin de déterminer s’il s’agissait

bien de la première époque d’une condition. Il est donc possible que cette baisse ait été plus

facile à repérer avec des époques plus longues. Les classificateurs de l’ordre des époques

sont les seuls pour lesquels la régression logistique multiple a confirmé qu’un plus grand

nombre de métriques physiologiques améliorait la classification. Ce résultat pourrait avoir

été provoqué par le fait que les changements entre la première époque et les époques

subséquentes étaient plus rapides (120 à 300 secondes) que pour le changement des autres

variables (lesquels nécessitaient plus de 15 minutes). Il est donc possible que les

classificateurs de l’ordre des époques s’appuyaient sur les modalités physiologiques ayant

une plus grande réactivité (activité électrodermale et mouvements oculaires) en comparaison

à celles qui prennent plus de temps pour varier (activité cardiaque et respiratoire). La

classification de l’ordre des époques était aussi meilleure lorsque l’effort mental était élevé

et lors des dernières époques (qui demandaient aussi un effort mental plus élevé). Tout

comme pour la classification du stress, il est possible que les périodes à effort faible aient été

représentatives de moments où le participant ne s’engageait pas dans la tâche et pour

lesquelles d’autres états psychologiques (p.ex. l’ennui ou le découragement) aient pu faire

varier les réactions physiologiques.

4.3.2.6 Classificateurs de la performance

Mis à part une seule exception, les classificateurs de la performance n’ont pas atteint le seuil

de signification dans leurs prédictions. Ce résultat est fort probablement causé par le nombre

trop important de facteurs qui influencent la performance dans une simulation de C2. Tel que

détaillé plus tôt, les expériences personnelles, les stratégies et même la chance peuvent avoir

influencé la performance. Étant donné la présence de quelques tendances, un nombre plus

160

élevé de participants aurait peut-être permis d’entraîner un classificateur de performance

valide.

4.3.2.7 Classificateurs de l’effort

Il est pertinent de rappeler que les classificateurs de l’effort étaient entraînés à repérer les

conditions pour lesquelles les participants atteignaient une bonne performance tout en

évaluant l’exigence mentale ressentie comme étant élevée. Contrairement à d’autres

variables, peu de combinaisons de paramètres sont parvenues à prédire l’effort mental.

Toutefois, les résultats suggèrent que les classificateurs qui y sont parvenus l’ont fait avec

une performance satisfaisante. Pour prédire l’effort mental, il semble critique que les

classificateurs aient accès aux métriques pupillaires. Ce résultat n’est pas surprenant

considérant les nombreux travaux empiriques qui suggèrent des liens entre le diamètre

pupillaire et l’effort mental (Alnæs, Sneve, Espeseth, Endestad et van de Pavert, 2014;

Kahneman, 1973; Karatekin, Couperus et Marcus, 2004; Laeng, Sirois et Gredebäck, 2012;

Peysakhovich, Causse, Scannella et Dehais, 2015). L’analyse des métriques suggère

également que les classificateurs d’effort ont une bonne validité conceptuelle. La diminution

des basses fréquences cardiaque est aussi observée dans d’autres situations demandant un

effort mental élevé (Hjortskov et coll., 2004; Tharion, Parthasarathy et Neelakantan, 2009).

La transition vers les hautes fréquences pupillaires est aussi caractéristique d’un effort mental

plus élevé (Murata et Iwase, 1998; Peysakhovich et coll., 2015).

Il est difficile de déterminer pourquoi l’effort n’était classifiable qu’avec des époques de 300

secondes. En effet, les indices suggèrent que la pupille était très utile pour la classification

de l’effort, mais les métriques pupillaires sont typiquement analysées à des échelles de temps

plus courtes (p.ex. 8 secondes, Peysakhovich et coll., 2015; 3 à 8 secondes, Alnæs et coll.

2014). Ce résultat suggère qu’il peut donc être bénéfique de calculer des métriques pupillaires

sur des époques de plus longue durée. De manière similaire au stress, l’effort semblait mieux

classifié lorsque les participants étaient plus engagés dans la tâche (c.-à-d. lorsque le stress

était élevé, lorsque la performance était bonne et lors des dernières époques des conditions).

Une fois de plus, ce résultat suggère que les participants qui étaient peu engagés ont peut-

être été influencés par d’autres états psychologiques qui venaient confondre la signature

161

physiologique de l’effort. Finalement, la classification de l’effort était moins bonne lors des

dernières conditions expérimentales. Il est possible que la fatigue mentale ait découragé les

participants de déployer plus d’effort lors de la fin de l’expérience (Holdings 1983, Meijman

et coll., 1992).

4.3.2.8 Classificateurs subjectifs

La classification des dimensions subjectives du NASA-TLX s’est révélée plutôt fructueuse.

Les dimensions de l’exigence mentale, de la performance, de la frustration et du stress ont

notamment pu être prédites avec une performance acceptable (κ < 0,2; p < 0,001). Le fait

qu’il ait été possible de prédire l’exigence mentale subjective, et non objective, renforce une

fois de plus l’hypothèse que la simulation de C2 a été vécue de manière très différente entre

les individus. L’analyse de l’indépendance des classes montre également que l’exigence

mentale subjective était modérément associée à la difficulté et l’effort, mais peu associée au

stress et à l’ordre des conditions, ce qui renforce sa validité conceptuelle. De manière

similaire, alors que la performance objective n’a pas pu être prédite, la performance

subjective a pu l’être. Il est intéressant de noter que la performance subjective était plus

associée à la difficulté qu’à la performance réelle des individus. On peut donc faire

l’hypothèse que le classificateur de la performance subjective est en réalité un autre

indicateur de l’exigence subjective des individus.

La frustration et le stress ont aussi pu être prédits. L’analyse de l’indépendance des classes

suggère que ces deux dimensions étaient modérément associées entre elles. Considérant aussi

que la dimension du stress était considérée lors de l’élaboration du NASA-TLX13 (Hart &

Staveland, 1988), il est possible de suggérer que ces deux classificateurs mesurent un concept

similaire. Il est toutefois pertinent de noter que ces deux classificateurs ne sont que très peu

associés à la présence du stresseur objectif (l’acteur évaluateur). On peut donc faire

13 La dimension du stress a finalement été englobée dans celle de la frustration à la fin de l’élaboration du

NASA-TLX.

162

l’hypothèse que ces deux classificateurs prédisent plutôt le stress tel que provoqué par la

tâche et non par les conditions dans laquelle elle est effectuée.

Finalement, il est intéressant de noter que seuls les classificateurs utilisant les époques de

120 secondes sont parvenus à prédire correctement les dimensions subjectives de la charge

mentale. Il est possible que ce résultat soit causé par le plus grand nombre d’échantillons

disponibles lors du découpage en époques de 120 secondes. En effet, les valeurs de kappa

des classificateurs sont similaires entre 120 et 300 secondes, mais les probabilités d’erreur

(p) sont plus élevées dans pour les classificateurs de 300 secondes. On peut supposer qu’avec

un nombre plus élevé d’échantillons, les classificateurs utilisant des époques de 300 secondes

auraient pu atteindre le seuil de signification fixé dans ce projet de thèse (p < 0,001).

4.3.3 Discussion générale

Au chapitre précédent, il a été déterminé que les mesures physiologiques périphériques

pouvaient fournir une estimation diagnostique de la charge mentale dans un contexte de tâche

simple. Ce chapitre visait à investiguer si cette diagnosticité était préservée dans un contexte

de simulation de C2. La section suivante discute de chacune des quatre dimensions de la

charge mentale (telle que définie dans ce projet) en intégrant les classificateurs qui sont les

plus conceptuellement associés à chaque dimension.

Les classificateurs les plus en lien avec l’exigence mentale sont ceux de la difficulté et de la

performance ainsi que ceux de l’exigence mentale et temporelle subjective. Les résultats ont

clairement montré que dans une tâche complexe comme une simulation de C2, il est

beaucoup plus facile de prédire l’exigence subjective que l’exigence objective. L’hypothèse

retenue pour expliquer ce résultat semble, à première vue, évidente : les réactions

physiologiques ne sont pas affectées directement par les propriétés de la tâche, mais par la

manière par laquelle les individus réagissent à ces tâches. Malgré cette suggestion, un grand

nombre de recherches visant à prédire l’exigence (ou plus généralement, la charge mentale)

entraînent des classificateurs sur les niveaux objectifs de difficulté plutôt que sur la

perception de l’exigence (p.ex. Casson, 2014; Henelius, Hirvonen, Holm, Korpela et Muller,

2009; Liu, Ayaz et Shewokis, 2017). Si cette pratique fonctionne dans des contextes de tâche

163

simple, cette expérience met en évidence le besoin de commencer à entraîner des

classificateurs subjectifs dans des contextes appliqués, comme celui du C2. Malgré qu’il ait

été possible de prédire l’exigence subjective, la qualité de prédiction était plus faible. De

plus, ce projet de thèse n’avait pas comme visée spécifique d’étudier la prédiction des états

subjectifs. Pour ces raisons, il est suggéré que la prédiction diagnostique de l’exigence

mentale en contexte de C2 est possible. Des travaux supplémentaires seront toutefois

nécessaires avant de pouvoir le confirmer avec certitude.

L’effort est associé aux classificateurs d’effort objectif et subjectif et, de manière indirecte,

à la classification de la performance objective et subjective. Les classificateurs de l’effort

objectif ont été les plus pertinents pour le prédire. Ce résultat n’est pas étonnant considérant

que les individus ont potentiellement eu du mal à estimer leur niveau d’effort lorsque

demandé dans le NASA-TLX. Les résultats montrent en effet que les estimations subjectives

de l’effort n’étaient que peu associées aux autres dimensions (comme celle de la

performance). En se basant sur l’effort objectif, les prédictions de l’effort mental ont été

possibles. Les métriques retenues par ce classificateur confirment que l’effort mental a bel et

bien sa propre signature physiologique. Il est d’ailleurs possible de remarquer que certaines

métriques retenues par le classificateur de l’effort objectif en contexte de C2 sont partagées

avec ceux des classificateurs de la difficulté en contexte de tâche simple (p.ex. une

augmentation des fréquences pupillaires entre 175 et 250 mHz) et aussi partagée avec ceux

des classificateurs d’effort en contexte de tâche simple (p.ex. l’asymétrie de la distribution

des battements cardiaques). En tenant compte de ces résultats, il est possible d’affirmer qu’il

est possible de prédire l’effort de manière diagnostique dans une tâche de C2.

Au niveau du stress, les classificateurs les plus conceptuellement associés sont ceux du stress

(objectif), du stress (subjectif), de la frustration (subjectif) et de l’exigence temporelle

(subjective). Mis à part pour l’exigence temporelle, les classifications de ces dimensions ont

obtenu des performances plutôt satisfaisantes. Trois leçons importantes sont retenues.

Premièrement, il a été possible de prédire une forme de stresseur qui n’est pas associée à une

exigence ou un effort plus élevé, qui n’est pas associé à la douleur physique (p.ex. Duncko,

Johnson, Merikangas et Grillon, 2009) et qui est distinct d’une capture attentionnelle (tel

164

qu’il a été possible dans le Chapitre 3 de cette thèse). Deuxièmement, il a été possible de

prédire le stress des individus en utilisant leurs réponses physiologiques malgré l’absence

quasi absolue d’effets subjectifs. Dans un contexte de C2, cela signifie qu’il pourrait être

possible de repérer les opérateurs qui sont soumis à de l’anxiété avant même que des

conséquences comme des erreurs (Elzinga & Roelofs, 2005; Hembree, 1988) ou, à plus long

terme, des problèmes de santé ne surviennent (Jones, Latreille et Sloane, 2016).

Troisièmement, il a été possible de prédire les stress subjectifs des individus, même si celui-

ci était différent du stress objectif et même s’il était associé à plusieurs sources différentes.

Ces résultats confirment que la dimension du stress, distincte de celle de l’exigence, de

l’effort et de la fatigue, est prévisible de manière diagnostique avec des mesures

physiologiques périphériques.

Finalement, les classificateurs les plus conceptuellement associés à la fatigue sont ceux de

l’ordre des conditions, de la fatigue subjective et, partiellement, ceux du repos initial.

Contrairement au chapitre précédent, il a été possible d’entraîner des classificateurs d’ordre

de conditions sans qu’ils soient confondus avec une tâche spécifique. Les résultats montrent

qu’il est possible de prédire la fatigue avec une bonne précision dans une tâche de C2. Ces

classificateurs ont pu détecter la fatigue dans un temps relativement restreint (un peu plus

d’une heure), ce qui est un avantage en comparaison aux classificateurs qui mesurent la

fatigue sur des grands contrastes seulement (p.ex. sur une période de 25 heures, Shen et coll.,

2008).

Les classificateurs de l’ordre des époques n’ont pas été associés à aucune des 4 dimensions

de la charge mentale. Les résultats suggèrent en effet que ces classificateurs prédisaient une

combinaison d’exigence, d’effort mental, de stress et de fatigue. En d’autres mots, il est

possible de faire l’hypothèse que les classificateurs de l’ordre des époques n’étaient en réalité

que des classificateurs génériques de charge mentale. Malgré l’impossibilité d’en faire une

mesure diagnostique, ce classificateur donne tout de même une leçon importante à retenir.

La classification des époques a pu être faite avec une très bonne précision. Ce résultat suggère

qu’il est possible d’utiliser la physiologie périphérique pour prédire, avec une précision

élevée, la charge mentale en contexte de C2.

165

4.4 Conclusion

Le domaine du C2 est caractérisé par des situations complexes, dynamiques et imprévisibles

qui peuvent provoquer différentes formes de charge mentale chez les opérateurs. Les mesures

physiologiques périphériques offrent le potentiel de prédire la charge de travail des

opérateurs de C2, offrant la possibilité de les supporter dans leur travail. Toutefois, peu de

travaux empiriques ont exploré le potentiel diagnostique des mesures physiologiques

périphériques de la charge mentale en contexte de C2. Ce chapitre visait à explorer le

potentiel d’un tel système. Les résultats de cette simulation ont montré que la charge mentale,

au sens global, peut facilement être prédite même en contexte de C2. Les sous-dimensions

de la charge mentale sont toutefois beaucoup plus difficiles à prédire en contexte de C2 qu’en

contexte de tâche simple, et ce, malgré une méthodologie similaire. Il n’a pas été possible de

prédire l’exigence objective de la tâche, mais bien seulement l’exigence subjective. En

revanche, il a été beaucoup plus facile de prédire l’effort mental des individus. La présence

d’un stresseur psychosocial a pu être prédite par la physiologique périphérique malgré

l’absence d’effets sur les mesures subjectives. Finalement, les résultats suggèrent qu’il est

possible d’utiliser la physiologie périphérique pour prédire la sous-dimension de la fatigue.

Des travaux supplémentaires seront toutefois requis afin de distinguer cette signature de celle

causée par la diminution de l’effort mental.

166

Chapitre 5 : Discussion générale

5.1 Sommaire des résultats

La première expérience avait comme objectif d’explorer la diagnosticité des mesures

physiologiques périphériques de la charge mentale dans un contexte de tâches expérimentales

simples. Les résultats ont montré que les mesures physiologiques périphériques sont en

mesure de prédire le niveau d’exigence mentale objectif d’une tâche, et ce, avec une précision

similaire à ce qu’il est possible d’obtenir avec un électroencéphalogramme. La performance,

étroitement associée avec la difficulté de la tâche, a été classifiée encore mieux que

l’exigence mentale, ce qui peut être prometteur dans des contextes de travail appliqués. Il a

également été possible de prédire l’effort mental avec une précision similaire. L’analyse des

métriques physiologiques a d’ailleurs relevé que la signature physiologique de l’effort mental

présentait des différences avec celle de l’exigence mentale, renforçant ainsi l’idée que les

deux concepts sont distincts. De manière générale, la pupille s’est avérée très utile pour

prédire l’effort. Les résultats ont aussi montré que les réactions physiologiques étaient

capables de prédire la présence ou l’absence d’un stresseur (une punition sonore aversive).

Malgré que la signature physiologique du stress relevée dans cette expérience concorde avec

plusieurs travaux similaires, il est difficile de confirmer avec certitude que cette dimension

est prévisible de manière diagnostique. Dans cette expérience, il a effectivement été relevé

que le stress pouvait être confondu avec l’effort mental. Il est également possible que les

classificateurs aient été entraînés à reconnaître la présence d’une capture attentionnelle

provoquée par le son plutôt que le stress. Dans l’ensemble, les résultats suggèrent que le

stress est possiblement prévisible de manière diagnostique par la physiologie périphérique.

Une seconde expérience était toutefois requise avant de le confirmer avec certitude. Quant à

la fatigue, les résultats suggèrent qu’elle n’a que très peu contribué lors de la première

expérience. De plus, les signes physiologiques retenus par les classificateurs de la fatigue

peuvent être confondus avec une baisse de l’effort mental. Tout comme pour le stress, les

résultats de cette expérience ont suggéré qu’il était possible de prédire la fatigue de manière

diagnostique, mais qu’une seconde expérience était nécessaire pour le confirmer. Les

résultats ont également montré que le stress, tel que mesuré par le NASA-TLX, pouvait aussi

être prédit par la réponse physiologique des participants. Dans l’ensemble, la classification

des sous-dimensions de la charge mentale était meilleure si un plus grand nombre de

167

modalités physiologiques étaient utilisées. Toutefois, les classificateurs ont typiquement été

capables de fonctionner même en l’absence de mesures pupillaires et de mouvements

oculaires. Certains classificateurs (exigence mentale et tâche) ont également été capable de

prédire correctement en n’utilisant seulement que les métriques cardio-respiratoires. Ce

résultat suggère qu’il est peut-être possible de prédire ces sous-dimensions en utilisant qu’un

seul appareil de mesure, ce qui pourrait être très avantageux en contexte de travail réel.

La méthode expérimentale de la seconde expérience était similaire à celle de la première, à

la différence qu’au lieu de tâches expérimentales simples, une simulation de C2 était utilisée.

La simulation de C2 était construite de manière à capturer les éléments essentiels d’une tâche

réelle. Les résultats ont montré que la charge mentale globale était prédictible avec une aussi

bonne précision que pour des tâches expérimentales simples. Toutefois, les sous-dimensions

de la charge mentale semblent beaucoup plus difficiles à prédire de manière diagnostique; la

précision des classificateurs était généralement moins bonne dans cette expérience et les

classificateurs souffraient plus rapidement du retrait des modalités physiologiques.

Néanmoins, les résultats ont permis de tirer plusieurs conclusions intéressantes. Dans la

simulation de C2, l’exigence mentale objective n’a pas pu être prédite; seule l’exigence

mentale subjective a pu l’être. Ce résultat peut indiquer que plusieurs facteurs, comme

l’expérience en jeu vidéo (Bialystok, 2006; Boot, Blakely, Simmons, 2011), viennent

changer les stratégies cognitives des individus, et, ultimement, la perception qu’ils ont de

l’exigence de la tâche. Ce résultat suggère également une prudence dans le potentiel de

transférabilité, de tâches simples vers les tâches complexes, des classificateurs de l’exigence

mentale. L’expérience a également démontré que l’effort mental était beaucoup plus facile à

prédire que l’exigence ou la performance. Encore une fois, la pupille s’est avérée très utile

lors de la classification de l’effort mental. Alors que la première expérience avait laissé un

doute sur la possibilité à prédire le stress de manière diagnostique, les résultats de la seconde

expérience suggèrent, de manière beaucoup plus robuste, que le stress est prévisible de

manière diagnostique. Le stresseur utilisé dans cette expérience était basé sur le Trier Social

Stress Task. Lors des conditions stressantes, les participants étaient observés par un acteur

prenant le rôle d’évaluateur. La présence du stresseur ne provoquait aucun bruit

supplémentaire et n’apportait aucune modification à la tâche. Quant à la fatigue, les résultats

168

ont montré qu’il était possible de la prédire dans un contexte de C2. Encore une fois, certains

signes physiologiques retenus par le classificateur de la fatigue concordent avec ceux

observés dans la littérature. Toutefois, il reste difficile de dire si ces signes sont provoqués

par la fatigue ou s’il ne s’agit pas de variable confondante comme le manque d’effort et/ou

simplement le temps passé sur la tâche. Encore une fois, le stress, tel que mesuré par le

NASA-TLX, a pu être prédit en utilisant les réponses physiologiques. Dans cette expérience,

il a aussi été possible de prédire l’exigence mentale subjective des participants. Plusieurs

classificateurs entraînés dans cette expérience ont été capables de prédire de manière

significative en n’utilisant que les métriques cardio-respiratoires. L’ajout de modalités

supplémentaires semble avoir amélioré la classification, mais les effets de cet ajout étaient

beaucoup moins importants que pour la première expérience.

5.2 Contributions théoriques

5.2.1 Introduction de nouvelles métriques physiologiques

Une des contributions théoriques les plus importantes de cette thèse est l’introduction de

métriques physiologiques peu utilisées dans la littérature qui se sont avérées très utiles pour

déterminer les signatures des sous-dimensions de la charge mentale. Le but de la thèse n'était

pas directement de tester ces nouvelles métriques, mais plutôt de vérifier s’il était avantageux

pour les algorithmes d’apprentissage automatique de s’entraîner avec des métriques plus

simples.

Certaines des métriques peu communes utilisées dans ce projet ressemblent à des métriques

qu’il est possible de retrouver dans la littérature, sans toutefois être totalement équivalentes.

C’est notamment le cas des métriques qui calculaient le minimum/maximum de certains

signaux. Le minimum/maximum des signaux est, en partie, associé à la moyenne. Pourtant,

le minimum/maximum a parfois eu un poids plus important que la moyenne ou la médiane

du signal. C’est par exemple le cas du classificateur de la tâche de la première expérience et

du classificateur de l’ordre des époques dans la seconde expérience. Ces deux classificateurs

ont retenu, avec un poids assez fort, le minimum du signal électrodermal comme métrique

physiologique. Typiquement, la conductance de la peau diminue doucement avec le temps et

remonte rapidement lors de l’activation du système sympathique. Les métriques souvent

169

retenues pour caractériser le signal électrodermal sont souvent le niveau (équivalent à la

moyenne dans cette thèse) ou encore les réponses électrodermales (équivalentes à l’analyse

des pics dans cette thèse) (voir Boucsein, 2012). Il est difficile de déterminer pourquoi

exactement le minimum a été retenu plutôt que ces métriques traditionnelles. Un minimum

faible peut peut-être simultanément indiquer à la fois l’absence de réponses électrodermales

et un niveau moyen faible. Quoi qu’il en soit, cet exemple montre l’intérêt de caractériser un

signal autrement que par des métriques traditionnelles.

Certaines autres métriques avaient, en revanche, très peu d’équivalents dans la littérature

psychophysiologique et se sont néanmoins retrouvés parmi les métriques les plus utiles des

classificateurs. C’est entre autres le cas de l’asymétrie cardiaque14. L’asymétrie cardiaque

s’est révélée être positivement associée à l’effort mental, à la fois en contexte de tâche simple

et en contexte de C2. Malgré qu’elle ne soit pas utilisée dans la littérature, l’asymétrie

cardiaque peut être considéré comme une forme de métrique de variabilité cardiaque

puisqu’elle explique un débalancement entre la densité de battements de courte et de haute

durée. Les influences de la charge mentale sur la variabilité cardiaque pourraient donc être à

l’origine de l’influence sur l’asymétrie cardiaque.

Finalement, certaines métriques fréquentielles se sont aussi avérées fortement utiles. Les

métriques fréquentielles ne sont pas nouvelles en psychophysiologie. La présente thèse a

toutefois choisi d’explorer la contribution de bandes fréquentielles très étroites couvrant de

très basses fréquences pour les signaux respiratoires, électrodermaux et pupillaires. Les

métriques fréquentielles de la respiration n’ont pas été particulièrement retenues par les

classificateurs. Il est possible que l’analyse des pics ait capturé des informations plus

pertinentes. Il est également possible que les bandes fréquentielles choisies (0 à 250 mHz)

aient été trop larges par rapport aux fréquences respiratoires habituelles de l’adulte (200 à

300 mHz; Lindh et coll., 2013). Les métriques fréquentielles électrodermales ont parfois été

retenues par les classificateurs. Ces résultats renforcent les études, peu nombreuses, qui

14 L’asymétrie cardiaque fait référence à l’asymétrie statistique (anglais : skewness) de la distribution de la

durée des battements et non à l’asymétrie morphologie cardiaque (p.ex. Ramsdell, 2005).

170

suggèrent que l’analyse spectrale du signal électrodermal a la possibilité de renseigner sur la

charge mentale (Shimomura et coll., 2008). Il est toutefois nécessaire d’être prudent avec ces

résultats; étant donné que la réponse électrodermale est fortement influencée par les

événements d’une tâche, il est possible que les fréquences retenues ne soient en réalité dictées

par une cadence d’événements issue des tâches. Les métriques fréquentielles pupillaires se

sont révélées particulièrement utiles pour plusieurs classificateurs, notamment ceux associés

à l’exigence et, plus encore, à l’effort mental. Plus précisément, l’effort mental semble avoir

été associé à une augmentation des fréquences pupillaires situées entre 150 et 250 mHz. Étant

donné qu’une analyse détaillée du spectre n’a pas été effectuée, il est difficile de confirmer

exactement le rôle de ces bandes fréquentielles auprès de l’effort mental. Il est possible que

ces bandes aient reflété les changements fréquentiels déjà observés dans une bande plus large

(0 à 1600 mHz; Peysakhovich et coll., 2015) et que n’importe quelle autre bande contenue

dans cette étendue (p.ex. 400 à 500 mHz) aurait elle aussi été retenue par les classificateurs.

5.2.2 Redéfinition du rôle de l’exigence mentale

Dans ce projet, l’exigence mentale a été définie comme la quantité de travail perçue par les

individus. Tel que détaillé à la section 1.1.1, l’exigence mentale peut être objective ou

subjective. Dans les deux expériences de cette thèse, l’exigence objective était basée sur la

difficulté de la tâche. De l’autre côté, l’exigence subjective était basée sur les évaluations

recueillies par le questionnaire NASA-TLX. L’exigence mentale objective a été bien

classifiée en contexte de tâche simple. Toutefois, seulement l’exigence subjective a été

classifiable en contexte de C2. Les chapitres précédents ont discuté de ce résultat. En bref, la

complexité de la tâche de C2, combiné aux diverses stratégies et expériences préalables des

participants, a possiblement causé une très forte variabilité dans le niveau d’exigence

subjective perçu, rendant la prédiction de l’exigence objective impossible et la prédiction de

l’exigence subjective possible. Ces résultats amènent toutefois une autre implication possible

pour l’exigence mentale : celle que l’exigence mentale n’a peut-être pas de contribution

spécifique au niveau de la physiologie périphérique. En effet, il est possible de suggérer que

l’exigence mentale est un construit de trop haut niveau pour avoir des répercutions

physiologiques périphériques qui n’entrecoupent pas celles des autres dimensions (comme

l’effort mental et le stress). Cela ne veut pas dire pour autant que l’exigence ne provoque pas

171

de réactions physiologiques. Après tout, cette thèse a montré qu’il était possible de prédire

l’exigence à partir de la physiologie et certains travaux empiriques montrent que l’exigence

mentale est caractérisée par des patrons d’activation cérébraux particuliers et que ces derniers

se distinguent, entre autres, de l’effort mental (Mulert et coll., 2007). Il est plutôt question de

proposer que cette signature physiologique pourrait être expliquée par d’autres sous-

dimensions plus appropriées.

Les analyses effectuées dans cette thèse ne permettent pas de garantir cette la proposition que

l’exigence mentale n’a pas de signature physiologique périphérique propre à elle. Toutefois,

en contexte de tâche simple, les métriques physiologiques retenues pour classifier l’exigence

mentale recoupent souvent celles des autres sous-dimensions. C’est notamment le cas pour

la bande de 20 à 30 mHz électrodermale (classificateur de la performance, possiblement

associée à l’effort mental), des fréquences pupillaires situées entre 175 et 225 mHz

(classificateur du stress) et de la modélisation linéaire pupillaire (classificateur de la

performance). Entre d’autres mots, les manifestations physiologiques périphériques de

l’exigence mentale pourraient possiblement être la combinaison de celles de l’effort et du

stress. L’impossibilité de classifier l’exigence objective en contexte de C2 vient également

suggérer que cette sous-dimension n’est pas appropriée pour la physiologie périphérique.

D’autres travaux empiriques menés sur le sujet supportent aussi indirectement cette

proposition. Par exemple, Yoshino et Matsuoka (2005) rapportent les effets du niveau de

difficulté d’une tâche d’arithmétique sur la variabilité cardiaque et la pression sanguine. Les

auteurs précisent, en discussion, qu’ils n’étaient pas en mesure de déterminer si les

participants étaient engagés à faire la tâche. Ils ajoutent qu’un stresseur (la punition de devoir

recommencer l’expérience) était imposé de manière à encourager les participants à s’investir

dans la tâche. Sans nécessairement remettre en question toute leur expérience, il est possible

de se demander si les effets mesurés ne sont pas, du moins partiellement, causés par le stress

plutôt que par l’exigence.

Cette constatation n’est pas nécessairement une exclusivité de cette thèse. Certains modèles

excluent déjà l’exigence mentale comme sous-dimension et plusieurs travaux empiriques

172

précisent, malgré la manipulation de la difficulté, que c’est l’effort mental (ou autre) qui est

mesuré. Cette proposition est plutôt soulevée comme mise en garde envers les nombreux

travaux, souvent issus des domaines plus appliqués/techniques, qui tentent de prédire

l’exigence mentale à l’aide de la physiologie : l’utilisation de l’exigence comme variable

d’intérêt risque de souffrir du même problème de diagnosticité que l’utilisation d’une charge

mentale non spécifiée.

5.2.3 Distinction entre l’effort mental et le stress

Les résultats de cette thèse permettent clairement de distinguer les effets de l’effort mental

de ceux du stress. Les classificateurs des deux sous-dimensions ont retenu des métriques dans

chacune des différentes modalités physiologiques. Toutefois, les classificateurs de l’effort

mental ont retenu plus particulièrement les métriques de la pupille, alors que ceux du stress

ont retenu des métriques cardio-respiratoires. Pour expliquer cette différence, il est possible

de retenir l’hypothèse que la vitesse d’action des deux mécanismes est différente. Bien que

l’effort mental ait des effets physiologiques périphériques, les effets les plus importants de

l’effort mental sont possiblement provoqués dans le système nerveux central. Étant donné

l’association rapprochée du système nerveux central et du système oculaire (Hong, Walz,

Sajda, 2014), il est possible que la pupille ait été mieux adaptée pour capturer les fluctuations

d’effort mental. Le stress, tel que défini dans cette étude, est plutôt associé au cortex surrénal

(Gaillard et Wientjes, 1994) et à une libération de cortisol, laquelle est plus distribuée dans

le temps (p.ex. Elzinga et Roelofs, 2005). Il est donc possible que les métriques cardio-

vasculaires soient mieux adaptées pour capturer ces fluctuations plus lentes. En contre-

argument, il serait possible de suggérer que les deux états distincts repérés par les

classificateurs ne soient pas réellement l’effort mental et le stress. Après tout, les participants

n’ont rapporté qu’avec une très faible proportion avoir été stressés par les deux stresseurs

utilisés et les résultats semblent suggérer que la présence du stresseur a encouragé les

participants à fournir plus d’effort. Il est donc possible que l’argument des deux « vitesses »

proposé au paragraphe précédent reste valide, mais qu’il représente plutôt deux différentes

formes d’effort mental : une manifestation plus instantanée (celle liée aux classificateurs de

l’effort mental) et une manifestation plus latente (celle liée aux classificateurs du stress). En

explorant la littérature sur l’effort mental, il est possible de cerner certains concepts

173

« candidats » pour cette deuxième forme, notamment l’engagement (Matthews et Campbell,

2010) ou l’état de préparation mentale (anglais : cognitive readiness; Bolstad, Cuevas,

Costello, & Babbitt, 2008). Il est toutefois nécessaire d’être prudent avec cette interprétation.

En effet, il existe déjà un grand vocabulaire parfois de la charge mentale parfois imprécis

(voir section 1.1) et il peut être contre-productive d’amener de nouveaux construits. Cet

argument laisse aussi pour contre les nombreux travaux qui suggèrent que les stresseurs

utilisés dans cette thèse provoquent bel et bien un état de stress (Kudielka et coll., 2007; Patel

et coll., 2015).

5.3 Contribution méthodologique

5.3.1 Avantage – Grand nombre de métriques physiologiques

Ce projet de thèse a favorisé l’utilisation d’une grande quantité de métriques, lesquelles

étaient parfois peu communes dans la littérature. Ce choix méthodologique peut présenter

des avantages et des inconvénients. L’utilisation d’un faible nombre de métriques

physiologique peut faciliter l’interprétation des résultats et permet de créer des modèles plus

parcimonieux. Dans un contexte d’apprentissage automatique, un faible nombre de métriques

physiologiques peut également faciliter l’entraînement en évitant les problèmes de haute

dimensionnalité (Cornuéjols et Miclet, 2010). À l’inverse, l’utilisation d’un nombre élevé de

métriques physiologiques, comme dans ce projet, peut rendre difficile l’interprétation des

résultats. Cependant, cette approche peut laisser le champ libre aux techniques

d’apprentissage automatiques de déterminer les métriques pertinentes à la classification (à

condition que ces techniques gèrent bien la dimensionnalité élevée). Ce choix

méthodologique était particulièrement important dans ce projet de thèse. Tel que relevé à la

section 1.3.3, un grand nombre d’études psychophysiologiques ont relevé les métriques qui

sont sensibles aux sous-dimensions de la charge mentale. Toutefois, ces études ne rapportent

que très rarement les combinaisons de métriques qui sont spécifiques aux sous-dimensions.

Même si les modalités physiologiques retenues dans ce projet sont toutes déjà largement

étudiées, il est difficile de déterminer à priori quelles métriques seront les plus adaptées pour

la spécificité. L’analyse des métriques physiologiques effectuée dans les deux expériences

de ce projet a d’ailleurs montré que les métriques qui avaient, dans le passé, démontré de la

sensibilité aux sous-dimensions de la charge mentale n’ont pas toujours été retenues par les

174

classificateurs. À titre d’exemple, le ratio des basses sur les hautes fréquences cardiaques,

souvent associé à la charge mentale (Cinaz et coll., 2013; Fallahi et coll., 2016; Miyake,

1998; Murai, Hayashi, Okazaki et Stone, 2008), n’a pas été retenu par aucun classificateur.

Cela ne signifie pas que les sous-dimensions de la charge mentale n’ont pas affecté le ratio

des basses sur les hautes fréquences. Il est toutefois possible de faire l’hypothèse que ce ratio

était affecté par toutes les sous-dimensions, ce qui le rend peu utile pour distinguer laquelle

en est à l’origine.

5.3.2 Avantage – Méthode orientée vers la pratique

La méthode utilisée dans cette thèse avait comme avantage d’être orientée vers les

applications pratiques. Ce choix méthodologique fait en sorte que la performance des

classificateurs utilisés dans cette étude est possiblement plus rapprochée de ce qu’il est

possible de trouver en contexte de travail réel. À titre d’exemple, les signaux physiologiques

n’ont pas été soumis à un prétraitement très complexe (voir section 2.3). Ce choix

méthodologique est un couteau à double tranchant. Un bon prétraitement des données peut

retirer le bruit présent dans les données physiologiques, augmenter la puissance statistique

des tests effectués et, comme dans le cas présent, faciliter l’entraînement des techniques

d’apprentissage automatique. Toutefois, un bon prétraitement des données peut risquer de

diminuer la validité écologique des résultats obtenus. Dans des contextes de travail réels, les

signaux physiologiques peuvent facilement être bruités (p.ex. par l’activité physique ou par

le déplacement des capteurs). Dans certains cas, il est possible de prévoir le type de bruit et

le prétraitement qui peut le contrer (p.ex. l’application d’un filtre passe-bas pour retirer les

artéfacts liés au mouvement dans les signaux électrodermaux). Il n’est toutefois pas possible

de prévoir toutes les formes de bruit qui peuvent être présentes sur les signaux. Ainsi,

l’inspection (visuelle ou analytique) des signaux peut introduire une forme de biais dans les

tailles d’effet (ou dans la qualité de classification) car cette inspection ne sera pas toujours

possible en contexte de travail réel. De plus, certaines techniques de traitement du signal

peuvent être exigeantes en termes de ressources informatiques, ce qui peut provoquer des

délais dans l’obtention de la mesure ou une consommation plus sévère de la batterie (dans le

cas de systèmes portables). Étant donné que ce projet de thèse visait, entre autres, à

investiguer le potentiel diagnostique des mesures physiologiques en contexte de travail réel,

175

il a été choisi de garder un prétraitement des données minimal, représentatif de ce qu’il est

possible de rencontrer dans de tels contextes. Malgré la simplicité de ce traitement, les

classificateurs sont parvenus à des résultats très satisfaisants.

Comme second argument supportant le côté pratique de la méthode, il est possible de retenir

la période de mesure de la charge mentale utilisée dans cette thèse. Dans certains autres

travaux de recherche, les sous-composantes de la charge mentale sont mesurées sur des

périodes très longues (p.ex. Sano et Picard, 2013). À l’inverse, certains travaux mesurent la

charge mentale de manière très instantanée (p.ex Liu et coll., 2017). Les durées trop longues

et trop courtes de mesure de la charge mentale peuvent causer des difficultés dans

l’implémentation des contre-mesures. Si les mesures sont trop lentes, il peut être difficile de

déterminer l’impact des contre-mesures, puisque les états physiologiques pourraient ne pas

changer assez rapidement. À l’inverse, si la mesure est trop courte, il devient difficile de

déterminer quelle contre-mesure appliquer, puisque l’état physiologique risque déjà d’avoir

changé lorsque la contre-mesure sera appliquée. Bien entendu, chaque situation de travail

réel est différente. Les mesures lentes et/ou très rapides de la charge mentale peuvent être

utiles dans certains cas. Toutefois, il peut être pertinent que la période de mesure utilisée par

les classificateurs (2 ou 5 minutes dans cette thèse) soit similaire à ce qui serait typiquement

utilisé avec des mesures subjectives ou des tâches secondaires, sans avoir les désavantages

des interruptions.

Finalement, la méthode utilisée offre une bonne flexibilité quant au domaine d’application.

Bien que les classificateurs des deux expériences n’aient pas été entraînés ensemble, ces

derniers ont démontré une certaine similitude au niveau des métriques retenues, ce qui

suggère une signature physiologique plus générique et non surspécialisée sur une tâche en

particulier. Malgré que la simulation de C2 ait été utilisée pour la 2e expérience, celle-ci était

plutôt complexe. Les participants avaient une certaine latitude quant à la manière dont ils

pouvaient répondre aux situations (p.ex. planifier la position des unités à l’avance ou attendre

les incidents, travailler sur plusieurs incidents à la fois ou les traiter en série, travailler

rapidement ou méticuleusement). Ces éléments font en sorte que les classificateurs ont

possiblement mieux généraliser au travail de C2 (être assis derrière un écran d’ordinateur à

176

coordonner des unités) plutôt qu’à un aspect précis de ce travail. La transférabilité intertâche

n’a pas été formellement testée. Il est donc nécessaire d’être prudent quant au potentiel réel

de la généralisation des classificateurs. Toutefois, il est proposé que la méthode employée

dans cette thèse était bien adaptée pour capturer les signatures physiologiques génériques des

sous-composantes de la charge mentale, plutôt que de se concentrer sur des spécificités

précises de certaines tâches. De plus, contrairement à certaines techniques, comme l’analyse

des réponses électrodermales spécifiques (Boucsein, 2014), l’analyse des réponses

pupillaires (p.ex. Brisson et coll., 2013) ou le technique des potentiels évoqués (Bressler et

Ding, 2006; Wang et coll., 2008), la méthode utilisée dans ce projet ne requiert pas de

synchronisation avec des événements particuliers de la tâche (mis à part le début et la fin de

cette dernière). L’étude des réponses associés à des événements peut offrir un grand potentiel

de mesure. Toutefois, ces méthodes ont parfois une validité écologique limitée. À titre

d’exemple, il être facile, dans un contexte de laboratoire, de déterminer le moment exact de

l’occurrence d’un son stressant (comme celui utilisé dans la première expérience de cette

thèse). Il peut toutefois être plus difficile de déterminer le moment exact du début du stresseur

dans un contexte réel de C2.

5.3.3 Limites – Fatigue confondue avec d’autres facteurs

Pour développer des modèles diagnostiques de la charge mentale, il est nécessaire que les

modèles de chaque sous-dimension considèrent les réactions physiologiques qui sont

provoquées par les autres sous-dimensions. Bien que simple à première vue, il peut être très

difficile de développer une méthode expérimentale dans laquelle toutes les combinaisons de

charge mentale sont explorées. Dans cette thèse, un soin particulier a été dédié afin de

générer, au mieux possible, ces combinaisons. Malgré cette attention, certaines combinaisons

ont été plus difficiles à cerner que d’autres.

La fatigue est possiblement la sous-dimension de la charge mentale qui a été la plus ambiguë

à mesurer objectivement dans cette thèse. Bien que les résultats des deux expériences

suggèrent que la fatigue ait bel et bien été présente, il reste difficile de quantifier à quel point

elle a contribué réellement. Dans la première expérience, l’absence de contre-balancement a

rendu difficile la distinction entre les tâches et la fatigue. De plus, la faible durée des essais

177

expérimentaux ne permet pas de suggérer que les participants ont subi une très grande fatigue.

La performance, qui est aussi parfois utilisée pour déduire la fatigue (p.ex. Shen et coll.,

2008), n’a pas non plus subi de changement majeur à l’intérieur de chaque tâche. Les mesures

subjectives de la seconde expérience suggèrent que la fatigue a cette fois été ressentie.

Toutefois, l’augmentation de la performance et la baisse de l’effort laissent croire que

l’entraînement a joué un rôle significatif entre les conditions expérimentales, confondant

ainsi la fatigue avec la baisse d’effort. En effet, il est difficile de déterminer si chaque

participant a fourni moins d’effort parce qu’il était fatigué ou s’il a fourni moins d’effort

parce qu’il devenait meilleur.

Au niveau physiologique, il est intéressant de remarquer que malgré l’absence de contre-

balancement entre les tâches dans la première expérience, les classificateurs des tâches

(n-back vs. recherche visuelle) ont repéré des manifestations physiologiques très similaires

au classificateur de l’ordre des conditions de la seconde expérience. Ce résultat peut laisser

croire qu’il s’agit des manifestations spécifiques à la fatigue mentale. Toutefois, telle que

détaillé à la section 3.3.2.4, il est également possible que ces signes physiologiques ne soient

simplement que ceux du temps passé à faire la tâche.

5.3.4 Limite – Pas de comparaison de performance entre les modalités

Comme seconde limite, il est possible de soulever que ce projet de thèse ne compare pas

directement les différentes modalités physiologiques entre elles. Cette absence de

comparaison résulte du fait qu’il a été choisi de comparer des sous-ensembles d’équipement

de mesure plutôt que des sous-ensembles de modalités. Cette limite est partiellement résolue

par l’analyse des poids des classificateurs linéaires qui renseigne sur les modalités retenues

par les classificateurs dans les situations où toutes les modalités étaient présentes. Toutefois,

le projet de thèse ne permet pas, par exemple, de se prononcer sur la diagnosticité d’un

système basé uniquement sur la réponse électrodermale ou sur le diamètre pupillaire. Le

choix de comparer des sous-ensembles basés sur des équipements, plutôt que des modalités

physiologiques, a toutefois été fait de manière consciente lors de l’élaboration de la

méthodologie. La comparaison des différentes modalités est un aspect déjà abordé dans

d’autres travaux de recherche (p.ex. Banville, 2015; Hogervorst, Brouwer et van Erp, 2014;

178

Liu et coll. 2017). Le fait de comparer des sous-ensembles basés sur des équipements a

permis d’explorer des aspects plus pratiques et appliqués de la physiologie.

De plus, même s’il aurait été possible d’utiliser la présente méthode afin de former des sous-

ensembles basés sur les modalités, il est important de considérer le temps requis afin

d’entraîner les systèmes d’apprentissage automatique. Par souci de parcimonie, les détails

sur le temps de calcul d’apprentissage automatique n’ont pas été discutés dans cette thèse.

Brièvement, plusieurs mois ont été requis afin d’obtenir les résultats. Ce temps inclut la

préparation des données, la coordination de l’apprentissage automatique sur plusieurs

processeurs, les bogues informatiques ainsi que les nombreux résultats qui n’ont pas été

retenus dans la thèse. Ce temps pourrait être grandement réduit en parallélisant

l’entraînement des algorithmes (notamment en utilisant des processeurs graphiques) mais

cette optimisation demanderait toutefois aussi un temps de mise en place. Bref, la

comparaison des différentes modalités, ou à cet égard, la comparaison d’autres combinaisons

de métriques physiologiques reste possible, mais il est nécessaire de considérer à l’avance

les hypothèses à tester afin de garder le temps de calcul raisonnable.

5.4 Contributions pratiques

5.4.1 Augmentation de l’accessibilité des mesures physiologiques

Tel que détaillé dans la section 1.3.1, les mesures neurologiques sont souvent considérées

comme les mieux adaptés pour mesurer les états mentaux des individus. Les appareils de

mesure neurologiques, comme les électroencéphalogrammes et les systèmes de spectroscopie

proche infrarouge ont l’avantage important de mesurer directement le système nerveux

périphérique, centre de l’activité mentale. Toutefois, les appareils de mesure neurologiques

présentent des désavantages importants qui diminuent leur potentiel pratique. Ils peuvent

demander plusieurs répétitions avant l’obtention d’une mesure fiable, peuvent être très

sensibles au mouvement et au bruit et sont parfois encombrants. De plus, leur coût parfois

élevé peut diminuer leur intérêt pour des domaines de travail moins spécialisés. En revanche,

les mesures physiologiques périphériques sont plus portables, plus résistantes au bruit et,

dans certains cas, peuvent être beaucoup plus abordables.

179

Dans le présent projet de thèse, la priorité était mise sur la comparaison de combinaisons de

modalités physiologiques plutôt que la comparaison des modalités elles-mêmes. Les

appareils retenus comprenaient une ceinture thoracique (activité cardiaque et respiratoire),

des électrodes au niveau des doigts (activité électrodermale) et une lunette d’oculométrie

(diamètre pupillaire et mouvements oculaires). Bien que les équipements utilisés dans cette

thèse ne soient pas les seuls disponibles, il est possible de considérer que leur portabilité et

leur accessibilité (voir section 1.2.1) soient représentatives de ce qu’il est possible d’obtenir

sur le marché. Brièvement, en regard à ces deux aspects, les mesures oculaires sont les moins

intéressantes. En effet, les appareils de mesure oculaire peuvent soit être : 1) montés sur les

postes de travail (comme le Tobii EyeX, 2017; ou le système Smart Eye, 2018), ce qui limite

leur champ d’action à un poste de travail fixe; ou, 2) intégrés à des lunettes, ce qui augmente

leur portabilité, mais diminue leur accessibilité. Les résultats des deux expériences ont

montré que la combinaison de tous les appareils (nécessitant donc la mesure pupillaire et les

mouvements oculaires) offrait typiquement des meilleurs résultats. Ce résultat signifie que

pour atteindre la meilleure performance, les utilisateurs d’un tel système de mesure de la

charge mentale devraient porter les trois appareils de mesure utilisée dans cette thèse et, soit

rester à leur poste de travail, soit accepter de porter des lunettes d’oculométrie.

Les résultats montrent cependant que la pupille fournissait une contribution généralement

plus importante que les mouvements oculaires quant à la performance en classification. Étant

donné que la mesure des mouvements oculaire demandait une calibration, il pourrait être

envisageable de proposer un système sans mouvement oculaire, réduisant ainsi la complexité

du système et retirant la nécessité de procéder à la calibration des lunettes d’oculométrie.

Bien que la pupille ait contribué beaucoup à la performance en classification,

particulièrement dans la classification de l’effort mental, certaines sous-dimensions étaient

prédictibles en utilisant seulement l’activité cardiaque, respiratoire et électrodermale, et

même parfois seulement avec l’activité cardiaque et respiratoire seulement. C’est notamment

le cas de la prédiction de l’effort mental (en contexte de tâche simple) et du stress et de la

fatigue (en contexte de C2). Ce résultat est particulièrement intéressant puisqu’il ouvre la

porte à une mesure diagnostique portable de la charge mentale. La ceinture thoracique utilisée

(le Bioharness 3, 2012) est en effet portable et la mesure de l’activité électrodermale, bien

180

que non portable dans ce projet de thèse, peut facilement être prise par un bracelet portable

comme le E3 de Empatica (2018).

5.4.2 Supporter la conception du travail et l’élaboration de contre-mesures cognitives

L’obtention d’une mesure de la charge mentale peut être bénéfique pour la compréhension

théorique de la cognition humaine. Toutefois, plusieurs auteurs considèrent que les mesures

de la charge mentale possèdent un grand potentiel d’améliorer la performance en contexte de

travail réel. Les mesures de la charge mentale peuvent guider la conception d’interfaces ou

de systèmes d’aide à la décision (p.ex. Görges et coll., 2013; Shen, Carswell, Santhanam et

Bailey, 2012), aider à comprendre et optimiser l’apprentissage (p.ex. Wiebe, Roberts &

Behrend, 2010), évaluer l’impact de changements organisationnels (p.ex. Colligan, Potts,

Finn et Sinkin, 2015) et permettre la conception de systèmes informatiques intelligents

(p.ex. Aricò et coll., 2016; Dixon & Wickens, 2006).

L’une des contributions les plus importantes de cette thèse est la démonstration qu’il est

possible de déterminer la sous-dimension à l’origine à l’aide de la physiologie périphérique.

Si les mesures de la charge mentale peuvent être utiles pour supporter la conception du travail

et l’élaboration de mesures cognitives, une mesure diagnostique peut l’être encore plus. En

effet, la vision classique utilisée en milieu de travail réel consiste souvent à agréger ces

dimensions ensemble et déterminer si la charge mentale, dans son sens global, dépasse un

seuil critique (souvent appelé « zone rouge » ou « ligne rouge »; Grier et coll., 2008; Pickup

et coll., 2005). Lorsque ce seuil est dépassé, la vision classique suggère typiquement de

diminuer l’exigence imposée au travailleur de manière à faire diminuer sa charge mentale. Il

peut être proposé que cette vision est mal adaptée aux situations de travail réelles. Les

résultats de la seconde expérience de cette thèse démontrent clairement comment la théorie

de la ligne rouge peut être inappropriée. Dans la seconde expérience, la présence du stresseur

(l’acteur-évaluateur) n’a pas affecté le nombre de vies sauvées. La présence du stresseur a

même parfois amélioré le temps de réponse. Pourtant, le stresseur a provoqué des réactions

physiologiques caractéristiques au stress. En l’absence de données de performances, le

constat du stress élevé aurait pu être interprété comme un excès de charge mentale. Dans une

telle situation, l’abaissement de l’exigence n’aurait possiblement pas eu les effets souhaités

181

et aurait simplement fait en sorte qu’une quantité moins grande de travail aurait été réalisée

(ce qui est peu souhaitable en contexte de travail réel). Pour renchérir sur l’exemple

précédent, il est possible de suggérer que le fait de diminuer l’exigence mentale aurait

possiblement diminué un peu le stress. Toutefois, en contexte de travail réel, il pourrait être

pertinent de distinguer l’excès de stress afin de prévenir les effets néfastes de celui-ci sur le

long terme. Cette thèse n’a pas exploré les formes plus chroniques du stress. Un système

diagnostique mesurant la charge mentale pourrait cependant permettre d’agir sur les facteurs

qui sont à l’origine du stress (environnement de travail inadéquat, pression de performance

par les pairs) plutôt que d’agir sur l’exigence de travail.

5.4.3 Modèles interindividuels

Une autre contribution pratique non négligeable de cette thèse est l’utilisation de modèles

interindividuels. Dans plusieurs travaux de recherches similaires à celui-ci, dans lesquels

l’apprentissage automatique est utilisé pour déterminer la charge mentale, les modèles

physiologiques sont construits de manière intraindividuelle (p.ex Banville, 2015; Casson,

2014; Hogervorst, Brouwer et van Erp, 2014; Liu et coll., 2017). En d’autres mots, les

données d’un seul individu à la fois sont utilisées pour construire les modèles de la charge

mentale. De cette manière, chaque individu reçoit son modèle qui lui est propre. En procédant

ainsi, les caractéristiques individuelles sont plus facilement capturées et tenues en compte

par les algorithmes d’apprentissage automatique. Par exemple, si un individu a tendance à

avoir une sudation très faible (donc une activité électrodermale faible), celle-ci ne contribuera

pas à la détermination de la charge mentale de l’individu (assumant que le modèle est bien

construit). Seules les métriques physiologiques les plus pertinentes pour cet individu seront

retenues par le modèle. Puisque les modèles intraindividuels tiennent compte des

particularités propres à chaque individu, ceux-ci ont typiquement la possibilité d’offrir une

meilleure performance en classification. Il est pertinent de noter que cette opinion est

partagée par certains auteurs (p.ex Shen et coll., 2008). Ce choix méthodologique amène

toutefois trois désavantages majeurs.

Premièrement, les modèles intraindividuels sont moins adaptés pour déterminer la signature

physiologique propre à chaque composante de la charge mentale. Étant donné que les

182

modèles tiennent compte des particularités des individus, la signature physiologique des

composantes de la charge mentale devient confondue avec la signature physiologique des

individus. Cela ne veut pas dire qu’il est impossible de déterminer la signature physiologique

des composantes à l’aide de modèles intraindividuels, seulement qu’il est plus difficile de le

faire. À l’inverse, la construction de modèles interindividuels offre la possibilité de retirer les

caractéristiques des individus pour ne retenir que la signature physiologique commune à

chaque sous-dimension de la charge mentale.

Deuxièmement, les modèles interindividuels offrent l’avantage important de retirer, ou

minimiser, les besoins de calibration et de construction de modèle. En effet, dans un contexte

pratique (comme un contexte de C2), l’utilisation de modèles intraindividuels requiert qu’un

temps soit alloué à chaque employé afin de construire son modèle prédictif de la charge

mentale. À l’inverse, un modèle interindividuel, tel qu’utilisé dans cette thèse, peut prédire

la charge mentale d’un individu sans avoir aucune connaissance préalable de ce dernier.

L’entraînement de modèles intraindividuels peut-être une avenue valide dans des situations

où les ressources le permettent et où la précision de la prédiction est très importante (p.ex.

un pilote d’avion de chasse). Toutefois, dans des contextes où un grand nombre d’individus

sont mesurés et où les conséquences de la prédiction sont moins critiques, les modèles

interindividuels offrent un avantage indéniable.

Finalement, l’utilisation de modèles interindividuels permet de mitiger les effets des

changements physiologiques qui affectent les individus dans le temps. En effet, même si des

modèles intraindividuels sont utilisés, ceux-ci sont à risque de voir leur performance

diminuer avec le temps. Des facteurs, comme la faim, l’âge ou le stress chronique peuvent

venir affecter la physiologie. À moins que les modèles intraindividuels soient entraînés sur

une longue période, ceux-ci pourraient devenir désuets avec le temps. En revanche, les

modèles interindividuels, tels qu’utilisés dans cette thèse, sont entraînés sur des individus

ayant différents niveaux de faim, qui ont des âges différents et qui présentent des niveaux de

stress chronique plus variés. Ce qui augmente la robustesse des modèles.

183

5.5 Défis à relever

Malgré toute la recherche effectuée sur les mesures physiologiques et la charge mentale, la

diagnosticité est encore fortement négligée (Matthews et coll., 2014). La diagnosticité

physiologique est toutefois essentielle à étudier. Cette nécessité s’inscrit dans un désir

grandissant de développer des applications humain-machine qui améliorent la performance

humaine dans des contextes de travail réels. Malgré les récents progrès dans le domaine,

certains auteurs soulèvent un certain sentiment d’urgence face au développement de ces

applications en contextes réels. En effet, les progrès rapides, notamment dans le domaine de

l’apprentissage automatique, changent la réalité des milieux de travail et, par le fait même,

les attentes et besoins faces aux solutions fournies par la neuroergonomie et l’ingénierie

cognitive. À ce sujet, Burns (2018) affirme :

Refining human performance constructs and measurement and continuing to

improve the support for humans working with automated systems […] are

important developments in having a strong human factors science and

engineering […]. The elephant in the room would seem to be the question, “Can

we get there fast enough?” Partially automated vehicles are already on the road,

most designed with a rudimentary or experimental approach to how the vehicle

automation should interact with the driver. The technology is evolving rapidly.

By the time a federal investigation into a fatal accident with Tesla autopilot had

been completed (National Highway Traffic and Safety Administration, 2017), the

automation technology involved in that accident was already significantly

outdated.

L’atteinte d’une meilleure diagnosticité des mesures physiologiques est un atout dans cette

course vers des applications humain-machine puisqu’elle peut permettre des contre-mesures

mieux adaptées aux situations. Malgré les contributions apportées par ce projet de thèse, il

reste encore plusieurs défis à relever pour optimiser la diagnosticité des mesures

physiologiques.

5.5.1 Augmenter la robustesse face aux mouvements et aux bruits du signal

Un des défis les plus importants et urgent à relever est celui de la robustesse face aux

mouvements et aux bruits qu’il provoque sur les signaux. Même dans les situations de travail

de bureau, pour lesquelles une faible activité physique est attendue, il est inévitable que des

184

mouvements et déplacements soient effectués. Parmi ces mouvements et déplacements, on

retrouve entre autres l’utilisation du clavier et de la souris, la configuration du poste de

travail, les pauses et l’utilisation de la salle de bain, les déplacements vers les postes des

collègues / salles de réunions ou encore les mouvements involontaires, comme les

éternuements. La situation est encore plus complexe pour les situations de travail où le

mouvement fait partie intégrante du travail telles que les unités d’intervention d’urgence

comme les policiers et pompiers, les travailleurs du domaine de la santé comme les

infirmières et médecins ou encore tels que les opérateurs de machinerie lourde.

Les effets de l’activité physique sur les mesures physiologiques se divisent en trois niveaux.

À un premier niveau, les mouvements physiques viennent perturber les mesures

physiologiques en imposant une charge mentale supplémentaire. En effet, même si les

mouvements physiques sont de faible amplitude, les individus doivent investir des ressources

supplémentaires afin de coordonner leurs mouvements ou encore afin de consolider

l’apprentissage de ces derniers. Bien qu’on puisse faire l’hypothèse que cette augmentation

d’exigence physique provoque les certaines réactions physiologiques similaires à celle de

l’augmentation de l’exigence mentale, il est attendu que certaines réactions soient

complètement différentes. Au niveau cérébral, plusieurs recherchent montrent en effet

l’activation de régions distinctes lors de l’exécution ou de l’apprentissage de mouvement

physique (Deeny, Hillman, Janelle et Hatfield, 2003; Landers, Han, Salazar et Petruzzelo,

1994).

À un second niveau, les mouvements physiques provoquent des réactions physiologiques

destinées à supporter ces mouvements. L’activité physique est notamment accompagnée

d’une activation du système sympathique. Cette activation provoque entre autres une

augmentation du rythme cardiaque et de la pression artérielle de manière à fournir plus

d’énergie aux muscles. L’activité respiratoire est également amplifiée de manière à fournir

l’oxygène requis aux cellules musculaires et à évacuer l’excédent de dioxyde de carbone

produit. Quant à l’activité électrodermale, celle-ci est amplifiée de manière à mieux évacuer

l’excédent de chaleur produit par l’activité physique. Cette activation peut venir confondre

185

les prédictions de la charge mentale par les modèles se basant sur des signes physiologiques

similaires.

Finalement, les mouvements physiques peuvent introduire du bruit sur les signaux

physiologiques. Le bruit causé par le mouvement n’a pas été quantifié en détail dans cette

thèse, mais les signaux physiologiques recueillis dans les deux expériences ont

définitivement été altérés par le mouvement. Ces bruits peuvent provenir du déplacement des

capteurs ou encore de l’introduction d’artéfacts sur les signaux. On peut soulever, par

exemple, l’introduction de pics de haute amplitude sur les signaux

électroencéphalographiques par les clignements des yeux, le changement du niveau de base

sur le signal électrodermal lors d’un changement de position des électrodes ou encore les

pertes momentanées du signal oculaire lors du déplacement des lunettes d’oculométrie.

La recherche portant sur les mesures physiologiques de la charge mentale en contexte

d’activité physique est récente et encore plutôt limitée. Scanlon, Sieben, Holyk et Mathewson

(2017) rapportent être capables d’utiliser la technique des potentiels évoqués lorsque les

participants font une tâche mentale en faisant du vélo, mais soulèvent des limitations quant

à la puissance statistique et la résistance au bruit en contexte hors laboratoire. De plus, tel

que détaillé plus tôt (section 1.2.4), l’utilisation d’électroencéphalogramme, et encore plus

des potentiels évoqués, peut être difficile à transférer à des tâches réelles. Yontigan et coll.

(2018) rapportent qu’il est possible pour des participants de contrôler une interface cerveau-

ordinateur même lorsque ces derniers font de l’exercice physique. Malgré ce succès, cette

recherche est une fois de plus menée en contexte de laboratoire et s’appuie sur des mesures

neurologiques. À la lumière des recherches effectuées dans le cadre de cette thèse, aucune

recherche n’a tenté de mesurer la charge mentale à l’aide de capteurs physiologiques

seulement en contexte d’activité physique.

5.5.2 Augmenter la robustesse face à la parole

Un autre défi important à relever pour augmenter la diagnosticité des mesures physiologiques

est celui de reconnaître les contributions de la parole. Des travaux empiriques montrent que

la parole a des influences non négligeables sur la signature physiologique. Au niveau

186

respiratoire, la parole est reconnue pour diminuer la fréquence respiratoire et augmenter les

basses fréquences respiratoires (Bernardi et coll., 2000). Ces influences pourraient venir

diminuer la qualité des prédictions de la charge mentale pour les modalités se basant

fortement sur la respiration, comme pour le stress en contexte de C2. La parole est également

reconnue pour avoir des effets sur la variabilité cardiaque (Beda et coll., 2007; Bernardi et

coll., 2000), ce qui affecterait la décision de la majorité des classificateurs entraînés dans

cette étude. De plus, tel que discuté au Chapitre 3 (section 3.3.2.3), la capture attentionnelle

peut affecter le diamètre pupillaire. Il est donc possible que l’écoute d’un collègue de travail

qui attire l’attention de la personne mesurée affecte le diamètre pupillaire, flouant une fois

de plus les prédictions de la charge mentale. Pourtant, la communication par la parole est

essentielle dans plusieurs environnements de travail à charge mentale élevée comme les

salles d’opération (Lingard et coll., 2004; Moore, Butt, Ellis-Clarke et Cartmill, 2010),

l’aviation (Sexton et Helmreich, 2000) et, comme dans cette thèse, dans les situations de C2

(MacMillan, Entin et Serfaty, 2004). Il est donc nécessaire de développer des modèles

physiologiques de la charge mentale robuste à la parole.

La parole peut toutefois être reprise comme avantage dans la prédiction de la charge mentale.

En effet, plusieurs recherches ont déjà exploré le potentiel de la prosodie à prédire le niveau

de charge mentale (p.ex. Le, Ambikairajah, Epps, Sethu et Choi., 2011; Magnusdottir et coll.,

2017; Segbroeck, 2014). De plus, il est plausible de supposer que les progrès en

reconnaissance vocale pourraient permettre l’utilisation du contenu verbal comme intrant

dans les modèles prédictifs de la charge mentale. La combinaison de l’analyse verbale avec

la physiologie périphérique, encore peu explorée à ce jour, pourrait permettre d’augmenter

le potentiel diagnostique des mesures de la charge mentale.

5.5.3 Considérer plus de dimensions

Dans ce projet, la charge mentale a été divisée en quatre composantes (l’exigence, l’effort,

le stress et la fatigue). Cette division n’a pas été faite de manière à proposer un cadre

théorique de la charge mentale. Elle a plutôt été faite de manière à séparer des concepts

souvent confondus lorsqu’il est question de la charge mentale. Il pourrait toutefois être

intéressant de répéter un projet similaire, cette fois en suivant une division de la charge

187

mentale déjà validée par un autre modèle. Cette approche permettrait de rallier la popularité

de certaines mesures subjectives de la charge mentale avec l’objectivité des mesures

physiologiques. Dans cette thèse, les dimensions subjectives du NASA-TLX ont été prédites

par des classificateurs, mais n’étaient pas l’objet central de la thèse. Il pourrait ainsi être

pertinent de concevoir un devis expérimental visant à faire varier les dimensions du NASA-

TLX et faire une analyse plus poussée des modèles obtenus. Étant donné la popularité du

NASA-TLX, il serait peut-être d’ailleurs possible d’agréger les mesures physiologiques de

plusieurs expériences déjà effectuées pour lequel le NASA-TLX a été administré, évitant

ainsi la nécessité de développer un devis expérimental particulier pour ce projet. D’autres

modèles, comme celui de Matthews et Campbell (2010) (séparant l’effort, la détresse et

l’inquiétude) pourrait aussi être retenu. Dans une optique plus large, il pourrait être

intéressant de mener des travaux similaires en sortant du cadre de la charge mentale. Les

recherches sur la diagnosticité physiologique pourraient ainsi s’étendre aux émotions ou

encore à la personnalité.

L’approche utilisée dans cette thèse pourrait toutefois être réalisée de manière différente afin

d’étendre la théorie des sous-dimensions de la charge mentale. Dans cette thèse, les sous-

dimensions de la charge mentale ont été tenues pour acquises, dans le sens où il n’était pas

question de prouver leur existence/inexistence, mais bien de voir s’il était possible de les

mesurer de manière diagnostique. Pourtant, la plupart de ces construits (p.ex. l’effort mental,

le stress, la fatigue), tout comme de nombreux construits utilisés en psychologie, ne prennent

pas origine dans des mécanismes physiologiques, même s’ils sont associés à des

manifestations ou des mécanismes physiologiques. Par exemple, même si les mécanismes

physiologiques du stress ont été largement étudiés dans le dernier siècle (Hancock, Ganey et

Szalma, 2002; Sele, 1985; Staal, 2004; Yerkes et Dodson, 1908), il n’en reste pas moins que

le concept a été construit sur des bases plus comportementales (la performance) plutôt que

physiologiques. Ainsi, la combinaison de la physiologie et de l’apprentissage automatique

ouvre la porte à repenser la définition de plusieurs concepts utilisés en psychologie. Cette

thèse a utilisé des techniques d’apprentissage automatique supervisés. En d’autres mots, les

algorithmes disposaient à la fois d’intrants (les métriques physiologiques mesurées) et des

extrants (les valeurs objectives des sous-dimensions de la charge mentale), tels que définis

188

dans la littérature et par le devis expérimental. Toutefois, il serait également possible

d’utiliser des techniques d’apprentissage automatique non supervisés. Contrairement aux

techniques supervisés, les techniques d’apprentissage automatique non supervisés n’utilisent

que des variables d’intrant et créent, à partir de ces intrants, les différentes dimensions ou

catégories qui forment le modèle. L’utilisation de ces techniques pourrait permettre d’établir

un modèle de la charge mentale prenant directement ses bases dans les réactions

physiologiques des individus.

189

Conclusion

La charge mentale est un concept très utile en psychologie cognitive. Les différentes mesures

de la charge mentale, qu’elles soient comportementales, subjectives ou physiologiques,

permettent de quantifier le ratio entre les ressources cognitives utilisées et les ressources

cognitives maximales des individus. Bien que plusieurs modèles de la charge mentale

abordent le concept comme étant multidimensionnel, les mesures physiologiques de la charge

mentale se limitent souvent à la quantifier de manière unidimensionnelle. Cette limitation est

problématique; la charge mentale englobe effectivement plusieurs sous-dimensions (comme

le stress et la fatigue) qui nécessitent des contre-mesures différentes. De plus, un grand

nombre d’études tentent de mesurer la charge mentale en contexte de tâche simple,

typiquement retrouvées en laboratoire. Une attention trop faible est cependant portée aux

mesures physiologiques de la charge mentale dans des contextes de travail réels, ce qui limite

les possibilités d’applications concrètes.

Cette thèse montre qu’il est possible de déterminer les dimensions qui sont à la source de la

charge mentale à l’aide de capteurs physiologiques. Plus précisément, les résultats montrent

que cette diagnosticité est atteignable en n’utilisant seulement que des capteurs

physiologiques périphériques, lesquels sont plus abordables et plus résistants au bruit que les

mesures neurologiques. Bien que cette thèse suggère que la charge mentale soit plus facile à

mesurer en contexte de tâche simple, les résultats suggèrent qu’il est néanmoins possible de

le faire dans une simulation de commandement et contrôle bien plus complexe. Les résultats

montrent aussi que les sources de la charge mentale peuvent être prédites chez un individu

en utilisant des modèles construits à partir des données d’autres personnes, suggérant ainsi

des signatures physiologiques communes entre les différentes sous-dimensions de la charge

mentale.

En conclusion, les résultats de cette thèse apportent des contributions théoriques qui

permettent de distinguer la signature physiologique des sous-composantes de la charge

mentale. Le présent ouvrage suggère également une démarche novatrice et flexible pour

combiner les domaines de la physiologie et de l’apprentissage automatique. Finalement, cette

190

thèse ouvre la porte à des systèmes prédictifs de la charge mentale en milieu de travail réel

en n’utilisant strictement que des capteurs physiologiques périphériques.

Références

Alnæs, D., Sneve, M. H., Espeseth, T., Endestad, T., van de Pavert, S. H. P., & Laeng, B.

(2014). Pupil size signals mental effort deployed during multiple object tracking and

predicts brain activity in the dorsal attention network and the locus coeruleus. Journal of

vision, 14(4), 1-1.

Anderson, C. R. (1976). Coping behaviors as intervening mechanisms in the inverted-U

stress-perfor- mance relationship. Journal of Applied Psychology, 61, 30–34.

Andreano, J. M., & Cahill, L. (2012). Release and Glucocorticoid and Memory

Consolidation in Men and Women. Psychological Science, 17(6), 466–470.

Annett, J. (2002). Subjective rating scales: science or art?. Ergonomics, 45(14), 966-987.

Asch, G. (2011). Acquisition de données-3e éd.: Du capteur à l'ordinateur. Dunod.

Ashton, M. C., & Lee, K. (2007). Empirical, theoretical, and practical advantages of the

HEXACO model of personality structure. Personality and social psychology

review, 11(2), 150-166.

Ax, A. F. (1953). The physiological differentiation between fear and anger in humans.

Psychosomatic Medicine, 15, 433–442.

Ayres, P. (2006). Using subjective measures to detect variations of intrinsic cognitive load

within problems. Learning and Instruction, 16(5), 389-400.

Backs, R. W., & Seljos, K. A. (1994). Metabolic and cardiorespiratory measures of mental

effort: the effects of level of difficulty in a working memory task. International Journal

of psychophysiology, 16(1), 57-68.

Bailey, B. P., & Iqbal, S. T. (2008). Understanding changes in mental workload during

execution of goal-directed tasks and its application for interruption management. ACM

Transactions on Computer-Human Interaction (TOCHI), 14(4), 21.

191

Baker, K., Olson, J., & Morisseau, D. (1994). Work practices, fatigue, and nuclear power

plant safety performance. Human Factors, 36(2), 244–257.

Banville, H. J. (2015). Hybrid Brain-Computer Interfaces : Improving Mental Task

Classification Performance through Fusion of Neurophysiological Modalities Par.

INRS-EMT, Montreal, Canada.

Barrouillet, P., Bernardin, S., & Camos, V. (2004). Time constraints and resource sharing

in adults' working memory spans. Journal of Experimental Psychology: General, 133(1),

83.

Batista, G. E., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several

methods for balancing machine learning training data. ACM SIGKDD explorations

newsletter, 6(1), 20-29.

Beatty, J. (1982). Task-evoked pupillary responses, processing load, and the structure of

processing resources. Psychological bulletin, 91(2), 276.

Beda, A., Jandre, F. C., Phillips, D. I., Giannella‐Neto, A., & Simpson, D. M. (2007).

Heart‐rate and blood‐pressure variability during psychophysiological tasks involving

speech: Influence of respiration. Psychophysiology, 44(5), 767-778.

Bernardi, L., Wdowczyk-Szulc, J., Valenti, C., Castoldi, S., Passino, C., Spadacini, G., &

Sleight, P. (2000). Effects of controlled breathing, mental activity and mental stress with

or without verbalization on heart rate variability. Journal of the American College of

Cardiology, 35(6), 1462-1469.

Betts, J. G. (2013). Anatomy & physiology. 787–846. Consulté le 28 mars 2018.

Bialystok, E. (2006). Effect of bilingualism and computer video game experience on the

Simon task. Canadian Journal of Experimental Psychology/Revue canadienne de

psychologie expérimentale, 60(1), 68.

Bierman, E. J. M., Comijs, H. C., Jonker, C., & Beekman, a T. F. (2005). Effects of anxiety

versus depression on cognition in later life. The American Journal of Geriatric

Psychiatry : Official Journal of the American Association for Geriatric Psychiatry,

13(8), 686–693.

Bioharness. (2012). https://www.zephyranywhere.com/system/components

192

Birse, R. (2004). Muirhead, Alexander (1848–1920), electrical engineer. Oxford Dictionary

of National Biography.

Bloch, S., Lemeignan, M., & Aguilera-T, N. (1991). Specific respiratory patterns

distinguish among human basic emotions. International Journal of

Psychophysiology, 11(2), 141-154.

Boiten, F. A., Frijda, N. H., & Wientjes, C. J. (1994). Emotions and respiratory patterns:

review and critical analysis. International Journal of Psychophysiology, 17(2), 103-128.

Boksem, M. A., & Tops, M. (2008). Mental fatigue: costs and benefits. Brain research

reviews, 59(1), 125-139.

Boksem, M. A., Meijman, T. F., & Lorist, M. M. (2005). Effects of mental fatigue on

attention: an ERP study. Cognitive brain research, 25(1), 107-116.

Boksem, M. A., Meijman, T. F., & Lorist, M. M. (2006). Mental fatigue, motivation and

action monitoring. Biological psychology, 72(2), 123-132.

Bolstad, C. A., Cuevas, H. M., Costello, A. M., & Babbitt, B. (2008). Predicting cognitive

readiness of deploying military medical teams. In Proceedings of the Human Factors

and Ergonomics Society 52nd Annual Meeting (pp. 970–974). Santa Monica, CA:

Human Factors and Ergonomics Society.

Boonnithi, S., & Phongsuphap, S. (2011, September). Comparison of heart rate variability

measures for mental stress detection. In Computing in Cardiology, 2011 (pp. 85-88).

IEEE.

Boot, W. R., Blakely, D. P., & Simons, D. J. (2011). Do action video games improve

perception and cognition?. Frontiers in psychology, 2, 226.

Boot, W. R., Kramer, A. F., Simons, D. J., Fabiani, M., & Gratton, G. (2008). The effects

of video game playing on attention, memory, and executive control. Acta

psychologica, 129(3), 387-398.

Borghini, G., Astolfi, L., Vecchiato, G., Mattia, D., & Babiloni, F. (2014). Measuring

neurophysiological signals in aircraft pilots and car drivers for the assessment of mental

workload, fatigue and drowsiness. Neuroscience & Biobehavioral Reviews, 44, 58-75.

193

Boucsein, W. (2012). Electrodermal activity. Springer Science and Business Media.

Braarud, P. Ø., & Kirwan, B. (2010). Task complexity: what challenges the crew and how

do they cope. In Simulator-based Human Factors Studies Across 25 Years (pp. 233-

251). Springer, London.

Brehm, J. W., & Self, E. A. (1989). The intensity of motivation. Annual review of

psychology, 40(1), 109-131.

Bressler, S. L., & Ding, M. (2006). Event‐Related Potentials. Wiley encyclopedia of

biomedical engineering.

Brewer, M. B., & Crano, W. D. (2000). Research design and issues of validity. Handbook

of research methods in social and personality psychology, 3-16.

Brindle, R. C., Whittaker, A. C., Bibbey, A., Carroll, D., & Ginty, A. T. (2017). Exploring

the possible mechanisms of blunted cardiac reactivity to acute psychological

stress. International Journal of Psychophysiology, 113, 1-7.

Brisson, J., Mainville, M., Mailloux, D., Beaulieu, C., Serres, J., & Sirois, S. (2013). Pupil

diameter measurement errors as a function of gaze direction in corneal reflection

eyetrackers. Behavior research methods, 45(4), 1322-1331.

Brookhuis, K. A., & de Waard, D. (2010). Monitoring drivers’ mental workload in driving

simulators using physiological measures. Accident Analysis & Prevention, 42(3), 898-

903.

Brookhuis, K. A., & Waard, D. D. (2002). On the assessment of (mental) workload and

other subjective qualifications. Ergonomics, 45(14), 1026-1030.

Brookhuis, K. A., van Driel, C. J., Hof, T., van Arem, B., & Hoedemaeker, M. (2009).

Driving with a congestion assistant; mental workload and acceptance. Applied

ergonomics, 40(6), 1019-1025.

Brouwer, A. M., Hogervorst, M. A., Van Erp, J. B., Heffelaar, T., Zimmerman, P. H., &

Oostenveld, R. (2012). Estimating workload using EEG spectral power and ERPs in the

n-back task. Journal of neural engineering, 9(4), 045008.

194

BSXinsight, https://www.bsxinsight.com/

Burns, C. M. (2018). Automation and the Human Factors Race to Catch Up. Journal of

Cognitive Engineering and Decision Making, 12(1), 83–85.

Cabestrero, R., Crespo, A., & Quirós, P. (2009). Pupillary dilation as an index of task

demands. Perceptual and motor skills, 109(3), 664-678.

Cacciabue, P. C., & Hollnagel, E. (1995). Simulation of cognition: Applications. Expertise

and technology: Cognition and human-computer cooperation, 55-73.

Caffier, P. P., Erdmann, U., & Ullsperger, P. (2003). Experimental evaluation of eye-blink

parameters as a drowsiness measure. European journal of applied physiology, 89(3-4),

319-325.

Cain, B. (2007). A review of the mental workload literature. Defence Research And

Development Toronto (Canada).

Callister, R. O. B. I. N., Suwarno, N. O., & Seals, D. R. (1992). Sympathetic activity is

influenced by task difficulty and stress perception during mental challenge in

humans. The Journal of physiology, 454(1), 373-387.

Capa, R. L., Audiffren, M., & Ragot, S. (2008). The interactive effect of achievement

motivation and task difficulty on mental effort. International Journal of

Psychophysiology, 70(2), 144-150.

Carrier, C., Higson, V., Klimoski, V., & Peterson, E. (1984). The effects of facilitative and

debilitative achievement anxiety on notetaking. The Journal of Educational

Research, 77(3), 133-138.

Carrillo, E., Moya-Albiol, L., González-Bono, E., Salvador, A., Ricarte, J., & Gómez-

Amor, J. (2001). Gender differences in cardiovascular and electrodermal responses to

public speaking task: the role of anxiety and mood states. International Journal of

Psychophysiology, 42(3), 253-264.

Carroll, D., Phillips, A.C., Ring, C., Der, G., Hunt, K., 2005. Life events and hemodynamic

stress reactivity in the middle-aged and elderly. Psychophysiology 42:269–276.

195

Castaldo, R., Melillo, P., Bracale, U., Caserta, M., Triassi, M., & Pecchia, L. (2015). Acute

mental stress assessment via short term HRV analysis in healthy adults: A systematic

review with meta-analysis. Biomedical Signal Processing and Control, 18, 370-377.

Castel, A. D., Pratt, J., & Drummond, E. (2005). The effects of action video game

experience on the time course of inhibition of return and the efficiency of visual

search. Acta psychologica, 119(2), 217-230.

Caywood, M. S., Roberts, D. M., Colombe, J. B., Greenwald, H. S., & Weiland, M. Z.

(2017). Gaussian Process Regression for predictive but interpretable machine learning

models: An example of predicting mental workload across tasks. Frontiers in human

neuroscience, 10, 647.

Chadha, N. K. (2009). Applied psychometry. SAGE Publications India.

Chanel, G., Kronegg, J., Grandjean, D., and Pun, T. (2006). “Emotion assess- ment: arousal

evaluation using EEG’s and peripheral physiological signals,” in Multimedia Content

Representation Classification and Security. Springer Lecture Notes in Computer

Sciences, Vol. 4105, eds B. Gunsel, A. M. Tekalp, A. K. Jain, and B. Sankur (Berlin;

Heidelberg: Springer), 530–537.

Chaudhuri, A., & Behan, P. O. (2000). Fatigue and basal ganglia. Journal of the

neurological sciences, 179(1), 34-42.

Christensen, J. C., Estepp, J. R.,Wilson, G. F., and Russell, C. A. (2012). The effects of

day-to-day variability of physiological data on operator state classification. Neuroimage

59, 57–63.

Cinaz, B., Arnrich, B., La Marca, R., & Tröster, G. (2013). Monitoring of mental workload

levels during an everyday life office-work scenario. Personal and ubiquitous

computing, 17(2), 229-239.

Coffey, E. B., Brouwer, A. M., & van Erp, J. B. (2012, September). Measuring workload

using a combination of electroencephalography and near infrared spectroscopy.

In Proceedings of the Human Factors and Ergonomics Society Annual Meeting (Vol. 56,

No. 1, pp. 1822-1826). Sage CA: Los Angeles, CA: SAGE Publications.

Collet, C., Salvia, E., & Petit-Boulanger, C. (2014). Measuring workload with

electrodermal activity during common braking actions. Ergonomics, 57(6), 886-896.

196

Colligan, L., Potts, H. W., Finn, C. T., & Sinkin, R. A. (2015). Cognitive workload changes

for nurses transitioning from a legacy system with paper documentation to a commercial

electronic health record. International journal of medical informatics, 84(7), 469-476.

Cooper, G. E., & Harper Jr, R. P. (1969). The use of pilot rating in the evaluation of

aircraft handling qualities (No. AGARD-567). Advisory Group for aerospace research

and development Neuilly-Sur-Seine (France).

Cornuéjols A., Miclet L. (2010). Apprentissage artificiel – Concepts et algorithmes, Paris,

Librairie Eyrolles.

Coyle, S. M., Ward, T. E., & Markham, C. M. (2007). Brain–computer interface using a

simplified functional near-infrared spectroscopy system. Journal of neural

engineering, 4(3), 219.

Csikszentmihalyi, M. (1991). Flow, The Psychology of Optimal Experience, Steps towards

enchancing the quality of life. HarperetRow, Publishers.

Deeny, S. P., Hillman, C. H., Janelle, C. M., & Hatfield, B. D. (2003). Cortico-cortical

communication and superior performance in skilled marksmen: An EEG coherence

analysis. Journal of Sport and Exercise Psychology, 25(2), 188-204.

Delignières, D., Famose, J. P., & Genty, J. (1994). Validation of a scale for the assessment

of perceived task difficulty. Staps, 34, 77–88.

Diamond, D. M., Campbell, A. M., Park, C. R., Halonen, J., & Zoladz, P. R. (2007). The

temporal dynamics model of emotional memory processing: a synthesis on the

neurobiological basis of stress-induced amnesia, flashbulb and traumatic memories, and

the Yerkes-Dodson law. Neural plasticity, 2007.

Dierolf, A. M., Fechtner, J., Böhnke, R., Wolf, O. T., & Naumann, E. (2017). Influence of

acute stress on response inhibition in healthy men: An ERP

study. Psychophysiology, 54(5), 684-695.

Dishman, R. K., Nakamura, Y., Garcia, M. E., Thompson, R. W., Dunn, A. L., & Blair, S.

N. (2000). Heart rate variability, trait anxiety, and perceived stress among physically fit

men and women. International Journal of Psychophysiology, 37(2), 121-133.

197

Dixon, S. R., & Wickens, C. D. (2006). Automation reliability in unmanned aerial vehicle

control: A reliance-compliance model of automation dependence in high

workload. Human factors, 48(3), 474-486.

Duncan, M. J., Fowler, N., George, O., Joyce, S., & Hankey, J. (2015). Mental fatigue

negatively influences manual dexterity and anticipation timing but not repeated high-

intensity exercise performance in trained adults. Research in Sports Medicine, 23(1), 1-

13.

Duncko, R., Johnson, L., Merikangas, K., & Grillon, C. (2009). Working memory

performance after acute exposure to the cold pressor stress in healthy volunteers.

Neurobiology of Learning and Memory, 91(4), 377–381.

Durantin, G., Gagnon, J. F., Tremblay, S., & Dehais, F. (2014). Using near infrared

spectroscopy and heart rate variability to detect mental overload. Behavioural brain

research, 259, 16-23.

Durkee, K., Geyer, A., Pappada, S., Ortiz, A., & Galster, S. (2013, July). Real-time

workload assessment as a foundation for human performance augmentation.

In International Conference on Augmented Cognition (pp. 279-288). Springer, Berlin,

Heidelberg.

Duval, J., Ensink, K., Normandin, L., Sharp, C., & Fonagy, P. (2018). Measuring reflective

functioning in adolescents: Relations to personality disorders and psychological

difficulties. Adolescent Psychiatry.

Dyregrov, A., Solomon, R., Bassoe, C.F. (2000). Mental mobilization processes in critical

incident stress situations. International Journal of Emergency Mental Health, 2(2), 73–

81.

Ellis, K. K. E. (2009). Eye tracking metrics for workload estimation in flight deck

operations. The University of Iowa.

Elzinga, B. M., & Roelofs, K. (2005). Cortisol-induced impairments of working memory

require acute sympathetic activation. Behavioral neuroscience, 119(1), 98.

Empathica. (2018). https://www.empatica.com/en-eu/

198

Engelmann, C., Schneider, M., Kirschbaum, C., Grote, G., Dingemann, J., Schoof, S., &

Ure, B. M. (2011). Effects of intraoperative breaks on mental and somatic operator

fatigue: a randomized clinical trial. Surgical endoscopy, 25(4), 1245-1250.

Fairclough, S. H., & Houston, K. (2004). A metabolic measure of mental effort. Biological

psychology, 66(2), 177-190.

Fairclough, S. H., & Mulder, L. J. M. (2011). Psychophysiological processes of mental

effort investment. How motivation affects cardiovascular response: Mechanisms and

applications, 61-76.

Fairclough, S. H., Venables, L., & Tattersall, A. (2005). The influence of task demand and

learning on the psychophysiological response. International Journal of

Psychophysiology, 56(2), 171-184.

Fallahi, M., Motamedzade, M., Heidarimoghadam, R., Soltanian, A. R., & Miyake, S.

(2016). Effects of mental workload on physiological and subjective responses during

traffic density monitoring: a field study. Applied ergonomics, 52, 95-103.

Ferrari, M., Mottola, L., & Quaresima, V. (2004). Principles, techniques, and limitations of

near infrared spectroscopy. Canadian journal of applied physiology, 29(4), 463-487.

Fitbit. (2017). Obtenu à : https://www.fitbit.com/

Folch-Fortuny, A., Arteaga, F., & Ferrer, A. (2016). Missing Data Imputation Toolbox for

MATLAB. Chemometrics and Intelligent Laboratory Systems, 154, 93-100.

Frankenhaeuser, M. (1986). A psychobiological framework for research on human stress

and coping. In Dynamics of stress(pp. 101-116). Springer, Boston, MA.

Frewer, L. J., & Lader, M. (1991). The effects of caffeine on two computerized tests of

attention and vigilance. Human Psychopharmacology: Clinical and Experimental, 6(2),

119-128.

Friedman, D., Brouwer, A. M., & Nijholt, A. (2017, March). BCIforReal: An application-

Oriented Approach to BCI Out of the Laboratory. In Proceedings of the 22nd

International Conference on Intelligent User Interfaces Companion (pp. 5-7). ACM.

199

Fukuda, K., Stern, J. A., Brown, T. B., & Russo, M. B. (2005). Cognition, blinks, eye-

movements, and pupillary movements during performance of a running memory task.

Aviation, Space and Environmental Medicine, 76(7), 75–85.

Gagnon, J., Couderc, F., & Rivest, M. (2013). Using SYnRGY to Support Design and

Validation Studies of Emergency Management Solutions. Proceedings of the 10th

International ISCRAM Conference, (May), 512–516.

Gaillard, A. W. K. (1993). Comparing the concepts of mental load and

stress. Ergonomics, 36(9), 991-1005.

Gaillard, A. W. K., & Wientjes, C. J. E. (1994). Mental load and work stress as two types

of energy mobilization. Work and Stress, 8, 141–152

Galy, E., Cariou, M., & Mélan, C. (2012). What is the relationship between mental

workload factors and cognitive load types?. International Journal of

Psychophysiology, 83(3), 269-275.

Gateau, T., Durantin, G., Lancelot, F., Scannella, S., & Dehais, F. (2015). Real-time state

estimation in a flight simulator using fNIRS. PloS one, 10(3), e0121279.

Gawron, V. J. (2000). Guide to measuring workload and situational awareness. In Human

Factors and Ergonomics Society 44th Annual Meeting, San Diego, CA, USA.

Gendolla, G.H.E., Wright, R.A., (2005). Motivation in social settings studies of effort-

related cardiovascular arousal. In: Forgas, J.P., Williams, K.D., Laham, S.M. (Eds.),

Social Motivation: Conscious and Unconscious Processes. Cambridge University Press,

New York, pp. 71–90.

Girouard, A., Solovey, E. T., Hirshfield, L. M., Chauncey, K., Sassaroli, A., Fantini, S., &

Jacob, R. J. (2009, August). Distinguishing difficulty levels with non-invasive brain

activity measurements. In IFIP Conference on Human-Computer Interaction (pp. 440-

452). Springer, Berlin, Heidelberg.

Glaros, A. G., & Kline, R. B. (1988). Understanding the accuracy of tests with cutting

scores: The sensitivity, specificity, and predictive value model. Journal of clinical

psychology, 44(6), 1013-1023.

200

Goldberg, L. R. (1990). An alternative" description of personality": the big-five factor

structure. Journal of personality and social psychology, 59(6), 1216.

Görges, M., Winton, P., Koval, V., Lim, J., Stinson, J., Choi, P. T., ... & Ansermino, J. M.

(2013). An evaluation of an expert system for detecting critical events during anesthesia

in a human patient simulator: a prospective randomized controlled study. Anesthesia &

Analgesia, 117(2), 380-391.

Grandjean, E. (1979). Fatigue in industry. Occupational and Environmental

Medicine, 36(3), 175-186.

Green, C. S., & Bavelier, D. (2006). Effect of action video games on the spatial distribution

of visuospatial attention. Journal of experimental psychology: Human perception and

performance, 32(6), 1465.

Grier, R., Wickens, C., Kaber, D., Strayer, D., Boehm-Davis, D., Trafton, J. G., & St. John,

M. (2008, September). The red-line of workload: Theory, research, and design. In

Proceedings of the human factors and ergonomics society annual meeting (Vol. 52, No.

18, pp. 1204-1208). Sage CA: Los Angeles, CA: Sage Publications.

Grossman, P. (1983). Respiration, stress, and cardiovascular

function. Psychophysiology, 20(3), 284-300.

Haas, L. F. (2003). Hans berger (1873–1941), richard caton (1842–1926), and

electroencephalography. Journal of Neurology, Neurosurgery & Psychiatry, 74(1), 9-9.

Haga, S., Shinoda, H., & Kokubun, M. (2002). Effects of task difficulty and time‐on‐task

on mental workload. Japanese Psychological Research, 44(3), 134-143.

Hancock, P. A., & Desmond, P. A. (2001). Stress, workload, and fatigue. Lawrence

Erlbaum Associates Publishers.

Hancock, P. A., Ganey, H. N., & Szalma, J. L. (2002). Performance under stress: A re-

evaluation of a foundational low of psychology. In 23rd Annual Army Science

Conference.

Hart, S. G., & Staveland, L. E. (1988). Development of NASA-TLX (Task Load Index):

Results of empirical and theoretical research. In Advances in psychology (Vol. 52, pp.

139-183). North-Holland.

201

Hart, S. G., & Staveland, L. E. (2005). Results of empirical and theoretical

research. Ergonomics: Skill, Displays, Controls, and Mental Workload, 2, 408.

He, H., Bai, Y., Garcia, E. A., & Li, S. (2008, June). ADASYN: Adaptive synthetic

sampling approach for imbalanced learning. In Neural Networks, 2008. IJCNN

2008.(IEEE World Congress on Computational Intelligence). IEEE International Joint

Conference on (pp. 1322-1328). IEEE.

He, Y., Luu, T. P., Nathan, K., Nakagome, S., & Contreras-Vidal, J. L. (2018). A mobile

brain-body imaging dataset recorded during treadmill walking with a brain-computer

interface. Scientific data, 5.

Healey, J. A., & Picard, R. W. (2005). Detecting stress during real-world driving tasks

using physiological sensors. IEEE Transactions on intelligent transportation

systems, 6(2), 156-166.

Hellhammer, D. H., Wüst, S., & Kudielka, B. M. (2009). Salivary cortisol as a biomarker in

stress research. Psychoneuroendocrinology, 34(2), 163-171.

Helton, W. S., Matthews, G., & Warm, J. S. (2009). Stress state mediation between

environmental variables and performance: The case of noise and vigilance. Acta

psychologica, 130(3), 204-213.

Hembree, R. (1988). Correlates, causes, effects, and treatment of test anxiety. Review of

educational research, 58(1), 47-77.

Hendy, K.C., Farrell, P.S.E., & East, K.P. (2001). An information-processing model of

operator stress and performance. In P.A. Hancock, & P.A. Desmond (Eds.), Stress,

workload, and fatigue. Mahwah, NJ: L. Erlbaum.

Henelius, A., Hirvonen, K., Holm, A., Korpela, J., & Muller, K. (2009, September). Mental

workload classification using heart rate metrics. In Engineering in Medicine and Biology

Society, 2009. EMBC 2009. Annual International Conference of the IEEE (pp. 1836-

1839). IEEE.

Herbert, B. M., Pollatos, O., Flor, H., Enck, P., & Schandry, R. (2010). Cardiac awareness

and autonomic cardiac reactivity during emotional picture viewing and mental stress.

Psychophysiology, 47(2), 342-354.

202

Herff, C., Heger, D., Fortmann, O., Hennrich, J., Putze, F., & Schultz, T. (2014). Mental

workload during n-back task—quantified in the prefrontal cortex using fNIRS. Frontiers

in human neuroscience, 7, 935.

Hexoskin, https://www.hexoskin.com/

Hjortskov, N., Rissén, D., Blangsted, A. K., Fallentin, N., Lundberg, U., & Søgaard, K.

(2004). The effect of mental stress on heart rate variability and blood pressure during

computer work. European journal of applied physiology, 92(1-2), 84-89.

Hockey, G. R. J. (1997). Compensatory control in the regulation of human performance

under stress and high workload: A cognitive-energetical framework. Biological

psychology, 45(1), 73-93.

Hockey, G.R.J., (1993). Cognitive-energetical control mechanisms in the management of

work demands and psychological health. In: Baddeley, A.,Weiskrantz, L. (Eds.),

Attention: Selection,Awareness and Control. Clarendon Press, Oxford, pp. 328–345.

Hoedemaeker, M. (2002). Summary Description of Workload Indicators: WP1 Workload

Measures. Human Machine Interface and the Safety of Traffic in Europe Growth

Project. GRD1-2000-25361. HASTE. Institute for Transport Studies. Leeds, UK:

University of Leeds.

Hoffman, R. R., & McNeese, M. D. (2009). A history for macrocognition. Journal of

Cognitive Engineering and Decision Making, 3(2), 97-110.

Hogervorst, M. A., Brouwer, A. M., & van Erp, J. B. (2014). Combining and comparing

EEG, peripheral physiology and eye-related measures for the assessment of mental

workload. Frontiers in neuroscience, 8, 322.

Hollnagel, E. (2002). Time and time again. Theoretical Issues in Ergonomics Science, 3(2),

143-158.

Homan, R. W., Herman, J., & Purdy, P. (1987). Cerebral location of international 10–20

system electrode placement. Electroencephalography and clinical

neurophysiology, 66(4), 376-382.

203

Hong, L., Walz, J. M., & Sajda, P. (2014). Your eyes give you away: Prestimulus changes

in pupil diameter correlate with poststimulus task-related EEG dynamics. PLoS One,

9(3), e91321.

Hoover, A., Singh, A., Fishel-Brown, S., & Muth, E. (2012). Real-time detection of

workload changes using heart rate variability. Biomedical Signal Processing and

Control, 7(4), 333–341.

Hsu, C. W., & Lin, C. J. (2002). A comparison of methods for multiclass support vector

machines. IEEE transactions on Neural Networks, 13(2), 415-425.

Huang, J. L., Chiou, C. W., Ting, C. T., Chen, Y. T., & Chen, S. A. (2001). Sudden

changes in heart rate variability during the 1999 Taiwan earthquake. American Journal

of Cardiology, 87(2), 245-248.

Idogawa, K., 1991. On the brain wave activity of professional drivers during monotonous

work. Behaviormetrika 30, 23–34.

Jansen, R. J., Sawyer, B. D., van Egmond, R., de Ridder, H., & Hancock, P. A. (2016).

Hysteresis in mental workload and task performance: the influence of demand

transitions and task prioritization. Human factors, 58(8), 1143-1157.

Jansma, J. M., Ramsey, N. F., Coppola, R., & Kahn, R. S. (2000). Specific versus

nonspecific brain activity in a parametric N-back task. Neuroimage, 12(6), 688-697.

Johnson, D. H. (2006). Signal-to-noise ratio. Scholarpedia, 1(12), 2088.

Johnston, C. A., Moreno, J. P., Regas, K., Tyler, C., & Foreyt, J. P. (2012). The application

of the yerkes-dodson law in a childhood weight management program: Examining

weight dissatisfaction. Journal of Pediatric Psychology, 37(6), 674–679.

Jones, M. K., Latreille, P. L., & Sloane, P. J. (2016). Job Anxiety, Work‐Related

Psychological Illness and Workplace Performance. British Journal of Industrial

Relations, 54(4), 742-767.

Jordan, K., Wüstenberg, T., Heinze, H. J., Peters, M., & Jäncke, L. (2002). Women and

men exhibit different cortical activation patterns during mental rotation

tasks. Neuropsychologia, 40(13), 2397-2408.

204

Kahneman, D. (1973). Attention and effort (Vol. 1063). Englewood Cliffs, NJ: Prentice-

Hall.

Kallioninen, P. (Photo). (2012). Exemple d’un électroencéphalogramme. CC BY-SA 3.0.

Récupérée sur: https://commons.wikimedia.org/w/index.php?curid=18620756

Kalsbeek, A., Merrow, M., Roenneberg, T., & Foster, R. G. (2012). The Neurobiology of

Circadian Timing (Vol. 199). Elsevier.

Kalyuga, S., Chandler, P., Tuovinen, J., & Sweller, J. (2001). When problem solving is

superior to studying worked examples. Journal of educational psychology, 93(3), 579.

Kappeler-Setz, C., Gravenhorst, F., Schumm, J., Arnrich, B., & Tröster, G. (2013).

Towards long term monitoring of electrodermal activity in daily life. Personal and

ubiquitous computing, 17(2), 261-271.

Karatekin C. Couperus J. W. Marcus D. J. (2004). Attention allocation in the dual-task

paradigm as measured through behavioral and psychophysiological responses.

Psychophysiology, 41 (2), 175–185.

Keinan, G. (1987). Decision making under stress: Scanning of alternatives under

controllable and uncontrollable threats. Journal of personality and social

psychology, 52(3), 639.

Kennedy, D. O., & Scholey, A. B. (2000). Glucose administration, heart rate and cognitive

performance: effects of increasing mental effort. Psychopharmacology, 149(1), 63-71.

Kleiger, R. E., Stein, P. K., & Bigger, J. T. (2005). Heart rate variability: measurement and

clinical utility. Annals of Noninvasive Electrocardiology, 10(1), 88-101.

Kocsis, L., Herman, P., & Eke, A. (2006). The modified Beer–Lambert law

revisited. Physics in medicine and biology, 51(5), N91.

Kudielka, B. M., Hellhammer, H., & Kirschbaum, C. (2007). Ten years of research with the

trier social stress test. Social Neuroscience, (JANUARY), 56–83.

Kuhlmann, S., Wolf, O.T., 2006b. Arousal and cortisol interact in modulating memory

consolidation in healthy young men. Behav. Neurosci. 120, 217–223.

205

Laeng B. Sirois S. Gredebäck G. (2012). Pupillometry: A window to the preconscious?

Perspectives on Psychological Science, 7 (1), 18–27.

LaGory, J., Dearen, B. B., Tebo, K., & Wright, R. A. (2011). Reported fatigue, difficulty,

and cardiovascular response to an auditory mental arithmetic challenge. International

Journal of Psychophysiology, 81(2), 91-98.

Landers, D. M., Han, M., Salazar, W., & Petruzzello, S. J. (1994). Effects of learning on

electroencephalographic and electrocardiographic patterns in novice

archers. International Journal of Sport Psychology.

Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for

categorical data. biometrics, 159-174.

Lansdown, T. C., Brook-Carter, N., & Kersloot, T. (2004). Distraction from multiple in-

vehicle secondary tasks: vehicle performance and mental workload

implications. Ergonomics, 47(1), 91-104.

Lansman, M., & Hunt, E. (1982). Individual differences in secondary task

performance. Memory & Cognition, 10(1), 10-24.

Lazzara, E. H., Pavlas, D., Fiore, S., & Salas, E. (2010, September). A framework to

develop task complexity. In Proceedings of the Human Factors and Ergonomics Society

Annual Meeting (Vol. 54, No. 27, pp. 2338-2342). Sage CA: Los Angeles, CA: SAGE

Publications.

Le, H., Oh, I.-S., Robbins, S. B., Ilies, R., Holland, E., & Westrick, P. (2011). Too much of

a good thing: curvilinear relationships between personality traits and job performance.

The Journal of Applied Psychology, 96(1), 113–133.

Le, P. N., Ambikairajah, E., Epps, J., Sethu, V., & Choi, E. H. (2011). Investigation of

spectral centroid features for cognitive load classification. Speech

Communication, 53(4), 540-551.

Lee, B. G., Lee, B. L., & Chung, W. Y. (2015, August). Smartwatch-based driver alertness

monitoring with wearable motion and physiological sensor. In Engineering in Medicine

and Biology Society (EMBC), 2015 37th Annual International Conference of the

IEEE (pp. 6126-6129). IEEE.

206

Li, J., Lim, J., Chen, Y., Wong, K., Thakor, N., Bezerianos, A., & Sun, Y. (2016). Mid-task

break improves global integration of functional connectivity in lower alpha

band. Frontiers in human neuroscience, 10, 304.

Lim, J., Wu, W. C., Wang, J., Detre, J. A., Dinges, D. F., & Rao, H. (2010). Imaging brain

fatigue from sustained mental workload: an ASL perfusion study of the time-on-task

effect. Neuroimage, 49(4), 3426-3435.

Lindh, W. Q., Pooler, M., Tamparo, C. D., Dahl, B. M., & Morris, J. (2013). Delmar's

comprehensive medical assisting: administrative and clinical competencies. Cengage

Learning.

Lingard, L., Espin, S., Whyte, S., Regehr, G., Baker, G. R., Reznick, R., ... & Grober, E.

(2004). Communication failures in the operating room: an observational classification of

recurrent types and effects. BMJ Quality & Safety, 13(5), 330-334.

Liu, Y., Ayaz, H., & Shewokis, P. A. (2017). Mental workload classification with

concurrent electroencephalography and functional near-infrared spectroscopy. Brain-

Computer Interfaces, 4(3), 175-185.

Lorist, M. M., Boksem, M. A., & Ridderinkhof, K. R. (2005). Impaired cognitive control

and reduced cingulate activity during mental fatigue. Cognitive Brain Research, 24(2),

199-205.

Lovibond, P. F., & Lovibond, S. H. (1995). The structure of negative emotional states:

Comparison of the Depression Anxiety Stress Scales (DASS) with the Beck Depression

and Anxiety Inventories. Behaviour research and therapy, 33(3), 335-343.

Lucini, D., Di Fede, G., Parati, G., & Pagani, M. (2005). Impact of chronic psychosocial

stress on autonomic cardiovascular regulation in otherwise healthy

subjects. Hypertension, 46(5), 1201-1206.

MacLeod, C. M. (1991). Half a century of research on the Stroop effect: an integrative

review. Psychological bulletin, 109(2), 163.

MacMillan, J., Entin, E. E., & Serfaty, D. (2004). Communication overhead: The hidden

cost of team cognition. Team cognition: Process and performance at the interand intra-

individual level. American Psychological Association, Washington, DC.

207

Magnusdottir, E. H., Borsky, M., Meier, M., Johannsdottir, K., & Gudnason, J. (2017).

Monitoring Cognitive Workload Using Vocal Tract and Voice Source

Features. Periodica Polytechnica. Electrical Engineering and Computer Science, 61(4),

297.

Major, J. R. H. D. A., Hedlund, D. J. S. J., & Phillips, D. R. I. J. (1997). Team decision-

making accuracy under difficult conditions: Construct validation of potential

manipulations using the TIDE2 simulation. Team performance assessment and

measurement: Theory, methods, and applications, 111.

Makeig, S., Bell, A. J., Jung, T. P., & Sejnowski, T. J. (1996). Independent component

analysis of electroencephalographic data. In Advances in neural information processing

systems (pp. 145-151).

Mandrick, K., Peysakhovich, V., Rémy, F., Lepron, E., & Causse, M. (2016). Neural and

psychophysiological correlates of human performance under stress and high mental

workload. Biological psychology, 121, 62-73.

Marcora, S. M., Staiano, W., & Manning, V. (2009). Mental fatigue impairs physical

performance in humans. Journal of applied physiology, 106(3), 857-864.

Marois, A., Labonté, K., Parent, M., & Vachon, F. (2018). Eyes have ears: Indexing the

orienting response to sound using pupillometry. International Journal of

Psychophysiology, 123, 152-162.

Masson, M. E., & Loftus, G. R. (2003). Using confidence intervals for graphically based

data interpretation. Canadian Journal of Experimental Psychology/Revue canadienne de

psychologie expérimentale, 57(3), 203.

MATLAB-fitclinear (2018). Fit linear classification model to high-dimensional data.

Récupéré sur https://www.mathworks.com/help/stats/fitclinear.html

MATLAB-fitcsvm (2018). Train binary support vector machine (SVM) classifier. Récupéré

sur https://www.mathworks.com/help/stats/fitcsvm.html

Matthews, G. (2001). A transactional model of driver stress. In P.A. Hancock, & P.A.

Desmond (Eds.), Stress, workload, and fatigue. Mahwah, NJ: L. Erlbaum.

208

Matthews, G., & Campbell, S. E. (2009). Sustained performance under overload:

personality and individual differences in stress and coping. Theoretical Issues in

Ergonomics Science, 10(5), 417-442.

Matthews, G., & Campbell, S. E. (2010). Dynamic relationships between stress states and

working memory. Cognition and emotion, 24(2), 357-373.

Matthews, G., & Desmond, P. A. (2002). Task-induced fatigue states and simulated driving

performance. The Quarterly Journal of Experimental Psychology: Section A, 55(2), 659-

686.

Matthews, G., Campbell, S. E., Falconer, S., Joyner, L. A., Huggins, J., Gilliland, K., ... &

Warm, J. S. (2002). Fundamental dimensions of subjective state in performance settings:

task engagement, distress, and worry. Emotion, 2(4), 315.

Matthews, G., Reinerman-Jones, L. E., Barber, D. J., & Abich IV, J. (2015). The

psychometrics of mental workload: multiple measures are sensitive but

divergent. Human factors, 57(1), 125-143.

Matthews, G., Reinerman-Jones, L., Wohleber, R., Lin, J., Mercado, J., & Abich, J. (2015,

August). Workload Is Multidimensional, Not Unitary: What Now?. In International

Conference on Augmented Cognition (pp. 44-55). Springer, Cham.

Matthews, G., Warm, J. S., Reinerman-Jones, L. E., Langheim, L. K., Washburn, D. a, &

Tripp, L. (2010). Task engagement, cerebral blood flow velocity, and diagnostic

monitoring for sustained attention. Journal of Experimental Psychology. Applied, 16(2),

187–203.

Mattia, J. I., Heimberg, R. G., & Hope, D. A. (1993). The revised Stroop color-naming task

in social phobics. Behaviour Research and Therapy, 31(3), 305-313.

May, J. F., & Baldwin, C. L. (2009). Driver fatigue: The importance of identifying causal

factors of fatigue when considering detection and countermeasure

technologies. Transportation Research Part F: Traffic Psychology and

Behaviour, 12(3), 218-224.

Mehler, B., Reimer, B., & Coughlin, J. F. (2012). Sensitivity of physiological measures for

detecting systematic variations in cognitive demand from a working memory task: an

on-road study across three age groups. Human factors, 54(3), 396-412.

209

Mehta, R. K., & Parasuraman, R. (2013). Neuroergonomics: a review of applications to

physical and cognitive work. Frontiers in human neuroscience, 7, 889.

Merat, N., Jamson, A. H., Lai, F. C., & Carsten, O. (2012). Highly automated driving,

secondary task performance, and driver state. Human factors, 54(5), 762-771.

Meshkati, N., Hancock, P. A., Rahimi, M., & Dawes, S. M. (1995). Techniques in mental

workload assessment. Evaluation of human work. J. Wilson. London, GB, Taylor &

Francis, Ltd.

Miyake, S. (1998). 693 Multivariate workload evaluation—An integration of subjective and

physiological parameters. International Journal of Psychophysiology, 30(1-2), 262.

Moè, A. (2009). Are males always better than females in mental rotation? Exploring a

gender belief explanation. Learning and Individual Differences, 19(1), 21-27.

Moore, A., Butt, D., Ellis‐Clarke, J., & Cartmill, J. (2010). Linguistic analysis of verbal and

non‐verbal communication in the operating room. ANZ journal of surgery, 80(12), 925-

929.

Moore, L. J., Wilson, M. R., Vine, S. J., Coussens, A. H., & Freeman, P. (2013). Champ or

chump?: Challenge and threat states during pressurized competition. Journal of Sport

and Exercise Psychology, 35(6), 551-562.

Morad, Y., Lemberg, H., Yofe, N., & Dagan, Y. (2000). Pupillography as an objective

indicator of fatigue. Current eye research, 21(1), 535-542.

Moray, N. (Ed.). (2013). Mental workload: Its theory and measurement (Vol. 8). Springer

Science & Business Media.

Mühl, C., Jeunet, C., & Lotte, F. (2014). EEG-based workload estimation across affective

contexts. Frontiers in neuroscience, 8.

Mulert, C., Leicht, G., Pogarell, O., Mergl, R., Karch, S., Juckel, G., ... & Hegerl, U.

(2007). Auditory cortex and anterior cingulate cortex sources of the early evoked

gamma-band response: relationship to task difficulty and mental effort.

Neuropsychologia, 45(10), 2294-2306.

210

Murai, K., Hayashi, Y., Okazaki, T., Stone, L. C., & Mitomo, N. (2008, October).

Evaluation of ship navigator's mental workload using nasal temperature and heart rate

variability. In Systems, Man and Cybernetics, 2008. SMC 2008. IEEE International

Conference on (pp. 1528-1533).

Muse. (2017). Obtenu à : http://www.choosemuse.com/

Nakayama, M., Takahashi, K., & Shimizu, Y. (2002, March). The act of task difficulty and

eye-movement frequency for the'Oculo-motor indices'. In Proceedings of the 2002

symposium on Eye tracking research & applications (pp. 37-42). ACM.

Nathan, V., Thomas, S. S., & Jafari, R. (2017). Smart Watches for Physiological

Monitoring: A Case Study on Blood Pressure Measurement. In Anticipation and

Medicine (pp. 231-252). Springer International Publishing.

Nieuwenhuis, S., Aston-Jones, G., & Cohen, J. D. (2005). Decision making, the P3, and the

locus coeruleus-norepinephrine system. Psychological Bulletin, 131, 510–532.

Norman, D.A. & Bobrow, D.G. (1975). On data-limited and resource- limited processes.

Cognitive Psychology, 7, 44-64.

O'Donnell, RD, & Eggemeier, FT (1986). Workload assessment methodology. In KR Boff,

L. Kaufman, & JP Thomas (Eds.), Handbook of perception and human performance,

Vol. 2. Cognitive processes and performance (pp. 1-49). Oxford, England.

Paas, F. G. (1992). Training strategies for attaining transfer of problem-solving skill in

statistics: A cognitive-load approach. Journal of educational psychology, 84(4), 429.

Paas, F. G., & Van Merriënboer, J. J. (1993). The efficiency of instructional conditions: An

approach to combine mental effort and performance measures. Human Factors: The

Journal of the Human Factors and Ergonomics Society, 35(4), 737-743. Parasuraman,

Raja, and Peter A. Hancock. "Adaptive control of mental workload." (2001).

Palinko, O., Kun, A. L., Shyrokov, A., & Heeman, P. (2010, March). Estimating cognitive

load using remote eye tracking in a driving simulator. In Proceedings of the 2010

symposium on eye-tracking research & applications (pp. 141-144). ACM.

Papadelis, C., Kourtidou-Papadeli, C., Vlachogiannis, E., Skepastianos, P., Bamidis, P.,

Maglaveras, N., & Pappas, K. (2003). Effects of mental workload and caffeine on

211

catecholamines and blood pressure compared to performance variations. Brain and

cognition, 51(1), 143-154.

Parot, F., Richelle, M., (1992). Introduction à la psychologie – Histoire et méthodes, Paris,

Presses Universitaires de France

Partala, T., & Surakka, V. (2003). Pupil size variation as an indication of affective

processing. International journal of human-computer studies, 59(1), 185-198.

Patel, M., Lal, S. K. L., Kavanagh, D., & Rossiter, P. (2011). Applying neural network

analysis on heart rate variability data to assess driver fatigue. Expert systems with

Applications, 38(6), 7235-7242.

Patel, N., Vytal, K., Pavletic, N., Stoodley, C., Pine, D. S., Grillon, C., & Ernst, M. (2016).

Interaction of threat and verbal working memory in

adolescents. Psychophysiology, 53(4), 518-526.

Pattyn, N., Neyt, X., Henderickx, D., & Soetens, E. (2008). Psychophysiological

investigation of vigilance decrement: boredom or cognitive fatigue?. Physiology &

Behavior, 93(1), 369-378.

Pedrotti, M., Mirzaei, M. A., Tedesco, A., Chardonnet, J. R., Mérienne, F., Benedetto, S.,

& Baccino, T. (2014). Automatic stress classification with pupil diameter analysis.

International Journal of Human-Computer Interaction, 30(3), 220-236.

Pereira, T., Almeida, P. R., Cunha, J. P., & Aguiar, A. (2017). Heart rate variability metrics

for fine-grained stress level assessment. Computer methods and programs in

biomedicine, 148, 71-80.

Peters, M., Laeng, B., Latham, K., Jackson, M., Zaiyouna, R., & Richardson, C. (1995). A

redrawn Vandenberg and Kuse mental rotations test-different versions and factors that

affect performance. Brain and cognition, 28(1), 39-58.

Peysakhovich, V., Causse, M., Scannella, S., & Dehais, F. (2015). Frequency analysis of a

task-evoked pupillary response: Luminance-independent measure of mental

effort. International Journal of Psychophysiology, 97(1), 30-37.

212

Pickup, L., Wilson, J. R., Sharpies, S., Norris, B., Clarke, T., & Young, M. S. (2005).

Fundamental examination of mental workload in the rail industry. Theoretical issues in

ergonomics science, 6(6), 463-482.

Pimenta, A., Carneiro, D., Neves, J., & Novais, P. (2016). A neural network to classify

fatigue from human–computer interaction. Neurocomputing, 172, 413-426.

Poole, A., & Ball, L. J. (2005). Eye Tracking in Human-Computer Interaction and Usability

Research: Current Status and Future Prospects. Encyclopedia of Human-Computer

Interaction, 211–219.

Räikkönen, K., Matthews, K. A., Flory, J. D., Owens, J. F., & Gump, B. B. (1999). Effects

of optimism, pessimism, and trait anxiety on ambulatory blood pressure and mood

during everyday life. Journal of personality and social psychology, 76(1), 104.

Ramsdell, A. F. (2005). Left–right asymmetry and congenital cardiac defects: getting to the

heart of the matter in vertebrate left–right axis determination. Developmental biology,

288(1), 1-20.

Recarte, M. Á., Pérez, E., Conchillo, Á., & Nunes, L. M. (2008). Mental workload and

visual impairment: Differences between pupil, blink, and subjective rating. The Spanish

journal of psychology, 11(2), 374-385.

Reid, G. B., & Nygren, T. E. (1988). The subjective workload assessment technique: A

scaling procedure for measuring mental workload. Advances in psychology, 52, 185-218.

Reid, G. B., Eggemeier, F. T., & Shingledecker, C. A. (1982). Subjective workload

assessment technique. AIR FORCE FLIGHT TEST CENTER EDWARDS AFB CA.

Reiner, M., & Gelfeld, T. M. (2014). Estimating mental workload through event-related

fluctuations of pupil area during a task in a virtual world. International Journal of

Psychophysiology, 93(1), 38-44.

Reinhardt, T., Schmahl, C., Wüst, S., & Bohus, M. (2012). Salivary cortisol, heart rate,

electrodermal activity and subjective stress responses to the Mannheim Multicomponent

Stress Test (MMST). Psychiatry research, 198(1), 106-111.

Robinson, P. (2001). Task complexity, task difficulty, and task production: Exploring

interactions in a componential framework. Applied linguistics, 22(1), 27-57.

213

Rosenzweig, M. R., Breedlove, S. M., & Leiman, A. L. (2002). Biological psychology: An

introduction to behavioral, cognitive, and clinical neuroscience. Sinauer Associates.

Rouse, W. B., Edwards, S. L. & Hammer, J. M. (1993). Modelling the dynamics of mental

workload and human performance in complex systems. IEEE Transactions on systems,

cybernetics, 23, 1662-1671.

Scanlon, J. E., Sieben, A. J., Holyk, K. R., & Mathewson, K. E. (2017). Your brain on

bikes: P3, MMN/N2b, and baseline noise while pedaling a stationary

bike. Psychophysiology, 54(6), 927-937.

Schafer, J. L., & Graham, J. W. (2002). Missing data: our view of the state of the art.

Psychological methods, 7(2), 147.

Schlickum, M. K., Hedman, L., Enochsson, L., Kjellin, A., & Felländer-Tsai, L. (2009).

Systematic video game training in surgical novices improves performance in virtual

reality endoscopic surgical simulators: a prospective randomized study. World journal of

surgery, 33(11), 2360.

Schnall, P. L., Schwartz, J. E., Landsbergis, P. A., Warren, K., & Pickering, T. G. (1998).

A longitudinal study of job strain and ambulatory blood pressure: results from a three-

year follow-up. Psychosomatic medicine, 60(6), 697-706.

Schubert, C., Lambertz, M., Nelesen, R. a, Bardwell, W., Choi, J.-B., & Dimsdale, J. E.

(2009). Effects of stress on heart rate complexity--a comparison between short-term and

chronic stress. Biological Psychology, 80(3), 325–32.

Segbroeck, M. V., Travadi, R., Vaz, C., Kim, J., Black, M. P., Potamianos, A., &

Narayanan, S. S. (2014). Classification of cognitive load from speech using an i-vector

framework. In Fifteenth Annual Conference of the International Speech Communication

Association.

Seidhoff, D., (2015), https://www.mathworks.com/matlabcentral/fileexchange/50541-

adasyn--improves-class-balance--extension-of-smote-

Selye, H. (1975). Confusion and controversy in the stress field. Journal of human

stress, 1(2), 37-44.

214

Setz, C., Arnrich, B., Schumm, J., La Marca, R., Tröster, G., & Ehlert, U. (2010).

Discriminating stress from cognitive load using a wearable EDA device. IEEE

Transactions on information technology in biomedicine, 14(2), 410-417.

Sexton, J. B., & Helmreich, R. L. (2000). Analyzing cockpit communications: the links

between language, performance, error, and workload. Human Performance in Extreme

Environments, 5(1), 63-68.

Shen, J., Barbera, J., & Shapiro, C. M. (2006). Distinguishing sleepiness and fatigue: Focus

on definition and measurement. Sleep Medicine Reviews, 10(1), 63–76.

Shen, K. Q., Li, X. P., Ong, C. J., Shao, S. Y., & Wilder-Smith, E. P. V. (2008). EEG-based

mental fatigue measurement using multi-class support vector machines with confidence

estimate. Clinical Neurophysiology, 119(7), 1524–1533.

Shen, M., Carswell, M., Santhanam, R., & Bailey, K. (2012). Emergency management

information systems: Could decision makers be supported in choosing display

formats?. Decision Support Systems, 52(2), 318-330.

Shernoff, D. J., Csikszentmihalyi, M., Shneider, B., & Shernoff, E. S. (2003). Student

engagement in high school classrooms from the perspective of flow theory. School

Psychology Quarterly, 18(2), 158.

Shimomura, Y., Yoda, T., Sugiura, K., Horiguchi, A., Iwanaga, K., & Katsuura, T. (2008).

Use of frequency domain analysis of skin conductance for evaluation of mental

workload. Journal of physiological anthropology, 27(4), 173-177.

Siesler, H. W., Ozaki, Y., Kawata, S., & Heise, H. M. (Eds.). (2008). Near-infrared

spectroscopy: principles, instruments, applications. John Wiley & Sons.

Silvestrini, N., & Gendolla, G. H. (2007). Mood effects on autonomic activity in mood

regulation. Psychophysiology, 44(4), 650-659.

Sinharay, S., Stern, H. S., & Russell, D. (2001). The use of multiple imputation for the

analysis of missing data. Psychological methods, 6(4), 317.

Skogestad, S., & Postlethwaite, I. (2007). Multivariable feedback control: analysis and

design (Vol. 2, pp. 458-459). New York: Wiley.

215

Smart Eye. (2018). http://smarteye.se/

Soleymani, M., Pantic, M., & Pun, T. (2012). Multimodal emotion recognition in response

to videos. IEEE transactions on affective computing, 3(2), 211-223.

Staal, M. A. (2004). Stress, cognition, and human performance: A literature review and

conceptual framework.

Starcke, K., & Brand, M. (2016). Effects of stress on decisions under uncertainty: A meta-

analysis. Psychological bulletin, 142(9), 909.

Stuiver, A., & Mulder, B. (2014). Cardiovascular state changes in simulated work

environments. Frontiers in neuroscience, 8.

Sweller, J., Van Merrienboer, J. J., & Paas, F. G. (1998). Cognitive architecture and

instructional design. Educational psychology review, 10(3), 251-296.

Sztajzel, J. (2004). Heart rate variability: a noninvasive electrocardiographic method to

measure the autonomic nervous system. Swiss medical weekly, 134(35-36), 514-522.

Tassorelli, C., Micieli, G., Osipova, V., Rossi, F., & Nappi, G. (1995). Pupillary and

cardiovascular responses to the cold-pressor test. Journal of the autonomic nervous

system, 55(1-2), 45-49.

Teigen, K. H. (1994). Yerkes-Dodson: A Law for all Seasons. Theory & Psychology, 4,

525–547.

ten Caat, M., Lorist, M. M., Bezdan, E., Roerdink, J. B., & Maurits, N. M. (2008). High-

density EEG coherence analysis using functional units applied to mental fatigue. Journal

of neuroscience methods, 171(2), 271-278.

Tharion E., Parthasarathy S., Neelakantan N. (2009) Short-term heart rate variability

measures in students during examinations, Natl. Med., Mar-Apr(2), 63–66.

Tobii. (2017). https://tobiigaming.com/

Trope, Y., & Mackie, D. M. (1987). Sensitivity to alternatives in social hypothesis-

testing. Journal of Experimental Social Psychology, 23(6), 445-459.

216

Van der Linden, D., Frese, M., & Meijman, T. F. (2003). Mental fatigue and the control of

cognitive processes: effects on perseveration and planning. Acta Psychologica, 113(1),

45-65.

Van Der Linden, D., Frese, M., & Sonnentag, S. (2003). The impact of mental fatigue on

exploration in a complex computer task: Rigidity and loss of systematic

strategies. Human Factors, 45(3), 483-494.

van der Wel, P., & van Steenbergen, H. (2018). Pupil dilation as an index of effort in

cognitive control tasks: A review. Psychonomic bulletin & review, 1-11.

van Hedger, K., Necka, E. A., Barakzai, A. K., & Norman, G. J. (2017). The influence of

social stress on time perception and psychophysiological

reactivity. Psychophysiology, 54(5), 706-712.

Van Orden, K. F., Limbert, W., Makeig, S., & Jung, T. P. (2001). Eye activity correlates of

workload during a visuospatial memory task. Human factors, 43(1), 111-121.

Vandenberg, S., & Kuse, A. R. (1978). Mental rotations: A group test of three-dimensional

spatial visualization. Perceptual and Motor Skills, 47, 599–604.

Veltman, J. A., & Gaillard, A.W. K. (1996). Physiological indices of workload in a

simulated flight task. Biological Psychology, 42, 323–342.

Venables, L., & Fairclough, S. H. (2009). The influence of performance feedback on goal-

setting and mental effort regulation. Motivation and Emotion, 33(1), 63-74.

Vidulich, M.A. (1988). The cognitive psychology of subjective mental workload. Human

Mental Workload. P.A. Hancock and N. Meshkati. Amsterdam, NL, Elsevier Science

Publishers B.V. (North-Holland): 219-229.

Visser, B., De Looze, M. P., De Graaff, M. P., & Van Dieën, J. H. (2004). Effects of

precision demands and mental pressure on muscle activation and hand forces in

computer mouse tasks. Ergonomics, 47(2), 202-217.

Vlemincx, E., Abelson, J. L., Lehrer, P. M., Davenport, P. W., Van Diest, I., & Van den

Bergh, O. (2013). Respiratory variability and sighing: a psychophysiological reset

model. Biological psychology, 93(1), 24-32.

217

Vlemincx, E., Taelman, J., De Peuter, S., Van Diest, I., & Van Den Bergh, O. (2011). Sigh

rate and respiratory variability during mental load and sustained

attention. Psychophysiology, 48(1), 117-120.

Von Rosenberg, W., Chanwimalueang, T., Goverdovsky, V., Looney, D., Sharp, D., &

Mandic, D. P. (2016). Smart Helmet: Wearable Multichannel ECG and EEG. IEEE

journal of translational engineering in health and medicine, 4.

Vuksanović, V., & Gal, V. (2007). Heart rate variability in mental stress aloud. Medical

Engineering & Physics, 29(3), 344–9.

Walej (Photo). (2017). Système de spectroscopie proche infrarouge. CC BY-SA 4.0,

Récupérée sur: https://commons.wikimedia.org/w/index.php?curid=63505533

Wang, C.-A., & Munoz, D. P. (2015). A circuit for pupil orienting responses: Implications

for cognitive modulation of pupil size. Current Opinion in Neurobiology, 33, 134–140.

Wang, J., Xu, M., Wang, H., & Zhang, J. (2006). Classification of imbalanced data by

using the SMOTE algorithm and locally linear embedding. In Signal Processing, 2006

8th International Conference on (Vol. 3). IEEE.

Wang, Y., Gao, X., Hong, B., Jia, C., & Gao, S. (2008). Brain-computer interfaces based

on visual evoked potentials. IEEE Engineering in medicine and biology

magazine, 27(5).

Warm, J. S., Parasuraman, R., & Matthews, G. (2008). Vigilance requires hard mental work

and is stressful. Human factors, 50(3), 433-441.

Watkins, L. L., Grossman, P., Krishnan, R., & Sherwood, A. (1998). Anxiety and vagal

control of heart rate. Psychosomatic medicine, 60(4), 498-502.

Weinger, M. B., Herndon, O. W., Zornow, M. H., Paulus, M. P., Gaba, D. M., & Dallen, L.

T. (1994). An objective methodology for task analysis and workload assessment in

anesthesia providers. Anesthesiology, 80(1), 77-92.

Wertheimer, M. (2012). A brief history of psychology. Taylor & Francis.

218

Wickens, C. D. (2008). Multiple Resources and Mental Workload. Human Factors: The

Journal of the Human Factors and Ergonomics Society, 50(3), 449–455.

Wickens, C. D. (2017, June). Mental Workload: Assessment, Prediction and Consequences.

In International Symposium on Human Mental Workload: Models and Applications (pp.

18-29). Springer, Cham.

Wickens, C. D., & Hollands, J. G. (2000). Engineering psychology and human

performance (3rd ed.). Upper Saddle River, NJ: Prentice Hall.

Wiebe, E. N., Roberts, E., & Behrend, T. S. (2010). An examination of two mental

workload measurement approaches to understanding multimedia learning. Computers in

Human Behavior, 26(3), 474-481.

Wierwille, W. W. (1979). Physiological measures of aircrew mental workload. Human

Factors: The Journal of the Human Factors and Ergonomics Society, 21(5), 575-593.

Wierwille, W. W., & Eggemeier, F. T. (1993). Recommendations for mental workload

measurement in a test and evaluation environment. Human Factors, 35(2), 263-281.

Wierwille, W.W. (1988). Important remaining issues in mental workload estimation.

Human Mental Workload. P.A. Hancock and N. Meshkati. Amsterdam, NL, Elsevier

Science Publishers B.V. (North-Holland): 315-333.

Wilson, G. F. (1992). Applied use of cardiac and respiration measures: Practical

considerations and precautions. Biological Psychology, 34(2), 163-178.

Winton, W. M. (1987). Do introductory textbooks present the Yerkes-Dodson Law

correctly? American Psychologist, 42(1971), 202–203.

Wright, R.A., Martin, R.E., Bland, J.L., (2003). Energy resource depletion, task difficulty,

and cardiovascular response to a mental arithmetic challenge. Psychophysiology 40, 98–

105.

Wu, X., Wanyan, X., & Zhuang, D. (2015). Pilot's visual attention allocation modeling

under fatigue. Technology and health care, 23(s2), S373-S381.

219

Yeh, Y. and Wickens, C.D. (1988). Dissociation of performance and subjective measures

of workload. Human Factors 30(1): 111-120.

Yerkes, R. M., & Dodson, J. D. (1908). The relation of strength of stimulus to rapidity of

habit‐formation. Journal of comparative neurology, 18(5), 459-482.

Yoshino, K., & Matsuoka, K. (2005). Causal coherence analysis of heart rate variability

and systolic blood pressure variability under mental arithmetic task load. Biological

psychology, 69(2), 217-227.

Young, M. S., Brookhuis, K. A., Wickens, C. D., & Hancock, P. A. (2015). State of

science: mental workload in ergonomics. Ergonomics, 58(1), 1-17.

Zajenkowski, M. (2013). Energetic Arousal and Language: Predictions From the

Computational Theory of Quantifiers Processing. Human Factors: The Journal of the

Human Factors and Ergonomics Society, 55, 924–934.

Zangheri, M., Cevenini, L., Anfossi, L., Baggiani, C., Simoni, P., Di Nardo, F., & Roda, A.

(2015). A simple and compact smartphone accessory for quantitative

chemiluminescence-based lateral flow immunoassay for salivary cortisol

detection. Biosensors and Bioelectronics, 64, 63-68.

Zhang, Y., Li, Z., Wu, B., & Wu, S. (2009). A spaceflight operation complexity measure

and its experimental validation. International Journal of Industrial Ergonomics, 39(5),

756-765.