6

Click here to load reader

Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

  • Upload
    vonhu

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

Journée d'études "Pratiques langagières" le 17 novembre, à Ivry Gaëlle Ferré

1/6

Titre : Constitution d’un corpus en vue d’une analy se multimodale

1. Introduction Le titre peut laisser penser que cette communication sera basée principalement sur les aspects techniques de la constitution d’un corpus et que l’analyse multimodale intervient dans un deuxième temps, totalement indépendant de ces aspects techniques. Or, le but de cette communication est précisément de montrer, à travers l’exemple de mon travail de thèse (Ferré, 2004), que la constitution du corpus est largement conditionnée par ce que l’on veut en faire. Ce fait, qui concerne tous les chercheurs travaillant sur corpus, est pourtant paradoxal : on doit penser et élaborer son corpus en vue de ce que l’on veut en faire, mais comme ce travail intervient au début de la recherche, on n’est pas nécessairement très éclairé sur cette étape, ni même sur l’analyse que l’on va pouvoir en tirer.

1.1. Ce que l’on entend par « analyse multimodale »

Le terme n’est pas très ancien (du moins en France) et les chercheurs entendent différentes choses par analyses multimodales. La multimodalité, vue à Paris 3 dans le groupe de Recherche sur le Français Contemporain, n’est pas la même multimodalité que celle des études du groupe lyonnais. Il semble cependant que l’on aie des prérequis communs pour pouvoir parler de multimodalité : - un corpus vidéo - une étude de la gestualité forment la base de ce type d’analyse linguistique. A cela s’ajoutent d’autres couches d’analyses (ou cadres d’analyses ?), comme par exemple l’Analyse Conversationnelle et l’étude des interactions à Lyon, l’énonciation et la prosodie en ce qui me concerne (et concerne également un certain nombre de jeunes chercheurs de l’équipe de MA Morel). Le LPL d’Aix en Provence développe également actuellement un projet d’annotation et d’analyse multimodale qui comprend la prosodie, la syntaxe, l’analyse de discours et la gestualité.

1.2. Le type de corpus sur lesquels portent les ana lyses multimodales Puisque la gestualité est au centre de l’analyse multimodale, la taille des corpus est largement conditionnée par la transcription de la gestualité. S’il est possible à l’heure actuelle d’obtenir une transcription orthographique automatique du corpus, ainsi qu’une transcription automatique de certains faits prosodiques (mais qui impliquent peut-être de se soumettre à certaines contraintes du cadre d’analyse), il n’existe en revanche à l’heure actuelle aucune possibilité de transcrire automatiquement la gestualité. Cette transcription doit se faire manuellement quel qu’en soit le support (une transcription basique dans un fichier texte ou une transcription qui permet le traitement statistique sous un logiciel spécialisé de type Elan ou Anvil). Ceci exige donc, soit de travailler en équipe, soit de travailler sur des corpus de petite taille.

2. Présentation de mon corpus de thèse La constitution du corpus devait prendre en compte un certain nombre d’aspects qui pouvaient parfois être contradictoires. Il a donc été nécessaire de faire des choix.

Page 2: Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

Journée d'études "Pratiques langagières" le 17 novembre, à Ivry Gaëlle Ferré

2/6

D’une part, ce travail s’inscrivait dans le vaste programme de Paris 3 sur la constitution de corpus de langues différentes à des fins de comparaison typologiques. Il s’agit aussi d’un travail sur l’oral spontané. Un grand nombre d’enregistrements de conversations constitue déjà la base de données de l’équipe de MA Morel et cela implique que les nouveaux corpus enregistrés le soient dans des conditions similaires afin de pouvoir faciliter les comparaisons inter langues. D’autre part, des conditions d’enregistrement sont venues s’ajouter à ces considérations : étant donné que la thèse allait porter sur une analyse prosodique et mimo-gestuelle, il fallait obtenir un enregistrement qui possède à la fois une excellente qualité de son et une très bonne qualité d’image. Cette contrainte est énorme puisque cela signifie qu’on ne peut pas travailler par exemple en caméra cachée tout en espérant avoir un son de très bonne qualité et un cadrage impeccable qui permette une analyse des micro-mouvements de la face par exemple. J’ai donc choisi de réaliser un enregistrement vidéo dans un studio d’enregistrement, ce qui a un impact énorme sur la spontanéité des locuteurs, qui sont d’ailleurs des locutrices car peu de travaux en prosodie se lance dans une analyse des voix de femmes et nous voulions de surcroît rééquilibrer un peu le corpus de Paris 3 en augmentant le nombre de femmes. Les deux locutrices ont été filmées en studio par deux caméras distinctes : cela me permettait d’avoir un plan plus rapproché de chacune des locutrices d’une part, mais également de pouvoir enregistrer les bandes son sur deux supports différents ce qui permet de parer à l’éternel problème des chevauchements de parole (intraitables dans un logiciel d’analyse du signal sonore). J’ai donc obtenu au final 4 fichiers : deux fichiers vidéo (un par locutrice) et deux fichiers son (également un par locutrice).

2.1. Acquisition des fichiers sons et des fichiers vidéo

Petit paradoxe : une analyse multimodale nécessite pour l’instant de traiter les fichiers sons et les fichiers vidéo de manière indépendante. Mais il faut bien distinguer deux étapes dans le travail : a) l’enregistrement, b) le traitement des enregistrements. Pour l’enregistrement, il ne faut pas séparer le son de la vidéo. La raison en est simple : les fichiers sons et les fichiers vidéo n’ont pas la même granularité puisque la vidéo compte 25 images par seconde (et pas le son). Or, si l’on peut aisément traiter le son sans l’image, l’inverse n’est pas vrai. Donc, si l’on enregistre au départ son et vidéo sur deux supports différents (par exemple l’image sur la caméra et le son sur un DAT ou un minidisc), il sera difficile par la suite d’avoir un fichier image + son, car ils ne seront pas alignés (le son et l’image ne correspondront plus, il y aura un décalage). Pour cette raison, les enregistrements sonores de chaque locutrice de mon corpus s’est fait par le biais d’un micro-cravate fixé sur le col de chacune de deux locutrices (afin de prévenir les chevauchements de parole) et relié à la caméra qui la filmait. Pour l’enregistrement vidéo, les deux locutrices étaient assises face à face, et chacune des deux locutrices étaient donc filmée par un caméra indépendante, située en face d’elle et légèrement sur le côté. L’enregistrement s’est passé dans un studio, avec un écran de fond bleu pour une meilleure qualité d’image (en fait, il faut une couleur de fond pour un enregistrement réalisé en studio et ce fond ne peut pas être blanc. Nous avions, avec les techniciens qui m’ont conseillé pour l’enregistrement choisi un fond bleu mais à y bien considérer, un fond gris clair aurait été plus adapté à mon type de traitement de l’image). Il y avait une rampe de projecteurs pour un éclairage optimal, ce qui permet de ne pas avoir par exemple de zones d’ombre sur le visage des locutrices (qui risqueraient de gêner la

Page 3: Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

Journée d'études "Pratiques langagières" le 17 novembre, à Ivry Gaëlle Ferré

3/6

visualisation des micro-mouvements comme de brefs haussements des sourcils. Chaque locutrice était filmée par un camescope 3CCD 2/3, en format Betacam SP. Dans la mesure où elles étaient assises, le cadrage allait de la tête aux cuisses. J’ai considéré que je n’allais pas transcrire les mouvements des jambes ce que j’aurai pu faire (donc, dès qu’il est question de cadrage, il faut savoir ce qu’on va étudier, car un plan très éloigné rend difficile la visualisation des haussements de sourcils par exemple, mais un plan très serré implique que l’on n’aura sans doute pas toutes les parties du corps). De même, le fait que les locutrices soient assises garantissait qu’elles ne sortiraient pas du champ de la caméra (ce qui me permettait entre autres de les laisser seules pendant la durée de l’enregistrement pour qu’elles aient) plus d’intimité et que leur conversation ne leur semble pas trop artificielle. Si elles n’avaient pas été assise, il aurait fallu que quelqu’un (technicien ou moi-même) reste dans le studio pour recadrer constamment le plan de la caméra. De même, le fait d’asseoir les locutrices face à face et non pas côte à côte comme cela se fait souvent avec un plan plus éloigné et une seule caméra était justifié : dans mon analyse, je voulais notamment vérifier des hypothèses émises quant aux mouvements de tête permettant de prendre la parole dans une conversation. Or, si les locuteurs sont assis côte à côte, il est difficile de déterminer s’ils tournent la tête pour marquer une prise de parole ou s’ils la tournent pour la mettre en position de repos qui se situe pour la tête dans l’alignement du corps.

2.2. Traitement des fichiers sons et des fichiers v idéo

Pour les fichiers sons, j’ai conservé la séparation initiale des fichiers. Les fichiers son étaient stockés sur deux cassettes audio ordinaires (dans la mesure où l’acquisition initiale du son s’était faite par le biais d’une caméra analogique, je n’ai pas jugé utile de transférer ces fichiers sur un support DAT par exemple). Je les ai ensuite numérisé en extraits de 5 minutes à 44000Hz en passant par le logiciel Soundforge. Il s’agissait alors de fichiers wav, directement analysables dans Praat, un logiciel de traitement du signal audio. Dans Praat, j’ai d’abord réalisé une transcription orthographique du signal. Cette première transcription est intimement liée à ce que l’on veut faire du corpus par la suite : dans la mesure où je travaillais sur un corpus d’anglais, j’ai transcrit le corpus en prenant la syllabe comme unité de base : une unité inférieure à la syllabe (par exemple le phonème) ne m’aurait pas été d’une grande utilité, mais avec une unité supérieure (par exemple le mot ou le tone-unit, j’aurai rencontré des difficultés. D’une part, il m’aurait été difficile avec une unité comme le mot de déterminer quelle syllabe portait l’accent tonique (Cruttenden dans la tradition britannique de l’analyse de l’intonation). D’autre part, je ne pouvais pas choisir le tone-unit comme unité de base puisque je voulais précisément définir les tone-units sur des critères intonatifs, pour pouvoir ensuite définir les paragraphes oraux comme l’ont fait MA Morel et Danon-Boileau. L’étape de définition du tone-unit en anglais s’est révélée utile par la suite pour pouvoir comparer à la fois mes résultats avec ceux de MA Morel et ses collaborateurs, mais aussi avec ceux des autres études de prosodie sur l’anglais. Une fois réalisée la transcription du signal audio dans Praat, j’ai pu obtenir automatiquement les données chiffrées sur l’intonation, la durée des segments et l’intensité de chaque syllabe. A partir de ces données, j’ai pu calculer par la suite le débit des locutrices sur chaque tone-unit. Pour le traitement des fichiers vidéo, il n’était pas pratique, ni même scientifiquement souhaitable de conserver les deux fichiers vidéo initiaux tels quels. En effet, j’ai choisi d’annoter les gestes en fonction du rôle de la personne dans l’interaction (selon qu’elle était locutrice ou auditrice), c’est-à-dire en fonction des tours de parole. Après réflexion, ce n’était sans doute pas comme cela qu’il aurait fallu procéder, il aurait peut-être été préférable

Page 4: Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

Journée d'études "Pratiques langagières" le 17 novembre, à Ivry Gaëlle Ferré

4/6

d’annoter les gestes par locutrices, quel que soit son rôle dans l’interaction. Cela n’avait cependant pas un impact énorme sur mon étude étant donné le type de transcription que j’ai effectué. J’ai donc demandé aux techniciens du service audio-visuel de l’Université de Nantes, où je travaillais à l’époque, de monter les deux images vidéo sur un même fichier. Ensuite, ils ont remixé image et son (pris sur la caméra donc aligné) pour que les deux locutrices apparaissent sur un écran double (split screen), ce qui facilite la transcription. Ils ont alors compressé le fichier au format Quicktime (taille de l’image : 710x280 pixels) et en ont fait 6 séquences de 5 minutes (l’enregistrement durant une demi-heure au total). Enfin, j’ai transcrit les gestes produits par chacune des locutrices sur un fichier word en visionnant la vidéo image par image sous Quicktime et en reportant la transcription gestuelle alignée sur la transcription orthographique enrichie (enrichie au sens où cette transcription orthographique comportait des informations prosodiques obtenues à partir de Praat. Si cette thèse était à refaire, et peut-être le referai-je un jour, je n’annoterai pas les gestes de cette manière, car cela ne facilite pas le traitement automatique. A l’époque, les logiciels de transcription de la gestualité étaient peu développés : aujourd’hui ce n’est plus le cas et il est clair que l’on peut entrer beaucoup plus d’informations dans ces logiciels qu’on ne peut le faire sous Word, et que ces informations sont beaucoup plus analysables sur un plan statistique.

2.3. Le codage prosodique et le codage gestuel

En ce qui concerne le codage des informations, pour la prosodie comme pour la gestualité, j’ai essayé d’adopter un codage qui soit le plus descriptif possible, pour être aussi le plus objectif possible. Je me suis trouvé confrontée rapidement au paradoxe de l’interprétation. On ne peut pas ne pas interpréter ce que l’on voit. Prenons un exemple : dans la gestualité, les locutrices font parfois un hochement de tête qui peut être interprété comme un acquiescement. Dire qu’elles acquiescent, c’est interpréter, ne pas le dire, c’est aussi interpréter dans la mesure où la description peut être lue comme « hochement de tête qui ne veut pas dire oui ». De plus, cette descriptions, cela vaut en prosodie comme en gestualité, sont si précises, réduites à une série de micro-mouvements, que l’on perd l’information que l’on voulait faire ressortir. C’est aussi interpréter que de décider ce que l’on va transcrire et ce que l’on ne va pas transcrire : en prosodie, il est inutile de noter des micro-mouvements mélodiques qui ne seront pas nécessairement perçus par l’auditeur de toute façon. Il est préférable de noter les mouvements perçus sans quoi l’on se perd dans la masse de l’information. Idem en gestualité : il n’est pas toujours nécessaire ni même souhaitable de décomposer à l’extrême des mouvements du corps. Ainsi par exemple, A. Kendon décompose les gestes en différentes phases : preparation, stroke, hold, retraction. Certains chercheurs ont ajouté des phases gestuelles supplémentaires. Il ne m’a pas semblé nécessaire dans ma thèse de la faire systématiquement. Il m’est arrivé de décomposer le geste dans des études ponctuelles pour des cas spécifiques, mais dans la mesure où cette thèse ne portait pas sur la synchronie geste/prosodie, le faire de manière systématique aurait plutôt noyé l’information. C’est aussi pour cette raison qu’un découpage de mon corpus en phonèmes ne m’aurait rien apporté sur le plan prosodique.

Page 5: Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

Journée d'études "Pratiques langagières" le 17 novembre, à Ivry Gaëlle Ferré

5/6

3. Que peut-on faire de ce type de données, quel po ids leur attribuer dans les pratiques langagières ?

3.1. Que peut-on faire de ce type de données ?

Mon travail était d’abord, en me basant sur la description faite sur le français par Morel & Danon Boileau (1998), de faire une analyse de la structure de l’anglais oral en m’appuyant sur l’intonation. Comme l’intonation du français et celle de l’anglais sont très différente, je me suis aussi appuyée sur la morphosyntaxe pour mon analyse afin de ne pas obtenir des résultats par trop incohérents. Il est ressorti de cette première analyse que si la structure du français oral est très décondensé, ce n’est pas le cas de l’anglais oral dont la structure est très proche de l’anglais écrit : l’ordre sujet-verbe-objet y est quasi-obligatoire, il y a très peu d’antéposition ou de postpositions d’arguments dans cette langue. A partir de cette analyse et de repères culturels, je me suis attachée à voir comment le geste et l’intonation fonctionnent par rapport au discours. Par exemple, en français, l’intonation monte pour signaler l’incomplétude, pour signaler la dépendance entre le préambule et le rhème, le préambule étant ce qui introduit le rhème. En anglais, le préambule est extrêmement pauvre quand il existe, il n’y a donc pas besoin de signaler une dépendance entre préambule et rhème, et donc pas besoin de remontée intonative. de fait, en anglais, préambule et rhème sont intégrés intonativement et sur des énoncés déclaratifs, l’intonation descend progressivement jusqu’à la fin du rhème, avec des remontées ponctuelles et de forts mouvements mélodiques sur les syllabes toniques, syllabes accentuées des groupes intonatifs. En français, la syllabe accentuée du groupe intonatif étant beaucoup plus prédictible qu’en anglais (or accent contrastif), il n’est pas utile de la signaler par un mouvement mélodique important. Toujours en ce qui concerne la structure de la langue mais en considérant cette fois son impact sur la gestualité (ou inversement, est-ce le geste qui a un impact sur la structure de la langue), comme il y a peu de préambules à l’oral et que ceux-ci ne sont pas très développés, lorsqu’un rhème est introduit par un préambule assez riche sur le plan informatif, ce préambule prend une forte valeur de mise en relief, d’emphase et est la plupart du temps accompagné soit de gestes liés à la focalisation, l’emphase, soit de gestes déictiques qui vont marquer un contraste entre deux entités dans le discours. Sur le plan culturel, les Anglais tolèrent très bien le silence. Ils ont donc dans leur discours beaucoup de pauses silencieuses et peu de chevauchements de parole par rapport au français. Cela a un impact sur la gestualité : il y a peu de gestes de prise de parole en force et peu de gestes de conservation du tour de parole.

3.2. Quel poids attribuer à ces données dans les pratiques langagières ? On peut se demander ce que ces données ont à voir avec les pratiques langagières, de quelles pratiques langagières il s’agit ou de quelles pratiques expérimentales. En effet, comment peut-on émettre des conclusions sur la structure de la langue anglaise, sur l’utilisation par les locuteurs des indices prosodiques et gestuels pour faire passer leur message quand on a enregistré deux Anglaises, d’un certain âge et d’une certaine région, avec un background social particulier ? Avec de surcroît un enregistrement qui dure une demi-heure réalisé dans un studio, où l’on dit aux gens : « allez-y, parlez » et « c’est bon, vous pouvez arrêter ». Je pense qu’il faut toujours être conscient des limitations de son corpus, sans pour autant dramatiser et n’en rien faire : nous sommes tous limités dans nos recherches sur corpus (quelles que soient d’ailleurs les limitations, qui ne sont pas toujours semblables), mais qu’en même temps, on ne travaille pas seul. Je conçois mon travail de thèse comme une pierre de l’édifice, comme un bout de corpus de la gigantesque base de données de Paris 3. Et si mon enregistrement a un côté artificiel par rapport à d’autres types d’interaction, il existe néanmoins en tant que tel. Il y a effectivement des situations de vie où l’on a des entretiens

Page 6: Titre : Constitution d’un corpus en vue d’une analyse ...fulltext/2969.pdf · Titre : Constitution d’un corpus en vue d’une analyse multimodale 1. Introduction ... (intraitables

Journée d'études "Pratiques langagières" le 17 novembre, à Ivry Gaëlle Ferré

6/6

artificiels avec quelqu’un (vous attendez dans la salle d’attente d’un médecin avec un ami, votre conversation sera au moins aussi contrainte que dans un studio d’enregistrement) et dans la mesure où l’on décrit la situation d’enregistrement, on sait à quoi elle correspond.