36
Analyse prosodique outillée pour l'étude de phonostyle Jean-Philippe Goldman Université de Genève - UCLouvain

Analyse prosodique outillée pour l'étude de phonostyle · récit conversationnel NAR non-média face-à-face non-préparé . Outils semi-automatiques d'analyse prosodique

Embed Size (px)

Citation preview

Analyse prosodique outillée

pour l'étude de phonostyle

Jean-Philippe Goldman Université de Genève - UCLouvain

Cadre général

Comprendre et modéliser la prosodie

Mettre en relation

ses composantes de surface

Quels parametres acoustiques ?

Quelles unités à observer ?

Syllabe , « mot », groupe de mots

Unité accentuelle, unité intonative

Macro-unité: période, BDU, USP unité séparée par des pauses

et ses facteurs de variations

Cadre général

ses facteurs de variations

Linguistiques

distinction de sens de mots, démarcation de groupes de

mots, insistance, modalité,…

Contextuels

Pragmatique (discours), attitude, émotions

situation de discours

Personnels

idiosyncratique

socio-géo-linguistique

en bref...

Cette présentation prolonge un travail amorcé en collaboration avec M. Avanzi (IDP 2007; Speech Prosody 2008 ; AFLS 2008) sur les phonostyles; même corpus

mêmes outils (EasyAlign, Prosogram, ProsoProm)

introduit: annotation-étiquetage grammatical du corpus

segmentation du corpus en unités séparées par des pauses

qui permettent: associations composants situationnels - catégories grammaticales -

manifestations prosodiques

comparaisons liées à l'évolution temporelle dans les styles

meilleur maillage de la prosodie avec le discours

10 septembre 2009 Interfaces Discours Prosodie - IDP 09

décrire les paramètres prosodiques qui varient de

manière systématique en fonction des genres de

parole (activités communicatives / traits

situationnels)

mesurer la variation intra-genres (inter-locuteurs)

fournir des mesures prosodiques fiables, à des fins

de comparaison en linguistique de corpus

documenter les genres de parole pour

implémentation en synthèse

Objectifs de la recherche

10 septembre 2009 Interfaces Discours Prosodie - IDP 09

1. Cadre: variables situationnelles, prosodiques et linguistiques

2. Matériel d'étude un corpus de 70 min de parole

catégorisation des échantillons selon des critères de genre (styles et traits situationnels)

annotation du corpus

3. Résultats mesures sur les syllabes,

sur les suites sonores

et discussion

Teneur de l'exposé

10 septembre 2009 Interfaces Discours Prosodie - IDP 09

Des styles sonores tels qu'ils sont perçus en tant que caractéristiques d'un individu (jeune, vieux, homme, femme), d'un groupe social (prolétaire, bourgeois), ou d'une circonstance particulière (discours politique, sermon, etc.). (Léon 1993: 3)

Genre: image (acoustique) typifiée liée à une situation de

parole (conditions et activités); se présente sous forme d'attentes normatives

Style: manifestation émergente de la parole dans un genre; se présente sous forme d'échantillon

• On renseigne les genres par l'examen de styles qui les instancient • en décomposant les genres en traits situationnels • et les styles en composants linguistiques (prosodiques)

1. Cadre: (phono)genre et (phono)style

syllabes durée moyenne (et distribution); hauteur relative; proportion de

syllabes proéminentes (selon la détection automatique), selon la position (initiale ou finale de mot accentuable; autres positions)

pauses durée moyenne et distribution des pauses dans un enregistrement

unités séparées par des pauses (USP) (=Suites sonores) débit de parole (syll/seconde inclus pauses) et d'articulation (pauses

exclues); amplitude du registre tonal; agitation mélodique (valeur absolue de demi-tons parcourus); densité accentuelle (% de syllabes proéminentes/ non proéminentes); densité d'accents initiaux / syllabes proéminentes

Cadre: mesures prosodiques

principalement pour déterminer une positon syllabique dans le mot plein Syllabe finale (~accent démarcatif en français)

Syllabe initiale (~accent d’insistance)

catégorisation grammaticale ADV

ADJ

NOM

VERBE

Cadre: variables linguistiques

Préparation du Discours

Public, interlocuteurs

Locuteur professionnel, médiatisation

Cadre: variables situationnelles

2. Corpus d'étude

Corpus C-PROM – 6 genres LEC lecture

JPA journal parlé radiophonique

POL discours d'un chef d'état

CNF conférence scientifique

INT interview radiophonique

NAR récit conversationnel

Distribution 10 min par genre (de 7 à 11 min)

3 locuteurs par genre sauf INT (2 locuteurs)

2 sexes par genre (sauf NAR et LEC)

origine variée (CH- FR- BE)

~80minutes - 17800 syllabes - 1020 USP

2. Corpus d'étude et outils

Discours médiatique professionnel / non

médiatique

Type d'audience

Discours préparé / improvisé

journal parlé radiophonique JPA

média micro préparé

Lecture LEC non-media micro préparé

discours d'un chef d'état POL

média public préparé

conférence scientifique CNF

non-média public semi-préparé

interview radiophonique INT

média face-à-face semi-préparé

récit conversationnel NAR

non-média face-à-face non-préparé

Outils semi-automatiques d'analyse prosodique

EasyAlign (Goldman 2008)

segmentation phonétique, syllabique, lexicale

Outils semi-automatiques d'analyse prosodique

EasyAlign (Goldman 2008)

segmentation phonétique, syllabique, lexicale

Prosogram (Mertens 2004)

stylisation perceptive de l'intonation

Outils semi-automatiques d'analyse prosodique

EasyAlign (Goldman 2008)

segmentation phonétique, syllabique, lexicale

Prosogram (Mertens 2004)

stylisation perceptive de l'intonation

ProsoProm (InterSpeech07; CMLF 2008)

Détection automatique de syllabes proéminentes

Mouvement intrasyllabique

Hauteur mélodique relative

Durée syllabique relative

Outils semi-automatiques d'analyse prosodique

EasyAlign (Goldman 2008)

segmentation phonétique, syllabique, lexicale

Prosogram (Mertens 2004) stylisation perceptive de l'intonation

ProsoProm (InterSpeech07; CMLF 2008) détection de syllabes proéminentes

Annotation linguistique pré-segmentation manuelle en unités de rection

étiquetage grammatical (Lions)

identification des syllabes par rapport aux mots "pleins" (NOM,VERB,ADJ,ADV) f : syllabe finale i: syllabe initiale (pour les polysyllabiques)

Annotation multi-niveaux dans Praatt

3. Résultats

3.1 en observant les syllabes proéminentes

Leur proportion

Leur position

3.2 en observant les unités séparées par des

pauses

3.1. Résultats sur les syllabes: % prom

Proportion de syllabes

proéminentes:

Du corpus: 30%

Par genre:

Genre % prom i f autres

nar 25 14 48 20

lec 26 13 54 16

cnf 31 15 64 23

pol 31 25 61 21

jpa 33 31 51 26

int 34 28 58 32

3.1. par syllabes: %promf-%promi

40 50 60 70 80

10

20

30

40

par style

%prom-f

%p

rom

-i

cnf-ch

cnf-be

cnf-fr

jpa-chjpa-bejpa-fr

nar-ch

nar-be

nar-fr

int-be

iti-01

iti-02

iti-03

iti-04

iti-05

iti-06

iti-07

pol-ch

pol-be

pol-fr

lec-ch

lec-be

lec-fr

Traits situationnels % prom i f autres

AUDIENCE

0 micro 30 22 53 23

1 face-à-face 30 19 51 27

2 public 31 19 63 22

MEDIA

0 = non médiat. 29 15 56 21

1 = médiatique 33 28 56 27

PREP

0 = non préparé (nar) 28 15 51 22

0.5 = semi-prép. (cnf int) 32 18 63 28

1 = préparé - lu (lec pol jpa) 31 24 55 22

3.1. %prom par traits situationnels

3.1. par syllabes: %promf-%promi

40 50 60 70 80

10

20

30

40

média , non-média

%prom-f

%p

rom

-i

cnf-ch

cnf-be

cnf-fr

jpa-chjpa-bejpa-fr

nar-ch

nar-be

nar-fr

int-be

iti-01

iti-02

iti-03

iti-04

iti-05

iti-06

iti-07

pol-ch

pol-be

pol-fr

lec-ch

lec-be

lec-fr

3.1. par catégories grammaticales sur syll i

ADV ADJ VERB NOUN

genre

cnf 32 9 26 13

jpa 22 25 33 32

nar 12 21 12 12

int 31 50 24 29

iti 12 25 15 16

pol 43 38 31 19

lec 11 16 12 12

public

0 16 22 18 23

1 17 31 15 19

2 36 20 29 15

media 0 18 14 15 13

1 32 31 30 28

préparé

0 12 22 14 14

0.5 32 14 25 17

1 28 26 27 23

3.1. mesures quantitatives

F0rel

3.1. effets par traits et par style

Type de syllabe non-media/media Public Préparé Style

Toutes (17799)

i (3074) ***

d= 0.35 ST

***

dmax=0.2ST

***

dmax= 0.5ST

f (4389) ***

d= -0.4ST

* ***

dmax=0.7

***

dmax=1ST

pol < < cnf

Type de syllabe non-media/

media Public Préparé Style

Toutes (17799) ***

<sp

***

+12%

pol<..<cnf

i (3074) *

+16%

np<p<sp

***

+12%

pol < cnf

f (4389) **

8%

face-a-face <

..

*

+15%

np<p<sp

***

+22%

nar <.. < cnf

F0 rel

Durée

relative

segmentation en unités séparées par des

pauses

et mesures:

taux d'articulation, débit de parole et débit

d'articulation

registre mélodique, dynamique mélodique

densité accentuelle (proéminences)

hésitations (syllabes allongées plates)

3.2. Résultats des mesures par USP

pol

n= 282 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

iti

n= 240 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

cnf

n= 305 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

01

23

45

jpa

n= 212 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

01

23

4

lec

n= 190 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

2.0

int

n= 293 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.0

n= 1723 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.2. par suites sonores: segmentation

distribution des pauses

tous genres confondus

(1732 pauses)

pour les genres pol (282)

iti (240) et cnf (305)

pol

n= 282 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

iti

n= 240 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

cnf

n= 305 seuil= 0 ms

0.0 0.2 0.4 0.6 0.80

12

34

5

jpa

n= 212 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

01

23

4

lec

n= 190 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

2.0

int

n= 293 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.0

n= 1723 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

pol

n= 282 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

iti

n= 240 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

cnf

n= 305 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

01

23

45

jpa

n= 212 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

01

23

4

lec

n= 190 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

2.0

int

n= 293 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.0

n= 1723 seuil= 0 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.2. Quel seuil de pause?

distribution des pauses

pol (n=282 pauses)

pol-be (n=91)

pol-ch (n=99)

pol-fr (n=92)

nar-be

n= 72 seuil= 275 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

nar-ch

n= 60 seuil= 250 ms

0.0 0.2 0.4 0.6 0.8

01

23

45

6

nar-fr

n= 69 seuil= 275 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.5

1.0

1.5

pol-be

n= 91 seuil= 400 ms

0.0 0.2 0.4 0.6 0.8

0.0

0.4

0.8

1.2

pol-ch

n= 99 seuil= 230 ms

0.0 0.2 0.4 0.6 0.8

01

23

4

pol-fr

n= 92 seuil= 225 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.0

int-be

n= 139 seuil= 175 ms

0.0 0.2 0.4 0.6 0.8

0.0

1.0

2.0

3.0

int-fr

n= 154 seuil= 190 ms

0.0 0.2 0.4 0.6 0.8

01

23

4

3.2. Quel seuil de pauses ?

seuils (ms) par locuteur

but

discriminer les micro-

pauses des pauses

longues (moyennes)

PAR LOCUTEUR

Genre be ch fr nmu

cnf 270 150 160 208

jpa 200 250 240 129

nar 275 220 275 153

int 175 - 190 219

pol 400 230 225 222

lec 260 275 250 121

3.2. USP: nb de syll / genre

nombre de syllabes

20

40

60

80

cnf jpa nar int pol lec

3.2. USP : registre mélodiques par genre

registre F0(ST)

10

20

30

cnf jpa nar int pol lec

3.2. USP: débit de parole

débit de parole (syll/s)

2

4

6

cnf jpa nar int pol lec

3.2. par USP

analyse en

composantes

principales pour

JPA + LEC + INT

-4 -2 0 2 4

-20

24

LD1

LD

2

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpajpa

jpa

jpa

jpa

jpa

jpa

jpa jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpajpa

jpa

jpajpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpajpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpajpa

jpa

jpa

jpa jpa

jpa

jpa

jpa

jpa

jpajpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

jpa

int

int

int

int

intint

int

int

int

int

int

int

int

int

int

int

int

int

int

int

intint

int

int

int

int int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

intint

int

intint

int

int

int

int

int

int

int

int

intint

int

int

int

int

int

int

int

int

int

intint

int

int

intint

int

int

int

int intint

int int

int

intint

int

int

int

int

int

int

int

int

intint

int

int

int

int

int

int

int

int

intint

int

int

int

int

intint

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

intint

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

intint

int

int

int

int

int

intint

intint

int

intint

int

int

int

int

int

int

int

int

intint

int

int

int

int

int

int int

int

int

int int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

int

intint

int

leclec

lec

lec

lec

lec

lec

lec

lec leclec

lec

lec

lec

lec

lec

leclec

leclec

lec

lec

lec

lec

lec

lec

leclec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

lec

leclec

lec

lec

lec

lec

lec

lec

leclec

lec

lec

leclec

lec

lec

lec

lec

lec

lec

lec

lec

lec lec

lec

lec

lec

lec

lec

lec lec lec

lec

lec

lec

lec

lec

lec

lec

leclec

lec

lec

lec

lec lec

lec

leclec

lec

lec

lec

lec

lec

lec

lec

leclec

lec

lec

lec

lec

lec

lec

lec

10 septembre 2009 Interfaces Discours Prosodie - IDP 09

Genre: image (acoustique) typifiée liée à une situation de parole (conditions et activités); se présente sous forme d'attentes normatives

Style: manifestation émergente de la parole dans un genre; se présente sous forme d'échantillon

Discussion (1/2)

10 septembre 2009 Interfaces Discours Prosodie - IDP 09

Description des genres prosodiques en français mesures " point de comparaison" pour études ultérieures

Expliciter et partager les outils (annotations, stylisation, normalisation…) pour rendre les mesures comparables

Discussion (2/2)

Merci de votre attention