22
Pierre Ratinaud [email protected] laboratoire CREFI-T – REPERE Université de Toulouse II – Le Mirail Sébastien Déjean [email protected] Institut de mathématiques de Toulouse Université Toulouse III – Paul Sabatier IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre

IRaMuTeQ : implémentation de la méthode ALCESTE …

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IRaMuTeQ : implémentation de la méthode ALCESTE …

Pierre Ratinaud

[email protected]

laboratoire CREFI-T – REPEREUniversité de Toulouse II – Le Mirail

Sébastien Déjean

[email protected]

Institut de mathématiques de ToulouseUniversité Toulouse III – Paul Sabatier

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre

Page 2: IRaMuTeQ : implémentation de la méthode ALCESTE …

1.Contexte

2.La méthode ALCESTE

3.Les outils : des logiciels libres

4.Présentation d'IRaMuTeQ

5.Comparaison entre ALCESTE et IRaMuTeQ

6.Et après ?

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 3: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre1 - Contexte

Equipe REPERE (Représentations et Engagements Professionnels, leurs Evolutions : Recherches et Expertises) du CREFI-T (Centre de Recherche en Education, Formation et Insertion de Toulouse).

Processus de professionnalisation

Représentations sociales (Moscovici, 1961) et professionnelles (Piaser, 1999)

Détermination du contenu représentationnel

Analyse de discours (de texte)

ALCESTE

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 4: IRaMuTeQ : implémentation de la méthode ALCESTE …

A.L.C.E.S.TE. : Analyse des Lexèmes Co-occurrents dans les Enoncés Simples d'un Texte.

Logiciel de statisitiques textuelles

développé dans un premier temps au sein du CNRS (Reinert, 1987)soutenu par l'ex ANVAR et commercialisé par la société IMAGE (http://www.image-zafar.com)

La méthode ALCESTE

Lemmatisation du vocabulaire et distinction entre formes actives (verbes, noms, adjectifs, adverbes) et formes supplémentaires (ou mots outils - pronoms, conjonction, certains adverbes et verbes fréquents...).Decoupage du corpus en Unités de Contexte Initiales (U.C.I.)Une U.C.I. = un article, un entretien, un poème, un livre...Un corpus contient au minimum une U.C.I., mais généralement plusieurs.Les U.C.I. sont introduites par des variables étoilées (*) qui seront utilisées comme variables supplémentaires dans les analyses.Découpage en Unités de Contexte Elémentaires (U.C.E.). Une U.C.E représente un bout de texte de deux ou trois lignes. La taille des U.C.E varie en fonction de la taille du corpus. L'objectif de l'analyse est de proposer une classification de ces U.C.E.

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre2 - La méthode ALCESTE

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 5: IRaMuTeQ : implémentation de la méthode ALCESTE …

**** *art_444 *00_05_cq *libération *quotidien *autres *2004 *moyenil faudra un vrai courage politique pour que l'art retrouve la place que l'education nationale lui avait accordée. l'art à l'école, voie de démocratie djian jean_michel pour ceux qui sont traversés par le doute quant aux vertus de l'éducation artistique à l'école, le dernier film de gérard jugnot les choristes tombe à pic. jamais le cinéma ne rendra un tel hommage à cette pratique, d'autant que l'histoire est vraie, comme l'est, d'une autre manière, celle de ces jeunes de banlieues qui, dans l'esquive, le film d'abdelatif kechiche mettent en scène marivaux dans le jeu de l'amour et du hasard. ...

**** *art_445 *00_05_cq *libération *quotidien *arts_cul *2004 *moyenannoncée moribonde, la scène française n'a pas dit son dernier mot. la preuve au printemps de bourges, qui s'ouvre aujourd'hui. le rap bouge encore binet stéphanie a la sortie de l'album revoir un printemps en septembre, les marseillais d'iam portaient sur leurs épaules tous les espoirs du rap français. après l'explosion des ventes en 1998, la médiatisation nationale via la radio skyrock, le rap français devient à l'entrée du millénaire médiocre, uniforme, enfermé dans ses clichés matérialistes machos racailleux....

2 U.C.I.

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre2 - La méthode ALCESTE

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 6: IRaMuTeQ : implémentation de la méthode ALCESTE …

**** *art_444 *00_05_cq *libération *quotidien *autres *2004 *moyenil faudra un vrai courage politique pour que l'art retrouve la place que l'education nationale lui avait accordée. l'art à l'école, voie de démocratie djian jean_michel pour ceux qui sont traversés par le doute quant aux vertus de l'éducation artistique à l'école, le dernier film de gérard jugnot les choristes tombe à pic. jamais le cinéma ne rendra un tel hommage à cette pratique, d'autant que l'histoire est vraie, comme l'est, d'une autre manière, celle de ces jeunes de banlieues qui, dans l'esquive, le film d'abdelatif kechiche mettent en scène marivaux dans le jeu de l'amour et du hasard. ...

**** *art_445 *00_05_cq *libération *quotidien *arts_cul *2004 *moyenannoncée moribonde, la scène française n'a pas dit son dernier mot. la preuve au printemps de bourges, qui s'ouvre aujourd'hui. le rap bouge encore binet stéphanie a la sortie de l'album revoir un printemps en septembre, les marseillais d'iam portaient sur leurs épaules tous les espoirs du rap français. après l'explosion des ventes en 1998, la médiatisation nationale via la radio skyrock, le rap français devient à l'entrée du millénaire médiocre, uniforme, enfermé dans ses clichés matérialistes machos racailleux....

4 U.C.E

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre2 - La méthode ALCESTE

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 7: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre2 - La méthode ALCESTE

La méthode ALCESTE : particularité de la classification (Reinert, 1983, 1990)La classification est menée sur deux tableaux binaires (0 / 1) croisant Unités de Contexte (en ligne) et formes actives (en colonne).

Unité de Contexte = ensemble d'U.C.E nécessaires pour atteindre x formes actives.

● Par exemple, dans les paramètres par défaut d'ALCESTE, les deux tableaux sont contruits pour regrouper 10 formes actives pour le premier tableau et 12 pour le second.

Forme 1 Forme 2 Forme 3 Forme i

Uc1 (uce1+uce2) 0 1 1 ...

Uc2 (uce3+uce4) 1 0 1 ...

... ... ... ... ...

Forme 1 Forme 2 Forme 3 Forme i

Uc1 (uce1+uce2+uce3) 1 1 1 ...

Uc2 (uce4+uce5) 0 0 1 ...

... … … … ...

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 8: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre2 - La méthode ALCESTE

La méthode ALCESTE : particularité de la classification (Reinert, 1983, 1990)

Une classification hiérarchique descendante est effectuée sur les tableaux UC / formes.

Elle comprend 3 étapes :

Une A.F.C est menée sur le premier tableau, puis les lignes sont ordonnées selon leurs coordonnées sur le premier facteur. On cherche le long de ce premier facteur la partition en 2 classes qui maximisent l'inertie-interclasse.

Un algorithme d'échange permute chaque ligne d'une classe à l'autre et vérifie la variation d'inertie-interclasse. Cet algorithme est appliqué jusqu'à ce qu'il n'y ait plus d'augmentation de l'inertie inter-classe.

Les formes spécifiques d'une classe (chi2) sont retirées de l'autre classe.

L'analyse est ensuite effectuée sur la plus grande des deux classes et ainsi de suite jusqu'à obtention du nombre de classes paramétré (10 par défaut).

Les deux classifications obtenues à partir des deux tableaux d'U.C. sont croisées pour déterminer les classes ”stables”.

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 9: IRaMuTeQ : implémentation de la méthode ALCESTE …

● Python

http://www.python.org

Interface graphique (wxpython - http://wxpython.org), découpage du texte, lemmatisation...

● R

http://r-project.org

Analyses et graphiques.

● Lexique 3 (New, Pallier, Ferrand, 2005)

http://lexique.org

Lemmatisation, distinctions des différentes formes grammaticales.

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre3 - Les outils : des logiciels libres

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 10: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre4 - Présentation d'IRaMuTeQ

Page 11: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Le corpus

596 articles (512861 occurrences) de quotidiens français extraits de la base de données Europresse et sélectionnés à partir des mots-clés « jeunes de banlieue » ou « jeunes des banlieues » ou « jeune de banlieue » ou « jeune des banlieues ». Période : 2000 à 2005Journaux : Le Monde, Le Figaro, L'Humanité et Libération.

Résultats

ALCESTE8128 uceTableaux : 1372 colonnes - 6844 lignes (15 formes actives) – 6137 (17 formes actives)7 classes stables (6487 uce classées, 79,81% du corpus)

IRaMuTeQ8134 uceTableaux : 1336 colonnes – 6704 lignes (13 formes actives) – 6089 (15 formes actives)7 classes stables (6647 uce classées, 81,72% du corpus)

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 12: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 13: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 14: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 15: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 16: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 17: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 18: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Page 19: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre5 - Comparaison entre ALCESTE et IRaMuTeQ

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Dendrogramme IRamuteq Dendrogramme ALCESTE

Page 20: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre6 - Et après ?

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Intégrer de nouvelles classificationsEn passant par des matrices de distances :

K-meansFuzzy clustering(déja dans la version 0.1-alpha6) *

Méthodes par apprentissage

Analyser des textes en anglais

Développer les modes de représentations graphiques des classifications :Par exemple avec les arbres en 3D la bibliothèque igraph

etc...

Page 21: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre6 - Et après ?

Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail

Arbres minimum de la matrice des distances du tableau formes / classes

Page 22: IRaMuTeQ : implémentation de la méthode ALCESTE …

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre6 - Et après ?

Pour télécharger le logiciel :Site de l'équipe REPERE : http://repere.no-ip.org/logicielVersions pour Windows XP (Vista ?), Mac OS X, Ubuntu (intrepid,jaunty), Debian (Lenny)

Dépôts pour lenny, intrepid et jaunty :deb http://deb.netdig.org/apt jaunty main

Extraire la version de développement :svn co http://www.netdig.org/svn-iramuteq iramuteq

Bibliographie

New, B. Pallier, C. Ferrand, L. Matos R. (2001). Une base de données lexicales du français contemporain sur internet: LEXIQUE, L'Année Psychologique, 101, 447-462. http://www.lexique.org

Moscovici, S. (1961). La psychanalyse, son image et son public. Paris : PUF

Piaser A. (1999), Représentations professionnelles à l’école : particularités selon le statut : enseignant, inspecteur. Thèse de Doctorat en Sciences de l’Éducation dirigée par M. BATAILLE, Toulouse, Université de Toulouse le Mirail

Reinert, M. (1983). Une méthode de classification descendante hiérarchique : application à l'analyse lexicale par contexte, Les cahiers de l'analyse des données, Vol VIII, n° 2, p 187-198.

Reinert, M. (1990). ALCESTE : Une méthodologie d'analyse des données textuelles et une application : Aurélia de Gérard de Nerval, Bulletin de méthodologie sociologique, n°26, pp. 24-54.