22
A. Dubus Analyse des séquences, Profeor 08/06/06 p. 1 / 22 L’analyse des séquences De quoi s’agit-il ? Le modèle classique de données utilisé par les démarches statistiques et reflété par les logiciels de traitement, en dehors des séries chronologiques de l’analyse de tendance (trend analysis), se ramène, y compris dans des cas apparemment plus complexes (corpus hiérarchisés), à la forme de la matrice rectangulaire Sujets × Variables, qui équivaut au modèle Enregistrement × Champ des bases de données, ou modèle Ligne × Colonne des tableurs. Dans tous les cas, pour chacun des sujets (unités d’observation), on dispose, pour chaque variable, d’une valeur au plus (éventuellement aucune). Ainsi, pour un individu, on peut connaître son genre, son âge, son poids à 14 ans et son poids à 18 ans. Les valeurs sont compatibles avec les variables qu’elles informent, au sens où elles sont du type approprié (numériques, nominales, ordinales, logiques, calendaires) et qu’elles respectent d’une manière ou d’une autre un système de valeurs possibles. La contrainte majeure de cette disposition est qu’à un couple sujet×variable, on ne peut associer au maximum qu’une valeur. On est donc dans l’embarras dès que les données qu’on veut traiter ont une dimension supérieure à 1. Un cas radicalement intraitable avec les procédés classiques est celui où les données se présentent comme une suite d’éléments, suite dont la longueur peut varier d’un sujet à l’autre, mais où la succession est significative, autrement dit où les données seraient altérées si les éléments étaient fournis en vrac ou dans le désordre. On se propose de désigner de telles entités sous le nom de séquences , et d’envisager de les étudier de manière statistique. Les séquences peuvent concerner des choses très variées : - les étapes d’un voyage ou d’une promenade - les positions successives d’un individu dans l’espace professionnel, social ou académique - les catégories d’activités dans une journée, recueillies avec un budget-temps - les actions successivement tentées pour résoudre un problème - les catégories d’interaction relevées dans des échanges verbaux élève/prof - la liste des péripéties et figures de récit dans un conte - une chaîne d’implications parmi les items d’un test - etc. On le voit, seul l’ordre de succession est important. Qu’il signifie une quelconque forme de temporalité est une question de sémantique, et n’a pas de conséquence pratique sur l’analyse. La méthode proposée vise à construire, à partir d’un jeu de séquences, des typologies, c’est-à- dire des systèmes de classes tels que les séquences rangées dans la même classe se ressemblent le plus possible, et que des séquences rangées dans des classes différentes soient aussi dissemblables que possible, ceci pour les critères formels, et qu’on ait les moyens de décrire les caractéristiques des classes, ceci pour l’interprétation et l’intérêt heuristique. La question, épistémologiquement secondaire mais techniquement centrale de savoir comment on fait pour savoir à quel point deux séquences sont semblables ou dissemblables sera traitée dans la rubrique « Comment ça marche ».

L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 1 / 22

L’analyse des séquences

De quoi s’agit-il ? Le modèle classique de données utilisé par les démarches statistiques et reflété par les logiciels de traitement, en dehors des séries chronologiques de l’analyse de tendance (trend analysis), se ramène, y compris dans des cas apparemment plus complexes (corpus hiérarchisés), à la forme de la matrice rectangulaire Sujets × Variables, qui équivaut au modèle Enregistrement × Champ des bases de données, ou modèle Ligne × Colonne des tableurs. Dans tous les cas, pour chacun des sujets (unités d’observation), on dispose, pour chaque variable, d’une valeur au plus (éventuellement aucune). Ainsi, pour un individu, on peut connaître son genre, son âge, son poids à 14 ans et son poids à 18 ans. Les valeurs sont compatibles avec les variables qu’elles informent, au sens où elles sont du type approprié (numériques, nominales, ordinales, logiques, calendaires) et qu’elles respectent d’une manière ou d’une autre un système de valeurs possibles. La contrainte majeure de cette disposition est qu’à un couple sujet×variable, on ne peut associer au maximum qu’une valeur. On est donc dans l’embarras dès que les données qu’on veut traiter ont une dimension supérieure à 1. Un cas radicalement intraitable avec les procédés classiques est celui où les données se présentent comme une suite d’éléments, suite dont la longueur peut varier d’un sujet à l’autre, mais où la succession est significative, autrement dit où les données seraient altérées si les éléments étaient fournis en vrac ou dans le désordre. On se propose de désigner de telles entités sous le nom de séquences, et d’envisager de les étudier de manière statistique. Les séquences peuvent concerner des choses très variées :

- les étapes d’un voyage ou d’une promenade - les positions successives d’un individu dans l’espace professionnel, social ou

académique - les catégories d’activités dans une journée, recueillies avec un budget-temps - les actions successivement tentées pour résoudre un problème - les catégories d’interaction relevées dans des échanges verbaux élève/prof - la liste des péripéties et figures de récit dans un conte - une chaîne d’implications parmi les items d’un test - etc.

On le voit, seul l’ordre de succession est important. Qu’il signifie une quelconque forme de temporalité est une question de sémantique, et n’a pas de conséquence pratique sur l’analyse. La méthode proposée vise à construire, à partir d’un jeu de séquences, des typologies, c’est-à-dire des systèmes de classes tels que les séquences rangées dans la même classe se ressemblent le plus possible, et que des séquences rangées dans des classes différentes soient aussi dissemblables que possible, ceci pour les critères formels, et qu’on ait les moyens de décrire les caractéristiques des classes, ceci pour l’interprétation et l’intérêt heuristique. La question, épistémologiquement secondaire mais techniquement centrale de savoir comment on fait pour savoir à quel point deux séquences sont semblables ou dissemblables sera traitée dans la rubrique « Comment ça marche ».

Page 2: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 2 / 22

D’où ça vient ? Les premiers frémissements de ma préoccupation à l’égard des séquences datent de la préparation de ma thèse, entre 1978 et 1980. Sur la question du recrutement des Conseillers en Formation Continue, il apparaît que les candidats sont recrutés ou non en fonction d’éléments qu’il est difficile, voire impossible de saisir dans les éléments détaillés de leur dossier professionnel, mais qui doivent constituer quelque chose comme une trajectoire (à noter que j’ai par la suite rejeté ce terme pour lui préférer celui d’itinéraires) professionnelle significative, au point qu’on constate empiriquement qu’il est un moment idéal pour être candidat, qui dure peut-être un an ou deux, mais qu’ensuite les orbites de l’individu et de la fonction divergent de manière irrésistible. Un premier modèle informatique fondé sur l’extraction automatique d’une syntaxe, étant donnés des énoncés représentatifs, ne débouche pas sur des éléments exploitables. Dans le même temps, la thèse de Jacques Hédoux indique, sans pouvoir le prouver, que les attitudes des individus vis à vis de la formation professionnelle comme ressource peuvent être en partie conditionnées par des itinéraires familiaux, supra-individuels, notamment dans le cas de l’immigration. Une seconde tentative, sur la base d’une enquête réalisée en 1982 auprès de cinq promotions d’animateurs socio-culturels du Nord-Pas-de-Calais, parvient à mettre en évidence des schémas d’alternance entre métiers de l’animation et autre métiers, de régularité/irrégularité et des archétypes d’itinéraires d’intégration professionnelle. Cette approche reste lourde et peu pratique, mais la publication des résultats sous le titre « Arrêt sur méthodologie, la construction d’itinéraires » (Cahiers de l’animation n° 44-45, INEP, Avril 1984), contient déjà des propos nettement programmatiques : « on peut construire des typologies (…) et les recouper avec des variables classiques ; les itinéraires se présentant comme une suite d’états, c’est à dire une chaîne de caractères, il est possible d’en établir la grammaire, sous forme d’un graphe dont les chemins les plus parcourus constituent autant d’idéal-types des itinéraires dans la population étudiée … ». Cette approche fondée sur l’analyse syntaxique (vestige d’un itinéraire universitaire antérieur), qui tarde à fournir des résultats utilisables, cède la place à la « Distance généalogique », exposée dans « Calculs sioux pour réponses rusées » dans les Cahiers Lillois d’Economie et de Sociologie n°6, septembre 1985. La distance généalogique entre deux séquences, présumées issues d’un ancêtre commun, est le nombre de caractères qu’il faut supprimer dans la première séquence (pour atteindre l’ancêtre), puis qu’il faut insérer (pour redescendre à la seconde séquence), pour passer de l’une à l’autre. La distance généalogique est implémentée dans DISGEN, distance généalogique entre séquences, l’un des modules de l’ensemble logiciel ADSO 2, publié en 1992 par l’Atelier logiciel des Trois Monts à Lille, avec l’ouvrage « Méthodes et pratiques du traitement statistique en Sciences Humaines ». Cette approche est utilisée massivement par Claude-Alain Cardon dans sa thèse en 1996, qui étudie les itinéraires professionnels et la place dans la division sociale du travail de 520 formateurs d’adultes du Nord-Pas-de-Calais. Cette approche rencontre un vif succès auprès du jury. C-A C. est actuellement Maître de Conférences et responsable des formations d’adultes en Sciences de l’Education à Bordeaux-2. L’approche actuelle de l’analyse des séquences fait l’objet d’une publication en Janvier 2000 dans le très savant Bulletin de Méthodologie Sociologique, sur proposition de Philippe Cibois.

Page 3: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 3 / 22

Un logiciel qui l’implémente, ASEQ, est ajouté comme compagnon à ADSO 3 en 2000. Une application réalisée en 2001 est présentée dans le cahier Théodile n°2 de Janvier 2002. La thèse de Lionel Conraux, qui utilise l’analyse des séquences à propos des chaînes d’action dans une tâche de texte-puzzle, est soutenue en Décembre 2002. Le logiciel Nestor, publié depuis l’automne 2002 par l’Ortho Editions, inclut en standard l’analyse des séquences.

Page 4: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 4 / 22

Comment ça marche ? On peut construire une typologie sur des objets quelconques, dès qu’on dispose d’une mesure de similarité, ou plutôt de dissimilarité (appelée distance dans certaines conditions) calculables sur ces objets et sur des groupes de ces objets, ou encore, ce qui revient au même, d’une mesure de l’hétérogénéité des groupes. En effet, la construction d’une arborescence typologique est guidée par les contraintes de maintenir une hétérogénéité minimale à l’intérieur d’un groupe, et une hétérogénéité maximale dans le sur-groupe qui les réunit. Dans la pratique, il s’agit des deux faces d’une seule et même chose, et l’application d’une contrainte produit l’autre. Le mode de calcul des distances utilisé ici est décrit en détail dans l’article assez technique du BMS n°65 de 2000, mais on peut essayer d’en fournir des éléments de représentation intuitive. Chaque séquence est d’abord étirée pour s’ajuster élastiquement à une longueur standard d’un nombre entier de cases (disons cent). Dans chaque case, un état est présent (1) ou absent (0), ou présent en partie selon les approximations dues à l’étirement. Pour des groupes de séquences, l’indicateur de présence est rarement 0 ou 1, mais un nombre entre les deux, qui représente la fréquence moyenne pour l’ensemble des séquences qui constituent le groupe. La dissimilarité entre séquences ou groupes n’est pas calculée directement sur ces fréquences, parce que cela introduirait la même distance entre couples séquences possédant les mêmes états en positions proches qu’entre couples les possédant en position éloignée. On calcule donc d’abord les fréquences cumulées des différents états, du début vers la fin et de la fin vers le début , et c’est sur ces fréquences cumulées que sont calculées des différences, dont la somme des carrés (avec d’éventuelles pondérations) alimente le paramètre qu’on appelle variation entre séquences ou groupes, et qui est utilisé comme indice d’hétérogénéité. L’algorithme de construction de l’arborescence est du type Classification Hiérarchique Descendante : il intègre de nouveaux éléments à une arborescence déjà constitue en maintenant la contrainte de maximisation de la variation inter-groupes. Cette CHD est relativement sensible à l’ordre d’introduction des éléments, hors formes fortes et pour les éléments peu caractéristiques ; aussi l’introduction des éléments est-elle opérée dans l’ordre canonique de distance croissante au barycentre de l’ensemble des séquences ; de plus une option de stabilisation des groupes, de type Nuées Dynamiques, est disponible, qui s’assure qu’aucun élément ne serait mieux classé dans un autre groupe que dans le sien, et le déplace dans le cas contraire. Plutôt que d’asséner des formules mathématiques, on se propose maintenant d’étudier un exemple.

Page 5: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 5 / 22

Le cycle du traitement des données en formes de séquence L’idée de cycle renvoie à une démarche itérative, avec des boucles de retour. Cela pose d’emblée la question du critère d’arrêt des itérations, qu’on reprendra plus loin. On peut sommairement distinguer 5 étapes dans ce processus : Etape 1 : codage et saisie des données initiales Cette étape est la seule qui soit irréversible, et qui ne rentre pas dans les itérations. Les choix de codage qui y sont faits sont définitifs, sauf à retourner aux documents bruts ou à ré-enquêter. Ces choix ne sont pas indépendants des procédures d’investigation ou d’observation utilisés, et notamment de questionnement si l’on s’appuie sur des données déclaratives. Etape 2 : constitution des données d’exploitation En cette étape, on constitue une extraction des données filles, en resserrant sur certains aspects des données. On y fait notamment le choix du vocabulaire des états pour l’analyse des séquences. L’extraction des données filles est un processus assez facile, du genre « remplacer partout » dans un traitement de texte. Cette étape n’est pas irréversible, et on peut y revenir immédiatement si les analyses globales ne donnent pas satisfaction, par exemple en cas de trop grand déséquilibre entre les fréquences des états codés. Etape 3 : action sur la structure des données Cette étape est facultative, et n’intervient pas nécessairement lors de la première itération, du moins dans ses aspects structurels car elle constitue souvent un approfondissement de l’investigation. Au minimum, on peut y fixer la légende des états et le système de couleurs représentatives, pour faciliter la lecture des diagrammes. Au maximum, on décrit des pondérations pour certains états ou groupes d’états. Etape 4 : essais de coupure dans l’arborescence des séquences En fonction des éléments précédents, le logiciel a calculé une arborescence totale des séquences étudiées et une représentation graphique de celle-ci. Il offre alors la possibilité de définir le niveau de coupure dans cette arborescence, coupure qui va déterminer les classes d’une typologie. Cette coupure peut être calculée automatiquement sur divers critères et/ou modifiée manuellement. La lecture des aides à l’interprétation peut amener à passer à l’étape suivante, ou au contraire à itérer sur l’étape 4 jusqu’à satisfaction. Ce qui définit une typologie satisfaisante peut faire l’objet de discussions. Etape 5 : création d’une variable typologique Un niveau de coupure étant fixé, on crée une variable typologique de type nominal, qui prend pour valeurs initiales de simples étiquettes formées sur les numéros de groupe. En passant par une phase d’interprétation, on choisit un intitulé pour la variable typologique et surtout des noms pour chacune des classes, qui seront les valeurs de la variable. Cette phase est cruciale pour l’utilité globale de la démarche Etape 6 : réemploi de la variable typographique Dans l’univers « normal » de la matrice sujet×variable, on utilise la variable typologique comme une variable classique, dans toutes les opérations statistiques de tris, croisements, etc.

Page 6: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 6 / 22

Organisation du traitement-exemple On propose ici un traitement en deux itérations, de manière à illustrer les différents aspects de la démarche : Dans un premier passage, on ira de l’étape initiale 1 à l’étape 5, avec une typologie à cinq classes « primaire », c’est-à-dire sans pondérations ni groupes d’état. Le second passage réitère à partir de l’étape 3, et donc sur les mêmes données-filles qu’au premier passage. Il comporte une étape 3 plus consistante, avec pondérations et groupes, et débouche sur une typologie « élaborée » en six classes. Une étape 6 commune aux deux cycles compare les deux variables et les met en relation avec quelques variables classiques.

Page 7: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 7 / 22

Etape n°1 : codage et saisie des données initiales Dans l’étude utilisée ici comme exemple, les données initiales (ou données-mères) ont été constituées sur la base de descriptions par les sujets eux-mêmes (384 étudiants de licence) de ce qui s’était passé en termes de travail et d’études depuis la fin de leurs études secondaires, jusqu’à l’année précédant leur entrée en licence de Sciences de l’Education (incluse). L’étude, réalisée en 2001, concernait essentiellement des indicateurs des conditions concrètes d’existence des étudiants, de leur origine académique, de leurs disponibilités, de leurs projets, de leurs attentes et de leurs représentations relativement à l’offre de formation qui leur était proposée. Cette étude intervenait comme un recueil de données préalable à la construction d’une nouvelle maquette (celle qui fonctionne jusqu’en Octobre 2004). Le questionnement sur ces itinéraires de formation et d’emploi apparaissait donc initialement comme plutôt expérimental (du matériau pour l’analyse des séquences) et marginal au regard de l’objet principal. Il n’était même pas sûr au départ qu’un nombre significatif de répondants saurait ou voudrait informer cette rubrique. Or, sur 384 questionnaires remis, 344 contenaient des données d’itinéraires valides, et les typologies issues d’un premier dépouillement de celles-ci montrait un grand intérêt quant à la description des différentes composantes du public de la formation (Cf. document de travail interne UFR, Avril 2001, et Cahiers Théodile n°2, Janvier 2002). La syntaxe des données telles qu’elles ont été recueillies, codées et saisies offre peu d’intérêt ici (on les trouvera dans le Cahier n°2). Saisissant à la fois des éléments relatifs à une éventuelle activité salariée, en même temps que des informations sur le type et le niveau d’études suivies, elles s’avèrent trop complexes pour un traitement direct, au moins en l’état de la réflexion de l’auteur sur les données séquentielles multidimensionnelles (qui a évolué depuis). L’exemple de traitement proposé ici porte donc uniquement sur la combinaison de travail et d’études, sans conserver l’information du genre d’études. A l’inverse, une autre extraction négligeant le travail et conservant les informations sur le type d’études est présentée dans le Cahier n°2. Cette différenciation (au moyen d’un peu de logiciel ad hoc ou de traitement de texte) en deux jeux de données prêtes à l’exploitation est exemplaire d’un principe de non-censure au stade du recueil des données, qui rappelle que toutes les simplifications opérées en amont du codage sont de pures et simples pertes d’information, et qu’en revanche on peut recueillir et coder des données aussi détaillées que l’on voudra, pour constituer l’ensemble des données-mères, dont on extraira selon les besoins les données-filles appropriées à telle ou telle investigation.

Page 8: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 8 / 22

Etape n°2 : La constitution des données d’exploitation Le fichier des données (données-filles) travetu.txt (extrait)

1 EMS 2 EE 3 ESSS 4 EEEEEE 5 ES 6 SEE 7 EEEM 8 EEwwwww 9 EEEEEw 10 EEEEEw 12 EEM 13 EMMM 14 ESwwwww 15 EEEE 16 EE 17 EEE 18 wwwwwwwwwwwwwwwwwwwwwwww 19 EEEEwwwwwwwwwwwwww 20 MM 21 SSwwwwwwwwwwwwwwwwwwwwww 22 lEESMMSS 23 EEEEpp 25 EMMp …

Remarques : - Ce fichier a été constitué par simplification d’un ensemble de données plus détaillées

(les données-mères), qui ont fait l’objet de la saisie initiale (étape n°1) - On n’a fait figurer que quelques premières lignes, mais le fichier réel en comporte plus

de 300 - Le nombre au début de chaque ligne est le numéro d’ordre du sujet dans le corpus où

finalement on réemploiera les variables typologiques issues de l’analyse de séquences. Certains numéros manquent : ceux de sujets pour lesquels on ne dispose pas de la donnée de séquence.

- Ce qui suit le numéro d’ordre est la séquence : une suite ininterrompue et de longueur variable de symboles pris dans le vocabulaire des états.

Le vocabulaire des états Il est constitué des caractères {clpwEMS}, qui ont les valeurs suivantes :

c pas d’études, position de demande d’emploi l ni études, ni emploi p pas d’études, travail à temps partiel w pas d’études, travail à temps plein E études à plein temps M études et travail à temps partiel S études et travail à temps plein

L’état [l] correspond à des situations variées : année sabbatique, maternité, service national…

Page 9: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 9 / 22

Lecture des séquences Chaque caractère d’une séquence représente une unité de temps (ici une année). Le sujet numéro 1 [EMS] est donc caractérisé par une année d’Etudes à plein temps (E), suivi d’une année d’études accompagnées de travail à temps partiel (M), suivi d’une année d’études accompagnées de travail à plein temps. Le sujet numéro 25 [EMMp] est caractérisé par une année d’études à plein temps, deux années d’études avec travail à temps partiel, une année de travail à temps partiel sans études. Analyses globales 344 séquences longueurs de 2 à 32, moyenne 5,94 +/- 5,58 nb séquences fréquence position concernées générale moyenne ec-t c 20 0,011 0,59 0,28 l 25 0,026 0,46 0,33 p 21 0,024 0,61 0,28 w 104 0,393 0,58 0,28 E 293 0,395 0,37 0,38 M 80 0,074 0,59 0,37 S 73 0,076 0,62 0,35 Le tableau ci-dessus fournit quelques éléments statistiques généraux sur la répartition des états dans les séquences. La position s’entend comme 0 en début de séquence et 1 en fin de séquence. Codensités relatives c l p w E M S c 0,7 2,2 0,9 0,8 0,5 0,7 l 0,7 1,0 0,6 0,7 0,5 0,5 p 2,2 1,0 0,7 0,6 0,3 0,5 w 0,9 0,6 0,7 0,3* 0,2* 0,7* E 0,8 0,7 0,6 0,3* 0,6* 0,5* M 0,5 0,5 0,3 0,2* 0,6* 0,9 S 0,7 0,5 0,5 0,7* 0,5* 0,9 Une codensité relative de 1 entre deux états indique qu’ils ont tendance à apparaître dans les mêmes séquences avec une fréquence correspondant à la probabilité théorique compte tenu de leurs fréquences individuelles d’apparition. Une codensité supérieure à 1 indique une tendance à apparaître ensemble plus souvent que la normale, une codensité inférieure à 1, moins souvent, y compris jusqu’à 0 qui signifie jamais. Un astérisque indique que l’écart à 1 est significatif au seuil de .05.

Page 10: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 10 / 22

Etape n°3 : Action sur la structure des données (première itération) En première itération, l’action est légère, et consiste essentiellement à informer la légende des différents états, telle qu’elle apparaîtra pour information dans les diagrammes arborescents.

c chômage l libre p partiel w emploi E études M études+partiel S études+travail

On fixe également les couleurs associées aux états. Le choix des couleurs est important pour faciliter l’interprétation de diagrammes, et, ultérieurement, renforcer leur qualité illustrative. Ces informations sont conservées dans un fichier dit de structure, qui ne contient pas les séquences mais comporte le nom du fichier qui les contient : plusieurs fichiers de structure différents peuvent donc concerner le même fichier basique de séquences. Le logiciel propose une première arborescence automatique des séquences en dix classes sur le critère de la variation.

Page 11: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 11 / 22

Etape n°4 : Essais de coupure Dans la pratique réelle, on procède à différents essais avant de se fixer sur un résultat satisfaisant. On ne les montrera pas ici, ils relèvent d’une initiation à la manipulation du logiciel. Le logiciel propose des systèmes de coupure automatique sur différents critères. Au départ le classement arborescent des séquences est complet : dans notre exemple, c’est un arbre qui a 344 feuilles. Chaque élément de l’arbre qui n’est pas une feuille est un nœud. Un nœud a pour caractéristiques la somme de celles des feuilles qu’il porte. De chaque nœud sortent deux branches, et ainsi de suite jusqu’aux feuilles. Comme toutes les feuilles rattachées à un nœud n’ont pas exactement les mêmes valeurs pour les différents paramètres qui les caractérisent (des densités cumulées d’apparition des différents états), l’hétérogénéité d’un nœud se manifeste par le fait qu’il possède une variance non nulle. La notion de variance est ici proche de la mesure de dispersion (le carré de l’écart-type) bien connue dans la description d’une distribution métrique (histogramme, moyenne, etc.). Elle est ici étendue à la prise en compte simultanée de plusieurs variables métriques (les densités). On rappelle la notion de variation, qui est égale à la variance multipliée par l’effectif (le nombre de feuilles), ou, si l’on préfère, on définit la variation comme la somme des carrés des différences sur les métriques, et la variance comme la variation moyenne (ramenée au sujet-type). La variation est similaire au concept physique d’inertie d’un corps. La méthode de décomposition automatique utilisée par le logiciel est la suivante :

- on ne montre d’abord que le nœud principal, la racine, qui rassemble toute les feuilles, - tant qu’on ne montre pas encore le nombre de nœuds souhaité, on considère le nœud le

plus « gros », et on le décompose en montrant les deux nœuds correspondant à ses deux branches.

Le critère précise ce veut dire « gros ». Ce peut être le plus nombreux (effectif), celui qui possède la plus grande inertie (variation), le plus hétérogène (variance). L’utilisateur peut ensuite intervenir manuellement : cliquer dans l’arborescence sur un nœud fermé l’ouvre, cliquer sur un nœud ouvert le ferme. En effet les classifications automatiques ne sont pas nécessairement satisfaisantes, et l’homogénéité, par exemple, doit à un moment donné du travail céder le pas à l’intelligibilité : autrement dit, c’est la capacité où l’on sera de nommer les classes et de les commenter qui fait leur intérêt. On dispose aussi de diverses variantes dans la présentation des résultats, qui sont d’un intérêt secondaire et ne seront pas déraillées ici. Après un certain nombre d’essais, l’utilisateur se satisfait de la coupure ci-après.

Page 12: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 12 / 22

Etape n°5 : Création d’une variable typologique (première itération) Les choix de l’étape n°4 ont conduit au diagramme suivant :

c chômage l libre p partiel w emploi E études M études+partiel S études+travail

travetu.txt344 séquencesCoupure manuellelissage +/- 1ordre localST majoritaire

c1 : M4 n=31

EM2S n=67

c2 : E2S3 n=36

E3w6 n=137

c3 : E3w11 n=70

E6 n=344

c4 : E3M2 n=59

E4 n=207

c5 : E3 n=148

L’interprétation d’un tel diagramme prend en compte les points suivants :

- L’élément le plus à gauche est la racine, elle se dédouble en deux nœuds qui se dédoublent à leur tour jusqu’aux nœuds-classes, derniers nœuds visibles sur la droite.

- Chaque élément comporte une partie graphique, la vignette, et une partie texte - La partie texte comporte la séquence-type, résumé caractéristique des séquences

contenues dans l’élément, et la mention du nombre de séquences (n= ). Les nœuds-classes portent également mention de leur numéro.

Vignette et séquence-type sont deux méthodes de résumé de la composition d’un élément. La vignette a une hauteur arbitraire qui est la même pour tous les éléments et dépend du nombre de vignettes à placer dans la page. La vignette est découpée en autant de bandes verticales que le résumé comporte d’états successifs (c’est la moyenne de la longueur en nombre d’états des séquences contenues). Chaque bande représente donc une unité de succession (éventuellement de temps ; ici, un an). Dans chaque bande verticale, des zones de couleur affichent une épaisseur proportionnelle à la densité moyenne de l’état correspondant dans cette position. L’ordre des couleurs, de haut en bas, est celui de la position de gauche à

Page 13: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 13 / 22

droite de leur centre de gravité. Ceci assure la continuité des bandes de couleurs (l’effet berlingot) et suggère une lecture des vignettes de Nord-Ouest vers Sud-Est. La séquence type, selon le format utilisé dans cet exemple (d’autres formats sont disponibles, mais on n’en discutera pas ici), est constituée d’une série de symboles de même longueur que la vignette, chaque symbole correspondant à l’état qui est majoritaire dans la bande verticale associée (la période correspondante). Sun un même état apparaît plusieurs fois de suite, il est écrit une seule fois mais suivi du nombre de ses apparitions successives : E4 équivaut à EEEE. Muni de ces indications, on peut essayer d’interpréter le diagramme :

- ce sont évidemment les classes, à droite de l’arborescence, qu’il est utile de commenter, puisque les autres nœuds en sont des regroupements

- la classe c1 : M4, 31 sujets, comporte majoritairement 4 périodes de type études avec travail à temps partiel. On note des traces minoritaires d’études seulement en début et d’études avec travail plein temps en fin.

- La classe c2 : E2S3, 36 sujets, est résumée par une phase initiale d’études à plein temps pendant deux années en moyenne, suivie de trois années en moyenne de combinaison études et travail à plein temps.

- La classe c3 : E3w11, 70 sujets, montre en moyenne 3 ans d’études suivies d’une carrière professionnelle à plein temps de 11 années en moyenne. La veine verte, qui caractérise une interruption des études comme du travail peut représenter des arrêts pour élever un enfant.

- La classe c4 : E3M2, 59 sujets, montre un début de 3 années d’études, suivi de deux années majoritairement marquées par les études et le travail à temps partiel. Cependant, la présence de plusieurs veines fines et variées en fin de vignette atteste de la relative diversité de ces fins de séquence.

- La classe c5 ; E3, 148 sujets, représente, à d’infimes traces près, un ensemble d’itinéraires simples constitués en moyenne de 3 années consécutives d’études à plein temps.

Le logiciel propose en outre une aide à l’interprétation :

Contribution des états et des groupes à la variation +------M4 c1 +------EM2S | | M S | | 61% 37% | +------E2S3 c2 +------E3w6 | | w M S | | 62% 26% 12% | +------E3w11 c3 E6 | w E | 18% 72% | +------E3M2 c4 +------E4 | E M | 78% 16% +------E3 c5

Ce schéma reproduit de manière plus rustique le diagramme arborescent, en ajoutant l’information suivante : à chaque bifurcation, la variation qui la justifie est décomposée selon les contributions des différents états (et des groupes quand il y en a). Ainsi, en bas du schéma,

Page 14: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 14 / 22

la bifurcation qui sépare la classe 4 E3M2 de la classe 5 E3 est-elle due pour 78% aux différences de densité et de position sur E et pour 16% aux différences de densité et de position sur M. Dans la classe 4, E est proportionnellement moins abondant que dans la classe 5, puisqu’il partage la place avec M ; de plus, il est concentré dans c4 en début de parcours, tandis qu’en c5 il occupe tout l’espace. M est présent en fin de c4 et absent de c5. De telles considérations peuvent aider à comprendre ce qui oppose et donc caractérise les classes produites par l’analyse, et permet de leur donner un nom, étape indispensable à l’utilisation ultérieure de la variable typologique. Comme ces noms de classe seront les valeurs d’une variable nominale dans la section classique du logiciel, ils en subissent les contraintes (10 caractères au maximum) ; c’est dire que trouver des noms à la fois évocateurs et brefs peut requérir une certaine dextérité. On propose donc ici les dénominations suivantes :

- c1 M4, dominé par la combinaison des études et du travail à temps partiel, reçoit le nom de partiel

- c2 E2S3, avec deux années d’études suivies de trois ans de salariat plein temps en même temps que les études, sera nommé E+salarié

- c3 E3w11, caractérisé par une longue période de travail à plein temps sans études, après une période initiale d’études de durée variable, est nommé carrière

- c4 E3M2 montre un début de trois ans d’études, suivis d’un ensemble diversifié, et sera pour cela appelé E+complexe (longueur maximale pour un nom)

- c5 E3, trois années d’études sans variation, portera le nom de linéaire Quant à la variable typologique, on la renommera Trav Etu Seq a 5, pour « Typologie en cinq classes ‘a’ par analyse des séquences sur les données de travail et d’études ». Avant de réemployer cette variable dans un traitement classique, on va d’abord réitérer l’étape 3, pour proposer un exemple d’analyse alternative.

Page 15: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 15 / 22

Etape n°3 : Action sur la structure des données (seconde itération) Le motif de cette seconde itération est l’ensemble de remarques suivantes :

- on ne sait pas réellement de quoi est fait l’état l libre ; il vaudrait donc mieux qu’il ne joue aucun rôle dans le calcul de la variation et donc dans le mécanisme de discrimination entre les séquences

- on aimerait vérifier si le chômage peut jouer un rôle plus important dans la description de ces itinéraires travail-études, et pour le mettre en évidence, on souhaite augmenter son influence et par là sa visibilité

- l’ensemble des états comportant des études, EMS, devrait pouvoir être plus différencié à l’externe (par opposition aux états sans études) qu’à l’interne (entre états de cet ensemble) ; autrement dit, une opposition entre E et M doit peser moins qu’une opposition entre E et w ; symétriquement, une disposition similaire doit concerner l’ensemble pw.

Le logiciel propose un mécanisme rustique mais efficace pour satisfaire de tels besoins : celui des pondérations. Au départ, tous les états pèsent d’un même poids : leur contribution à la variation n’est affectée d’aucun coefficient (ce qui équivaut à des coefficients 1). On peut décider d’affecter un autre coefficient à un état, soit moindre (0) pour diminuer son influence, soit supérieur (une valeur entière quelconque > 1) pour l’augmenter. On peut aussi constituer des groupes et leur donner un poids. De cette manière, outre leur infuence individuelle, les états exerceront une influence collective indifférenciée. Ainsi, avec un groupe EMS, deux séquences saturées respectivement en E et en w seront différenciées plus nettement que deux séquences saturées respectivement en E et en M : dans le premier cas les influences individuelles et collectives auront joué à la fois, tandis que dans le second seules auront joué les influences individuelles, les différences collectives n’existant pas puisque les états appartiennent au même groupe. On choisit donc ici, pour satisfaire les besoins exprimés plus haut, les pondérations suivantes :

- 0 pour l’état l - 7 pour l’état c - 2 pour un group EMS - 2 pour un groupe pw

Au passage, on établit également un système de couleurs qui paraît plus approprié (mais l’auteur doit admettre que c’est assez subjectif). Etape 4 : essais de coupure S’agissant de pondérations relativement grossières essentiellement destinées à mettre en évidence les effets de ce genre de réglage, on se contente d’une classification à quatre classes très contrastées, et pour cette raison faciles à commenter.

Page 16: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 16 / 22

Etape n°5 : Création d’une variable typologique (deuxième itération)

c chômage x7 l libre x0 p partiel w emploi E études M études+partiel S études+travail

travetu.txt344 séquencesGroupes : EMS 2 pw 2Coupure manuellelissage +/- 1ordre localST majoritaire

c1 : E3 n=182

E6 n=344

c2 : EM2S n=69

E3w6 n=162

c3 : E3w5 n=27

E3w9 n=93

c4 : E4w10 n=66

Contribution des états et des groupes à la variation +------E3 c1 E6 | E EMS pw | 38% 27% 22% | +------EM2S c2 +------E3w6 | w EMS pw | 14% 40% 33% | +------E3w5 c3 +------E3w9 | c w pw | 13% 31% 47% +------E4w10 c4

L’état de chômage ne parvient pas à imposer la présence du caractère c dans la séquence-type de la classe 3, à cause de l’effet majoritaire : largement présent sur plusieurs années, il n’est majoritaire sur aucune. Cependant, la lecture du schéma des contributions à la variation montre qu’il contribue pour 13% à la différenciation de c3 et de c4. C’est là un effet assez

Page 17: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 17 / 22

modeste, mais on a aussi pondéré les groupes EMS et pw, qui emportent de grosses parts de la variation : peut-être a-t-on manipulé trop de réglages en même temps. Cependant la lecture et la dénomination d’un système aussi simple de cas s’en trouve facilitée :

- c1 E3, 182 sujets comporte majoritairement des itinéraires d’étudiants purs sur trois années en moyenne, avec en faible proportion un peu de travail en dernière année : on nommera cette classe étudiant

- c2 EM2S, 69 sujets, suggère des itinéraires où les études à plein temps, brièvement entamées, le cèdent aux impératifs de survie économique avec deux années d’études combinées à un travail à temps partiel, puis encore une dégradation des conditions d’études avec une année d’études combinées à un travail à temps plein : c’est le modèle de l’étudiant-salarié, qu’on nommera donc EtuSalarié

- c3 E3w5, 27 sujets, peut se décrire majoritairement comme deux années d’études suivies d’un début de carrière de cinq années de travail à temps plein. Toutefois, l’étude de la vignette met en évidence que la transition des études au travail ne se fait pas sans accidents, comme en témoignent deux veines, noire pour le chômage et grise pour le temps « libre ». On nommera donc cette classe ruptures. On note au passage que même avec un coefficient nul pour l’état l, on ne peut annihiler totalement son influence indirecte, simplement due au fait que là où apparaît cet état, il empêche les autres d’être présents.

- c4 E4w10, 66 sujets, montre une carrière de 10 ans de travail à temps plein après 4 années en moyenne d’études initiales ; comme ces itinéraires précèdent immédiatement l’inscription en licence de sciences de l’éducation, on relève ici l’effet de reprise d’études après une insertion professionnelle significative, et on baptise la classe reprise

On crée donc la nouvelle variable typologique, qu’on appelle Trav Etu Seq b 4, pour « Typologie en quatre classes ‘b’ par analyse des séquences sur les données de travail et d’études », et, dans la partie classique du logiciel, on remplace les noms de classe générés automatiquement par ceux qu’on a choisis.

Page 18: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 18 / 22

Etape n° 6 : réemploi des variables typographiques Une première vérification intéressante consiste à croiser les deux typologies générées par l’analyse des séquences : (Trav Etu Seq a 5) × (Trav Etu Seq b 4) N %L +

étudiant

étuSalarié

ruptures

reprise

S/LIGNE :

partiel

---

30 97% +++

1 3%

---

31 100%

E+Salarié

1 3% ---

32 89% +++

3 8%

---

36 100%

carrière

---

1 1% ---

15 21% +++

54 77% +++

70 100%

complexe

33 56%

6 10% --

8 14% +

12 20%

59 100%

linéaire

148 100% +++

---

---

---

148 100%

S/COLONNE:

182 53%

69 20%

27 8%

66 19%

344 100%

Khi2 = 411,43 pour 12 d.d.l. avec 3 correction(s) de Yates, s. à .01

La lecture du tableau met en évidence l’existence de « formes fortes », avec à la marge des ventilations différenciées. La pondération lourde de l’état « chômage » dans la version (b) trace de nouveaux découpages, et simultanément occulte des nuances que révélait la version (a). Ci-dessous, on croise la typologie (a) avec un échantillon de variables structurelles. (Trav Etu Seq a 5) × (Option en licence) N %L +

commEduc

didactiq

document

wSocSant

S/LIGNE :

partiel

3 10%

18 58%

10 32%

31 100%

E+Salarié

10 28% +++

16 44% -

2 6%

8 22%

36 100%

carrière

9 14%

28 43% ---

5 8%

23 35% ++

65 100%

complexe

1 2% ---

35 60%

4 7%

18 31%

58 100%

linéaire

17 12%

103 71% +++

3 2% -

23 16% ---

146 100%

S/COLONNE:

40 12%

200 60%

14 4%

82 24%

336 100%

Khi2 = 31,77 pour 12 d.d.l. avec 5 correction(s) de Yates, s. à .01

Il s’agit de l’option choisie dans la licence d’alors (5 unités de tronc commun, 3 unités optionnelles dont l’unité d’observation). (Trav Etu Seq a 5) × (5 Classes d'âge inégales) N %L +

19-21

22-23

24-26

27-34

35-50

S/LIGNE :

partiel

13 42% +

11 35%

5 16%

2 6%

--

31 100%

E+Salarié

5 14% -

11 31%

10 29%

9 26% ++

--

35 100%

carrière

---

1 1% ---

10 14%

24 34% +++

35 50% +++

70 100%

complexe

9 15% --

18 31%

22 37% +++

9 15%

1 2% --

59 100%

linéaire

67 45% +++

59 40% +++

20 14% --

2 1% ---

---

148 100%

S/COLONNE:

94 27%

100 29%

67 20%

46 13%

36 10%

343 100%

Khi2 = 215,84 pour 16 d.d.l. avec 2 correction(s) de Yates, s. à .01

Le lien des classes de la typologie avec les classes d’âge n’a rien de surprenant : il s’agit plutôt d’une vérification de la cohérence de l’ensemble.

Page 19: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 19 / 22

(Trav Etu Seq a 5) × (Discipline antérieure (réduite)) N %L +

lettres

scHumaines

sciences

technique

socSanté

diverse

S/LIGNE :

partiel

11 35%

10 32%

4 13%

1 3%

4 13%

1 3%

31 100%

E+Salarié

17 47% ++

12 33%

2 6%

1 3%

1 3% -

3 8%

36 100%

carrière

5 8% ---

5 8% ---

2 3% -

18 27% +++

19 29% +++

17 26% +++

66 100%

complexe

13 22%

15 25%

6 10%

11 19% +++

9 15%

5 8%

59 100%

linéaire

52 35% ++

63 43% +++

17 11%

---

8 5% ---

8 5% --

148 100%

S/COLONNE:

98 29%

105 31%

31 9%

31 9%

41 12%

34 10%

340 100%

Khi2 = 115,78 pour 20 d.d.l. avec 8 correction(s) de Yates, s. à .01

Il s’agit de la discipline du dernier diplôme obtenu avant l’arrivée en Sciences de l’Education. (Trav Etu Seq a 5) × (Accès (réduit)) N %L +

autre lic.

diplômePro

valAcquis

deug

S/LIGNE :

partiel

1 3%

5 16%

--

25 81% +++

31 100%

E+Salarié

3 8%

5 14%

1 3% -

27 75% ++

36 100%

carrière

---

26 38% +++

34 49% +++

9 13% ---

69 100%

complexe

8 14%

18 31% +++

6 10%

27 46% --

59 100%

linéaire

28 19% +++

8 5% ---

2 1% ---

110 74% +++

148 100%

S/COLONNE:

40 12%

62 18%

43 13%

198 58%

343 100%

Khi2 = 169,90 pour 12 d.d.l. avec 3 correction(s) de Yates, s. à .01

Ici, la modalité d’accès à la licence. Les [diplômePro] rassemblent BTS, DUT et diplômes professionnels de la santé, de la formation et du travail social. A noter l’incidence des [autre licence] dans la classe [linéaire] (près de 20% de cette classe). Jusque là, il s’agissait de variables structurelles décrivant la population. D’autres variables rendent plutôt compte des représentations de l’avenir, des projets, voire des attitudes à l’égard de la formation. (Trav Etu Seq a 5) × (d/IUFM PE projet) N %L +

DIufPePro-

DIufPePro+

S/LIGNE :

partiel

14 47%

16 53%

30 100%

E+Salarié

19 53%

17 47%

36 100%

carrière

44 73% +++

16 27% ---

60 100%

complexe

25 42%

34 58%

59 100%

linéaire

47 32% ---

98 68% +++

145 100%

S/COLONNE:

149 45%

181 55%

330 100%

Khi2 = 29,80 pour 4 d.d.l. , s. à .01

Sans surprise, les [linéaire] de la typologie (a) sont associés au choix préférentiel en faveur d’un projet IUFM-Prof des écoles (la variable est une dichotomie sur la médiane d’un valuateur sur ce thème).

Page 20: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 20 / 22

(Trav Etu Seq a 5) × (Licence probablement) N %L +

en Juin

septembre

an proch.

qui sait ?

S/LIGNE :

partiel

15 50%

8 27%

5 17%

2 7%

30 100%

E+Salarié

11 31% -

19 53% +++

3 8%

3 8%

36 100%

carrière

14 25% ---

16 29%

18 32% +++

8 14%

56 100%

complexe

18 31% --

21 36%

14 24% ++

5 9%

58 100%

linéaire

84 59% +++

33 23% --

6 4% ---

19 13%

142 100%

S/COLONNE:

142 44%

97 30%

46 14%

37 11%

322 100%

Khi2 = 54,15 pour 12 d.d.l. avec 3 correction(s) de Yates, s. à .01

Ici les enquêtés étaient invités à indiquer quand il était le plus probable qu’ils obtiennent la licence. Les stratégies sont ici clairement différenciées pour quatre des classes de la typologie (a). Enfin, deux échantillons parmi beaucoup d’autres des différenciations des classes sur des éléments relevant d’attitudes ou de représentation. (Trav Etu Seq a 5) × (d/+ de méthodes mieux) N %L +

D+DeMéMi-

D+DeMéMi+

S/LIGNE :

partiel

19 63%

11 37%

30 100%

E+Salarié

13 37% ---

22 63% +++

35 100%

carrière

29 46% --

34 54% ++

63 100%

complexe

41 69% +

18 31% -

59 100%

linéaire

90 63%

52 37%

142 100%

S/COLONNE:

192 58%

137 42%

329 100%

Khi2 = 15,21 pour 4 d.d.l. , s. à .01

Ici il s’agit de se prononcer plutôt en faveur (+) ou en défaveur (-) d’un renforcement des enseignements méthodologiques. (Trav Etu Seq a 5) × (d/langues vivantes mieux) N %L +

DLanVivMi-

DLanVivMi+

S/LIGNE :

partiel

17 57%

13 43%

30 100%

E+Salarié

20 57%

15 43%

35 100%

carrière

43 69% ++

19 31% --

62 100%

complexe

31 53%

28 47%

59 100%

linéaire

70 48% --

75 52% ++

145 100%

S/COLONNE:

181 55%

150 45%

331 100%

Khi2 = 8,03 pour 4 d.d.l. , s. à .10

Un dernier point, quasi anecdotique : les [linéaire], jeunes et placés dans une démarche de formation initiale, n’auraient rien contre un renforcement de l’enseignement des langues vivantes. Les [carrière], dont l’anglais est bien loin, préféreraient ne pas en entendre parler.

Page 21: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 21 / 22

Questions, enjeux, décisions Ici, une liste de quelques enjeux dont il serait intéressant de débattre : S’agit-il d’un modèle exploratoire, descriptif, inductif. Est-il utilisable dans une démarche hypothético-déductive ? Repérage d’une série de moments-clefs :

- la constitution des données et le choix des états pertinents. - la pondération des états et groupes, usages raisonnables et rééquilibrage de

l’hétérogénéité des états en niveau logique - le choix de la coupure : qu’est-ce qu’une typologie satisfaisante ? Deux facteurs :

intelligibilité et primauté du sens ; intérêt statistique. D’où le compromis en faveur de classes d’effectif assez important, descriptibles et différentiables dans la description.

La responsabilité du chercheur, qui dispose de moyens de réglage étendus. L’emploi d’une analyse des séquences sans retour à un corpus classique a-t-elle un intérêt pratique ? L’auteur en doute, mais il s’agit peut-être d’une adhérence à des modèles anciens.

Page 22: L’analyse des séquences - Freealain.dubus.r.et.d.free.fr/donnees exemples/une enquete... · 2011-01-24 · Cette approche est utilisée massivement par Claude-Alain Cardon dans

A. Dubus Analyse des séquences, Profeor 08/06/06 p. 22 / 22

Perspectives Cette technique ne peut évoluer qu’en réponse à des demandes concrètes. Le traitement d’itinéraires multidimensionnels pourrait progresser grâce au multiplexage. Exemple des itinéraires professionnels/médicaux. Donner à une des dimensions le statut de variable dépendante : c’est possible avec des pondérations nulles, si elles concernent des états en concurrence fermée (comme la fin des itinéraires professionnels de CAC , qui n’avaient pour issue que formateur de base ou cadre formateur). A cette condition, la technique pourrait devenir autonome dans une démarche inductive.