APPORTS ET LIMITES DE LA METHODE D’ANGOFF ET ......49 5.4.4 Possibilité de tester des améliorations du dispositif d’évaluation 49 5.5 Problèmes et limites du modèle de la

FIXER UN SEUIL DE REUSSITE

POUR UN TEST DE MAITRISE:

APPORTS ET LIMITES DE LA METHODE D’ANGOFF

ET DE LA GENERALISABILITE

D. Bain janvier 2018

C EQ:C CQ E:C

QEP:C

PE:C

PQ PC

P

Q

PCQ

Texte rédigé en hommage à

Jean Cardinet

Remerciements Cette recherche et sa publication1 n’auraient pu se faire sans la participation soutenue et amicale de plusieurs collègues; nous exprimons donc toute notre reconnaissance - au professeur Jean-Paul Bronckart pour la mise à disposition de l’épreuve de grammaire analysée et pour ses conseils judicieux ; - aux collègues et membres du groupe GRAFE’MAIRE, qui ont fonctionné comme experts évaluateurs dans la procédure d’Angoff : Ecaterina Bulea, son animatrice, Sandra Canelas Trevisi, Christopher Länzlinger, Anouk Darme, Jean-François de Pietro, Serge Erard, Roxane Gagnon, Martine Panchout-Dubois, Véronique Marmy Cusin, Vincent Capt ; - aux collègues et membres du Groupe Edumétrie qui nous ont appuyé par leurs remarques, critiques, conseils et suggestions tout au long de la recherche et de la rédaction du présent compte rendu : Weimar Agudelo, Marion Dutrevis, Dagmar Hexel, Gianreto Pini, Emiel Reith, Anne Soussi et Laura Weiss ; - et plus particulièrement à Gianreto Pini, dont la compétence, en matière de statistiques en général et de généralisabilité en particulier, a accompagné notre travail ainsi que la rédaction des chapitres relatifs à l’utilisation de ce modèle dans nos analyses Groupe Edumétrie – Qualité de l’évaluation en éducation

Société suisse pour la recherche en éducation (SSRE)

Site internet :

https://www.irdp.ch/institut/edumetrie-1635.html

1 Ce texte a fait l'objet d'une publication partielle dans la revue e-JIREF.

http://admee.ulg.ac.be/journal/index.php/ejiref/article/view/128/75

FIXER UN SEUIL DE REUSSITE POUR UN TEST DE MAITRISE

I

TABLE DES MATIÈRES

page Conseils de lecture 0. RÉSUMÉS 0.1 Résumé 0.2 Zusammenfassung 0.3 Summary

III IV V V

VI

1. INTRODUCTION : OBJECTIF ET OBJET DE LA RECHERCHE 1

1.1 Présentation de la recherche en résumé 1

1.2 Tests de maîtrise vs tests de niveau 2

1.3 De l’arbitraire des barèmes d’épreuves critériées : un problème d’arbitrage

4

1.3.1 Arbitraire et choix des questions 4

1.3.2 Arbitraire et fixation du seuil de réussite 5

2. LA MÉTHODE D’ANGOFF ET SON APPLICATION À UN EXAMEN DE GRAMMAIRE

9

2.1 Présentation de l’épreuve de grammaire 9

2.2 Fixation d’un seuil de réussite : choix de la méthode d’Angoff 10

2.3 Le choix des experts évaluateurs 11

2.4 La phase préparatoire 11

2.5 Première phase de la procédure d’Angoff 12

2.5.1 Présentation et discussion de la consigne 12 2.5.2 Récolte des données, traitement et présentation des résultats 14 2.5.3 Feed-back normatif et discussion des résultats par les experts 16

2.6 Seconde phase de la procédure 17 2.6.1 Seconde estimation des items 17 2.6.2 Analyse descriptive et commentaire des résultats 17 2.6.3 Renoncement à une troisième étape, aux informations dites de réalité et d’impact

19

3. ÉTUDES DE GÉNÉRALISABILITÉ SUR L’ENSEMBLE DU DISPOSITIF D’ÉVALUATION

21

3.1 Présentation et modalités d’utilisation du modèle de la généralisabilité

21

3.2 Étude de généralisabilité sur l’ensemble du dispositif d’évaluation 21 3.2.1 Description des facteurs (facettes) entrant dans les études de généralisabilité et analyse de variance (ANOVA)

21


II

3.2.2 Étude de généralisabilité sur la différence entre les deux Phases : le niveau d’exigences augmente-il- vraiment ?

24

3.2.3 Étude de généralisabilité sur les deux Catégories d’Experts : l’origine institutionnelle des Experts influe-t-elle sur leurs estimations ?

25

3. 3 Études de généralisabilité analysant le fonctionnement de la Phase 2 (vs la Phase 1)

26

3.3.1 Étude de généralisabilité sur les Experts : peut-on attester des niveaux d’exigences très différents chez les dix Experts ?

26

3.3.2 Étude de généralisabilité sur les Questions : peut-on attester des niveaux d’exigences très différents selon les Questions ?

28

4. ESTIMER LA FIABILITÉ DU SEUIL DE RÉUSSITE FINAL 31

4.1 L’étude de généralisabilité sur un plan sans facette de différenciation : principe de l’analyse

31

4.2 Analyse et interprétation des résultats 31

4.3 Analyse des sources d’erreurs affectant le seuil de réussite 32

4.4 Intervalle de confiance et règles de décision 33

4.5 Fiabilité des résultats de l’analyse sur un plan sans facette de différenciation

34

4.6 Optimisation du dispositif d’évaluation 34 4.6 1 Optimiser en modifiant le nombre d’Experts 34 4.6.2 Optimiser en modifiant le nombre de Questions 36 4.6.3 Une autre solution : fixer la facette Questions ? 36

5. RÉSUMÉ, DISCUSSION ET CONCLUSION 39

5.1 De la généralisabilité de nos conclusions 39

5.2 Apports et avantages docimologiques de la méthode d’Angoff 40 5.2.1 Facilité (relative) d’application 40 5.2.2 Mise en évidence et contrôle de l’arbitraire des évaluations 40 5.2.3 Intérêt didactique d’une analyse question par question 41 5.3 Problèmes et limites de la méthode d’Angoff 42 5.3.1 Adaptation de l’épreuve à une analyse par la méthode d’Angoff 42 5.3.2 Recrutement et sélection des évaluateurs 42 5.3.3 Détermination du nombre d’experts à recruter 43 5.3.4 Difficulté de compréhension et d’application de la consigne 44 5.3.5 Temps nécessaire pour parcourir les étapes de la procédure 46 5.3.6 Efficacité relative et problèmes de la discussion interphase 46 5.3.7 Renonciation à une phase 3 de feed-back de réalité ou d’impact ? 47 5.4 Apports du modèle de la généralisabilité pour le traitement des données de la méthode d’Angoff

48


III

5.4.1 Analyse du fonctionnement de l’ensemble du dispositif 48 5.4.2 Calcul du seuil et de l’erreur type absolue sur le seuil 48 5.4.3 Estimation des différentes sources d’erreurs du dispositif d’évaluation

49

5.4.4 Possibilité de tester des améliorations du dispositif d’évaluation 49

5.5 Problèmes et limites du modèle de la généralisabilité 50 5.5.1 Exigence d’un plan équilibré 50 5.5.2 Même format des questions pour leur codification 50 5.5.3 Échantillonnage aléatoire des Experts et des Questions 50

5.6. En guise de conclusion 51

RÉFÉRENCES BIBLIOGRAPHIQUES 53

Conseils de lecture

Plusieurs lectures ou utilisations de la présente brochure sont possibles. Elles passeront d’abord par la lecture du résumé de la page IV, V ou VI.

Nous conseillons au lecteur pressé qui veut avoir une première information sur les apports et les limites de la méthode d’Angoff et/ou de la généralisabilité de lire en premier lieu dans l’introduction (chapitre 1) les raisons de s’intéresser à ces deux approches dans le cas d’un test de maîtrise. Il passera ensuite au chapitre 5 pour une présentation résumée et critique de la procédure d’Angoff et du traitement statistique de ses résultats par le modèle de la généralisabilité. Il pourra revenir sur tel ou tel sujet en consultant la table des matières ci-dessus.

Pour le chercheur qui souhaiterait appliquer la méthode d’Angoff à certaines de ses évaluations, le chapitre 2 a été rédigé de façon à lui présenter pas à pas la procédure à suivre et les précautions à prendre, en l’exemplifiant à partir de l’analyse d’un examen universitaire de grammaire. Si ce lecteur dispose de la formation statistique nécessaire, et si possible d’une première information sur la généralisabilité, il trouvera dans les chapitres 3 et 4 des renseignements et des conseils sur la façon de contrôler la fiabilité de l’ensemble du dispositif de mesure et celle du seuil de réussite calculé à partir de la procédure d’Angoff. Dans certains cas, ce dernier type d’analyse pourrait être confié à un collègue spécialiste des traitements statistiques. Le chapitre 5 est conçu pour permettre au chercheur de prendre une certaine distance critique par rapport aux deux approches décrites dans les chapitres précédents ; il rend en outre hommage à Jean Cardinet à l’origine de la recherche dont nous rendons compte ici.


IV

0. RÉSUMÉS

0.1 Résumé

FIXER UN SEUIL DE RÉUSSITE POUR UN TEST DE MAÎTRISE : APPORTS ET LIMITES DE LA MÉTHODE D’ANGOFF ET DE LA

GÉNÉRALISABILITÉ

La recherche dont nous rendons compte se situe dans le cadre de l’édumétrie, de la mesure des apprentissages scolaires. Lorsqu’on recourt à des tests critériés (criterion referenced tests), un des problèmes qui se posent de façon cruciale est l’élaboration d’un barème, et plus particulièrement la fixation d’un seuil de réussite (de maîtrise, de passage ou de suffisance) sur l’échelle de l’épreuve. Les pratiques observées laissent soupçonner une bonne part d’arbitraire dans la détermination de seuils ou de standards, y compris pour des contrôles à enjeux élevés. Pour diminuer cet arbitraire, la méthode d’Angoff modifiée demande à un panel d’experts d’estimer item par item la probabilité de réussite d’apprenants « minimalement compétents » (juste suffisants). La moyenne de toutes ces estimations fournit le seuil de réussite recherché. La procédure se déroule en deux ou trois étapes (rounds) entre lesquelles les experts reçoivent différentes informations et s’efforcent, lors de la discussion, de diminuer leurs divergences d’estimation.

Pour tester les apports, les problèmes et les limites de cette méthode, nous l’avons appliquée à un examen de grammaire passé par une centaine de futurs instituteurs à la fin de leur formation universitaire. Le panel des experts était constitué de dix formateurs universitaires en didactique de la grammaire. Conformément à la méthode, le seuil final a été calculé à partir de la moyenne des estimations des dix experts en fin de procédure. En suivant une suggestion de Jean Cardinet (2014), nous avons en outre soumis nos données à une analyse de généralisabilité en recourant notamment à un plan de mesure sans facette de différenciation pour estimer la marge d’erreur sur le seuil final de réussite ainsi que les sources d’erreurs affectant cette estimation. Dans une discussion conclusive, à la lumière de notre expérience, nous faisons une analyse critique de la méthode d’Angoff et de l’utilisation de la généralisabilité à l’intention des chercheurs qui souhaiteraient les appliquer. Mots-clés Tests de maîtrise – tests à référence critériée – tests à enjeux élevés – fixation de standards – détermination d’un seuil ou standard de réussite – méthode d’Angoff modifiée – théorie de la généralisabilité – marge d’erreur.

Pour citer cet article : Bain, D. & Groupe Edumétrie (2018). Fixer un seuil de réussite pour un test de maîtrise : apports et limites de la méthode d’Angoff et de la généralisabilité. Genève : Société Suisse de recherche en éducation, Groupe Edumétrie – Qualité de l’évaluation en éducation.

Téléchargeable sur le site internet : https://www.irdp.ch/institut/edumetrie-1635.html


V


VI

0.2 Zusammenfassung

FESTLEGUNG EINER ERFOLGSSCHWELLE FÜR EINEN MASTERY TEST: BEITRAG UND GRENZEN DER ANGOFF METHODE UND DER

GENERALISIERBARKEITSANALYSE

Dieser Forschungsbericht gehört in den Bereich der Edumetrie, der Messung von Lern-ergebnissen. Das entscheidende Problem, das bei Kriterien-Referenz-Test auftritt, liegt in der Festlegung von verschiedenen Standards, insbesondere in der Bestimmung eines Mindest-standards auf der Testskala. Beobachtete Praktiken lassen einen guten Anteil an willkürlichen Entscheidungen bei der Festlegung von Grenzwerten und Standards vermuten, selbst bei sogenannten High-Stake-Tests. Um diese Willkür zu vermindern, schlägt die Angoff Methode (modifizierte Methode) vor, die Testfragen einer Gruppe von Experten zu unterbreiten, deren Mitglieder dann gebeten werden, Item für Item, die Erfolgswahrscheinlichkeit « minimal kompetenter » (gerade noch akzeptabler) Kandidaten einzuschätzen. Der Durchschnitt aller dieser Einschätzungen entspricht der gesuchten Erfolgsschwelle. Das Verfahren läuft in zwei oder drei Runden (rounds) ab, wobei die Experten zwischen den Runden verschiedene Informationen erhalten. Diskrepanzen in den Einschätzungen werden diskutiert, mit dem Ziel, einen Konsens zu finden. Um den Nutzen, die Probleme und Grenzen dieser Methode zu testen, haben wir sie auf ein Grammatikexamen angewandt, das von ungefähr hundert zukünftigen Primalehrern am Ende ihrer universitären Ausbildung abgelegt wurde. Die Expertenkommission bestand aus zehn universitären Ausbildern in Grammatikdidaktik. Im Einklang mit der Methode diente der Mittelwert der Einschätzungen der zehn Experten am Ende des Verfahrens zum Errechnen der Erfolgsschwelle (cut score/passing score). Wir haben den Vorschlag von Jean Cardinet (2014) aufgenommen und unsere Daten einer Generalisierbarkeitsanalyse unterzogen, insbesondere mit dem Messplan ohne Differenzierungsfacetten. Die Analyse ermöglicht, die statistische Zufallsschwankungen um die festgelegte Erfolgsschwelle zu ermitteln, sowie die Fehlerkomponenten, welche die Einschätzungen beeinträchtigen. In einer Schlussbesprechung – im Licht unserer Erfahrung – unterziehen wir die Angoff Methode sowie die Nutzung des Generalisierbarkeitsmodells einer kritischen Analyse in Hinblick auf ihren künftigen Einsatz in der Bildungsforschung. Schlüsselwörter Meisterschaftstest – Kriterien-Referenz-Test – High-Stake Tests – Bildungsstandardfestlegung – Erfolgsschwelle – modifizierte Angoff Methode - Generalisierbarkeitsmodel


VII

0.3 Summary

SETTING A PASSING SCORE FOR A MASTERY TEST: BENEFIT AND LIMITS OF THE ANGOFF METHOD AND OF THE GENERALIZABILITY THEORY.

The research reported here belongs to the domain of edumetrics, the measurement of learning outcomes. Whenever we use criterion-referenced tests, one of the crucial problems is to set various standards of achievement and, more particularly, to determine a passing score or cut score on the test scale. The observed practices suggest a significant part of arbitrary decisions when it comes to set thresholds or standards, including for high-stakes assessments. To reduce arbitrary decisions, the modified Angoff method asks a panel of experts to estimate, item by item, the probability of success of a “minimally competent examinee” (just sufficient). The averaging of all these ratings generates the recommended passing score. The procedure is conducted in two or three rounds. The experts receive different types of information between each round and then, through discussion, endeavour to reduce rating discrepancies. In order to test the interest, the problems and limits of this method, we have applied it to a grammar exam given to roughly a hundred future primary school teachers at the end of their academic studies. The expert panel was composed of ten university teachers in the field of grammar didactics. According to the method, the final passing score was set using the mean of the estimates by all ten experts at the end of the procedure. Following a suggestion by Jean Cardinet (2014), we have furthermore run a generalizability analysis on our data, particularly using a measurement design with no differentiation facet in order to estimate the margin of error on the final passing score, as well as the sources of errors affecting this estimation. In a conclusive discussion – in light of our experience – we develop a critical analysis of the Angoff method as well as the use of the generalizability theory, aimed at researchers intending to experiment these approaches.

Key-words

Criterion-referenced tests – high-stakes testing – standard setting – passing score – modified Angoff method – generalizability theory – margin of error


1

1. INTRODUCTION : OBJECTIF ET OBJET DE LA RECHERCHE

Nous entendons […] par standard une série d’inventaires répertoriant – sous forme de compétences observables et mesurables – les niveaux de maîtrise de contenus disciplinaires qui doivent avoir été atteints par les élèves aux moments-clés du curriculum. Barbana, Dellisse, Dumay & Dupriez, 2016, p. 3.

1.1 Présentation de la recherche en résumé

La recherche dont nous rendons compte dans le présent article avait pour but de répondre aux questions suivantes : dans le cas d’une épreuve sommative à référence critériée, dite de maîtrise, ayant pour objectif de contrôler les acquis d’un cycle d’apprentissage, comment fixer le seuil de réussite (seuil maîtrise, de passage, de suffisance2 ; mastery score, passing score, cut-score), en particulier lorsque le contrôle est à enjeux élevés (high stakes testing) ? Comment réduire l’arbitraire qui préside trop souvent à la construction du barème ? Quel peut être l’apport de la méthode d’Angoff (Cizek & Bunch, 2007) à ce propos, quels en sont les avantages et les problèmes ? Comment contrôler le fonctionnement du dispositif d’évaluation mis en place, l’impact des différents facteurs qu’il comporte et notamment comment vérifier la fiabilité du seuil estimé par la méthode d’Angoff. Dans ces différents buts, quel est l’intérêt de recourir au modèle de la généralisabilité ? (Cardinet, Johnson & Pini, 2010). Quels sont aussi les problèmes et les limites à la fois de la méthode d’Angoff et du modèle de la généralisabilité dans leur application sur le terrain.

Recourant à une étude de cas, nous avons appliqué la méthode d’Angoff à un examen de grammaire passé à la fin d’études universitaires (master) par de futurs instituteurs et institutrices. Conformément à la procédure préconisée par cette méthode, dix juges (raters), experts en didactique de la grammaire, ont été priés d’estimer pour chaque question de l’épreuve, quelle serait la probabilité de réussite d’étudiants à la limite du suffisant (borderlines). Une première étape permet aux experts de se concerter pour ajuster éventuellement leurs évaluations et diminuer leurs divergences lors de la seconde étape. Cette dernière aboutit finalement au calcul d’une moyenne des évaluations par questions fournies par les dix juges ; celle-ci représente le seuil de réussite visé. L’estimation de l’écart type d’erreur sur cette moyenne constitue un indice statistique de la fiabilité du seuil : plus l’erreur est faible, plus fiable est le seuil ainsi proposé.

Pour ne pas alourdir ce texte et illustrer concrètement l’application de la méthode d’Angoff, nous recourrons à notre exemple de l’examen de grammaire pour présenter l’ensemble des opérations avec leurs résultats ainsi que les décisions et problèmes qu’elles impliquent. Nous ferons de même en ce qui concerne l’utilisation de la théorie de la généralisabilité. Dans une partie conclusive, nous discuterons les avantages et les limites de la méthode d’Angoff et du recours à la généralisabilité.

2 Le terme de seuil de suffisance est souvent utilisé en Suisse romande, suffisance correspondant dans de cas à un usage ancien ou régional (Petit Robert dixit) et signifie « Quantité suffisante (à qqn) ».


2

Avant de présenter le principe et le déroulement de notre recherche, nous devons d’abord, dans les pages qui suivent, apporter des précisions relatives à notre objet de recherche : les épreuves de maîtrise et l’examen de grammaire utilisé à titre d’exemplification ; pour justifier ensuite le qualificatif d’arbitraire attribué aux barèmes de ce type de contrôle.

1.2 Tests de maîtrise vs tests de niveau

L’examen que nous utiliserons comme fil rouge pour l’illustration de la méthode d’Angoff se présentait comme un test de maîtrise de type sommatif et certificatif. Précisons donc ce que nous entendons par test de maîtrise en reprenant la définition de Cardinet et Tourneur (1985, p. 252) avant de décrire les modalités et le contenu de l’examen lui-même.

« Un test de maîtrise possède les propriétés suivantes :

1. Au contraire des tests classiques, la performance d’un étudiant n’est pas située par rapport à une performance moyenne d’un groupe qui sert de référence ; elle est comparée à un seuil absolu de réussite dans un univers de tâches. 2. L’univers doit être suffisamment bien défini pour qu’on puisse en extraire un échantillon aléatoire de tâches ou d’items, et surtout donner une définition précise à la performance qui est observée. Le modèle statistique que nous utilisons [dans les analyses de généralisabilité] (l’analyse de variance) ne suppose pas l’homogénéité à l’intérieur de l’univers, mais seulement l’échantillonnage aléatoire des items.

3. L’intérêt de l’examinateur étant de savoir si le score univers de l’étudiant (le score que ce dernier obtiendrait si, au lieu d’aborder un échantillon d’items, il abordait tous les items de l’univers d’items) est situé au-dessus ou en dessous du critère de maîtrise C, la performance de l’étudiant n’a d’intérêt que dans la mesure où elle permet d’estimer le score univers (ou score vrai). »

Dans le présent texte, nous considérerons plus particulièrement les épreuves estimant l’état des connaissances ou des compétences des apprenants à la fin d’une des étapes de la formation et se présentant comme des tests de maîtrise. Nous aurons en tête plus spécifiquement les contrôles sommatifs et certificatifs à enjeux élevés passés à une étape cruciale de cette formation où une décision importante doit être prise qui engage la suite de la carrière scolaire ou professionnelle de l’apprenant ou une modification éventuelle du curriculum.

Dans la conception que nous nous donnons du test de maîtrise, celui-ci devrait alors avoir en principe les caractéristiques suivantes : - en tant qu’épreuve sommative et certificative, porter strictement sur les acquis d’apprentissage (learning outcomes)3 qui ont fait l’objet, sous une forme ou sous une autre, d’un contrat pédagogique entre l’enseignant et ses élèves ; concerner exclusivement les connaissances ou compétences qui ont été enseignées ou entraînées, à l’exclusion par exemple de questions dites d’aptitudes ou destinées à distinguer - voire sélectionner- les meilleurs candidats ;

3 Sur ce concept, cf. notamment D’Hoop, Lemenu, Malhomme, & Coupremanne, M. (2012).


3

- comporter une échelle d’évaluation critèriée4, souvent en pourcents de réussite.

Nous distinguerons deux types de contrôles de maîtrise selon qu’ils se situent - sur le plan individuel, à la fin d’une étape de la formation des apprenants, caractérisant les résultats de chacun d’entre eux, généralement en prévision de l’accès à l’étape suivante, parfois comme condition à cet accès ; on peut citer à titre d’exemples les examens de fin d’études, secondaires ou universitaires, ou, pour la Suisse romande, les épreuves cantonales dites de référence (ou épreuves communes) recensant périodiquement les connaissances et compétences des élèves à des étapes clés de la scolarité obligatoire (IRDP, 2015a) ; - sur le plan collectif ou institutionnel, les enquêtes visant à établir un bilan des acquis d’un ensemble d’apprenants à l’intention des autorités scolaires ou politiques à des fins de « rendre compte » (accountability) et pour contribuer au monitorage du système scolaire. On peut citer à ce sujet les épreuves romandes communes à l'Espace romand de la formation (EpRoCom ; Marc & Wirthner, 2012 et 2013)5 ainsi que les contrôles prévus par le concordat HarmoS pour vérifier les objectifs ou standards nationaux de formation pour la scolarité obligatoire (CDIP, 2007). On retrouve des épreuves de mêmes types, à certaines variantes près, en Belgique, en France ou au Canada (cf. Yerly, 2014, chap. 4).

Si l’enseignement a été donné et reçu dans de bonnes conditions, le degré de réussite attendu de chaque question d’un test de maîtrise devrait être relativement homogène, dans l’idéal pas trop éloigné de 100%, et la distribution des scores de type courbe en J. Le standard de performance défini prioritairement est un seuil de réussite (dit de maîtrise, de passage, ou de suffisance selon le cas ou le contexte) pour distinguer dichotomiquement échecs et réussites. Les différents échelons de l’échelle considérée sont généralement définis subsidiairement (souvent en notes) à partir de ce point de repère.

Il est important pour la suite de notre propos de distinguer tests de maîtrise et tests de niveau (Cardinet, 1972). Souvent de type critérié eux aussi, ces derniers visent à distinguer différents degrés de performances, généralement en vue d’une orientation dans une filière de formation (cours à niveau, section), ou dans le cas où tel standard (autre que la simple réussite) est exigé pour l’accès à une formation. On peut citer, parmi d’autres à titre d’exemples, sur le plan individuel, les tests situant le niveau de compétence linguistique (de A1 à C2) des apprenants par rapport au Cadre européen de référence pour l’enseignement des langues (COE, 2017) ou, sur le plan collectif, les enquêtes PISA (Programme international pour le suivi des acquis des élèves)6, avec ses 6 niveaux de compétences. D’un point de vue docimologique, ces tests de niveau (de compétence, de performance) se caractérisent, par construction, par toute une gamme de questions de difficultés différentes, ajustées aux différentes orientations visées et aux exigences correspondantes en termes de connaissances et de compétences. La distribution des résultats attendue devrait en principe prendre la forme d’une courbe de Gauss faiblement 4 vs normative comme dans les tests psychologiques (échelles en déciles, centiles, rangs sur cent, stanines…). 5 Cf. l’article 15, al.1 de la Convention scolaire romande (CIIP, 2007) : 1 La CIIP organise des épreuves romandes communes à l'Espace romand de la formation, en vue de vérifier l'atteinte des objectifs du plan d'études. CIIP : Conférence intercantonale de l'instruction publique de la Suisse romande et du Tessin. 6 Cf. http://www.oecd.org/pisa/ Noter que ces tests ne se réfèrent pas spécifiquement aux plans d’études nationaux.

http://www.oecd.org/pisa/


4

acuminée et ces contrôles impliquent la fixation de différents seuils ou standards correspondant aux catégories de performance ou aux orientations envisagées. Comme Kane (1994), nous distinguerons donc score de passage (passing score) ou de réussite (cut-score), et standard de performance (performance standard). Au niveau de leur conception même, on ne peut donc considérer le test de maîtrise comme un cas particulier du test de niveau ne comportant que deux niveaux (suffisant – insuffisant) ; le degré de dispersion attendu des scores distingue clairement les deux types de contrôle.

Dans ce qui suit, nous ne traiterons pas spécifiquement des tests de niveau ; nous y ferons cependant allusion, à l’occasion, à titre de contraste avec les tests de maîtrise.

1.3 De l’arbitraire des barèmes d’épreuves critériées : un problème d’arbitrage

An absolute [criterion based] standard determines the pass/fail outcome by how well a candidate performs and he/she is usually judged against an arbitrarily set external standard. Hence it is independent of the performance of the group. George, Haque & Oyebode, 2006, p.1.

Les barèmes des épreuves qui nous intéressent – et les standards qui y sont fixés – sont en principe le résultat d’un arbitrage, d’une décision prise par un ou plusieurs arbitres sur la base d’informations et de critères divers. Ce sont alors les modalités de cet arbitrage qui importent pour porter un jugement éventuel sur l’adéquation du barème à la décision à prendre et sur son degré d’arbitraire, au sens courant et connoté négativement de ce terme. Cet arbitraire s’exerce à différentes étapes du processus complexe d’évaluation des apprentissages, mais nous nous limiterons à deux phases, cruciales pour l’établissement des barèmes : le choix des questions et la fixation du seuil de réussite.

1.3.1 Arbitraire et choix des questions Dans le cas des tests de maîtrise tels que nous les entendons, le corpus des items – le 100% de réussite de l’échelle critériée – devrait correspondre à l’ensemble des connaissances et capacités dont on peut légitimement attendre l’acquisition si l’enseignement a été donné et reçu dans de bonnes conditions. L’arbitraire de ce choix est modéré si certaines conditions sont remplies : - s’il prend comme référentiel un plan d’études, mais celui-ci est rarement conçu à cet effet : généralement, il est insuffisamment précis pour permettre directement une opérationnalisation sous forme d’items (Marc & Wirthner, 2013) ; - s’il est fondé sur les propositions de plus d’un évaluateur, encore faut-il une procédure d’arbitrage pour gérer les divergences entre experts ; - si les épreuves ont fait l’objet d’essais préalables, mais les échantillons d’élèves utilisés sont souvent restreints et pas toujours représentatifs de la population visée.

En ce qui concerne les références des enseignants en matière d'évaluation, on peut citer, pour la Suisse romande, cette description proposée par l’Institut de recherche et de documentation pédagogique (IRDP, 2015b)7.

7 Cf. aussi IRDP, 2016 : La multiplicité des référentiels d'évaluation chez les enseignants : une réalité incontournable ?


5

« En Suisse romande, [ils] font appel à plusieurs référentiels lorsqu’ils évaluent, c’est-à-dire qu’ils se réfèrent à différents documents – romands, cantonaux, d’établissement, etc. – pour construire leurs évaluations et légitimer leurs pratiques. Dans les cours de formation continue notamment, les enseignants disent ne pas beaucoup consulter le plan d’études romand (PER), et lorsque ils s’y réfèrent, deux types de pratiques ont essentiellement été observées : 1) ils mettent en lien leurs pratiques avec des éléments présents dans le PER pour s’assurer d’être en règle ; 2) ils réinterprètent les objectifs du PER dans une perspective d’évaluation, réorganisent les contenus selon un découpage annuel, semestriel, voire périodique, en d’autres mots, ils créent leur propre référentiel d’évaluation. Par contre, les enseignants convoquent les moyens d’enseignement qui sont parfois mis en lien avec les contenus du PER dans une perspective de légitimation des pratiques. Aujourd’hui [en 2015], au niveau romand, rien n’est défini pour l’évaluation, mais la CIIP8 s’interroge sur la nécessité d’une plus grande harmonisation romande autour de l’évaluation. Si un concept d’évaluation romand devait voir le jour, il s’agirait avant tout de recommandations qui se mêleraient à des pratiques locales. »

Les enseignants romands élaborant des épreuves peuvent théoriquement se référer aux attentes fondamentales définies par le plan d’études romand (PER). Malheureusement, les seules indications données à ce sujet sont formulées de façon négative, en esquivant le problème : « Il ne saurait y avoir de liens univoques entre [les attentes fondamentales] et le seuil de suffisance (traduit en note). L'évaluation doit rester globale et porter sur l'ensemble des objets d'apprentissage. Il appartient alors à chaque enseignant-e de définir les critères d'évaluation et de se conformer aux directives cantonales relatives à l'évaluation du travail des élèves »9. Les intéressés sont ainsi abandonnés au milieu du gué.

Par ailleurs, comme le relevait déjà Cardinet en 1972, un des problèmes qui se posent couramment pour les tests de maîtrise, tient au fait que les concepteurs de ce type de contrôle se limitent rarement aux objectifs fondamentaux du plan d’études, légitimement exigibles des apprenants. Ils ajoutent souvent des questions plus difficiles, parfois de transfert ou d’aptitude, à l’intention des « bons élèves »10 ; en outre, ils craignent parfois qu’un test réduit aux fondamentaux ne donne une image insatisfaisante de leur enseignement.

1.3.2 Arbitraire et fixation du seuil de réussite

Cette tendance à confondre tests de maîtrise et tests de niveau fait problème lors de l’autre phase qui nous intéresse plus particulièrement ici : celle lors de laquelle sont fixés des standards sur l’échelle du test, et notamment le seuil de réussite ou de passage.

Une enquête sur la construction des barèmes critériés et des normes adoptées pour les épreuves à enjeux élevés se heurte d’emblée au fait que les instances qui en sont chargées ne livrent pas volontiers (litote !) des détails sur les procédures et critères adoptés de facto habituellement. Ceux-ci relèvent parfois de véritables recettes de cuisine, qu’on ne souhaite 8 Conférence intercantonale de l’instruction publique de Suisse romande et du Tessin. 9 cf. La Foire aux Questions du PER. https://www.plandetudes.ch/fr/evaluation-du-travail-des-eleves et tableau 1 supra. 10 Cf., par exemple, comment le Cycle d’orientation genevois (1974, p. 18) justifiait dans ses débuts la présence dans ses épreuves communes des questions les plus difficiles : « [Elles] permettent de distinguer les élèves les plus brillants qui méritent, eux aussi, qu’on s’occupe de leur cas ».

https://www.plandetudes.ch/fr/evaluation-du-travail-des-eleves


6

pas dévoiler dans leurs détails en évitant ainsi le danger de contestations. On trouve cependant dans certains documents officiels des indications sur les critères à considérer pour le seuil de réussite ; le tableau 1 nous en fournit un exemple. On peut douter que les enseignants – ainsi que les rédacteurs d’une épreuve de référence – puissent facilement prendre en compte et conjuguer les six critères mentionnés dans les instructions pour finalement anticiper un « seuil de réussite clairement défini », en évitant tout arbitraire. La réponse à une critique éventuelle au seuil fixé invoquera très probablement la compétence professionnelle de son ou de ses auteurs, sans écarter ainsi tout arbitraire comme on le verra dans ce qui suit.

Tableau 1 Indications relatives à la manière de fixer le seuil de réussite d'une activité-bilan au cycle moyen de l’enseignement primaire genevois (DIP, 2016, p. 24, extrait)

Signalons des pratiques fréquentes, observées par nous pendant plus de trois décennies en Suisse romande : elle consiste à considérer la distribution finale des résultats et à ajuster un barème jugé acceptable par les intéressés : élèves, parents, collègues, voire autorités scolaires et État. Par ailleurs, la fixation du seuil de réussite aux trois quarts ou aux deux tiers des points passe parfois pour une « bonne pratique », défendable face à des tiers. Une telle pratique est d’ailleurs critiquée dans les instructions reproduite dans le tableau 1.


7

Mentionnons en passant une pratique peu observée en Europe mais apparemment plus fréquente aux USA, sous l’influence probable de la psychométrie : elle consiste à fixer arbitrairement le seuil de passage à la moyenne des scores moins un écart type. Selon George et al. (2006), «although arbitrary, there is some consensus among educationalists to use mean minus 1.0 SD as the pass/fail cut-off score ». Pour notre part, nous n’avons pas observé un tel consensus parmi les pédagogues sous nos latitudes.

Signalons encore qu’à Genève, le contrat de prestation liant l’école et l’État prend notamment la forme de prévisions de résultats publiées chaque année dans le projet de budget. On lit ainsi pour 2018 à la rubrique A01 1.3 :« Taux d'élèves qui atteignent le seuil minimal de maîtrise des attentes fondamentales en référence au PER en fin de 11ème […] cible pour 2018 : 42% » (sic ; Conseil d’État, 2017, p. 74). Si cette dernière valeur devait être avérée, on pourrait y voir un problème d’adéquation des outils de contrôle des connaissances et performances (en l’occurrence probablement les épreuves communes de 3e trimestre) ou de la fixation du seuil minimal de maîtrise pour ces épreuves, voire de la qualité de l’enseignement dispensé à ce degré (fin de la scolarité obligatoire).

En poussant plus loin notre rapprochement entre arbitraire et arbitrage, toujours dans le cas d’épreuves à enjeux élevés, on peut se demander quelle est la fiabilité d’un barème établi par un seul « arbitre » : l’enseignant responsable du cours ; les étudiants sont prompts à repérer les professeurs plus sévères que d’autres. Les règles institutionnelles (universitaires, par exemple) imposent parfois un juré comme second arbitre, mais dont la voix ne pèse pas toujours très lourd dans la décision selon son statut (d’assistant du professeur, par exemple). Lorsque l’épreuve a été composée par une commission d’enseignants (pas toujours formés en docimologie), le barème est alors le résultat d’une discussion collective, ce qui diminue l’arbitraire ; à condition, toutefois, que chacun ait même voix au chapitre et que la décision finale corresponde à la moyenne des diverses estimations.

On peut ajouter à ces divers types d’arbitraires le fait que, dans une majorité de cas à notre connaissance, la marge d’erreur que comporte toute évaluation n’est pas prise en compte dans la fixation du seuil, ni même calculée, bien que les moyens statistiques nécessaires soient souvent disponibles.

Sans éliminer totalement l’arbitraire, la méthode d’Angoff (Cizek & Bunch, 2007), que nous présenterons plus en détail ci-après, permet de le restreindre et de le rendre plus visible. Nous verrons en outre que l’application aux résultats de cette procédure d’une analyse de généralisabilité permet d’estimer le degré d’erreur (l’erreur type) entachant le seuil proposé et d’en tenir compte dans le seuil finalement appliqué.


8


9

2. LA MÉTHODE D’ANGOFF ET SON APPLICATION À UN EXAMEN DE GRAMMAIRE

L’objectif de cette contribution est avant tout de permettre aux lecteurs intéressés par la fixation de standards de se faire une idée de l’intérêt et des problèmes que comporte une des approches applicable à des épreuves à enjeux élevés : la méthode d’Angoff dite modifiée. Pour cette raison et pour des motifs d’économie de place, nous exposerons en détail la méthodologie appliquée à notre recherche lors des diverses étapes de notre travail, c’est-à-dire tout au long des différentes phases de la procédure d’Angoff : de sa préparation à la fixation du seuil de réussite. Nous présenterons d’abord l’épreuve de grammaire dont il sera question tout au long de ce compte rendu et expliquerons ensuite nos choix méthodologiques.

2.1 Présentation de l’épreuve de grammaire

Pour illustrer notre propos, nous avons choisi un examen de grammaire que nous avions eu l’occasion antérieurement d’analyser du point de vue de ses caractéristiques docimologiques, notamment au moyen du modèle de la généralisabilité (Bain, 2010). Cette épreuve a été passée en fin de formation par les étudiants se préparant au brevet d’enseignement primaire ; elle intervenait de façon importante dans leur certification finale. On doit donc la considérer comme un contrôle à enjeux élevés, ce qui justifie qu’on s’intéresse de plus près à la fixation d’un seuil de réussite, en l’occurrence un seuil de passage, valide et fiable.

Les six parties de l’examen couvraient chaque fois l’ensemble des domaines grammaticaux enseignés ou révisés : 1 : Les sortes de phrases (phrases de base, transformées simples et complexes, non standards) ; 2. Les trois fonctions majeures de la phrase (sujet, prédicat, complément de phrase) ; 3. Les fonctions dans le groupe verbal (cpl. de verbe ; cpl. du verbe de type être, attribut). 4. Les fonctions des groupes prépositionnels (cpl. de phrase, cpl. du nom, cpl. de l’adjectif, cpl. du verbe/de type être, attribut, modificateur du verbe) ; 5. Les fonctions des groupes nominaux (sujet, cpl. de phrase, cpl. du nom, cpl. du verbe/de type être, attribut) ; 6. Les fonctions des groupes adverbiaux (modificateurs du verbe, de l’adjectif et de l’adverbe ; cpl. du verbe, de phrase, du verbe de type être).

Les étudiants devaient généralement repérer dans une phrase une classe ou une fonction grammaticales, par exemple en soulignant le groupe de mots correspondant, et l’identifier en donnant son nom. Avec le mode de cotation que nous avons adopté pour cette recherche, le test comportait 56 questions corrigées justes ou fausses (1 ou 0).

Notre étude antérieure de l’examen (Bain, 2010) attestait à la fois sa validité et sa fiabilité au sens actuel que la docimologie donne à ces termes : « Validity is a unitary concept. It is the degree to which all of the accumulated evidence supports the intended interpretation of test scores for the intended purposes. » (AERA, APA, & NCME, 1999, p. 11)11. Cette définition recouvre de fait, comme autant de conditions corrélées, les principales validités

11 Comme le rappellent Cizek & Bunch (2007, p. 17), en citant Messick (1989) puis Cronbach & Mehl (1955), « strictement parlant, on ne peut pas dire que des tests ou des scores de tests sont valides ou non valides. […] On ne valide pas un test mais seulement un principe guidant des inférences » (notre traduction).


10

traditionnelles : de contenu, de construit, écologique ou de conséquences, auxquelles s’ajoute une condition de fiabilité du dispositif d’évaluation.

En ce qui concerne la validité de cet examen, on notera d’abord que les analyses grammaticales à réaliser dans l’épreuve sont très proches de celles que l’étudiant – futur enseignant – aura à faire en situation de classe dans ses cours de français. De plus, le choix des domaines à traiter ainsi que le type de questions grammaticales se réfèrent étroitement aux objectifs du Plan d’études romand (PER, CIIP, 2010-2016) que suivront les élèves du futur enseignant et qu’il devra lui-même respecter. Enfin, les candidats ont eu l’occasion de se familiariser avec ce genre de questionnement pendant le cours et de consulter des exercices analogues dans le document soutenant la formation (Syllabus ; Bronckart, 2004).

Pour contrôler la fiabilité de cet examen, partie intégrante de sa validité, nous avions eu recours au modèle de la généralisabilité (Cardinet, Johnson & Pini, 2010) et au logiciel EduG (2014). L’enseignant ayant choisi le seuil de réussite de 75%, nous avions calculé un coefficient critérié Phi(lambda), qui s’est révélé très élevé : 0.97, avec une erreur type absolue de 3% (intervalle de confiance : 6%). Contrôle préalable nécessaire si l’on suit la recommandation évidente de Çetin & Gelbal (2013, p. 2170): « Tests which are low reliable should not be used in standard setting process. »

Enfin, la distribution des scores obtenus par les étudiants à cet examen correspondait à ce que l’on attend d’un test de maîtrise, soit une courbe en J attestant que la quasi-totalité d’entre eux avait réussi les trois-quarts des points.

2.2 Fixation d’un seuil de réussite : choix de la méthode d’Angoff

There can be no single method for determining cut scores for all tests or for all purposes, nor can there be any single set of procedures for establishing their defensibility (AERA/APA/NCME, 1999, p. 53).

L’ouvrage de Cizek & Bunch (2007) Standard setting présente et commente une quinzaine de méthodes ou variantes envisageables pour fixer des standards ; le lecteur s’y reportera pour avoir une vision détaillée des possibilités dans ce domaine de la docimologie. Il trouvera également un panorama plus large sur ces méthodes, leur classement en fonction du travail exigé du panel des experts ainsi que les principes présidant à leur choix dans l’article de Blais 2008. En ce qui nous concerne, nous avons choisi la méthode d’Angoff – en l’occurrence la méthode d’Angoff modifiée (Modified Angoff Method) illustrée plus loin – pour des raisons souvent évoquées dans la littérature (Cizek & Bunch, 2007, chap. 2). Sous différentes variantes, elle est utilisée depuis plus de quarante ans dans des contextes divers, en particulier dans ceux qui sont les plus exigeants en ce qui concerne la pertinence et la fiabilité des seuils de passage comme les formations en médecine. Elle passe pour relativement facile à appliquer, même par des novices disposant d’un minimum d’entraînement (Wheaton & Parry, 2012) et offrirait le meilleur équilibre entre adéquation technique et praticabilité (Berk, 1986, p. 147, cité par Cizek & Bunch, 2007, p. 82). Elle satisfait aux exigences légales fixées par certains pays (notamment les USA) pour les épreuves à enjeux élevés, en particulier lorsqu’il s’agit d’obtenir un permis d’exercice dans une profession sensible sur le plan social (métiers de la santé, de l’éducation ou de la police, par exemple). Notons de plus que,


11

appliquée généralement à des questions à choix multiples, la méthode peut être également utilisée dans une autre variante, dite Méthode d’Angoff étendue, où les experts estiment le nombre de points obtenus par des élèves borderlines à des questions à réponse construite (ibidem, p. 87).

2.3. Le choix des experts évaluateurs

Le choix des évaluateurs a évidemment un impact potentiellement important sur le résultat de la procédure : « In standard setting techniques involving panels of judges, the attributes of judges may affect the cut-scores » (Shulruf, Wilkinson, Weller, Jones & Poole, 2016, p. 1; cf. aussi Busch & Jaeger, 1990). Comme le précise Blais (2008, p. 98), « un des premiers critères pour le recrutement des membres du panel et pour décider de leur nombre est leur ‘représentativité’ de la population des personnes considérées compétentes pour effectuer la tâche. » Il est donc nécessaire de préciser les conditions de leur recrutement. Compte tenu du type de contrôle (examen universitaire de grammaire), nous avons sollicité des collègues, enseignants universitaires, experts à la fois en grammaire et en didactique de cette branche au niveau de formation considéré. Nous nous sommes adressé pour cela à la commission GRAFE’MAIRE, membre du Groupe d’analyse du français enseigné (GRAFE) de la Faculté de psychologie et des sciences de l’éducation (FAPSE) de l’Université de Genève. Nous avons pu ainsi recruter dix experts, nombre souvent préconisé pour une application fiable de la procédure (Wheaton & Parry, 2012, p. 3).

Le hasard de ce recrutement nous a permis de scinder ce groupe en deux sous-groupes en fonction de leur origine institutionnelle pour vérifier si la familiarité des évaluateurs avec le type d’étudiants évalués jouait un rôle dans leurs estimations. Le premier groupe a été constitué de collègues enseignant à l’Université de Genève (où l’examen a été passé), le second, d’experts provenant d’autres institutions universitaires : de Fribourg, de Vaud ou de Grenoble.

Nous avons écarté de cette sélection l’auteur de l’examen : il connaissait les résultats effectivement obtenus par ses étudiants à cette épreuve en ce qui concerne tant le seuil fixé à la note suffisante que le taux de réussite aux diverses questions ; il aurait donc pu influencer les estimations de ses collègues.

2.4 La phase préparatoire

Cette étape est cruciale pour que les participants saisissent l’objet ainsi que les modalités de la méthode et de la procédure ; elle l’est d’autant plus si, comme dans le cas de cette recherche, les experts sont novices dans l’application de ce type d’évaluation. Comme recommandé (Cizek & Bunch, 2007, chap. 2), nous avons d’abord fourni aux participants le syllabus du cours (Bronckart, 2004) et un exemplaire d’un examen antérieur équivalent12, comportant les six mêmes types d’exercices, avec prière de le passer eux-mêmes à la maison. Par ailleurs, ils ont reçu par écrit le plan de l’ensemble de l’opération pour qu’ils puissent en situer chaque étape.

12 Équivalence attestée par notre étude de 2010.

http://www.ncbi.nlm.nih.gov/pubmed/?term=Poole%20P%5Bauth%5D


12

Nous reproduisons dans l’encadré ci-dessous le plan de notre intervention dans cette introduction à l’ensemble de la recherche. Il est important, à ce stade du travail, que les experts aient une bonne vision de l’ensemble de la procédure, des principes et des modalités de chaque phase.

Plan de l’intervention 1. Présentation rapide de l’origine, de l’objet, de l’objectif et des modalités et de la recherche. 2. Caractéristiques et qualités d’un test de maîtrise à l’exemple d’un examen de grammaire antérieur (2005). 3. Fixer un seuil de suffisance/de maîtrise : présentation de la méthode d’Angoff (dite modifiée) : a) définition ; objectif, rôle des experts (raters) ; b) présentation et discussion de la consigne ; c) étapes de la procédure ; d) traitement des données. 4. Application à titre d’illustration et d’entraînement aux exercices 1 et 2 d’un ancien examen de grammaire (de 2005). 5. Mise en commun et discussion des résultats de cet exercice d’entraînement, en particulier pour les items avec le plus de divergences ; conclusions pour la suite du travail. 6) Passage en revue des 6 exercices de l’examen de 2008 pour préciser les consignes d’évaluation des items.

Étapes de la recherche proprement dite, propositions I. Remise du texte de l’examen de 2008 avec les emplacements pour l’évaluation en face de chaque item ; renvoi d’un tableau récapitulatif à DB dans des délais à définir ; traitement des résultats par DB ; renvoi aux experts du tableau de ces résultats (n experts ● k items). II. Si possible, lors de la séance suivante, consacrer un peu de temps à une discussion sur les principales divergences en vue de la 2e étape : révision des évaluations par les experts à la lumière des résultats d’ensemble et renvoi à DB. III. Ajout d’informations sur le taux de réussite estimé de chacun des 6 exercices de l’examen et dernière évaluation des items. IV. Traitement statistique de l’ensemble des données (au moyen du modèle de la généralisabilité) ; compte rendu au groupe et discussion critique (faisabilité, intérêt, problèmes, défauts du modèle et de la démarche ; suggestions). V. Rédaction d’un article destiné à une revue (de didactique, d’évaluation…) ?

2.5 Première phase de la procédure d’Angoff

2.5.1 Présentation et discussion de la consigne

Les tableaux 2 et 3 ci-dessous reproduisent deux formulations de la consigne analogues à celles proposées habituellement (Angoff, 1971, p. 515 ; Cizek & Bunch, 2007, pp. 82-83).


13

Tableau 2 Formulation de la consigne

C1. Pour chaque question de l’examen, estimer la probabilité, en %, par pas de 5%, qu’un étudiant minimalement compétent (borderline) devrait donner une réponse juste et complète. Référez-vous pour cela à votre expérience ces dernières années.

Tableau 3 Seconde formulation de la consigne

C2. Imaginez, en fonction de vos expériences antérieures, un groupe de 100 étudiants borderlines (minimalement compétents) et estimez pour chaque item de l’épreuve la proportion d’entre eux (en %) qui devraient donner une réponse juste et complète.

A l’expérience, la présentation de la consigne a posé les problèmes suivants. - La difficulté de se représenter un étudiant minimalement compétent (borderline). La solution finalement adoptée a été de renvoyer les évaluateurs au contexte institutionnel et notamment à la fonction sélective de l’examen : écarter les candidats à l’enseignement ne disposant pas des qualifications nécessaires en grammaire. Sous cette forme générale et globale, la figure du borderline est encore difficile à saisir. En revanche, la consigne est plus facile à comprendre quand on l’applique à une question en particulier. Par exemple, un formateur peut difficilement accepter qu’un futur instituteur ne soit pas capable d’identifier un complément de verbe ou le confonde avec un complément de phrase, fonctions qui figurent déjà dans le plan d’études aux degrés 5 et 6 de la scolarité obligatoire ; 100% des enseignants devraient en principe réussir la question.

- La difficulté d’exprimer les estimations sous forme de probabilité, même si les experts étaient familiarisés avec cette notion du fait de leurs activités de recherche. La consigne alternative C2 (tableau 2) n’aide guère : il est tout aussi difficile de se représenter de façon réaliste un groupe de 100 étudiants minimalement compétents, d’autant plus si la cohorte à laquelle on a généralement affaire ne comporte qu’une centaine d’étudiants.

La discussion sur ce mode d’évaluation peut d’ailleurs déboucher dans un premier temps sur la question, docimologiquement intéressante et que nous n’avons pu esquiver : « Pourquoi, s’agissant d’un test de maîtrise (cf. la définition supra), ne pas exiger des étudiants jugés compétents 100% de réussite à chaque question et, a fortiori, exiger le score maximum ? » Dans un premier temps, on peut alléguer un aléa dans le choix des questions et dans leur rédaction ; on admettra aussi que certains items dépassent dans leurs exigences le niveau attendu par le plan d’étude ou représentent des cas particuliers du fait du choix de leur formulation. On rappellera en outre les erreurs aléatoires inhérentes à toute passation de test. On doit généralement aller plus loin dans l’argumentation : concéder que l’échec à quelques items ne devrait pas porter à conséquence ; qu’il pourrait être compensé par la réussite à d’autres items, conformément au modèle compensatoire adopté habituellement pour la notation de ce genre de test (scoring model : Cizek & Bunch, 2007, p. 20) ; que le futur instituteur, au cours de sa carrière, aura très probablement l’occasion d’approfondir ses connaissances sur certains points contrôlés par l’examen et qu’il ne maîtriserait pas encore.

Constatant après la première phase que cette estimation de probabilité posait toujours problème, nous avons proposé pour la seconde phase quelques points de repères sur l’échelle en % ; nous y reviendrons donc plus loin.


14

Le plus souvent, dans les consignes données pour la méthode d’Angoff modifiée, cette probabilité de réussite à un item s’exprime par pas de 10% (100%, 90%, 80%…). Compte tenu du type d’épreuve, assimilable à un test de maîtrise, nous avons proposé des pas de 5% ; ce degré de précision permettait de nuancer les estimations, supposées se situant majoritairement entre 70% et 100%.

Noter encore que, pour cette application de la méthode d’Angoff, nous avons modifié la consigne de correction par rapport à celle appliquée primitivement à l’examen en exigeant pour chaque question une réponse juste et complète ; nous avons renoncé à considérer comme items des éléments de réponses de facto non indépendants13, et à prendre en compte des pénalisations ou des bons points liés à des groupes de réponses. Pour cette raison, nous désignerons par la suite nos unités d’observation/d’estimation par le terme de questions plutôt que d’items.

Enfin, nous avons renoncé à renvoyer les experts à leurs expériences antérieures, potentiellement différentes en fonction des publics d’apprenants enseignés (cf. partie de la consigne doublement barrée), mais surtout pour centrer les estimations sur les exigences à la fois du plan d’études et de l’exercice futur de la profession.

2.5.2 Récolte des données, traitement et présentation des résultats

Les participants reçoivent un fichier Word avec un tableau de 56 cases correspondant aux estimations demandées pour l’ensemble des items (cf. extrait au tableau 4). Ils remplissent individuellement, à la maison, toutes les cases du tableau. Ces données sont ensuite retranscrites par copier-coller sur un tableau Excel.

Après traitement des données (calcul des moyennes et des écarts types par question et par évaluateur), les experts reçoivent un tableau de l’ensemble des résultats, anonymisé (cf. extrait au tableau 5). Seules les lignes du tableau correspondant au destinataire du document (ici l’expert no 3) sont identifiées, par surlignement ; la dernière ligne est prévue pour recevoir les estimations de la seconde phase du même évaluateur.

Tableau 4 Examen de grammaire 2008. Relevé des évaluations (en %) par exercice et par question (extrait)

1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10

1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20

[…]

13 Par exemple, si un complément n’était pas repéré/souligné dans la phrase, il ne pouvait a fortiori pas être correctement identifié : les deux points attribués à cette question n’étaient pas indépendants. Or, cette indépendance est supposée par le calcul d’un total et l’application du modèle statistique de la généralisabilité à ces données.


15

Tableau 5 Résultats de la première phase (extrait)

Exp. Q1.10 Q1.11 Q1.12 Q1.13 Q1.14 ... Moy. E. σ E

E1 70 60 40 60 70 ... 66.4 12.8 E2 100 50 85 100 100 … 82.8 19.3 E3 90 60 90 70 100 ... 86.6 12.8 E4 60 60 50 60 80 ... 64.3 12.3 E5 80 70 70 90 90 ... 80.0 9.3 E6 80 60 50 70 80 ... 69.8 11.7 E7 80 60 70 75 100 ... 64.3 14.7 E8 100 90 40 60 100 ... 80.7 20.3 E9 100 90 100 90 80 ... 82.7 16.0 E10 90 80 100 70 90 ... 82.1 18.9 m qu. 85.0 68.0 69.5 74.5 89.0 ... m gén.76.0 8.7 σ qu. 13.5 14.0 23.6 14.2 11.0 ... [err.-type: 3.1] E3 P2 ...

Lecture et commentaire du tableau 5

• Les lignes E1 à E10 fournissent le détail des estimations de chaque expert pour les 56 questions.

• La première ligne qui suit (en grisé : « m qu. ») donne la moyenne des dix experts pour chaque question. Elle traduit le taux de réussite moyen attendu pour les étudiants juste suffisants selon la notion évaluée. Cette exigence est nettement plus élevée (89%) pour la question 1.14, par exemple (« Les étudiants ont festoyé pendant plusieurs semaines. »¸ à identifier comme une phrase de base) que pour la phrase transformée complexe par subordination 1.11 (« La marchande, qui rêvait, n’avait pas entendu le client. » ; 68%).

• La ligne suivante (« σ qu. »), reproduisant le vecteur des écarts types pour les différentes questions, permet de repérer celles pour lesquelles les estimations divergent le plus entre experts, soit celles où l’écart type (σ) est le plus élevé. C’est le cas de la question 1.12 (« Il l’a regardée puis il lui a souri. » ; phrase transformée complexe par coordination), pour laquelle le degré d’exigences est estimé très différemment selon les experts (de 40% à 100%). Lors d’une discussion ultérieure sur cette question, certains évaluateurs craignaient qu’une partie des borderlines n’identifient pas le puis comme un coordonnant analogue à et.

• L’avant-dernière colonne reproduit la moyenne de chaque expert pour les 56 questions. Chaque évaluateur peut ainsi situer lui-même son degré de sévérité par rapport à ses collègues, mais cette donnée ne fait pas l’objet de discussion ou de commentaire dans le groupe : il n’est évidemment pas question de stigmatiser qui que ce soit comme plus sévère ou plus indulgent que les autres.

• La moyenne générale (des questions, identique à celle des évaluateurs ; m gén. : 76%) constitue le seuil de réussite recherché. Elle correspond à environ les trois quarts des points. Elle est pratiquement identique au seuil choisi par l’auteur de l’examen (75%),


16

mais cette information, à ce stade, n’est pas fournie aux participants pour ne pas influencer la suite des opérations.

• L’écart type (σ) des 56 estimations de chaque expert, qui figure dans la dernière colonne, n’a pas été commenté. Il est surtout intéressant pour le chercheur dans la mesure où il permet de repérer des experts dont les estimations – donc la sévérité – varient plus ou moins fortement selon les questions.14 Le cas le plus problématique serait celui d’un écart type particulièrement bas ; il signalerait le cas d’un évaluateur tendant à attribuer systématiquement la même estimation à des questions dont on saurait par ailleurs qu’elles sont de difficultés différentes.

• A ce moment de la procédure, des statistiques purement descriptives sont suffisantes. L’écart type (σ) de 8.7% correspondant au seuil calculé pour cette phase (76%) suffisait à justifier une seconde étape visant à réduire si possible les divergences entre évaluateurs. Nous n’avons pas jugé utile de fournir à ce stade l’erreur type (3.1%) affectant la moyenne générale (cf. infra chap. 4), donc le seuil recherché, provisoire à ce stade. Mais on pourrait juger déjà nécessaire à cette phase de donner et commenter cette erreur type (absolue) pour mettre en évidence la marge d’incertitude dont il faudra tenir compte lors de la fixation du seuil de réussite.15

2.5.3 Feed-back normatif et discussion des résultats par les experts

La transmission de l’ensemble des estimations aux experts sous la forme du tableau 5 a pour but de permettre la comparaison entre les différentes estimations ; cette étape de la procédure constitue une forme de feed-back normatif (Cizek & Bunch, 2007, p. 53). Le terme de normatif est bien choisi : il signale selon nous un risque de glissement de références critériées (le taux de réussite des étudiants tout juste suffisants) à une perspective normative des évaluations. Celle-ci viserait avant tout à situer les exigences de chaque évaluateur par rapport à celles de ses collègues. L’objectif – ou le résultat – majeur de l’opération serait alors de susciter une espèce de régression artificielle des estimations à la moyenne générale pour diminuer (à tout prix ?) les divergences. Cizek & Bunch, 2007, précisent : « The purpose of providing this feedback is not to suggest that they align their individual judgments with a group mean or alter their judgments based solely on relative stringency or leniency compared to other participants. ». Pour éviter ce qui pour nous aurait été un biais de la recherche, mélangeant les approches critériée et normative, nous nous sommes donc efforcé de centrer la discussion qui suivait sur la consigne précisant l’objectif et les modalités de la méthode. Nous avons notamment rappelé que le critère majeur auquel se référer était les exigences qu’on peut avoir quant aux connaissances des futurs instituteurs en début de carrière. Enfin, pour diminuer les divergences d’estimation, nous avons posé quelques balises le long de l’échelle d’estimation (tableau 6, nouvelle consigne), qui apportent des précisions – très relatives, à vrai dire – pour le travail d’évaluation des questions.

14 Compte tenu d’un certain effet plafond limitant la variance des estimations dans le cas de certains experts dont la sévérité (cf. moyenne) est élevée. 15 « It is reasonable to use the variance components from the pre-discussion judgments to estimate the expected measurement error associated with the standard- setting process » (Clauser & al., 2009, p. 10).


17

Tableau 6 Reprise de la consigne en vue de la 2e phase (extrait)

[…] [Dans la consigne16] « devrait » correspond à une double modalité (verbe modal et conditionnel) impliquant à la fois un devoir face aux futures responsabilités de l’enseignant à l’égard de ses élèves et l’expression d’une probabilité. Certaines connaissances grammaticales peuvent être considérées comme élémentaires, incontournables, leur non-maîtrise comme inadmissible par rapport à l’objectif du test. Il s’agit de s’assurer que les futurs enseignants certifiés maîtrisent les notions qu’ils auront à faire apprendre le plus souvent à leurs élèves ; les items correspondant à cette définition devraient être cotés 100% (ces questions devraient être résolues correctement même par des borderlines). Pour d’autres connaissances, donc d’autres questions ne correspondant pas à cette exigence forte (par exemple portant sur des cas moins fréquents ou particuliers, qu’il s’agisse de classes grammaticales ou de fonctions), on considérera que le groupe des étudiants borderlines est très probablement relativement hétérogène et qu’une partie seulement d’entre eux pourraient réussir l’item en question : pour la plupart (1 sur 20 ou 1 sur 10 → 95% ou 90%), en nette majorité (probabilité entre 65% et 85%), ou dans un cas sur deux environ (entre 40% et 60%), ou enfin nettement plus rarement (moins de 40%), voire jamais (0%).

Les échanges sur les items sélectionnés (cf. supra) ont été aussi l’occasion pour les experts de confronter les conceptions qu’ils avaient de la formation en grammaire des candidats à l’enseignement. Toutefois, le temps disponible pour cette phase a été trop court pour un approfondissement des convergences ou différences sur plus de quelques items.

2.6 Seconde phase de la procédure

2.6.1 Seconde estimation des questions

Le tableau 5 (supra p. 15) des premiers résultats comportait une dernière ligne sur laquelle les 10 experts ont inscrit leurs nouvelles estimations. Ils avaient ainsi sous les yeux, à titre de comparaison ou de référence, leurs premières estimations et celles de leurs collègues. Ils étaient parfaitement libres de conserver ou modifier leurs estimations. Dans la perspective de la présente recherche, il ne s’agissait pas pour nous de les « forcer » à la convergence, mais d’observer si la phase précédente d’information et de discussion avait un effet – et de quelle ampleur – sur leurs estimations et si on observait des différences individuelles plus ou moins importantes.

2.6.2 Analyse descriptive et commentaire des résultats

Le traitement des données de cette phase aboutit à un nouveau tableau (tableau 7), analogue à celui établi pour la première phase, mais comportant deux lignes par expert qui permettent de confronter les données pour les deux phases (P1 et P2). Ce tableau (transmis et commenté aux experts : second feed-back) peut donner lieu à de multiples analyses et commentaires ; nous nous limiterons ici aux principaux constats intéressants pour le fonctionnement de la méthode modifiée d’Angoff, en procédant des résultats particuliers aux plus généraux.

16 Cf. supra la consigne C1 : « Pour chaque question de l’examen, estimer la probabilité, en %, par pas de 5%, qu’un étudiant minimalement compétent (borderline) devrait donner une réponse juste et complète. »


18

Tableau 7 Extrait des résultats de la seconde étape

Expert Q1.10 Q1.11 Q1.12 Q1.13 Q1.14 … Moy. E σ E E1 P1 70 60 40 60 70 … 66.4 12.8 E1 P2 90 70 85 75 90 … 83.5 11.1 E2 P1 100 50 85 100 100 … 85.4 18.0 E2 P2 100 40 85 100 100 … 85.6 18.2 E3 P1 90 60 90 70 100 … 86.6 12.8 E3 P2 90 70 90 70 100 … 88.6 9.8

… … … … … … … … …

Moy. P1 85 68 69.5 74.5 89 … 76.2 m. gén. P1

Moy. P2 92 76.5 84 84.5 96 … 84.3 m. gén. P2

σ P1 13.5 14.0 23.6 14.2 11.0 … 9.0 éc. t. P1 σ P2 10.3 18.6 14.9 14.6 5.2 … 7.7 éc. t. P2

Dans un premier temps de la discussion, il peut être instructif de revenir sur les questions ayant suscité le plus de divergences pour vérifier l’impact potentiel de la discussion. A titre d’exemple, on constate que l’écart type (σ) de la question 1.12 (tableau 7) a diminué, passant de 24% à 15%. Mais, simultanément, le degré d’exigences a monté de près de 15 % (70% → 84%) : si l’on accepte de considérer « puis » comme une coordonnant équivalent à « et », on a affaire à une phrase transformée complexe par coordination (« Il l’a regardée puis il lui a souri. »), que devrait en principe maîtriser une grande majorité des futurs instituteurs.

Graphique 8 Moyennes générales (seuils de réussite) selon les experts (En) et écarts types de leurs estimations pour les premières et secondes phases (P1 et P2) de la procédure d’Angoff

0

10

20

30

40

50

60

70

80

90

100

E1 E2 E4 E5 E10 E3 E6 E7 E8 E9P1 moy. P1 éc.t. P2 moy. P2 éc.-t.

P1 m = 75.6% σ = 17.0% P2 m = 84.1% σ = 15.4%

P1 m = 76.8% σ = 17.4% P2 m = 84.5% σ = 13.7%

UNIGE NON-UNIGE


19

Notons d’abord que pour chacune des deux phases les moyennes des deux catégories d’experts, appartenant ou non à l’université de Genève, sont pratiquement équivalentes (P1 : 76% vs 77% ; P2 : 84% vs 85%), compte tenu d’une forte variabilité des estimations à l’intérieur des deux groupes (σ >13%). Dans les deux cas, la progression d’une étape à l’autre de la procédure est d’environ +8%. La familiarité avec le type d’étudiants ayant passé l’examen ne paraît donc pas influencer les évaluations.

En revanche, on relève une forte variabilité individuelle. L’analyse de l’évolution des seuils entre les deux phases fait ressortir deux groupes d’experts d’effectifs équivalents : ceux qui ne modifient pratiquement pas leur niveau moyen d’estimations entre les deux étapes (différence entre P1 entre P2 ≤ ±2%) et ceux qui augmentent leurs exigences. Le respect déontologique de l’anonymat des réponses, mais surtout le manque de temps, ont empêché une discussion qui aurait clarifié les raisons de cette différence de comportements.

Les exigences ont augmenté peu ou prou en phase 2 pour la quasi-totalité des questions (55 sur 56), du fait des estimations d’une moitié des experts, rappelons-le. Cette augmentation se répercute donc sur le seuil moyen de la seconde étape (tableau 7) : 84% vs 76% pour P1. On peut expliquer cette évolution par le fait que certains évaluateurs ont été sensibles à notre insistance, lors de la seconde version de la consigne (tableau 6 supra), sur la responsabilité de l’institution de formation à l’égard des futurs élèves des candidats à l’enseignement. Relevons que ce seuil de 84 % est nettement plus élevé que ceux fixés traditionnellement et notamment que celui qui avait été décidé effectivement pour l’examen en question par le professeur responsable du cours (75%). Mais, avant toute décision, ce seuil doit encore être analysé à la lumière des divergences des experts, influant sur l’erreur affectant cette estimation.

Entre les deux étapes, les divergences entre évaluateurs ont apparemment un peu diminué : l’écart type (σ) des estimations passe de 9.0% à 7.7%. Cette différence est faible, voire pratiquement nulle : il est possible que cette diminution soit due en partie à un effet plafond : pour plusieurs questions, la moyenne des estimations avoisine 100%. Les divergences restent donc relativement importantes du fait des deux types d’évolutions signalés à l’instant : maintien ou augmentation du niveau d’exigences.

Nous ne pouvons pas présenter ici le détail de la réussite pour les 56 questions. Il est cependant intéressant d’un point de vue didactique et docimologique ; en effet, dans les estimations des experts, le degré de difficulté des questions varie assez fortement : de 52% à 89% pour la phase 1 et de 50% à 98% pour la phase 2. Dans la perspective d’un test de maîtrise, on s’attend en principe à ce que la marge de variation inter-questions soit plus étroite, centrée sur un seuil de réussite anticipé relativement élevé. Les questions jugées difficiles pour les élèves borderlines auraient mérité un examen plus approfondi des raisons des échecs anticipés par les experts. Toutefois, pratiquement, le temps a manqué pour ce type d’analyse.

2.6.3 Renoncement à une troisième étape, aux informations dites de réalité et d’impact

Compte tenu de ces divergences encore relativement importantes, n’aurait-il pas fallu passer à une troisième phase, souvent recommandée dans la littérature (Cizek & Bunch, 2007, pp. 54-56) ? Lors de cette étape, on injecte dans la procédure des informations sur les résultats


20

effectifs à l’examen ou à des contrôles équivalents antérieurs. L’objectif majeur est généralement d’améliorer la convergence des estimations en fournissant aux experts des références communes.

L’information dite de réalité consiste à donner aux participants des renseignements notamment sur le taux de réussite moyen (p value) de l’ensemble des étudiants sur un sous-ensemble d’items en se référant aux résultats d’un test précédent comparable ou aux résultats effectifs du test en cours d’évaluation. L’information d’impact consiste à indiquer quel serait le taux d’échecs dans le groupe testé ou dans certains sous-groupes (par exemple dans certaines filières de formation), si l’on appliquait le seuil estimé par les experts. Nous avons finalement renoncé à une telle étape faute de temps, mais surtout parce que, dans les deux types de feed-back, on tend à mélanger les références normatives et critériées, changeant ainsi le point de vue adopté au départ de notre recherche. Notre référence était, rappelons-le, la réussite attendue ou exigible des candidats instituteurs compte tenu de leur activité professionnelle ultérieure. Dans cette perspective, le décalage entre la réussite effective des apprenants et celle estimée par les experts ne constitue pas pour nous une remise en cause du processus de standard setting en soi ou de la qualification des évaluateurs mais une information intéressante à discuter sur le plan pédagogique.

Comme nous renonçons à cette troisième étape, selon la procédure habituelle d’Angoff, c’est le résultat de la seconde phase que nous prendrons en considération pour fixer le seuil final. Devrait-il être accepté tel quel ou faudrait-il tenir compte de l’erreur due à l’échantillonnage des questions et des experts, et de quelle façon ? Ce sont les questions que nous abordons dans les chapitres qui suivent en recourant au modèle de la généralisabilité.


21

3. ÉTUDES DE GÉNÉRALISABILITÉ SUR L’ENSEMBLE DU DISPOSITIF D’ÉVALUATION

3.1 Présentation et modalités d’utilisation du modèle de la généralisabilité

Compte tenu de l’objectif de ce compte rendu, nous ne pouvons présenter ici le modèle la généralisabilité en détail ; nous l’illustrerons essentiellement par l’utilisation que nous en avons faite dans les analyses qui suivent, qui ne correspondent par ailleurs qu’à une partie des emplois possibles de la généralisabilité. Nous ferons donc cette présentation pas à pas, en suivant les étapes adoptées par notre recherche. Le lecteur qui souhaiterait en savoir plus sur ce modèle statistique consultera le site du groupe Edumétrie17, où il pourra également télécharger le logiciel EduG ainsi que son Guide d’utilisation. Pour une information encore plus détaillée, nous le renvoyons au chapitre 7 l’ouvrage de Laveault & Grégoire (2002), aux numéros spéciaux de la revue Mesure et évaluation en éducation coordonnés par Cardinet en 2003 ainsi qu’à l’ouvrage le plus complet de Cardinet, Johnson & Pini (2010).

Rappelons d’abord que le modèle est utilisé pour estimer la fiabilité d’une mesure compte tenu des conditions ou du contexte dans lesquels s’est faite cette mesure, c’est-à-dire compte tenu du dispositif d’évaluation dans l’ensemble de ses composantes ou facettes (cf. graphique 9). Dans cette perspective, nous analyserons ce dispositif au moyen de la généralisabilité sous trois angles. Nous commencerons par étudier les différents facteurs (facettes) et combinaisons de facteurs qui influent sur le fonctionnement de l’ensemble du dispositif. Nous nous intéresserons plus particulièrement, dans ce cadre général, aux différences entre Phases et entre Catégories d’Experts. Puis nous nous limiterons aux données de la seconde phase de la procédure d’Angoff pour analyser l’effet des facettes Experts et Questions, avec leur interaction. Enfin, dans un troisième temps et dans le chapitre suivant, nous nous concentrerons sur l’estimation de l’erreur type (absolue) et des trois sources d’erreur affectant le seuil de réussite obtenu au moyen de la méthode d’Angoff lors de la seconde phase ; nous recourrons pour cela à un plan de mesure particulier dit sans facette de différenciation.

3. 2 Étude de généralisabilité sur l’ensemble du dispositif d’évaluation

3.2.1 Description des facteurs (facettes) entrant dans les études de généralisabilité et analyse de variance (ANOVA)

En premier lieu, pour saisir la façon dont la méthode d’Angoff a fonctionné dans l’ensemble de notre dispositif d’évaluation et pour mettre en évidence le jeu complexe des différents facteurs (effets principaux et interactions) qu’il impliquait, nous avons recouru à une étude de généralisabilité sur les 4 facettes prises en compte dans notre recherche, soit : - les deux Phases de la procédure : P. - les deux Catégories d’experts distinguées en fonction de l’appartenance institutionnelle (université de Genève vs autres universités) : C - les 5 Experts inclus (nichés) dans chacune des Catégories : E:C18 - les 56 Questions composant l’examen de grammaire et estimées par les Experts quant au degré de réussite attendu des borderlines : Q 17 à l’adresse https://www.irdp.ch/institut/edumetrie-1635.html.- 18 Les deux-points symbolisent l’inclusion (nichage) de la première facette dans la seconde.



22

Le graphique 9 illustre le plan d’observation de notre étude et notamment les rapports entre les différentes facettes : P, Q et C sont croisées, E est nichée dans C et donc croisée avec P et avec Q. Le diagramme d’Euler-Venn décrit également les différentes interactions entre nos quatre facettes.

Graphique 9 Diagramme d’Euler-Venn présentant les différentes facettes du dispositif d’évaluation ainsi que leurs interactions

L’étude de généralisabilité exige encore que l’on précise pour chacune de nos quatre facettes, outre le nombre de niveaux (modalités) qu’elle comporte, son mode d’échantillonnage. Le tableau 10 présente les paramètres transmis au logiciel EduG pour préparer les analyses.

Tableau 10 Plan d’observation et d’estimation pour l’étude de généralisabilité sur l’ensemble du dispositif

Facette Étiquette Niveaux Univers Phases : P1 et P2 P 2 2 Catégories d’Experts : Unige - et + C 2 2 Experts par catégorie E:C 5 INF Questions Q 56 INF

Les facettes Phases et Catégories d’Experts sont définies, dans le plan d’estimation, comme fixées : le nombre de niveaux (2) est dans les deux cas égal à celui d’Univers d’échantillon-nage (2) ; on ne cherchera pas à généraliser les constats à d’autres phases ou à d’autres catégories d’experts. Les facettes Questions et Experts sont considérées comme aléatoires infinies : échantillonnées dans des très grands « réservoirs » potentiels d’items et d’évalua-teurs (l’univers de référence est considéré comme infini : INF). Nous reviendrons sur le problème que pose cette dernière caractérisation des facettes Questions et Experts dans la partie discussion (§ 5.5.3).

PQ

C EQ:C CQ E:C

QEP:C PE:C

PC

P

Q

PCQ


23

La première étape d’une étude de généralisabilité consiste en une analyse de variance sur l’ensemble des facettes. Le tableau 11 indique, en avant-dernière colonne, quel pourcentage de la variance totale est expliqué par les composantes de variance des 4 facettes et par leurs interactions dans un plan mixte (P et C sont fixées, E et Q aléatoires). L’analyse nous indique donc l’importance relative des 4 facettes et de leurs interactions19, sans toutefois nous permettre d’anticiper sur les études de généralisabilité à venir.

Tableau 11 Analyse de la variance sur les 4 facettes du dispositif d’évaluation

Composantes

Source SC dl CM Aléatoires Mixtes Corrigées % Er. St. P 18362.701 1 18362.701 32.707 29.543 14.771 4.4 26.773 C 168.951 1 168.951 -8.833 -11.997 -5.998 0.0 5.729 E:C 55421.696 8 6927.712 44.215 60.024 60.024 17.8 28.616 Q 82420.156 55 1498.548 66.625 64.675 64.675 19.2 14.133 PC 45.201 1 45.201 -6.328 -6.328 -1.582 0.0 2.933 PE:C 14675.804 8 1834.475 31.617 31.617 31.617 9.4 14.650 PQ 2646.049 55 48.110 0.159 -1.581 -1.581 0.0 1.254 CQ 9044.799 55 164.451 -2.319 -4.059 -4.059 0.0 3.512 EQ:C 90218.304 440 205.042 70.561 102.521 102.521 30.4 7.224 PCQ 2558.549 55 46.519 -3.480 -3.480 -3.480 0.0 1.943 PEQ:C 28124.196 440 63.919 63.919 63.919 63.919 18.9 4.300

Total 303686.406 1119 100%

En ce qui concerne les effets principaux, on observe d’abord le poids nul de la facette Catégorie (C) distinguant deux types d’Experts et la faible importance des différences d’estimations entre les deux Phases (P : 4.4%). Par ailleurs, la composante la plus importante est l’interaction entre Experts et Questions EQ:C ; elle traduit le fait que, pour les deux phases ensemble, les estimations des Experts peuvent varier de façon appréciable selon la Question indépendamment de leur niveau général d’exigences. Une autre interaction, PEQ:C20 (18.9%) nous incitera à revenir sur la façon dont évoluent – ou n’évoluent pas – ces niveaux d’exigences pour les différentes Questions selon les Experts et d’une Phase à l’autre (cf. supra § 2.6.2).

Insistons sur le fait que, sauf cas particulier, cette ANOVA ne permet pas de préjuger des résultats des études de généralisabilité qui suivent. Ces dernières donnent en effet, dans chaque plan de mesure, un statut à chaque facette : celui d’objet de mesure en la situant sur la face de différenciation (à gauche de la /) ou celui d’instruments de mesure, intervenant dans l’erreur de mesure (face d’instrumentation, à droite de la /). Le coefficient de généralisabilité dépendra alors à la fois de l’importance de la variance de différenciation liée à l’objet de mesure et de l’importance de la variance d’erreur sur la face d’instrumentation.

Nos études de généralisabilité s’appuieront d’abord sur l’ensemble des données du dispositif d’évaluation, donc sur les deux phases, pour vérifier s’il est possible d’attester de façon fiable des différences entre les seuils des deux Phases et entre les estimations moyennes des deux Catégories d’Experts (= de différencier les deux Phases et les deux Catégories). Les analyses 19 Noter que « des fluctuations d'échantillonnage peuvent conduire à des estimations de variance négatives, un cas exclu par la définition même de la variance. Ces estimations sont alors remplacées par des valeurs nulles pour la suite des calculs, c'est-à-dire pour l'estimation des paramètres de généralisabilité » (Aide d’EduG). 20 Composante de variance confondue avec toutes les autres sources de variance non identifiées.


24

qui suivront (§ 3.3) concerneront spécifiquement la seconde phase, considérée comme terminale, de la procédure d’Angoff, et vérifieront si notre dispositif d’évaluation différencier de façon fiable, à cette étape, le degré de sévérité des 10 Experts et les niveaux d’exigences pour les 56 Questions.

3.2.2 Étude de généralisabilité sur la différence entre les deux Phases : le niveau d’exigences augmente-il- vraiment ?

En considérant la différence entre les seuils de réussite des deux Phases (76.2% et 84.3%), on doit se demander si le dispositif d’évaluation adopté permet d’attester avec suffisamment d’assurance une augmentation du degré d’exigences d’une étape à l’autre. Pour le vérifier, nous devons formuler le plan de mesure suivant : P/CEQ21. A gauche de la barre de fraction se situe la face de différenciation où l’on fait figurer la ou les facettes de différenciation, en l’occurrence P, l’objet de la mesure, soit les différences entre les deux Phases. A droite de la barre de fraction, sur la face d’instrumentation, on liste les facettes d’instrumentation (ou de généralisation), constituant les instruments ou conditions de la mesure ; dans ce cas, il s’agit des estimations des Experts des deux Catégories sur les différentes Questions (C, E:C et Q)

Tableau 12 Résultats de l’étude de généralisabilité sur les Phases

Paramètres de Généralisabilité (Plan de mesure P/CEQ)

Sources de var.

Variance de différ.

Sources de var.

Variance d’err.rel.

% rel.

Variance d’err.abs.

% abs.

P 14.771 ..... ..... ..... C ..... (0.000) 0.0 ..... E:C ..... 6.002 56.5 ..... Q ..... 1.155 10.9 ..... PC (0.000) 0.0 (0.000) 0.0 ..... PE:C 3.162 96.5 3.162 29.8 ..... PQ (0.000) 0.0 (0.000) 0.0 ..... CQ ..... (0.000) 0.0 ..... EQ:C ..... 0.183 1.7 ..... PCQ (0.000) 0.0 (0.000) 0.0 ..... PEQ:C 0.114 3.5 0.114 1.1

Total des variances 14.771 3.276 100% 10.616 100%

Écarts types 3.843 Erreur type relative:

1.810 Erreur type absolue:

3.258 Coef_G relatif 0.82 Coef_G absolu 0.58

Moyenne générale pour les niveaux traités: 80.281 Variance d'échantillonnage de la moyenne générale pour les niveaux traités: 7.340 Erreur type sur la moyenne générale: 2.709

La fiabilité du dispositif d’évaluation pour la mesure considérée est indiquée d’abord par les deux coefficients de généralisabilité. Ceux-ci représentent la proportion attendue de variance vraie dans la variance totale. Ces coefficients se calculent selon la formule suivante :

21 N.B. : Sur la face de différenciation comme sur celle d’instrumentation, l’ordre des facettes n’a pas d’importance (on aurait pu écrire par exemple P/QCE ) et les rapports d’inclusion (les deux-points) ne sont par signalés.


25

variance de différenciation ---------------------------------------------------------------------------------------------

variance de différenciation + somme des variances d’erreur relative ou absolue.

En se référant au tableau 12 supra, on peut recalculer par exemple le coefficient de généralisabilité relatif en divisant la variance de différenciation (14.771) par cette même valeur + le total de la variance d’erreur relative (3.276), soit : 14.771 / (14.771 + 3.276) = 0.818 → 0.82. Les deux coefficients (relatif et absolu) varient donc de 0 à 1. La valeur prise habituellement comme référence pour considérer une mesure comme fiable est 0.80 (la variance de différenciation correspond au minimum aux 80% de la variance totale).

Pour répondre à la question posée ci-dessus sur l’augmentation moyenne des exigences entre les deux phases, nous considérerons dans ce cas uniquement le coefficient de généralisabilité relatif (tableau 12, avant-dernière ligne) : ce qui nous intéresse en effet est la position relative des deux seuils sur l’échelle de l’épreuve et non l’importance de leur différence. La valeur de 0.82 de ce coefficient, légèrement supérieure à la valeur de référence de 0.80, atteste déjà que notre dispositif d’évaluation permet d’estimer de façon fiable le fait que le seuil P2 (84.3%) est supérieur à celui de P1 (76.2% ; cf. tableau 7 supra)

Mais, selon la recommandation de Cronbach (avec l’aide éditoriale de Shavelson, 2004) relayée par Cardinet (2007, p. 6-7), « l’erreur type de mesure est l’information essentielle à donner pour évaluer la qualité métrologique d’un instrument22, et non un coefficient de fidélité. Cette erreur type, qui donne l’incertitude associée à chaque score, est très facile à comprendre par tous ceux qui reçoivent une information fondée sur ces scores. ». C’est donc une information que nous prendrons particulièrement en compte dans les analyses qui suivent.

En ce qui concerne la différence entre les seuils des deux phases, l’erreur type relative de 1.8% de l’échelle des scores (tableau 12) est faible par rapport à la différence mesurée de 8.1% entre P2 et P1, ce qui constitue donc un autre indice de la fiabilité de la mesure. Comme le montre la 5e colonne du tableau 12, la principale source d’erreur relative est l’interaction entre les facettes Phases et Experts (PE:C : 96.5%). Cette interaction correspond à une différence de stratégie de deux groupes d’Experts lors du passage à la seconde phase de la procédure d’Angoff (cf. supra § 2.6.2 et graphique 8) : la moitié d’entre eux ne modifie pratiquement pas son niveau moyen d’estimations entre les deux étapes (la différence entre P1 et P2 pour ce groupe est inférieure ou égale à 2%), tandis que l’autre moitié augmente ses exigences (en moyenne d’environ 15%).

3.2.3 Étude de généralisabilité sur les deux Catégories d’Experts : l’origine institutionnelle des Experts influe-t-elle sur leurs estimations ?

L’analyse de nos données avec la méthode d’Angoff (§ 2.5.2) avait déjà montré une faible différence entre les estimations des deux Catégories d’Experts pour chacune des deux Phases (cf. graphique 8 supra). L’analyse de généralisabilité confirme que le dispositif d’évaluation ne permet pas de mesurer de façon fiable les différences entre les deux catégories d’évaluateurs. Dans ce cas, comme c’est la position relative des deux scores moyens l’échelle du test qui nous intéresse (leur quasi-coïncidence), c’est le coefficient relatif qui est pertinent. 22 en l’occurrence, d’un dispositif d’évaluation.


26

Tableau 13 Étude de généralisabilité sur les Catégories d’Experts (plans de mesure : C/PEQ pour P1+P2 et C/EQ pour P1 et P2séparément)

Phase Coef. G rel. Moyennes* non-UniGE

Moyennes * UniGE

Erreur type rel.*

Principales composantes d’erreur relative**.

P1+P2 0.00 79.9% 80.7% 3.6% E:C 97.0%

P1 0.00 75.6% 76.8% 4.2% E:C 96.6%

P2 0.00 84.1% 84.5% 3.6% E:C 97.3%

* en % du total de l’échelle du texte ; *en % de la variance d’erreur totale

Pour le vérifier et pour la forme, nous avons procédé à trois analyses de généralisabilité (tableau 13), avec les plans de mesure : C/PEQ pour l’ensemble des deux phases et C/EQ pour chaque phase successivement23. Dans les trois cas, la variance de différenciation (facette C) étant nulle, les coefficients de généralisabilité relatifs et absolus étaient 0.00. On peut donc confirmer que, compte tenu de notre dispositif d’évaluation, l’origine des Experts, leur familiarité avec un certain type d’étudiants, ne jouent pratiquement pas de rôle dans le niveau de leurs exigences. Comme le montre le tableau 13 (dernière colonne : principale source d’erreur), ce résultat s’explique apparemment par le fait que chaque expert dans les deux groupe a sa propre représentation et son propre niveau d’exigences quant à ce qu’un étudiant peut – et surtout doit – pouvoir réussir à chaque question, sans qu’intervienne une référence à un illusoire « niveau effectif » du public estudiantin dont il a l’habitude.

3. 3 Études de généralisabilité analysant le fonctionnement de la Phase 2 (vs la Phase 1)

Dans la procédure adoptée, la seconde phase étant déterminante pour la fixation finale du seuil de réussite, c’est sur elle que nous allons nous centrer, mais pour mettre en évidence subsidiairement l’évolution des évaluations entre les deux phases, nous mentionnerons les mêmes analyses sur la première phase. Nous recourrons au modèle de la généralisabilité pour analyser ici le fonctionnement des Experts et des Questions dans notre dispositif d’évaluation. Comme nous laissons de côté la facette C pour les raisons présentées ci-dessus, ce dispositif ne comporte plus que les facettes E (n = 10) et Q (n = 56). Ces études de généralisabilité ne faisant que confirmer les résultats de la procédure d’Angoff, nous nous limiterons à des commentaires rapides.

3.3.1 Étude de généralisabilité sur les Experts : peut-on attester des niveaux d’exigences très différents chez les dix Experts ?

Dans ce cas, c’est le coefficient de généralisabilité absolu que nous considérerons : c’est en effet la position effective des moyennes des experts sur l’échelle absolue du test (en % : tableau 7, avant-dernière colonne) qui nous importe ; ces coefficients sont très élevés pour les deux phases (tableau 14 : 0.93 et 0.95) et les erreurs types absolues y relatives plutôt faibles (env. 2%). L’étude confirme donc des différences individuelles d’exigences se traduisant par des seuils (moyennes des estimations) qui varient fortement d’un expert à l’autre : de 64%% à 87%, pour la première phase, de 71% à 94% pour la seconde (cf. graphique 8 supra). La

23 Le logiciel EduG permet de réduire l’analyse à l’une ou l’autre phase.


27

principale source d’erreur, mais de facto de médiocre importance, est dans les deux cas l’interaction EQ : les estimations des Experts peuvent varier selon la Question indépendamment de leur niveau d’exigences général,

Tableau 14 Différenciation des Experts (plan de mesure : E/Q pour chaque Phase)

Phase Coef. G abs.

Erreur type abs.* Importance des composantes d’erreur abs.**

P1 0.93 2.27% EQ : 74.2% Q : 25.8%

P2 0.95 1.71% EQ : 59.3%Q : 40.7%

* Valeur de l’erreur type en % de réussite sur l’échelle du test

** Importance des erreurs en % du total de la variance d’erreur absolue

Comme on l’a vu, ces grandes divergences entre Experts affaiblissent la fiabilité du dispositif d’évaluation. On pourrait alors être tenté de compléter cette étude par une analyse de facettes pour repérer le cas d’éventuels experts « aberrants », nettement plus sévères ou exigeants que les autres, avec l’objectif éventuel de les écarter de la suite de l’étude. Cette analyse indique pour chaque niveau de la facette – ici pour chaque expert – la valeur du coefficient de généralisabilité, relatif ou absolu, si on éliminait le niveau en questions du plan d’observation. Un cas aberrant se signalerait donc par une nette augmentation de ce coefficient (absolu, en l’occurrence) en cas d’élimination. Cette analyse se fait à partir du plan de mesure Q/E (cf. tableau 16 infra) vérifiant la façon dont les Questions sont différenciées par les Experts.

Tableau 15 Analyse de facettes pour E : exemple pour la Phase 2 (réf. : Coef_G abs. 0.81)

Facette Niveau Coef_G rel. Coef_G abs.

E 1 0.85024 0.77746 2 0.87157 0.79197 3 0.85348 0.79223 4 0.86738 0.81726 5 0.84618 0.76578 6 0.86454 0.79756 7 0.87301 0.83007 8 0.86675 0.79724 9 0.84874 0.77185 10 0.85887 0.80054

Une rapide inspection du graphique 8 (§ 2.6.2) ne fait apparaître aucun seuil de réussite s’écartant très nettement de la moyenne générale et l’analyse de facettes (tableau 15) confirme que l’on ne peut considérer aucun Expert comme aberrant ; les valeurs de la dernière colonne du tableau 15 (Coef_G abs.) ne s’écartent guère de celle de 0.81, coefficient de généralisabilité absolu calculé pour le plan de mesure Q/E (tableau 16). L’évaluateur E7 ne fait pas vraiment exception : son élimination améliorerait le coefficient de généralisabilité absolu de deux points (0.81 → 0.83) seulement. On voit immédiatement que le jeu n’en vaudrait pas la chandelle, d’autant qu’on ne dispose d’aucune information permettant de justifier une telle mesure. Dans la majorité des cas, écarter (a posteriori) un Expert restreindrait l’échantillon des évaluateurs et ipso facto diminuerait la fiabilité du dispositif d’évaluation. Une même analyse de facettes pour la Phase 1 aboutit à la même conclusion.


28

Par ailleurs, sauf problème particulier, Cardinet déconseille formellement une telle modification du plan d’observation : « (1) d’un point de vue théorique, abandonner un élément d’un échantillon aléatoire simplement parce qu’on le trouve trop hétérogène aux autres invaliderait la représentativité de cet échantillon et par conséquent la validité de l’inférence à la population parente, qui est l’objectif visé ; (2) d’un point de vue pratique, rejeter [un Expert ou une Question] n’est pas possible puisqu’on doit de toute façon tirer un nouvel échantillon de niveaux pour la prochaine application du dispositif » (Guide d’EduG, p. 30).

A l’expérience, l’analyse de facettes se révèle surtout utile en Phase 1 pour détecter un Expert qui aurait mal compris ou appliqué la consigne. Nous en avons eu un exemple dans l’application de la méthode d’Angoff à une épreuve de mathématiques. Dans notre recherche conjointe avec Frey (2017), cette analyse pointait le curieux comportement d’un des experts qui avait utilisé en première phase uniquement les cotes 0%, 50% et 100% dans ses estimations. La même analyse pour la seconde phase montrait que la discussion interphase avait permis de régler le problème… qui était par ailleurs évident au départ à la simple inspection des données.

3.3.2 Étude de généralisabilité sur les Questions : peut-on attester des niveaux d’exigences très différents selon les Questions ?

Dans les estimations des Experts, nous avons constaté que les exigences pour les différentes questions pouvaient varier assez fortement Dans les deux cas, les questions jugées relativement faciles ou plus nettement difficiles pour les borderlines se distinguaient donc, mais plus nettement dans la phase 2 comme en témoigne notamment l’analyse de généralisabilité sur le plan de mesure Q/E. Nous en résumons les principaux résultats dans le tableau 16 pour les deux phases.

Tableau 16 Différenciation des Questions (plan de mesure : Q/E pour chaque Phase)

Phase Coef. G abs. Erreur type abs.*

Principales composantes d’erreur abs. **

P1 0.68 5.0% EQ : 71.1%

P2 0.81 3.9% EQ : 62.9.%

* Valeur de l’erreur type absolue en % de réussite sur l’échelle du test

** Importance des erreurs en % du total de la variance d’erreur absolue

La différence entre les deux coefficients de généralisabilité absolus (0.68 vs 0.81) tient au fait que, dans la phase 2, on relève à la fois une variance de différenciation plus élevée et une variance d’erreur absolue totale plus faible ; l’erreur type absolue passe ainsi de 5.0% à 3.9%. Pour cette seconde étape donc, les exigences sont encore plus différenciées selon les questions. Cette augmentation de la marge de variation est probablement attribuable à la discussion qui, en resituant les enjeux institutionnels et les critères d’évaluation, a autorisé des estimations plus extrêmes (surtout plus exigeantes), du moins chez certains experts. Toutefois, notons que pour la seconde phase la quasi-totalité des estimations se situent entre 71% et 98%, marge de variation nettement plus faible que dans la plupart des épreuves de niveau.


29

Pour P2 comme pour P1, la principale source d’erreur est, ici aussi, l’interaction entre Experts et Questions (EQ) : les experts ont des estimations différentes selon certaines questions indépendamment de leur niveau global d’exigences (E).

On pourrait par ailleurs recourir ici aussi à une analyse de facettes (cf. supra) pour identifier une ou plusieurs questions qui fonctionneraient différemment des autres. Pour contrôle, nous avons vérifié, pour la phase 2, si l’élimination de la question 7, qui se détache quelque peu des autres avec une estimation moyenne de 55%, modifierait de façon appréciable le coefficient de généralisabilité absolu. Ce n’est pas le cas : l’augmentation ne serait même pas de 0.01. Par ailleurs, l’avertissement de Cardinet, rappelé plus haut, (§ 3.3.1) reste valable : sauf raison particulière, il est déconseillé de « bidouiller » une épreuve en supprimant certains items à partir d’indices purement statistiques… ce qui se fait pourtant assez couramment sous l’influence persistante d’une tradition psychométrique : l’important est alors de différencier le plus possible les sujets élèves, parfois dans une intention de sélection.

En revanche, compte tenu des aspects didactiques de la recherche, il aurait été pertinent de s’intéresser de plus près aux questions pour lesquelles le seuil d’exigence moyen était le plus bas en phase 2. La discussion aurait été d’autant plus intéressante qu’on pouvait s’attendre à des divergences non négligeables entre experts étant donné l’importance relative de l’interaction EQ (63% du total de l’erreur absolue). Faute de temps, nous avons malheureusement dû renoncer à des échanges à ce sujet.

En conclusion, les études de généralisabilité sur l’ensemble du dispositif confirment donc les constats faits auparavant sur la base des statistiques descriptives :

• la différence entre les seuils des deux phases (8%) est statistiquement significative : le niveau d’exigence augmente après discussion, et ce pour la plupart des questions ;

• mais seule une moitié des experts semblent sensibles à cette discussion et augmentent leurs exigences ;

• la distinction entre deux Catégories d’Experts n’apporte pas d’informations pertinentes ;

• les divergences entre Experts affaiblissent de façon manifeste la fiabilité du seuil final de réussite en P2 ;

• une interaction relativement importante entre les facettes E et Q atteste que les experts peuvent avoir des estimations différentes selon certaines questions indépendamment de leur niveau global d’exigences.


30


31

4. ESTIMER LA FIABILITÉ DU SEUIL DE RÉUSSITE FINAL

4.1 L’étude de généralisabilité sur un plan sans facette de différenciation : principe de l’analyse

Sur l’échelle absolue de l’épreuve en pourcents de réussite, le seuil estimé par la procédure d’Angoff est produit en faisant la moyenne des items pour l’ensemble des évaluateurs. La fiabilité du score moyen ainsi obtenu est donc influencée par une erreur attribuable à la fois à la sélection aléatoire des Questions utilisés dans les exercices et à la sélection aléatoire des Évaluateurs ainsi que par l’interaction de ces deux facteurs. Dans le cas de notre examen, nous considérerons donc l’erreur type (standard error) absolue : en effet, nous avons affaire à une épreuve critériée et, dans une perspective typiquement édumétrique, nous avons à situer le seuil recherché sur l’échelle absolue des scores (des estimations en %), en considérant la référence au taux de réussite à l’épreuve comme pertinent pédagogiquement.

Il s’agit de tenir compte de cette erreur au moment de décider du seuil de réussite à appliquer finalement à une épreuve telle que notre examen. Nous proposons donc, sur ce point, de suivre les Standards américains pour l’évaluation (AERA/APA/NCME, 1999, art. 2.14) selon lesquels « quand des scores de réussite sont stipulés en vue d’une sélection ou d’une classification, l’erreur type de mesure doit être mentionnée à côté de chaque score de réussite » (notre traduction). Pour calculer cette erreur, Cardinet, dans sa note de 201424 relative à la méthode d’Angoff, propose de recourir à un plan sans facette de différenciation, qui précisément cible l’estimation d’une erreur type absolue. Il précise dans l’Aide d’EduG (version 6.1) : « […]. Dans un plan sans facette de différenciation, on ne s'intéresse plus à un niveau particulier d'une facette pour en obtenir une mesure. On s'intéresse à l'ensemble des données récoltées pour en déterminer la moyenne générale. On cherchera […] les sources de variation qui l'affectent, pour pouvoir estimer la précision de cette estimation. L'objet d'étude devient l'échantillon tout entier, sous toutes ses facettes à la fois. » Ce sont ces considérations qui guideront la suite de nos analyses.

4.2 Analyse et interprétation des résultats

Nous appliquerons donc ce type d’étude de généralisabilité à la seconde Phase, considérée comme finale, de la procédure d’Angoff. Le plan de mesure est alors /EQ : il n’y a pas de facette de différenciation, à gauche de la barre de fraction, et les deux facettes E et Q se trouvent sur la face d’instrumentation, à droite de la barre de fraction : elles sont en effet utilisées comme instruments de mesure, en l’occurrence d’estimation de l’erreur type absolue affectant la moyenne générale constituant notre seuil de réussite.

Le tableau 17 donne le détail des informations transmises au logiciel EduG et des résultats des analyses de variance et de généralisabilité. Nous y avons signalé en surligné les principales informations fournies par cette dernière étude, sans pouvoir commenter ici tous les détails des résultats.

24 Voir aussi Cardinet, Johnson & Pini, 2010, pp. 54-56.


32

En fin de listage, le logiciel rappelle la moyenne générale pour les niveaux traités, 84.3%, qui constitue le seuil de réussite recherché. Il fournit en outre (dernière ligne) l’erreur type (absolue) sur ce seuil, soit 2.66%. Celle-ci permet de calculer l’intervalle de confiance (ou la marge d’erreur) autour du seuil (à p .05) : 1.96 x 2.66% = 5.21%.

Tableau 17 Étude de généralisabilité sur le plan sans facette de différenciation (/EQ)

Plan d’observation et d’estimation

Facette Étiquette Niveaux Univers Réduction (niveaux à exclure) Experts E 10 INF Questions Q 56 INF

Analyse de la variance

Composantes

Source SC dl CM Aléatoires Mixtes Corrigées % Er. St. E 29716.2946 9 3301.8105 57.2282 57.2282 57.2282 25.9 25.1413 Q 41926.3839 55 762.2979 66.5265 66.5265 66.5265 30.1 14.2924 EQ 48031.2054 495 97.0327 97.0327 97.0327 97.0327 43.9 6.1554

Total 119673.8839 559 100%

Paramètres de Généralisabilité (Plan de mesure /EQ)

Sources de var.

Variance de différ.

Sources de var.

Variance d’err.rel.

% rel.

Variance d’err.abs.

% abs.

..... E ..... 5.7228 80.8 ..... Q ..... 1.1880 16.8 ..... EQ ..... 0.1733 2.4

Total des variances 0.0000 0.0000 100% 7.0841 100%

Écarts types 0.0000 Erreur type relative:

0.0000 Erreur type absolue:

2.6616 Proportion de la variance d'échantillonnage de la moyenne générale provenant des 2 facteurs principaux : Coefficient de contrôle= 0.976 (cf. § 4.5 infra) Moyenne générale pour les niveaux traités: 84.3304 Variance d'échantillonnage de la moyenne générale pour les niveaux traités: 7.0841 Erreur type sur la moyenne générale: 2.6616

4.3 Analyse des sources d’erreurs affectant le seuil de réussite

La dernière colonne de l’analyse de généralisabilité (tableau 17 supra) donne en % la contribution des trois composantes de variance d’erreur absolue affectant le seuil recherché : Q, E et QE. On observe sans surprise que la principale source d’erreur est due aux divergences d’évaluation entre Experts (E : 81% de la variance d’erreur absolue totale). L’erreur liée aux Questions est, en revanche, relativement faible (Q : 17%). Ce pourrait être une caractéristique des estimations faites sur des épreuves de maîtrise : elles tendent à limiter la marge de variation de la réussite des items (et donc de leurs estimations) autour du seuil recherché (distribution en J des scores aux Questions). On constate en effet en considérant les moyennes des estimations par question qu’elles se situent pour la quasi-totalité entre 70% et


33

100%. Rappelons que, généralement, ce pourcentage relatif d’erreur absolue dû aux questions est beaucoup plus important dans le cas d’épreuves de niveau (d’orientation ou de sélection), qui proposent des items de difficultés très diverses25. Enfin, l’interaction entre les facettes Experts et Questions est de peu d’importance, voire négligeable (2%). Cela signifie que les estimations sont essentiellement sous le contrôle du niveau d’exigences des Experts et du niveau de difficulté estimé des Questions.

4.4 Intervalle de confiance et règles de décision

Cet intervalle (de ± 5% en l’occurrence : 1.96 x 2.66) dessine une zone d’incertitude autour du seuil calculé : de 79% à 89%. Il n’y pas lieu d’estimer dans l’absolu la valeur de cette marge d’erreur : son importance dépend de son utilisation et de son impact sur le sort des candidats instituteurs. Selon le contexte institutionnel et social, ainsi que selon les conséquences de la décision finale, on décidera de faire bénéficier l’évalué – ou au contraire l’institution – de la marge d’erreur en la soustrayant ou en l’additionnant au seuil de réussite. Il s’agit d’écarter ce que Cizek & Bunch (2007, p. 25) appellent des décisions de classement respectivement fausses positives et fausses négatives.

Dans le cadre de la formation, de l’orientation ou de la sélection scolaires, pour éviter l’erreur consistant à considérer comme incompétent un candidat effectivement compétent, on décide généralement d’abaisser le seuil de passage en soustrayant la marge d’erreur afin de « donner leur chance » aux intéressés. Pour l’examen de grammaire pris comme exemple, dans cette perspective, on fixerait donc le seuil à 79%. Un feed-back d’impact, fondé sur les résultats effectifs des étudiants ayant passé l’examen de grammaire, nous indiquerait que le taux d’échecs à l’examen aurait été ainsi d’environ 5% de l’effectif des candidats enseignants (vs 2% d’échecs selon le critère de 75% du professeur).

Dans le cas d’un examen final de médecine, en revanche, on peut être amené à additionner au contraire la marge d’erreur (84% + 5% = 89%) pour éliminer des candidats médecins susceptibles de mettre en danger leurs premiers patients : « In cases where the consequences or costs of false positive decisions are […] serious […], those participating in a standard-setting procedure might recommend a very high standard to preclude a large proportion of false positive decisions. » (Cizek & Bunch, 2007, p. 27).

Une autre façon d’utiliser l’intervalle de confiance est de le considérer comme un intervalle d’incertitude et, pour lever cette incertitude, de recourir à une des stratégies de décision séquentielle préconisées par Cronbach & Gleser (1969) en faisant intervenir une autre information pour les étudiants concernés. Il s’agit souvent d’une nouvelle passation de l’examen26. Dans notre exemple de l’examen de grammaire, ce pourrait être uniquement pour ceux se situant dans la zone d’incertitude soit entre 79% et 83% de réussite.

25 Pour ce type de tests, la méthode d’Angoff est utilisée pour fixer les limites des différents niveaux ou standards de performances (typiquement, en anglais : Advanced, Proficient, Basic, Below Basic ; Cizek & Bunch, 2007, p. 32). On notera donc que l’importante dispersion des moyennes d’items dans ce genre d’épreuve tend à accroître l’importance de l’erreur type absolue affectant les différents seuils adoptés. 26 Citant Millman (1989), Cizek & Bunch (2007, p. 26) soulignent le danger d’une telle stratégie si l’institution autorise de multiples passations de l’examen : « The examinee has a better than [50%] chance of capitalizing on random error and passing the test in only five attempts! ».


34

4.5 Fiabilité des résultats de l’analyse

Elle peut être estimée en se référant au coefficient de contrôle (tableau 17 supra, in fine), qui a la forme d’un coefficient de fidélité (Aide d’EduG). Ce « Coef_G […] tient compte de toutes les facettes du plan d'observation. Il est défini comme la proportion de variance due aux effets principaux [en l’occurrence E et Q] dans la variance d'échantillonnage de la moyenne générale » (ibidem). Ce sont en effet les deux sources d’erreurs dont on peut contrôler la variance d’échantillonnage, en faisant varier par exemple le nombre d’Experts ou de Questions. En revanche, « [les] interactions [ici EQ] sont difficiles à contrôler parce qu’elles sont partiellement ou totalement imprédictibles. Un coefficient de contrôle élevé indique que les sources de variance affectant la moyenne générale ont une structure simple relativement facile à décrire et à comprendre » (Cardinet & al., 2010, p. 56 ; notre traduction). La valeur de ce coefficient étant en l’occurrence très élevé (0.976), nous pouvons donc considérer notre dispositif comme très « contrôlé ». Ce qui va notamment nous inciter à vérifier quelles seraient les solutions éventuelles pour diminuer le coût du dispositif en réduisant le nombre d’experts ou de questions.

4.6 Optimisation du dispositif d’évaluation27

La routine d’optimisation d’EduG permet de simuler une modification du plan d’observation ou d’estimation ; elle s’applique aussi dans le cas d’un plan sans facette de différenciation (Cardinet & al., 2010, p. 56-58). Il est donc loisible au chercheur de vérifier l’effet d’un plan moins exigeant ou moins coûteux en nombre d’observateurs (experts) ou d’observations (questions). Le critère de la réussite de l’optimisation est une augmentation faible, tolérable, de l’erreur type sur la moyenne générale, soit en l’occurrence sur le seuil visé, en conservant ainsi une fiabilité acceptable au dispositif d’évaluation.

4.6 1 Optimiser en modifiant le nombre d’Experts

Sur le plan pratique, la première solution d’optimisation qui vient à l’idée serait de restreindre le coût de l’opération en diminuant le nombre d’Experts. Mais alors, jusqu’où aller sans augmenter de façon sensible l’erreur type absolue, donc la fiabilité du dispositif d’évaluation ? Il faut remarquer immédiatement que cette simulation n’est pertinente que si l’on maintient le mode d’échantillonnage des Experts.

27 Dans ce qui suit, on reste toujours dans la perspective évaluative de la procédure d’Angoff.

Tableau 18 Optimisation du plan de mesure : fenêtre de saisie sur EduG


35

Le tableau 18 supra montre la fenêtre d’ordre sur EduG commandant cette optimisation pour une diminution de 9 à 5 experts et le tableau 19 infra le résultat de l’analyse. Nous l’avons complétée par le même type d’analyse en poussant cette diminution de 4 à 1 experts pour établir finalement le graphique 20. Celui-ci permet de constater qu’il serait possible de réduire à 7 le nombre d’experts sans augmenter de façon importante l’erreur type. Dès qu’on passe à moins de 5 évaluateurs, la fidélité du dispositif diminue nettement. L’erreur type attribuable à un seul évaluateur serait d’environ 8%, avec donc un intervalle de confiance de près de 16%. Cette dernière simulation donne une idée des risques encourus par les étudiants lorsque les estimations par des experts (tels que ceux de notre échantillon) peuvent varier comme dans notre corpus et qu’un seul enseignant décide du seuil de réussite. Tableau 19 Optimisation du plan de mesure : diminution du nombre d’Experts et effet sur l’erreur type absolue ; plan de mesure: /EQ.

Option 1 Option 2 Option 3 Option 4 Option 5 Niv. Univ. Niv. Univ. Niv. Univ. Niv. Univ. Niv. Univ.

E 9 INF 8 INF 7 INF 6 INF 5 INF Q 56 INF 56 INF 56 INF 56 INF 56 INF

Observ. 504 448 392 336 280 Var. Err.

Abs. 7.7392 8.5581 9.6110 11.0148 12.9802 Err. Typ.

Abs. 2.7819 2.9254 3.1002 3.3189 3.6028

Coef. Contrôle 0.976 0.975 0.975 0.974 0.974

Graphique 20 Évolution de l’erreur type absolue sur le seuil de réussite en fonction du nombre d’Experts, en %

A l’inverse, on peut se demander de combien d’experts on aurait besoin pour diminuer l’erreur type à moins de 2% ou de 1%. La simulation (que nous ne reproduisons pas ici) montre qu’il faudrait plus de 20 évaluateurs pour descendre en dessous de 2% et qu’avec 50 évaluateurs l’erreur type est encore de 1.5%. Ce qui nous oriente donc plutôt vers une stratégie visant à diminuer les divergences entre experts. Il s’agirait par exemple d’améliorer l’efficacité de la discussion interphase en consacrant plus de temps aux critères d’estimation et à l’analyse et à l’estimation communes de certaines questions.

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

10 9 8 7 6 5 4 3 2 1


36

4.6. 2 Optimiser en modifiant le nombre de Questions

On peut procéder également à un essai d’optimisation en modifiant le nombre de Questions, en général en visant à raccourcir l’examen par commodité pratique. Dans le cas de notre dispositif, on peut s’attendre à ce que cette modification ait un médiocre impact sur la fiabilité de l’examen compte tenu de la faible proportion de variance d’erreur absolue liée à la facette Q (cf. tableau 17 supra : 17%). Le graphique 21 montre ce qui se passerait si on diminuait le nombre de questions. La suppression (aléatoire) de 10 questions n’affaiblirait pratiquement pas la fiabilité de l’examen et, en raccourcissant de moitié l’examen, on ne dépasserait même pas la limite des 3% (vs 2.7%) d’erreur type absolue. Mais une telle opération, qu’on pourrait qualifier de purement psychométrique, entrerait en contradiction avec la perspective édumétrique d’une évaluation critériée impliquant une bonne validité de contenu : l’épreuve ne couvrirait plus de façon satisfaisante l’ensemble des apprentissages grammaticaux visés28.

Graphique 21 Évolution de l’erreur type de mesure (en %) sur la moyenne en fonction du nombre de Questions

4.6.3 Une autre solution : fixer la facette Questions ?

Une autre solution pour diminuer éventuellement la variance d’erreur absolue due aux Questions est de fixer cette facette, en modifiant ainsi le plan d’estimation : la dimension de l’Univers de référence dans ce plan serait alors fixée à 56, donc équivalente au nombre de niveaux de la facette. On supprime ainsi du total de la variance d’erreur type absolue les composantes dues non seulement à Q mais aussi à son interaction avec E (EQ). Dans un tel cas, on limite les conclusions à l’examen en question, et uniquement à lui, sans chercher à généraliser à d’autres contrôles du même genre. Dans notre dispositif d’évaluation, ces composantes de variance d’erreur absolue liée à Q et à EQ étant de médiocre importance (tableau 17, § 4.2 supra), on peut de nouveau s’attendre à ce que cette manipulation du plan d’estimation soit peu efficace. Et en effet, on ne gagne que 0.3% d’erreur type absolue sur le seuil de réussite en passant de 2.7% à 2.4%.

28 Cf. à ce sujet Laveault & Grégoire, 2002, chap. 2.5 : L’évaluation critériée.

2.5

2.6

2.7

2.8

2.9

3.0

56 52 48 44 40 36 32 28


37

Cette solution a été adoptée par Verhoeven & al. (1999) qui la justifient ainsi (p. 836) : « In the estimation of the error involved in the Angoff estimate across judges and items (the test’s passing score), the item difficulty variance is not considered as part of the error because the students will be tested on this set of items and generalization is not towards other items. Only the (small) judge variance and overall error term (including the interaction effect between judges and items) are considered as error variance. »

Ce choix stratégique est fortement critiqué par Cardinet (2014). Il reproche aux auteurs « un manque d’analyse théorique du modèle d’échantillonnage utilisé […] typique de beaucoup d’études effectuées dans le cadre de la psychométrie classique » (p. 1) et d’adopter ce plan d’estimation « simplement parce qu’il fournit les estimations de variance qui [les] arrangent… » (p. 5). Mais surtout, il relève que procéder ainsi revient à ignorer que « l’essentiel de l’arbitraire condamnable des examens tient au choix des items présentés aux candidats » (p. 6). Et en effet, que l’on prenne le point de vue de l’institution ou de l’étudiant, dans les deux cas, en concevant ou en passant l’examen, ils font implicitement l’hypothèse que celui-ci est représentatif de tout autre test du même genre, et qu’ils obtiendraient les mêmes résultats avec un contrôle analogue. De ce point de vue, la spécificité de l’épreuve est indéfendable.


38


39

5. RÉSUMÉ, DISCUSSION ET CONCLUSION

Le vrai test de l’adéquation des standards est leur capacité à être utiles pour la prise de décision en rendant compte le mieux possible de la réalité.

Blais, 2008, p. 94

Nous reprendrons dans ce chapitre les deux objets mentionnés dans le titre de l’article ; la méthode d’Angoff et l’analyse de la généralisabilité. Nous traiterons rapidement de leurs apports et de leurs avantages dans la mesure où ils ont été largement illustrés dans les chapitres précédents. Nous consacrerons en revanche un peu plus de développements aux limites et aux problèmes rencontrés ou potentiels.

5.1 De la généralisabilité de nos conclusions

Les conclusions de notre travail sont limitées dans leur généralisabilité par le fait que nous nous situons dans le cadre d’une étude de cas, appartenant au paradigme de recherche de faisabilité (Astolfi, 1993). Nous aurions voulu nous appuyer sur d’autres études du même type pour étayer ou relativiser nos observations. Malheureusement, dans le domaine de la didactique, et plus particulièrement de la didactique du français, on ne trouve guère de travaux s’appuyant sur la méthode d’Angoff, et encore moins portant sur des épreuves de maîtrise au sens où nous les avons définies en introduction.

En consultant la littérature disponible (surtout anglophone29), nous constatons en effet que, dans la plupart des cas, la méthode est appliquée à des évaluations de performances qui sont de facto des épreuves de niveau, sur lesquelles on définit plusieurs niveaux de maîtrise. On se contente plus rarement30 de tester des connaissances ou des compétences fondamentales, exigibles à un certain stade ou en fin de formation. Même quand le contrôle porte sur un socle de compétences (par exemple, ceux de la DEPP31 en France) ou des attentes fondamentales (épreuves cantonales ou romandes en Suisse), on cherche souvent à tester « jusqu’où vont les compétences des élèves », voire à les évaluer en fonction de normes d’excellence (Perrenoud, 1989), à des fins (pas toujours affichées) de classement des élèves ou de leurs performances. Ce qui a un impact notamment sur les conditions de passation et de fiabilité des épreuves dans la perspective de la généralisabilité : la forte variance due aux questions a un impact négatif sur l’erreur type absolue si l’épreuve est critériée. Par ailleurs, nos conclusions sont liées au dispositif d’évaluation adopté. Comme le remarquent Cisek & Bunch (2007, p. 81), il y de facto autant de variantes que d’utilisations de la méthode d’Angoff modifiée : « The method as described by Angoff is rarely used exactly as it was proposed. Rather, slight reconfigurations of the basic approach – each variation referred to as “modified Angoff method” – are now considerably more common, although precisely what constitutes a “modified” Angoff method is somewhat unclear ».

29 Cf. les références bibliographiques infra, et notamment la revue de littérature faite par Brandon (2004) en ce qui concerne différentes utilisations de la méthode d’Angoff modifiée. Comme le présent texte, cet article se propose de mettre en évidence « les forces et faiblesses de la méthode (p. 61) » sur différents points. 30 A l’exception notamment des examens finaux de médecine. 31 Cf. DEPP, 2014 et 2015.


40

Nous doutons donc qu’on puisse tenir un discours généralisateur sur la méthode d’Angoff. Trop de facteurs sont susceptibles de modifier son application et ses résultats : le type de connaissances, de performances ou de compétences évaluées ; le contexte et les enjeux des contrôles ; la compétence et l’expérience des experts ; l’organisation des échanges interphases ; la prise en compte ou non des résultats effectifs de l’épreuve… Pour que l’on puisse éventuellement juger de l’impact de ces facteurs sur les résultats, il est malheureusement exceptionnel que des chercheurs proposent une description détaillée du contexte institutionnel et de ses contraintes ; de la façon dont ils ont appliqué la procédure d’Angoff ; des incidents ou des difficultés de parcours ; des raisons pour lesquelles certains experts ou items ont été écartés…32 Méta-analyse (Hurtz & Auerbach, 2003) ou simulation (Shulruf & al., 2016) s’achoppent aux mêmes types de problèmes.

La solution que nous avons alors choisie dans cette discussion est de reprendre avantages, problèmes et limites de la méthode d’Angoff telles que nous les avons expérimentés, dans le contexte décrit en introduction, tout en les confrontant à des constats semblables ou différents repérés dans les travaux consultés. Nous considérons ainsi que nos observations peuvent être pertinentes pour d’autres applications dans la mesure où les contextes institutionnel ou pratique ne seraient pas trop différents et où nos constats recoupent des analyses faites dans d’autres recherches pas trop éloignées des nôtres.

5.2 Apports et avantages docimologiques de la méthode d’Angoff

5.2.1 Facilité (relative) d’application

Un premier avantage de la méthode, souvent avancé, est sa facilité d’application : « The Angoff method is easy to implement and can be perfected by novice users with only minimal training. » (Wheaton & Parry, 2012, p. 2). Nous avons pu le vérifier lors de la présente recherche, mais aussi lors de deux autres opérations menées dans le cadre du groupe Edumétrie, portant sur un examen de physique pour l’admission à l’université (Bain & Weiss, 2016), ou sur des épreuves cantonales de mathématique passées en fin de scolarité obligatoire (Frey, 2016 et 2017 ; Bain, 2016). A cette dernière occasion, nous avons pu expérimenter différents formats de question (juste/faux, QCM, % de réussite de la question) et tester une autre modalité de la procédure proposée par Angoff : la méthode Oui/Non (Yes/No). Nous avons donc pu vérifier la faisabilité de la procédure, tout en étant amené à relativiser sa « facilité d’application » (cf. infra).

5.2.2 Mise en évidence et contrôle de l’arbitraire des évaluations

Mais pour nous, l’avantage majeur de la méthode est de mettre en évidence la part d’arbitraire des barèmes appliqués à bien des épreuves à enjeux élevés se présentant comme des tests de maîtrise. La méthode est particulièrement conséquente avec des contrôles critériés, pour lesquels la simple distribution des scores ne constitue pas une référence suffisante quant à l’atteinte des objectifs fixés par le plan d’études. Contraignant chaque évaluateur-arbitre à

32 Brandon (2004, p. 79) constate également: « The […] aspect affecting the interpretation of the findings of Modified Angoff research is that the standard-setting methods used in the research are often minimally described. Indeed, the body of the standard-setting studies as the whole suffers of poor descriptions of methods. »


41

fournir séparément ses estimations pour chaque question, la procédure d’Angoff évite de pseudo-consensus à la suite de brefs échanges, influencés parfois par l’opinion prépondérante de certains participants, notamment celle des concepteurs de l’épreuve. Notre expérience montre que, dans ces conditions, peuvent se manifester des divergences non négligeables, même après la discussion sur les résultats d’une première étape évaluation question par question : les seuils de réussite finaux en phase 2 diffèrent en moyenne de 25% (71% vs 96%) d’un expert à l’autre (cf. supra le graphique 8).

Les procédures habituelles de fixation des barèmes scotomisent de telles disparités d’estimations. Nos résultats laissent supposer que ces différences sont dues principalement à un niveau global d’exigences propre à chaque évaluateur. Ce niveau de sévérité ou d’indulgence est vraisemblablement influencé par l’expérience de chaque expert, mais dans des conditions et des contextes divers, difficiles à saisir. Nous avons constaté, par exemple, que la connaissance du public estudiantin ne semble pas jouer de rôle déterminant. Tout se passe comme si l’expérience de chacun donnait lieu à l’équivalent d’une équation personnelle (de Landsheere, 1979, p. 112).

Comme dans d’autres recherches (Hurtz & Auerbach, 2003), nous avons constaté que cette discussion interphase avait pour effet d’augmenter le niveau du seuil (en l’occurrence de près de 10%). C’est probablement le cas quand les évaluateurs prennent conscience de l’enjeu institutionnel de l’examen. Dans notre recherche, une révision de la consigne allait dans ce sens en insistant sur le fait qu’il s’agissait d’écarter des candidats dont les compétences seraient insuffisantes pour l’enseignement l’année suivante. Toutefois, cette tendance à la hausse des exigences ne s’observe que pour la moitié de nos experts, ce qui laisse soupçonner dans ce cas également des différences individuelles quant à la remise en cause d’estimations antérieures. Pour des raisons déontologiques, nous n’avons pas cherché à savoir s’il s’agissait d’une certaine inertie évaluative ou le maintien délibéré d’un niveau d’exigence (en l’occurrence, d’indulgence relative).

5.2.3 Intérêt didactique d’une analyse question par question

Sur le plan didactique, l’intérêt de la procédure est aussi d’obliger les participants à se pencher sur le détail de l’évaluation, question par question : sur son contenu et sa formulation. On évite ainsi qu’une évaluation fondée uniquement sur une statistique globale se réfère implicitement à des normes traditionnelles et arbitraires du suffisant telles que l’obtention des deux tiers ou des trois quarts des points. La sélection des items où les divergences sont les plus importantes incite les experts à chercher les raisons des différences d’estimations, notamment dans l’importance diverse donnée à certaines notions, tant dans l’enseignement que dans les contrôles. Ainsi, « assessment can be of learning as well for learning » (Westwood & Griffin, 2013)33. Un rapport des experts aux instances qui les ont mandatés pourrait contenir des recommandations en ce qui concerne les prochains contrôles et éventuellement un aménagement de l’enseignement (plan d’études ou méthodes).

La méthode est également utilisable pour des questions à réponses construites, fréquentes dans certaines épreuves scolaires actuelles, et une méthode d’Angoff dite étendue a été

33 Sur le thème « Assessment for learning », cf. Laveault & Allal, 2016.


42

développée à cet effet (Hambleton & Plake, 1995). Elle peut s’appliquer également à des formats mixtes (Cisek & Bunch, 2007, p. 82). Nous avons eu l’occasion de tester cette dernière approche, sans problème particulier, à une épreuve de mathématiques du 11e degré (Bain, 2016 ; Frey, 2016).

5.3 Problèmes et limites de la méthode d’Angoff

5.3.1 Adaptation de l’épreuve à une analyse par la méthode d’Angoff

Comme le relèvent Cisek & Bunch (2007, p. 6), il est hautement recommandable d’envisager l’application de la méthode dès la conception et l’élaboration de l’épreuve : « Standard setting is best considered early enough to align with the identified purpose of the test; to align with the selected test item or task formats ». Dans notre recherche sur l’examen de grammaire, nous avons appliqué la méthode après passation de l’épreuve, ce qui nous a obligé à modifier les critères de correction pour éviter certains cas de dépendance statistique entre items tels qu’ils avaient été conçus au départ.

Nous avons rencontré des problèmes analogues dans la recherche portant sur les épreuves de mathématiques passées en fin de scolarité obligatoire (Bain, 2016 ; Frey, 2016), notamment du fait que des points supplémentaires étaient accordés ou des pénalisations infligées à des groupes d’items. Dans le cas de questions complexes ou construites, l’« itemisation » des réponses a posteriori conduit à bricoler des solutions pouvant introduire certains biais. Ceux-ci sont surtout gênants lors du traitement statistique des résultats, les modèles utilisés supposant la non-dépendance entre items.

5.3.2 Recrutement et sélection des évaluateurs

Dans la littérature consultée et dans les expériences auxquelles nous avons participé, on relève trois possibilités dans des épreuves analogues à notre examen : faire appel à a) des experts de la discipline, généralement des spécialistes de niveau universitaire, externes à l’institution, donc non impliqués dans la formation dispensée, souvent désignés par les autorités scolaires ou politiques à des fins d’expertise ; b) des enseignants ou praticiens de la discipline formant le collège des formateurs à l’intérieur de l’institution et parfois associés aux travaux de didactique dans la branche considérée ; c) des étudiants ayant récemment terminé avec succès la formation évaluée.

Cette dernière solution, étonnante au premier abord, a été testée par Verhoeven & al. (1999), dont la recherche portait précisément sur « la fiabilité et la crédibilité d’une procédure d’Angoff de fixation de standard pour un test de progrès recourant à des étudiants récemment diplômés » (notre traduction du titre de l’article). Ce test était appliqué quatre fois par an tout au long des études de médecine pour aider les étudiants à situer leur progression dans les objectifs de formation. Les huit juges étaient docteurs en médecine diplômés de l’université de Maastricht depuis environ cinq mois. Sans commenter ici plus avant cette recherche, notons simplement que cette solution était envisageable dans la mesure où l’objectif de l’évaluation était formatif et centré sur la réussite académique des études de médecine et non, plus directement, sur la capacité à exercer la profession. Les autres contrôles sanctionnant la fin de la formation médicale et utilisant la méthode d’Angoff réunissent généralement des experts de la discipline.


43

Autre expérience avec des étudiants réalisée dans le cadre de notre groupe Edumétrie : dans son cours de didactique, Laura Weiss a demandé à 11 futurs enseignants de physique dans l’enseignement secondaire d’estimer le seuil de réussite pour un examen d’entrée à l’université (Bain & Weiss, 2016). La compétence des évaluateurs, dans ce cas, tenait à leur expérience relativement récente des études universitaires scientifiques et de leurs exigences. L’expérience montre une assez bonne homogénéité des estimations du seuil de réussite (moyenne de 62% des points), la principale source d’erreur type absolue (près de 60% de la variance totale d’erreur absolue) étant due à des estimations portant sur des questions de difficultés très différentes. On retrouvait dans ce cas une caractéristique des épreuves de niveau à fonction d’orientation ou de sélection.

Choisir des experts universitaires, externes à la formation évaluée, ou des enseignants de la discipline ? L’expérience de Cisek & Bunch (2007, p. 22) « montre, d’une part, que des conseillers indépendants, externes apportent des avis très valables : ils offrent habituellement une vision des choses, une expérience, des idées, etc., des contributions qui ne seraient pas disponibles sans eux et qui en général améliorent la qualité des procédures de fixation de standards et la légitimité des résultats. Mais d’autre part, de tels experts-conseillers ont souvent des points de vue et des objectifs qui peuvent ne pas être partagés par les instances responsables finalement des standards » (notre traduction). Dit autrement, et selon notre propre expérience, il est facile pour les responsables finaux de l’évaluation d’écarter tout ou partie des conclusions des experts externes en leur déniant, explicitement ou implicitement, une (bonne) connaissance du terrain.

La participation de praticiens dans la procédure d’Angoff apporte l’avantage d’une expérience de l’enseignement évalué, voire du suivi de certains élèves, mais parfois sans une connaissance suffisante du plan d’études ou sans une distance adéquate par rapport à leur expérience actuelle de l’enseignement (cf. notre expérience en mathématiques, Bain 2016 et Frey, 2016).

Le choix du panel d’évaluateurs dépendra donc du niveau institutionnel et du genre de contrôle visés par l’évaluation, selon qu’il s’agit d’une évaluation formative d’une école (en général par les enseignants eux-mêmes) ou d’une expertise du fonctionnement du système de formation (la plupart du temps par des experts externes). C’est pourquoi une autre solution, préconisée par Capey et Hay (2013), nous laisse sceptique : elle consisterait à sélectionner différents types d’évaluateurs, experts et praticiens / généralistes, sous prétexte d’élargir les points de vue. Au contraire, dans bien des cas, il s’agit, comme nous venons de le dire, de préciser le point de vue adopté pour la fixation de standards et de recruter les évaluateurs en conséquence. L’hétérogénéité du groupe risque de déboucher sur des estimations très divergentes en phase 1, que la discussion ne pourra guère réduire si les références des uns et des autres sont très différentes par rapport à l’objectif de l’expertise.

5.3.3 Détermination du nombre d’experts à recruter

Comme le relèvent George et al. (2006, p. 4), « there is no clear consensus among researchers on the most appropriate number of judges ». Dans la quasi-totalité des travaux sur la méthode d’Angoff, les auteurs indiquent ou suggèrent un nombre minimum de juges (5, 8, 10, plus de 10…) ou une fourchette…, sorte de règle empirique (rule of thumb), souvent sans indiquer la


44

source ou la justification de cette information, voire de cette prescription. Les Standards for Educational and Psychological Testing (AERA / APA / NCME, 1999, p. 54) recommandent d’engager dans la procédure « un groupe de juges suffisamment nombreux et représentatifs pour fournir une garantie raisonnable que les résultats ne varient pas considérablement si la procédure était répétée » (notre traduction). Ce qui renvoie implicitement à une analyse statistique du type de celle que nous avons appliquée à nos données au moyen du modèle de la généralisabilité.

Sur ce point également, il est bien difficile de généraliser à partir de recherches très diverses quant à leur objet ou leurs modalités34. Nous dirions simplement qu’il serait imprudent de se lancer pour la première fois dans une procédure d’Angoff avec moins de 10 experts si l’on vise à minimiser l’erreur type absolue sur le seuil recherché. Il faut être conscient en effet que trois autres facteurs augmentent statistiquement cette erreur (cf. chap. 4 supra) : un petit nombre de questions, une forte dispersion de leurs niveaux de difficulté (quand on calcule une erreur type absolue)35 ou la tendance des évaluateurs à modifier leur niveau d’exigences selon la question (d’où une importante interaction Experts x Questions).

En avançant ce nombre d’une dizaine d’experts, nous soulignons un autre problème potentiel de la méthode : trouver suffisamment d’évaluateurs ayant l’expertise visée et disponibles tout au long de la procédure, ce que constate aussi Klein (2008, p. 107) « The number of available judges is limited ». Citons enfin la recommandation, réaliste, de Cizek (1996, cité par Brandon, 2004, p. 67) de recruter autant de juges que les ressources disponibles le permettent.

5.3.4 Difficulté de compréhension et d’application de la consigne

Nous avons expérimenté cette difficulté en début de procédure. Nous ne suivrons pas Boursicot et Roberts, 2006 (cités par George et al,, 2006, p. 4) qualifiant l’idée de borderlines de « concept nébuleux », mais il n’est pas évident de se représenter la limite séparant les « étudiants juste suffisants » et les autres, et de chiffrer en % la probabilité de leur réussite. Pour cette estimation, se représenter un groupe de 100 borderlines ne se révèle pas vraiment facilitateur. C’est certainement le cas dans d’autres recherches ; nous en donnons le témoignage, probablement ironique, de cette consigne de Dever (2015, p. 1) :

« Pour mieux comprendre le concept du candidat minimalement compétent, il s’avère souvent utile d’observer ses collègues de travail36; quelques-uns sont des « vedettes », dont le rendement est à un niveau bien au-dessus de la majorité, tandis que celui de certains collègues est plutôt mauvais, sans compter que certains ne devraient peut-être même pas avoir le droit d’exercice de la profession. Quelque part entre ces deux extrêmes se trouve le groupe dont le rendement constitue le niveau de compétence minimal. Le candidat limite appartient au groupe qui se qualifie tout juste pour l’agrément ou l’obtention d’un permis ».

34 Cf. par exemple la recension que fait Brandon (2004, pp. 67-68) dans son chapitre The Appropriate Number of Judges for Modified Angoff Studies, citant notamment des études faites au moyen de la généralisabilité (logiciel GENOVA de Brennan). Faute de détails sur les conditions d’application de la méthode et sur le détail des analyses statistiques, les résultats des études citées ne présentent guère d’intérêt. 35 Dans les évaluations à référence normative, de type psychométrique, le calcul de l’erreur type relative ne prend pas en compte cette source d’erreur due aux Questions. 36 En l’occurrence, il s’agit de médecins.


45

Une origine probable de la difficulté d’estimation demandée découle du fait que l’évaluateur peut avoir de la peine à concilier plusieurs références ou critères : le degré d’attentes ou d’exigences à l’égard du futur instituteur, le degré de certitude de l’évaluation proposée, avec en arrière-fond une référence aux compétences grammaticales d’une population d’apprenants familière37. On peut donc se demander, avec plusieurs chercheurs cités par Wyse & Reckase (2012, p. 6), si « la tâche d’émettre des jugements de probabilités selon la méthode d’Angoff n’est pas excessivement complexe » (notre traduction). Nos observations lors de la procédure montrent que la tâche est effectivement complexe, mais que les problèmes ne sont pas insurmontables.

Il est certainement difficile d’éviter que les experts se réfèrent à la population d’étudiants à laquelle ils ont affaire régulièrement. Nous avons essayé de prévenir ce biais en écartant explicitement cette référence de la consigne pour la seconde phase. Il est toutefois assez artificiel de situer ses estimations dans l’absolu des exigences du plan d’études, par ailleurs peu explicites sur les performances attendues38, et la référence au niveau de compétence exigé par l’exercice de la profession est sujette à des interprétations diverses. Pour bien des évaluateurs, il est probablement nécessaire de fixer, comme nous l’avons fait, quelques balises le long de l’échelle en %, se référant implicitement à un degré de difficulté de la question, toujours pour les borderlines.

Relevons encore un problème observé assez couramment dans nos travaux sur l’évaluation, et récemment dans l’application de la méthode d’Angoff à des épreuves de mathématiques au Cycle d’orientation genevois en fin de scolarité obligatoire (Bain, 2016 ; Frey, 2016 ; Frey, 2017) : la tendance des enseignants à être relativement optimistes – ou très exigeants, c’est selon – quant à la réussite de leurs élèves… ou de leur enseignement. Cela les incite à fixer à priori, avant tout feed-back sur les résultats de l’épreuve, un seuil relativement élevé.

Par ailleurs, nous n’avons pas relevé de difficulté majeure dans le maniement d’une échelle critériée en %. En observant l’ensemble des estimations aux deux phases, on peut se demander s’il est utile de proposer une précision par pas de 5%. Elle est utilisée pour une minorité des estimations (16%) en phase 1 comme en phase 2. Mais dans ces évaluations, comme dans d’autres, interviennent des différences personnelles marquées, opposant les experts qui n’utilisent pratiquement pas – ou très peu – les intervalles de 5% et ceux, minoritaires, qui y recourent pour plus de 10 questions sur 56, avec une forte corrélation entre les deux phases. Il nous semble finalement préférable d’autoriser cette latitude d’estimation pour éviter des blocages chez certains évaluateurs pour lesquels une échelle en déciles apparaîtrait trop sommaire.

Au départ, nous avons hésité à utiliser la méthode d’Angoff Oui/Non, apparemment plus simple d’emploi : il s’agit d’estimer si un candidat juste suffisant va réussir ou non la question (codage 1/0). Nous y avons renoncé pour deux raisons : cette estimation dichotomique nous paraissait d’abord trop grossière par rapport à la probabilité de réussir ou échouer telle 37 « A criticism of Angoff has been that the validity of resulting cut scores may be threatened due to panelists’ difficulty in performing the cognitively complex task of estimating probabilities and to inconsistency between panelists’ item ratings and actual student performance data. » (Peterson, Schulz, Engelhard, 2011, p. 4). 38 Marc & Wirthner (2013, p. 5) rappellent que le plan d’études romand (PER) n'est pas un référentiel pour l'évaluation.


46

question formulée de telle façon. Cette variante se révèle par ailleurs particulièrement inadéquate pour un test de maîtrise comme l’examen de grammaire, pour laquelle on postule des estimations situées entre 50% et 100% (et de facto plutôt entre 75% et 100%). Cisek & Bunch (2007) en font rapidement la démonstration et l’illustration (p. 94) :

« Un biais potentiel se produit parce que la méthode [Oui/Non] est fondée sur un jugement implicite exigeant de décider si la probabilité d’une réponse correcte en référence au score de passage est plus grande que .5 [50%]. Pour illustrer ceci, supposons qu’un test soit composé d’items identiques qui aient tous une probabilité de réponse en référence au score de passage de .7 [70%]. Un évaluateur rigoureux dans ses estimations assignerait la valeur de 1 à chaque item, et le standard de performance résultant serait un score parfait [100% de réussite], ce qui n’est clairement pas l’intention de l’évaluateur ni une attente réaliste fondée sur la difficulté du test » (notre traduction).

On conçoit l’inadéquation de cette variante dans le cas d’un test de maîtrise comme l’examen de grammaire pour lequel on pouvait attendre à priori (cf. le seuil fixé par le professeur) à une moyenne de 75% de réussite.

5.3.5 Temps nécessaire pour parcourir les étapes de la procédure

C’est un des problèmes le plus souvent signalés dans la littérature consultée : « A drawback of the Angoff method is the time involved of the use of experts in panels, and therefore the costs. This was confirmed by the comments the judges made about the time consuming procedure. The judges needed about 2 hours for this procedure. » (Klein, 2008, p. 10). Il faut en effet du temps pour exposer et entraîner la méthode, notamment quand les experts sont novices ; pour analyser et coter chaque question ; pour prendre connaissance du détail des résultats ; pour discuter les points de divergence entre les deux phases et décider du seuil final ; pour rédiger et discuter le rapport aux commanditaires de l’évaluation, éventuellement le commenter aux instances concernées. La durée (totale) de deux heures avancée par Klein nous semble sous-évaluée, en particulier si l’on a affaire à des experts novices ou s’ils fonctionnent ensemble pour la première fois. Ce travail ne figurant généralement pas dans le cahier des charges des experts, l’opération correspond également à un coût non négligeable, que les instances administratives s’efforcent actuellement de réduire.

5.3.6 Efficacité relative et problèmes de la discussion interphase

Cette étape d’échanges entre évaluateurs, avant la première étape et entre la première et la seconde (éventuellement avant la troisième), est jugée cruciale pour la qualité et la convergence des estimations. Clauser & al. (2009) en font l’objet d’une étude spécifique, qui conclut (p. 2) que la discussion des divergences entre évaluateurs a diminué la variance associée aux effets Juges et Juges x Items, indice d’un accord accru entre les juges.

Dans notre expérience, cette diminution est de faible ampleur, de même que dans la recherche sur les épreuves de mathématiques (Bain, 2016 ; Frey, 2016 et 2017), et cela risque d’être assez souvent le cas quand on ne fait pas intervenir dans les évaluations des feed-back d’impact ou de réalité. En effet, faute de temps et compte tenu du nombre de questions, il est probablement rare qu’on puisse approfondir les cas de divergences, et plusieurs d’entre elles risquent de subsister. C’est l’expérience que nous avons faite ; elle laisse par ailleurs supposer


47

des différences individuelles quant à la capacité ou à la volonté de modifier ses estimations : la moitié de nos 10 experts n’ont guère changé globalement leurs exigences d’une phase à l’autre. D’autant que, plus généralement, ces divergences peuvent tenir à des positions personnelles tant épistémologiques (statut de la branche), que pédagogiques (investissement dans la formation), ou docimologiques (pertinence du mode ou de la forme de l’évaluation).

Mentionnons par ailleurs un biais possible lors de cette discussion, susceptible d’influer sur les estimations de la seconde phase : le leadership exercé de facto par tel ou tel participant. Pour paraphraser un des commandements de la Ferme des animaux (Orwell, 1945, p. 89), théoriquement « tous les [experts] sont égaux, mais certains sont plus égaux que d'autres » : « Caution must be exercised in interpreting the reliability coefficient since it might be influenced by one judge who dominates others » (Mortaz & Jalili, 2014, p. 5).

5.3.7 Renonciation à une phase 3 de feed-back de réalité et d’impact ?

Compte tenu de ces divergences encore relativement importantes en fin de phase 2, n’aurait-il pas fallu passer à une troisième phase ? Lors de cette étape (Cisek & Bunch, 2007, pp. 55-56 et 84), on injecte dans la procédure des informations sur les résultats effectifs à l’examen ou à des contrôles équivalents antérieurs (cf. supra § 2.5.3). L’objectif est d’améliorer la convergence des estimations en fournissant aux experts des références communes.

Nous avons finalement renoncé à une telle étape faute de temps, mais surtout parce que, dans les deux types de feed-back, on tend à mélanger les références normatives et critériées, changeant ainsi le point de vue adopté au départ de notre recherche. La référence sur laquelle nous avons insisté est le niveau de performance attendu des futurs instituteurs pour donner un enseignement grammatical de qualité. De ce point de vue, l’estimation finale du seuil de réussite peut théoriquement s’affranchir de références à la réalité des résultats.

Dans la pratique en revanche, en dehors des cas d’expertise particuliers, nous constatons que le recours à un feed-back de réalité ou d’impact s’impose souvent. Il est notamment la conséquence de la tendance des enseignants (ainsi que des experts-enseignants) à être relativement optimistes ou exigeants dans leurs estimations. Nous l’avons remarqué notamment dans l’application de la méthode d’Angoff à des épreuves de mathématiques au Cycle d’orientation genevois en fin de scolarité obligatoire (Bain, 2016 ; Frey 2016 et 2017) : pour certaines filières, le seuil fixé à priori était proche de la moyenne des scores, d’où théoriquement un taux d’échecs de près de 50%, que l’institution n’aurait pu se permettre pour des raisons évidentes. La solution adoptée finalement est généralement un compromis : « Pour fixer le seuil [final], le niveau de compétence attendu des élèves (seuil Angoff) et les rendements effectifs des élèves ont été pris en considération » (Frey, 2017, p. 5). Et encore faut-il que le taux final d’échecs soit défendable face aux instances extérieures (notamment politiques) susceptibles de critiquer l’institution de formation (Cizek & Bunch, 2007, p. 2).


48

5.4 Apports du modèle de la généralisabilité pour le traitement des données de la méthode d’Angoff

5.4.1 Analyse du fonctionnement de l’ensemble du dispositif

Au moyen de différents plans d’analyse portant sur l’ensemble du dispositif d’évaluation, le modèle attire l’attention sur certaines caractéristiques importantes des résultats, confirmant ou étayant les constats faits au moyen de la méthode d’Angoff. Nous avons ainsi pu attester que le seuil de réussite augmente significativement entre les deux phases en passant de 76.2% à 84.3%, corroborant ainsi une tendance à l’augmentation des exigences lors de la seconde phase, tendance constatée par d’autres chercheurs dans des recherches analogues. Par ailleurs, l’étude de généralisabilité a entériné la conclusion selon laquelle l’appartenance institutionnelle des Experts (facette C) ne jouait pratiquement aucun rôle, ce qui nous a permis d’ignorer cette facette dans la suite de l’étude.

5.4.2 Calcul du seuil et de l’erreur type absolue sur le seuil

L’intérêt principal de la généralisabilité – et du logiciel EduG – est de nous fournir directement, à partir du tableau des estimations Questions x Experts et du plan de mesure /QE (sans facette de différenciation), le seuil de réussite recherché, soit la moyenne générale des données, ainsi que l’erreur type absolue qui l’affecte, deux paramètres estimés au niveau de la population. Le seuil de réussite étant déjà fourni par la méthode d’Angoff, c’est surtout le second paramètre qui importe quand on cherche à estimer l’effet de convergence dû à la deuxième phase : on a ainsi passé, de la première à la seconde phase, d’une erreur type absolue de 3.11% à 2.66%, avec donc un intervalle de confiance en fin de procédure (P2) d’un peu plus de 5% de l’échelle de mesure (soit environ 3 points sur 56). La détermination finale du seuil appliqué aux étudiants devrait normalement tenir compte de cette marge d’erreur.

On notera que le chapitre 6 de Cisek & Bunch (2007) sur la méthode d’Angoff n’aborde pas la question de l’erreur inhérente à l’échantillonnage des experts et encore moins la prise en compte de l’erreur due à celui des questions. Dans leur présentation de ce chapitre, ils se situent exclusivement dans une perspective de statistique descriptive. Ils ont cependant pris la précaution de rappeler dans un chapitre précédent (chap. 3) la nécessité de faire figurer cette erreur type à côté de chaque score de performance, en se référant aux recommandations des standards de AERA/APA/NCME (1999). En revanche, dans les contrôles pédagogiques, ce type d’information relativisant les scores de passage ou d’orientation est rarement mentionné. Par exemple, dans les épreuves cantonales importantes pour la promotion ou l’orientation des élèves, à notre connaissance, l’erreur type n’est généralement pas utilisée (du moins explicitement) pour fixer le seuil final.

Tout se passe comme si cette notion d’erreur sur un score n’existait pas dans la culture évaluative sous nos latitudes. On peut notamment l’expliquer par le fait qu’il n’est socialement pas de bonne stratégie de parler d’« erreur » dans le cas d’épreuves qu’on doit, de plus en plus souvent, défendre contre des critiques extérieures ou contre des recours de plus en plus fréquents des évalués. Dans la pratique, cela a pour conséquence d’ignorer de facto l’existence d’une telle erreur ; il n’y a donc pas lieu d’en évaluer l’importance ni de décider qui faire profiter de l’intervalle d’incertitude calculé, l’apprenant ou l’institution.


49

Généralement, les responsables de l’évaluation adoptent en effet ce que Cisek & Bunch (2007, p. 29) appellent la solution « par défaut » : « In fact, the equal weighting of false positive and false negative classification errors is effectively the “default” weighting that is adopted when the issue of relative costs is not deliberated. »

5.4.3 Estimation des différentes sources d’erreurs du dispositif d’évaluation

Cette information est intéressante pour situer les problèmes de fonctionnement du dispositif d’évaluation dans son ensemble. Elle l’est encore plus lorsque ce dispositif est plus complexe et comporte des facettes supplémentaires mettant en évidence des variables contextuelles telles que les phases de la procédure, le type d’apprenants, les catégories et types d’items ou des variantes de la méthode d’Angoff39.

Dans notre recherche, l’analyse de généralisabilité a notamment attesté que les divergences entre Experts – et plus particulièrement leurs niveaux d’exigences différents – avaient le poids le plus important (81% du total de la de variance d’erreur absolue). Elle a confirmé le fait – attendu par nous – que, dans une épreuve de maîtrise, la facette Questions a un poids moindre du fait d’une certaine homogénéité des questions quant à leur degré de difficulté. Cette conclusion est renforcée par la comparaison avec des épreuves de niveau en physique et en mathématiques (Bain & Weiss, 2016 ; Bain, 2016 ; Frey, 2016) où l’erreur due aux Questions est en revanche prépondérante.

5.4.4 Possibilité de tester des améliorations du dispositif d’évaluation

Le logiciel EduG offre différents moyens de simuler ou tester des améliorations du dispositif d’évaluation. Comme souvent quand diverses solutions informatiques sont disponibles, il est nécessaire d’évaluer leur pertinence docimologique et statistique du point de vue des objectifs, des modalités et du contexte de l’évaluation.

En ce qui concerne le traitement des données issues d’une procédure d’Angoff, nous avons relevé l’intérêt d’appliquer la routine dite d’optimisation d’EduG. Elle nous a permis de constater qu’on aurait pu, à la rigueur, se contenter de 7 experts au lieu de 10 sans augmenter de façon importante l’erreur type d’erreur. Qu’on aurait pu également diminuer la longueur de l’examen de moitié sans grande perte de fiabilité. Mais précisément dans ce cas, la conclusion aurait été docimologiquement non pertinente : l’épreuve ainsi raccourcie perdrait de la validité de contenu.

L’analyse de facettes, disponible également sur EduG, présente selon nous de l’intérêt essentiellement comme outil diagnostique. On peut l’utiliser avec profit pour repérer dans le dispositif d’évaluation (en l’occurrence la méthode d’Angoff) les Experts ou les Questions qui ont dysfonctionné : par exemple, les évaluateurs qui ont mal compris ou appliqué la consigne ou les items mal formulés. Il est en revanche fortement déconseillé de chercher ainsi à écarter certains Experts et certaines Questions sans raison pertinente, sous le simple prétexte d’améliorer la fidélité de l’évaluation : on remettrait alors en cause l’échantillonnage de ces facettes. C’est pourtant un artifice souvent pratiqué.

39 Cf. dans Frey 2016 l’estimation du seuil de suffisance pour une épreuve de mathématiques au moyen des méthodes d’Angoff modifiée et Oui/Non par deux groupes d’enseignants choisis aléatoirement.


50

Nous ne reviendrons pas en détail sur la stratégie consistant à fixer la facette Questions (cf. supra § 4.6.3). Elle a le défaut d’ignorer la part – souvent importante – de l’erreur due au choix et à la formulation des items et de priver le dispositif d’évaluation (ici les estimations faites au moyen de la méthode d’Angoff) d’une généralisabilité pourtant postulée la plupart du temps : on fait presque toujours l’hypothèse que l’on aurait obtenu des résultats analogues avec un jeu différents de questions correspondant aux mêmes apprentissages visés.

5.5 Problèmes et limites du modèle de la généralisabilité

5.5.1 Exigence d’un plan équilibré

Travailler avec un plan d’observation simple Experts x Questions ne pose pas de problème. En revanche, dès que l’on souhaite introduire d’autres facteurs (facettes) tels que certaines conditions expérimentales comme le regroupement des élèves selon leur classe ou leur établissement, il est nécessaire d’avoir le même nombre d’éléments par groupe. Si les tailles des groupes ne sont pas trop déséquilibrées, on peut recourir à l’élimination aléatoire de quelques éléments surnuméraires dans certains groupes (référence : l’effectif du groupe le moins nombreux) pour retrouver l’équilibre, ce qui revient automatiquement à diminuer le nombre des données disponibles pour les analyses. Le problème est analogue si on subdivise les questions en fonction de différents chapitres ou dimensions de compétences ; chaque chapitre doit comporter le même nombre de questions, sinon il faut éliminer aléatoirement les questions surnuméraires dans certains chapitres. Une autre solution consiste à recourir dans ces cas à un programme d’analyse de variance acceptant des plans non équilibrés (unbalanced) et à introduire dans EduG les sommes de carrés obtenues avec leurs degrés de liberté (Aide d’EduG, Saisie de sommes de carrés). Dans les deux cas, il est prudent d’estimer les biais éventuels ainsi introduits.

5.5.2 Même format des questions pour leur codification

Plusieurs de nos épreuves cantonales comportent un mélange de questions cotées à 1 point, 2 points, 3 points ou plus. La transposition des estimations des experts pose alors problèmes pour la généralisabilité : elle exige que chaque donnée soit codée de la même façon, en l’occurrence, pour la méthode d’Angoff, en 1 et 0, en % de réussite, ou encore en degrés de réussite sur le même maximum de points (de 0 à 3, par exemple). On peut essayer d’« itemiser » la correction en reprenant les questions à plus d’un point et en identifiant les éléments de cotation (items) possibles. L’opération n’est pas toujours possible certaines cotations correspondant à des estimations globales de la réponse, voire comportant des bonifications ou des pénalisations relatives à plusieurs éléments de réponses, ce qui induit une non-indépendance des items. On ne peut donc que recommander de prendre en compte les exigences de la méthode d’Angoff et du modèle statistique dès la conception de l’épreuve.

5.5.3 Échantillonnage aléatoire des Experts et des Questions

La représentativité du panel d’experts et des questions du test est essentielle pour toutes les méthodes de standard setting. Elle implique en principe une sélection aléatoire à la fois des évaluateurs dans l’ensemble des candidats potentiels au dispositif d’évaluation et des questions dans l’ensemble potentiel des questions portant sur le domaine contrôlé. Relevons d’abord que cet échantillonnage aléatoire est l’hypothèse « par défaut » qui est faite dans la


51

plupart des recherches sur la méthode d’Angoff, où ces deux facettes, E et Q, sont déclarées aléatoires infinies. Ce postulat ne pose pas trop de problèmes en ce qui concerne les Questions : on peut accepter l’idée que leur choix et leur rédaction ne sont pas systématiquement biaisés, qu’elles ont été sélectionnées dans un univers dont le nombre de niveaux « est considéré si grand qu'il n'est pas possible d'en trouver le nombre exact » (Aide d’EduG, Plan d’estimation) et que ce choix a un caractère pratiquement aléatoire. La même hypothèse est plus difficile à postuler pour les experts. Dans certains domaines très spécialisés comme la didactique de la grammaire, l’univers de référence peut difficilement être considéré comme pratiquement infini et il est plutôt rare qu’on sélectionne des spécialistes par tirage au sort. On doit donc considérer, par convention, que le recrutement des experts n’a pas été l’objet d’un biais systématique et que ces spécialistes constituent un panel parmi d’autres possibles, représentatif des personnes compétentes dans le domaine. Convention qui apparaît largement pratiquée dans les recherches du même type que la nôtre : elles restent souvent très discrètes sur les modalités de la sélection des questions ou des experts.

5.6. En guise de conclusion Ce texte a été rédigé en hommage à Jean Cardinet, chercheur, collègue et ami avec lequel j’ai échangé pendant plusieurs décennies sur les mérites et les problèmes de la généralité, modèle qu’il s’est donné pour mission, avec d’autres collègues, de faire mieux connaître et de mettre à la portée de tous ceux qui s’intéressent à l’évaluation. C’est donc à lui que je donne d’abord la parole dans ces quelques mots conclusifs en reproduisant le dernier paragraphe de son texte de 2014 faisant la critique de l’article de Verhoeven & al. (1999).

« A plus long terme, il faut remettre en cause toute la procédure d’examen, car l’étude statistique que nous venons de faire montre bien que, pour des raisons pratiques de temps et de coût, l’incertitude ne pourra jamais être suffisamment réduite, même pour l’estimation apparemment simple du niveau minimum requis en utilisant la méthode d’Angoff. Le modèle statistique n’est pas pour autant à rejeter, car il a au moins l’intérêt de révéler quelles sont ses limites. C’est plutôt l’ambition d’une évaluation bilan qu’il faudra sans doute abandonner au profit de procédures plus élaborées d’évaluation formative. »

J’ai pris connaissance de ce texte quelques semaines seulement avant le décès de Jean Cardinet. Je n’ai donc pas pu réagir à cette conclusion et avoir avec lui un de ces échanges fructueux et passionnants, notamment quand nos avis divergeaient quelque peu. Je lui aurais dit mon accord de principe avec l’idée d’affecter l’essentiel de nos efforts à développer l’évaluation formative, à laquelle j’ai consacré quelques-uns de mes travaux. En revanche, je ne suis pas sûr qu’on puisse jamais abandonner évaluations bilans et examens. Un contrôle sommatif des résultats de la formation s’impose, en particulier pour la scolarité obligatoire ; il est en cours de façon systématique dans de nombreux pays. Il est méthodologiquement et didactiquement hautement recommandable que des experts examinent les résultats de ces enquêtes avec une méthode du type Angoff pour estimer s’ils correspondent au niveau de performances attendu par les formateurs, mais aussi par les instances politiques auxquelles ils doivent des comptes. En ce qui concerne les examens et les divers tests à enjeux élevés, dont dépend souvent la carrière scolaire ou professionnelle des apprenants, il s’agit de réduire un


52

arbitraire dont on n’a pas toujours conscience. Les méthodes de standard setting du type de celle d’Angoff pourraient apporter une contribution importante à un tel objectif. Daniel Bain janvier 2018


53

RÉFÉRENCES BIBLIOGRAPHIQUES

AERA, APA & NCME (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association, American Psychological Association National Council on Measurement in Education.

Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational measurement (pp. 508–600). Washington, DC: American Council on Education.

Astolfi, J.-P. (1993). Trois paradigmes pour les recherches en didactique. Revue française de pédagogie, volume 103, 1993. pp. 5-18.

Bain, D. (2010). Pour évaluer les qualités docimologiques des tests de maîtrise : l’intérêt de recourir à la généralisabilité. Mesure et Évaluation en Éducation, 33, 2, 35-63.

Bain, D. (2016). Math. 11e Tronc commun : Résumé des analyses de généralisabilité .Genève : Groupe Edumétrie, Société suisse de recherche en éducation (SSRE) ; rapport de recherche.

Bain, D. & Weiss, L. (2016). Épreuve passerelle de physique : commentaires des résultats. Genève : Genève : Groupe Edumétrie, Société suisse de recherche en éducation (SSRE) ; rapport de recherche.

Barbana, S., Dellisse, S., Dumay, X. & Dupriez V. (2016). Vers un recouplage politique/pratique ? Études de cas dans l’enseignement secondaire belge francophone. Les Cahiers de recherche du Girsef n° 105.

Berk, R. A. (1986). A consumer’s guide to setting performance standards on criterion- referenced tests. Review of Educational Research, 56, 137–172.

Blais, J.-G. (2008). Les standards de performance en éducation. Mesure et évaluation en éducation, 31, 2, 2008, 93-105.

Boursicot K. & Roberts T. (2006). Setting standards in a professional higher education course: Defining the concept of the minimally competent student in performance based assessment at the level of graduation from medical school. Higher Education Quarterly. 2006, 60 : 74–90.

Brandon, P.R. (2004). Conclusions About Frequently Studied Modified Angoff Standard-Setting Topics. Applied Measurement in Education, 17(1), 59-88.

Bronckart, J.-P. (2004). Syllabus de grammaire 1. Genève: Faculté de psychologie et des sciences de l’éducation, Université de Genève.

Busch J. & Jaeger R. (1990). Influence of type of judge, normative information, and discussion on standards recommended for the National Teacher Examinations. J. Educ Meas., 27(2), 145–163.

Capey, St. & Hay Fr. C. (2013). Setting the standard in assessments. In O. M. R Westwood., A. Griffin & Fr. C. Hay (Eds), How to Assess Students and Trainees in Medicine and Health. New Jersey : Wiley-Blackwell, 94-113.

Cardinet J. (1972). Adaptation des tests aux finalités de l’évaluation. Neuchâtel : Institut romand de recherches et de documentation pédagogiques (R72-9).

Cardinet, J. (2003). Numéro spécial sur la Généralisabilité : Mesure et évaluation en éducation, 26 (1-2).


54

Cardinet, J. (2007). Résumé de l’article de Lee J. Cronbach: « Ce que je pense maintenant du coefficient alpha et de ses suites ». Bulletin de l’ADMEE-Europe no 2007/1, 4-7.

Cardinet, J. (2014). Discussion de l’article de Verhoeven, Van der Steeg, Scherpbier, Muijtjiens, Verwijnen & van der Vleuten, in MEDICAL EDUCATION, 1999, 33, 832-837 Communication personnelle, s.l.n.d.40

Cardinet, J. & Tourneur, Y. (1985). Assurer la mesure. Berne : Peter Lang. Cardinet, J., Johnson, S. & Pini, G. (2010). Applying Generalizability Theory using EduG.

New York: Routledge/Taylor & Francis (Quantitative Methodology Series). CDIP (2007). HarmoS : Objectifs nationaux de formation. Conférence intercantonale de

l'instruction publique de la Suisse romande et du Tessin. Accès : http://www.ciip.ch/documents/showFile.asp?ID=2910.

ÇETİN, S. & GELBAL, S. (2013). A Comparison of Bookmark and Angoff Standard Setting Methods, Educational Sciences: Theory & Practice, 13(4) Educational Consultancy and Research Center www.edam.com.tr/estp. (2169-2175).

CIIP (2007). Convention scolaire romande. Neuchâtel : Conférence intercantonale de l’instruction publique de la Suisse romande et du Tessin.

CIIP (2010-2016). Plan d’études romand. Neuchâtel : Conférence intercantonale de l’instruction publique de la Suisse romande et du Tessin. Accès : https://www.plandetudes.ch/ consulté le 12.08.2016.

Cizek, G. J. (1996). Setting passing scores. Educational Measurement: Issues and Practices, 15(2), 20-31.

Cizek, G. J., & Bunch, M. B. (2007). Standard setting : a guide to establishing and evaluating performance standard on tests. Thousand Oaks, CA : Sage.

Clauser B., Harik P., Margolis M., McManus I., Mollon J., Chis L. & Williams S. (2009). An empirical examination of the impact of group discussion and examinee performance information on judgments made in the Angoff standard-setting procedure. Appl Meas Educ., 22(1) : 1–21.

COE (2017). Cadre européen de référence pour l’enseignement des langues. Strasbourg : Conseil de l’Europe, Unité des Politiques linguistiques, Strasbourg, Accès : https://rm.coe.int/16802fc3a8.

Conseil d’Etat (2017) : Projet de budget. Genève : Conseil d’Etat de la République et canton de Genève. Téléchargé le 15.01.2018 sur http://ge.ch/finances/media/finances/files/fichiers/tome1_hd_504-2.pdf.

Cronbach, L. J. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. Avec l’aide éditoriale de R. J. Shavelson. Los Angeles: Center for the Study of Evaluation (CSE) National Center for Research on Evaluation, Standards, and Student Testing (CRESST) Graduate School of Education & Information Studies University of California.

Cronbach, L.J. & Gleser, G.C. (1965). Psychological tests and personnel decisions. Urbana: University of Illinois Press.

40 Ce texte nous a été envoyé en mai 2015 par Jean Cardinet, à la suite d’un échange sur le texte de Verhoven & al., 1999. Il ne contenait aucune information sur sa date ni sur un éventuel lieu d’édition (s.l.n.d). Nous l’avons daté de 2014 en fonction de la date électronique du fichier reçu.

http://www.ciip.ch/documents/showFile.asp?ID=2910

http://www.edam.com.tr/estp

https://www.plandetudes.ch/

https://rm.coe.int/16802fc3a8


55

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302.

Cycle d’orientation (1974). Le Cycle d’orientation : enseignements généraux. Genève : plaquette éditée par la Direction générale du CO, Département de l’instruction publique.

D’Hoop E., Lemenu D., Malhomme, Chr., Coupremanne, M. (2012). Articulation entre référentiels, pratiques d’enseignement, dispositifs de formation et pratiques d’évaluation. Texte final destiné aux Actes du 24e colloque de L’ADMÉÉ-Europe : L’évaluation des compétences en milieu scolaire et en milieu professionnel.

DIP (2016). Document de liaison. Enseignement et évaluation. Cycle moyen. Année scolaire 2016-2017 (v. 1). Genève : Département de l’instruction publique.

De Landsheere, G. (1979). Dictionnaire de l’évaluation et de la recherché en éducation ; entrée: validité de contenu. Paris: Presses universitaires de France.

DEPP (2014). Rapport technique - CEDRE Mathématiques École 2014. Paris : Direction de l’évaluation, de la prospective et de la performance, Ministère de l’éducation nationale, de l’enseignement supérieur et de la recherche.

DEPP (2015) : Note d’information no 19, mai 2015. Paris : Direction de l’évaluation, de la prospective et de la performance, Ministère de l’éducation nationale, de l’enseignement supérieur et de la recherche.

Dever, E. (2015). La fixation des normes selon la méthode Angoff. Téléchargé sur le site de l’ACTRM : http://www.camrt.ca/fr/wp-content/uploads/sites/3/2015/05/La-m%C3%A9thode-Angoff.pdf, le 29.05.18.

EduG (2014). Logiciel dédié à l’analyse de la généralisabilité à l’initiative de J. Cardinet. Mis à disposition par le Groupe de travail « Édumétrie -- Qualité de la mesure en éducation » de la Société Suisse pour la Recherche en Éducation (SSRE), hébergé sur le site de l’IRDP, téléchargeable en version française ou anglaise à l’adresse : https://www.irdp.ch/institut/edumetrie-1635.html.

Frey, J. (2016). Étude exploratoire sur l’utilisation de la méthode d’Angoff pour déterminer à priori les seuils de suffisance des EVACOM de mathématiques. Genève : Direction générale de l’enseignement obligatoire.

Frey, J. (2017). Utilisation de la méthode d’Angoff pour déterminer à priori les seuils de suffisance des EVACOM de mathématiques 2017. Genève : Direction générale de l’enseignement obligatoire.

George S., Haque S. & Oyebode F. (2006). Standard setting: comparison of two methods. BMC Med Educ. 6(1):46.

Hambleton, R. K. & Plake, B. S. (1995). Using an extended Angoff procedure to set standards on complex performance assessments. Applied Measurement in Education, 8, 41–56. Hurtz G, Auerbach MA. (2003). A meta-analysis of the effects of modifications to the Angoff

method on cutoff scores and judgment consensus. Educ Psychol Meas., 63(4):584–601. IRDP (2015a). Pratiques cantonales concernant l’organisation d’épreuves de référence,

d’examens, de tests ainsi que l’obtention de certificats ou diplômes, degré primaire, degré secondaire [en] Suisse romande. Neuchâtel : Institut de recherche et de documentation pédagogique.

http://www.camrt.ca/fr/wp-content/uploads/sites/3/2015/05/La-m%C3%A9thode-Angoff.pdf

http://www.camrt.ca/fr/wp-content/uploads/sites/3/2015/05/La-m%C3%A9thode-Angoff.pdf



56

IRDP (2015b). Les pratiques évaluatives des enseignants : au regard de quels référentiels ? Journée d’étude, Yverdon, 20.11.2015. Neuchâtel : Institut de recherche et de documentation pédagogique.

IRDP (2016). La multiplicité des référentiels d'évaluation chez les enseignants : une réalité incontournable ? Table ronde de la journée d'étude du 20 novembre 2015 sur les pratiques évaluatives des enseignants. https://www.irdp.ch/data/secure/1536/document/table_ronde_20_11_15.pdf, téléchargé le 14.01.2018.

Kane, M. (1994). Validating the performance standards associated with passing scores. Review of Educational Research, 64(3), 425.

Klein M.E. (2008). The use of the objective structured clinical examination (OSCE) in dental education. Thesis. Department of Periodontology of the Academic Centre for Dentistry Amsterdam (ACTA), 152 p., downloaded from UvA-DARE, the institutional repository of the University of Amsterdam (UvA) http://hdl.handle.net/11245/2.55005.

Laveault, D. et Grégoire, J. (2002). Introduction aux théories des tests en psychologie et en sciences de l’éducation (2e éd.). Bruxelles : De Boeck.

Laveault, D. & Allal, L. (Eds) (2016). Assessment for Learning: Meeting the Challenge of Implementation. Cham: Springer.

Marc, V. & Wirthner, M. (2012). Épreuves romandes communes : de l’analyse des épreuves cantonales à un modèle d’évaluation adapté au PER – Rapport final du projet EpRoCom. Neuchâtel : Institut de recherche et de documentation pédagogique.

Marc, V. & Wirthner, M. (2013). Développement d’un modèle d’évaluation adapté au PER. Rapport scientifique du projet d’épreuves romandes communes. Neuchâtel : Institut de recherche et de documentation pédagogique.

Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13–104). New York: Macmillan.

Millman, J. (1989). If at first you don’t succeed: Setting passing scores when more than one attempt is permitted. Educational Researcher, 18(6), 5–9.

Mortaz Hejri, S. & Jalili, M. (2014). Standard setting in medical education: fundamental concepts and emerging challenges. Medical Journal of the Islamic Republic of Iran, 2014; 28: 34, published online 2014 May 19.

Orwell, G. (1989) Animal Farm : A Fairy Story. London, Penguin, coll. « Fiction », 1989 (1re éd. 1945).

Perrenoud, Ph. (1984). La fabrication de l’excellence scolaire: du curriculum aux pratiques d’évaluation. Genève : Droz.

Peterson, C., Schulz, E.M. & Engelhard, G. (2011). Reliability and validity of bookmark-based methods for standard setting: comparisons to Angoff-based methods in the National Assessment of Educational Progress. Educ Meas., 30(2):3–14.

Shulruf, B., Wilkinson, T. Weller J., Jones, Ph. & Poole Ph. (2016). Insights into the Angoff method: results from a simulation study. BMC Med Educ., 16: 134. Published online 2016 May 4.

Site Edumétrie (2017). Hébergé par l’Institut de recherche et de documentation pédagogique Neuchâtel, à l’adresse : https://www.irdp.ch/institut/edumetrie-1635.html.

https://www.irdp.ch/data/secure/1536/document/table_ronde_20_11_15.pdf

http://hdl.handle.net/11245/2.55005


57

Verhoeven B, Van der Steeg, A, Scherpbier. A, Muijtjens, A, Verwijnen, G, Van Der Vleuten, C. (1999). Reliability and credibility of an Angoff standard setting procedure in progress testing using recent graduates as judges. Med Educ., 1999; 33(11), 832–837.

Wheaton, A. & Parry, J. (2012). Using the Angoff Method to Set Cut Scores. New Orleans Questionmark, 2012, March 20-23. Users conference.

Wyse, A. & Reckase, M. (2012). Examining rounding rules in Angoff-type standard-setting methods. Educ Psychol Meas. 72(2): 224–244.

Yerly, G. (2014). Les effets de l'évaluation externe des acquis des élèves sur les pratiques des enseignants. Analyse du regard des enseignants du primaire. Université de Fribourg. Thèse de doctorat sous la direction de Gurtner, Jean-Luc.

Documents

APPORTS ET LIMITES DE LA METHODE D’ANGOFF ET ......49 5.4.4 Possibilité de tester des améliorations du dispositif d’évaluation 49 5.5 Problèmes et limites du modèle de la