13
UNE PROCEDURE AUTOMATISEE D'EVALUATION DES CONNAISSANCES LA METHODE DU JUGEMENT AUTO PONDERE La méthode d'évaluation des connaissances par ques- tionnaires à choix multiple (QCM) a les avantages de " «objectivité" (absence de divergence entfe évaJuateurs), de la rapidité de correction et de la possibilité d'auto- matisation de cette correction. C'est, en conséquence, une méthode dont l'emploi tend à gagner du terrain, en particulier à l'Université. Noizet et Cavarni (1978) ont situé cette méthode par rapport aux autres procédures (tradi- tionnelles.) d'évaluation en insistant sur la nature de la tâche offerte à l'élève ou à l'étudiant. Sans prétendre dresser la liste complète des infor- mations que peut fournir cette méthode' et de celles qu'il convient d'attendre plut6t d'autres méthodes qui exigent une production, si minime soit-elle, de la part de l'élève, nous avons abordé l'étude des QCM avec plusieurs préoccupations : (a) Elaborer un langage descriptif de la structure des questions susceptible de rendre compte de toutes les formes de questions utilisées et de favoriser J'invention d'autres formes. 16 (b) Etudier les méthodes par lesquelles les réponses des sujets peuvent être traduites en notes, c'est-à-dire en « mesures de connaissances». (c) Mettre à jour expérimentalement les biais fondamen- taux intervenant dans le jugement des énoncés, en les rapportant à la catégorisation de ces énoncés en signaux et distracteurs afin de poser des hypothèses quant aux mécanismes de j'erreur de réponse. (d) Découvrir les caractéristiques des réponses de tude, dont l'emploi s'étend à la faveur du ment technologique, et soumettre à un examen Cri- tique la notion de « réalisme» de la certitude. Pour diverses raisons, en particulier pour des raisons de recherche fondamentale, nous avons centré notre inté- rêt sur la méthode du jugement autopondéré. Cet article présente les résultats - provisoires - des recherches menées dans notre laboratoire et propose quelques réflexions d'ordre pratique (1). En particulier, l'un des problèmes qui restent à résoudre est celui de la capacité de la méthode ·à appréhender des niveaux dans les acquisitions. Deux voies sont ouvertes, la voie « live» de la construction des questions sur la base d'une meilleure connaissance des mécanismes de jugement et la voie subjective de l'autoévaluation. 1. - DESCRIPTION DE LA STRUCTURE DES QUESTIONS Classiquement, les QCM se présentent comme la réunion par « questions» de quelques énoncés qui tagent la propriété de se classer sans ambiguïté dans l'une des deux classes de la partition "vrai-faux j) Par exemple, on présente cinq énoncés, de longueur quel- conque, suivis (ou précédés) de la phrase "cochez l'énoncé vrai". Cette simple consigne implique que l'un de ces énoncés est vrai et que les quatre autres sont faux. Ainsi, la classification des énoncés est dichotomique. Une description booléenne des OCM est donc possible, qui permet de souligner les caractéristiques communes à toutes les formes de questions comme de préciser les différences (2). Le langa.ge que nous proposons est le suivant : cha- cun des énoncés qui composent une questlon est une sous-question. Chaque sous-question (SO) est l'objet de deux catégorisations «vrai-faux ». La première de ces (1) Les options méthodologiques el les résultats d'ensemble sont exposés en détaIl dans Fabre (1977). (2) Flamant (1976) El montré comment j'analyse booléenne peut être appliquée aux réponses à différentes formes de questionnaIres. Nous limitons lei la description binairo à l'exposé des outils d'éva- luatIon,

à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

UNE PROCEDUREAUTOMATISEE D'EVALUATIONDES CONNAISSANCESLA METHODEDU JUGEMENT AUTOPONDERE

La méthode d'évaluation des connaissances par ques­tionnaires à choix multiple (QCM) a les avantages de" «objectivité" (absence de divergence entfe évaJuateurs),de la rapidité de correction et de la possibilité d'auto­matisation de cette correction. C'est, en conséquence,une méthode dont l'emploi tend à gagner du terrain, enparticulier à l'Université. Noizet et Cavarni (1978) ont situécette méthode par rapport aux autres procédures (tradi­tionnelles.) d'évaluation en insistant sur la nature de latâche offerte à l'élève ou à l'étudiant.

Sans prétendre dresser la liste complète des infor­mations que peut fournir cette méthode' et de celles qu'ilconvient d'attendre plut6t d'autres méthodes qui exigentune production, si minime soit-elle, de la part de l'élève,nous avons abordé l'étude des QCM avec plusieurspréoccupations :

(a) Elaborer un langage descriptif de la structure desquestions susceptible de rendre compte de toutesles formes de questions utilisées et de favoriserJ'invention d'autres formes.

16

(b) Etudier les méthodes par lesquelles les réponses dessujets peuvent être traduites en notes, c'est-à-direen « mesures de connaissances».

(c) Mettre à jour expérimentalement les biais fondamen­taux intervenant dans le jugement des énoncés, enles rapportant à la catégorisation de ces énoncés ensignaux et distracteurs afin de poser des hypothèsesquant aux mécanismes de j'erreur de réponse.

(d) Découvrir les caractéristiques des réponses de certi~

tude, dont l'emploi s'étend à la faveur du développ~­

ment technologique, et soumettre à un examen Cri­

tique la notion de « réalisme» de la certitude.

Pour diverses raisons, en particulier pour des raisonsde recherche fondamentale, nous avons centré notre inté­rêt sur la méthode du jugement autopondéré. Cet articleprésente les résultats - provisoires - des recherchesmenées dans notre laboratoire et propose quelquesréflexions d'ordre pratique (1). En particulier, l'un desproblèmes qui restent à résoudre est celui de la capacitéde la méthode ·à appréhender des niveaux dans lesacquisitions. Deux voies sont ouvertes, la voie « objec~

live» de la construction des questions sur la base d'unemeilleure connaissance des mécanismes de jugement etla voie subjective de l'autoévaluation.

1. - DESCRIPTION DE LA STRUCTURE DES QUESTIONS

Classiquement, les QCM se présentent comme laréunion par « questions» de quelques énoncés qui par~

tagent la propriété de se classer sans ambiguïté dansl'une des deux classes de la partition "vrai-faux j) Parexemple, on présente cinq énoncés, de longueur quel­conque, suivis (ou précédés) de la phrase "cochezl'énoncé vrai". Cette simple consigne implique que l'unde ces énoncés est vrai et que les quatre autres sontfaux. Ainsi, la classification des énoncés est dichotomique.Une description booléenne des OCM est donc possible,qui permet de souligner les caractéristiques communesà toutes les formes de questions comme de préciser lesdifférences (2).

Le langa.ge que nous proposons est le suivant : cha­cun des énoncés qui composent une questlon est unesous-question. Chaque sous-question (SO) est l'objet dedeux catégorisations «vrai-faux ». La première de ces

(1) Les options méthodologiques el les résultats d'ensemblesont exposés en détaIl dans Fabre (1977).

(2) Flamant (1976) El montré comment j'analyse booléenne peutêtre appliquée aux réponses à différentes formes de questionnaIres.Nous limitons lei la description binairo à l'exposé des outils d'éva­luatIon,

Page 2: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

catégorisations est effectuée par l'évaluateur : une SOest soit vraie (sous-question vraie : SOV) soit fausse(sous-question fausse : SOF), La deuxième est l'expres­sion du jugement de l'étudiant, expression que nous appe­lons une sous-réponse (SR) : l'étudiant peut juger quela SO est vraie (sous-réponse : «vrai ,> ; SRV) ou qu'elleest fausse (sous-réponse : «faux,~; SRF). Nous appe~

Ions « sous-réponse » l'expression du jugement d'unénoncé puisque c'est une partie de la réponse à unequestion, partie qui dans la plupart des cas est d'ailleursimplicite. Ceci se voit dans l'exemple qui suit (Exemple 1) :

Des trois pays suivants, indiquez lequel est riverainde la Méditerranée

- Viet-Nam

- Espagne

- Roumanie

Le sujet qui choisit l'Espagne donne une SR expliciteet deux SR implicites:

- Le Viet~Nam n'est pas un pays riverain de la MédI­terranée (réponse implicite) ;

- L'Espagne est un pays riverain de la Méditerranée(réponse explicite) ;

- La Roumanie n'est pas un pays riverain de laMéditerranée (réponse implicite),

A la suite de Flament (1963 a), nous attirons l'atten­tion sur le fait qu'il s'agit d'une description structurelleet non comportementale. On peut par exemple imaginerqu'un sujet ne sache pas si la Roumanie est ou non rive­raine de la Méditerranée. Dans ce cas, ou bien il le déduitde sa connaissance de la position de l'Espagne ou bienil estime que la situation de riverain de la Méditerranéeest plus probable pour l'Espagne que pour la Roumanieet le Viet-Nam; dans les deux hypothèses, la réponseexplicite est la même. Ainsi, une sous~réponse ne prendtout son sens qu'en fonction d'une part de l'ensembledes sous~réponses données à la question et d'autre partdes informations fournies à l'étudiant, par exemple qu'unseul des trois pays cités est riverain de la Méditerranée.

Avec l'exemple 1 qui précède, la réponse totale à laquestion est le patron des sous-réponses. Ceci est typi~

quement le cas chaque fois que le système de réponseest le «choix multiple », auquel on peut opposer le sys­tème du «jugement multiple».

Choix multiple

L'ensemble des patrons de SR est assimilable àl'ensemble des parties de J'ensemble des SQ, avec lecodage par 1 (présence) du caractère «vrai» et par 0(absence) du caractère «faux »,

Avec l'exemple précédent, on peut pour plus decommodité coder par V la SO qui concerne le Viet-Nam,par E l'Espagne et par R la Roumanie. L'ensemble despatrons possibles de SR en l'absence de toute informationrestrictive est formé des 23 = 8 sous-ensembles de['ensemble 0 = [V, E, Rl des trois SO.

Cet ensemble peut se représenter selon une structurede simplexe, comme on le voit sur la figure 1,

Figure 1

Ensemble non restreint des patrons possibles de SRà la question «Méditerranée" (exemple 1)

En application de la règle de codage donnée précé­demment, le patron [V, El (par exemple) représente laréunion de deux SRV et d'une 8RF. [0] est le patron quipeut se résumer ainsi : «aucun de ces trois pays n'estriverain de la Méditerranée ».

Restrictions

Fréquemment, l'ensemble des patrons possibles estrestreint. La restriction peut prendre des formes diverses,caractérisant ainsi des types divers de questions à choixmultiple. Un exemple de restriction est donné parJ'énoncé « ... indiquez Jequel est riverain de la Méditerra­née". Dans ce cas, il s'agit de la restriction au niveau 1du simplexe, pratique très courante qui donne lieu à laforme de question classiquement appelée «complémentsimple» (Landsheere, 1974).

Dans notre exemple 1, la restriction n'obéit à aucunenécessité logique liée au contenu de la question. On ditqu'elle est "de fait ". Ceci n'est pas toujours le cas,comme on le voit par l'exemple 2 :

Des trois villes suivantes, indiquez laquelle est lacapitale de J'Espagne

- Valparaiso

- Bilbao

- Madrid

La seule connaissance du fait qu'un Etat admet unecapitale et une seule entraîne logiquement, en l'absencede toute précision, la restriction aux niveaux 1 et 0 (onaurait pu, en effet, écrire Barcelone à la place de Madrid)

17

2

Page 3: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

du simplexe. Dans l'exemple 2, les deux types de restrlc~

tian sont combinés : la restriction logique (niveaux 1 et 0)et la restriction de fait (niveau 1).

Lorsque le contenu de la question le permet, ra res­triction peut être répartie sur plusieurs niveaux du slm~

plexe. Avec l'exemple l, ce serait le cas si l'on donnaità choisir le patron exact parmi les patrons: [Vl. [El. [Rl.[E, RJ, laissant ainsi au sujet la possibilité d'estimer quela propriété est partagée par l'Espagne et la Roumanie.

Diversité des formes de questions

La méthode de description que nous préconisons rendcompte de la structure des diverses formes de questionsutilisées dans les QCM. On peut prendre connaissancede la diversité de ces formes dans l'ouvrage de Landsheere(1974). Outre le complément simple, que nous venons deprésenter, nous citerons à titre d'illustration les cas desquestions de « relation de cause à effet» et d' «associa­tion à terme exclu l>.

Voici un exemple de question de « relation de causeà effet» (Exemple 3) :

X - Le Royaume de France a acheté la Corse auXVIII' siècle.

y - La Corse faisait partie du territoire de la premièreRépublique française.

Choisir une réponse parmi les cinq suivantes :

A - X et Ysont vrais l'un et l'autre et X est caUSe de Y.

B - X et Y sont vrais l'un et l'autre mais X n'est pascause de Y.

C - X seul est vrai.

D - Y seul est vrai.

E - Ni X ni Y ne sont vrais.

La description structurelle de ce type de question estaisée, comme nous l'avons montré ailleurs (Noizet etFabre, 1975), à condition d'utiliser un langage adéquat.Elie consiste à observer qu'une question de « relation decause à effet» est «à deux contenus, dont l'un entraîneune restriction. Tout d'abord, le sujet doit porter un juge­ment sur l'existence de deux faits X et Y. Les patronssont : X et Y sont vrais, X seul est vrai, Y seul est vrai,ni X ni Y ne sont vrais. De plus, il doit indiquer si X estcause de Y. Cette sous-question de causalité double lesimple 22, mais il va de soi qu'elle ne peut se poser quesi X et Y sont vrais l'un et l'autre: d'où la non apparitionde trois des huit patrons de réponse possibles parmi lesréponses proposées" (p. 43).

18

Figure 2

Question de «relation de cause à effet .., [X, y, R] signifie:X est vrai, Y est vraI, X est cause de Y. Les patrons entourés

sont les patrons proposés,

le choix que nous venons de faire de la relation « decause à effet» provient de la fréquence d'utilisation enFrance de ce type de questions dans les examens deconnaissances destinés aux étudiants en médecine.Cependant, dans un certain nombre de disciplin~s toutau moins, il n'y a pas lieu de privilégier la relatIon decause à effet parmi l'ensemble des relations qui peuventêtre observées ou mises expérimentalement en évidence(relations de proximité, de ressemblance, de consécution,etc.). Ceci est d'autant plus vrai que la relation de cau­salité appartient souvent plutôt au domaine de l'inter~

prétation qu'à celui des faits, en particulier en SciencesHumaines. Ajoutons que ce commentaire ne retire rien àl'intérêt de ce type de question : il convie plutôt à enélargir le champ d'application.

Envisageons maintenant le cas des questions d' « asso­ciation à terme exclu» dont l'exemple 4 suivant fournitune illustration:

Parmi les cinq pays qui suivent, quatre partagent l'unedes trois propriétés A, B et C. Indiquez quelle est cettepropriété et quel est le pays qui ne la possède pas.

Pays:- Portugal

- Roumanie- Espagne- Egypte

- Italie

Propriétés

A - Etre riverain de la MéditerranéeB - Etre limitrophe de la FranceC - Etre de langue latine

La description structurelle de ce type da questionest exposée dans l'article de Noizet et Fabre (1975) :« sur le simplexe 25 des parties (de l'ensemble des pays)

Page 4: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

doit être sélectionnée une partie à quatre éléments quiest l'image d'un élément (de l'ensemble des propriétés)de cardinal trois. La réponse consiste à indiquer cet élé­ment de J'ensemble de départ, ainsi que l'élément dusecond ensemble (de cardinal cinq) qui n'appartient pasà cette partie. Si, de façon générale, n et p sont lescardinaux des deux ensembles, le nombre de réponsespossibles est de 2nP. Dans l'exemple précédent, des res­trictions de fait réduisent les possibilités de 32768 à 15»(p. 46).

Jugement multiple

Nous proposons d'appeler «jugement multiple» lesystème de réponse par lequel le sujet doit explicitementindiquer à propos de chaque SQ s'il la considère commevraie ou fausse.

Ainsi, la question «Méditerranée» (exemple 1), don­née sans restriction de fait, pourrait être libellée de lamanière suivante:

Pour chacun des trois pays suivants, indiquez s'il estvrai (V) ou faux (F) qu'il soit riverain de la Méditerranée:

- Viel-Nam V F- Espagne V F- Roumanie V F

Avec ce système, la réponse immédiate du sujet n'estplus constituée par le patron de sous-réponses, mais parla sous-réponse. On peut évidemment en dériver un patronde SR, pour chaque question, en réunissant les SR, maisrien n'assure qu'avec un système de réponse à choixles patrons effectivement réalisés seraient identiques.

Pour qu'il ait tout son sens, le jugement multiple doits'exercer en J'absence de toute restriction de fait. Il esttoutefois possible d'introduire sans artifice des restrictionsde contenu da.ns le but d'étudier l'apparition de jugementscontradictoires à l'intérieur d'une même question. De telstests peuvent avoir un intérêt irremplaçable pour uneévaluation de niveaux dans les acquisitions.

La procédure du jugement multiple admet des varian­tes. Au lieu de demander une sous~réponse explicite( vrai» ou «faux l> à chaque sa, on peut par exempledemander d'indiquer les énoncés vrais. Moins lourde, cettedernière procédure a l'inconvénient d'assimiler les éven­tuelles non-réponses à des jugements de fausseté (San­derson. 1973).

Il. - LES PROCÉDURES DE CALCUL DES SCORES

Les éléments qui sont comptabilisés diffèrent selonque le système de réponse est du type choix multiple oujugement multiple. Nous proposons que dans tous les cas

soient considérées les réponses effectives des sujets ~

les patrons de SR dans le cas du choix multiple, les SRexplicites dans le cas du jugement multiple. Quatre proM

blêmes sont à envisager : la gravité formelle de l'erreur,la devinette, la pondération établie sur la réussite etl'appréhension des niveaux subjectifs de la connaissance.

La gravité formelle de l'erreur

Ce point concerne uniquement les cas de choixmultiple et, parmi ces cas, ceux pour lesquels sont pré~

sentés des patrons appartenant à des niveaux différentsdu simplexe. La distance d'un patron inexact au patronexact est mesurée sur le simplexe par le nombre de seg­ments qui composent la chaîne la plus courte allant del'un à l'autre. Par exemple, à la figure 1, les patrons [V, El,[E, RI et [0] sont à la distance 1 du patron exact (leurgravité formelle est égale à 1). les patrons [VI. [R] etIV, E. R] à la distance 2, le patron [V, Rl à la distance 3.

Tenir compte de cette manière de la gravité formellede l'erreur revient, on le voit, à faire le décompte des SRexactes et inexactes. Par exemple, la gravité 3 signifie :« 3 SR inexactes ». Si l'on accorde 0 point à la gravitémaximum, 1 point à la gravité qui lui est juste inférieure~

etc., le score obtenu est identîque au nombre de SRexactes, Ce n'est pas un hasard : lorsque aucune res­triction n'est apportée à l'ensemble des patrons de SR,les tâches de choix multiple et de jugement multiple­apportent des informations de même extension, à condi­tion cependant que l'évaluateur tienne compte de l'orga­nisation logique de sa question.

La devinette

La traduction que nous préconisons dans le cas desquestionnaires du terme anglais «guessing jf par «devi­nette» plutôt que par l'habituel ( réponse au hasard»renvoie à des connaissances bien établies par la psycho­logie expérimentale : le choix aveugle d'une réponse estun cas limite, rare, dans la mesure où les sujets s'effor­cent dans les situations difficiles de faire des hypothèseset de les étayer par des informations, aussi fragmentairessoient-elles. La conception habituelle de la « réponse auhasard» témoigne d'une méconnaissance de ce fait, cequi se traduit par des pratiques de «correction de l'effetdu hasard sur les scores» dont la validité est discutable.Dans la présentation de ces procédures, il est nécessairede distinguer les cas de choix et de jugement.

COrrection et choix multiple

le principe peut être présente à partir du cas Je plusfréquent : questionnaire à complément simple composéde n questions qui regroupent chacune r sous-questionsdont, par définition, une seule est vraie.

19

Page 5: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

Deux méthodes sont couramment utilisées. La pre~

mière consiste à remplacer l'échelle de 0 à n par une1

-échelle de 0 à n (1 - -). Son effet est d'attribuer la note 0r

nà tout score brut inférieur ou égal à -. Par exemple, dans

run examen de 60 questions à 5 patrons de SR chacune,on attribuera la note 0 sur 48 à tout questionnaire compor­tant 12 ou moins de 12 choix exacts. La deuxième méthodecourante tient compte de la possibilité pour un sujet des'abstenir de répondre lorsqu'il ne sait pas. Cette absten­tion se produit d'autant plus souvent que le sujet estmoins porté à la devinette: il est en conséquence logique<:le supposer qu'on dispose là d'une indication sur le tauxde choix exacts que le sujet a donnés en l'absence deconnaissance. On passe d'une échelle de 0 à n à uneautre échelle de 0 à n, par la formule suivante :

1E--­

r-1

où E est le nombre de choix exacts, [ le nombre de choixinexacts, de façon que E + 1 ::0::: n - A : nombre de non­réponses. Lorsque A est égal à 0, les deux méthodessont identiques à un coefficient près. Prenons deux exem­ples contrastés.

- Cas (a) : Un sujet a répondu à toutes les ques­tions. Sur 60 réponses, 12 seulement sont exactes.Sa note sur 60 est donc égale à 12 - 48/4 ::0::: O.

- Cas (b) : Un sujet s'est abstenu de répondre à44 questions. Le nombre de ses réponses exactesest égal à 12. En conséquence sa note sur 60 est:12 - 4/4 = 11.

Dans le cas (b), le sujet ne fait pratiquement pasd'erreurs, il ne répond que lorsqu'il sait : la part du« hasard" dans ses choix exacts est vraisemblablementminime.

le caractère discutable de la méthode provient'd'abord de ce que le cas (b) tient de l'hypothèse d'école:·en général, ou bien les taux de nonRréponse sont trèslargement inférieurs à celui-ci ou bien un tel taux est lefait d'un sujet qui fournit une proportion élevée de répon­ses inexactes. Pour que la procédure soit valide, il fautdonc supposer que les sujets ont une bonne connaissancede leurs ignorances, ce qui est considérer le problème de:!'évaluation comme quasiment résolu l

Ce caractère discutable provient ensuite de ce que,même pour celui qui n'est pas en possession d'informa­tions suffisantes, les éventualités de choix ne sont paséquiprobables. Il intervient des limitations dans les ensem­bles proposés au choix de même que des phénomènesd'incitation à l'erreur. Une manière d'améliorer la formule

20

de correction est de remplacer l'équiprobabilité par lesfréquences effectives de choix de chaque éventualité.Cependant, la correction obtenue n'est valable qu'enmoyenne, c'est-à-dire approximativement.

En fait, la formule de correction du hasard sur la basede 1'« attirance réelle des solutions» n'est pas exemptede contradiction, puisqU'elle joint l'idée de la coupuresavoir-ignorance (sur laquelle repose la pratique de cor­rection) à l'idée de degrés dans la connaissance (quittaà ne pas pénaliser certaines erreurs lorsqu'elles sont trèsfréquentes). Les techniques de «pondération établie surla réussite» et d'« autopondération", sur lesquelles nousreviendrons, essaient d'éviter cette contradiction.

Correction et jugement multiple

A supposer que le sujet estime les deux éventualitésSQV et SQF comme équiprobables, on peut appliquer laprocédure couramment réservée au choix multiple à lasituation de jugement multiple. Alors, le nombre d'éven M

tualités de choix r est égal à 2, la note sur n (n étant icile nombre de SO) est: E - J (nombre de SR exactes moinsnombre de SR inexactes). Dans la pratique, cette pro­cédure s'avère plutôt sévère, du fait même de l'inexacti­tude de l'hypothèse sur laquelle elle est fondée : lesjugements erronés ne sont en général pas effectués « parhasard". Nous verrons au contraire que l'investigationexpérimentale prouve que des phénomènes d'attractivitéliés, entre autres, aux connaissances acquises, provoquentdes erreurs fréquentes dans le jugement des énoncés faux.

Pondération établie sur la réussite

Que la procédure soit de choix multiple ou de juge­ment multiple, il est possible de calculer pour chaqueitem (question ou sous-question) une fréquence d'exacti­tude et une fréquence complémentaire d'inexactitude.L'utilisation de ces fréquences dans la pondération desréponses exactes et inexactes en vue du calcul d'une notepermet d'améliorer a posteriori l'adaptation de l'épreuveà la population visée.

La procédure de Risse

Risse (1972, cf. Noize! et Fabre, 1975, p. 53-55) apropose la démarche suivante : soient p et 1 - piesfréquences de réussite et d'échec d'un item. Touteréussite entraîne un gain égal à p (1 - p) et tout échecla perte de p2. Sur l'ensemble des items d'une épreuve,le score pondéré moyen est égal à 0, à condition que lafréquence p et cette moyenne aient été calculées sur lemême échantillon de réponses.

?n peut ~ontrer facilement (Fabre, 1977) que cetteprocedure reVIent à pondérer chaque réussite par p et à

Page 6: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

attribuer 0 à chaque échec. La moyenne des notes amslobtenues est égale à p2, qu'on peut sans difficulté rame­ner à O. La caractéristique essentielle de cette procédureest donc que l'écart entre le gain et la perte à un itemest fonction linéaire croissante de la probabilité de réus­site à cet item. Ceci revient à accorder d'autant plusd'importance à un item qu'il a été mieux réussi.

Pondération liée à l'écart-type

Une procédure plus discriminative peut être imaginée.Par exemple celle qui consisterait à attribuer 0 à l'échecà un item et pondérer la réussite en fonction inverse de

l'écart-typey p (1 - p) de l'item. Cette méthode produitle double effet de pénaliser fortement les échecs rares(comme la procédure Risse) et (à la différence de [aprocédure Risse) d'attribuer un gain élevé aux réussitespeu fréquentes (Fabre, 1977).

Si l'idée selon laquelle la devinette est liée à J'attrac~

tivité des éventualités de réponse (attractivité attestée parles fréquences de choix) est fondée, une pondération liéeà l'écart-type est un moyen d'atténuer les effets de ladevinette.

Niveaux subjectifs de la connaissance

La psychologie expérimentale a appris depuis long­temps à manipuler des indicateurs subjectifs tels que lacertitude (cf., par exemple, Flament, 1963 b), le sentimentde savoir (Hart, 1965), le sentiment de clarté (Lecocq etHautekeete, 1971). Ces indicateurs, sous des formesvariées, ont été utilisés pour perfectionner la mesure desconnaissances partielles (Finetti, 1965; Shuford et aL,1966). L'hypothèse de base est celle du réalisme desréponses secondaires ainsi obtenues (cf. Adams etAdams, 1961, pour les réponses de certitude),

L'originalité de l'u:ilisation de ces indicateurs dansl'évaluation réside dans la pratique d'autopondération : lesujet est invité à fixer lui-même le poids qu'il accordeà ses choix successifs, poids qui servira au calcul de sanote.

On peut citer quelques exemples de techniques quifont l'objet d'une utilisation dans des examens.

Avec un ques:ionnaire à complément simple, utilisantune échelle en 100 points, le sujet indique quelle est àson avis la probabilité d'exactitude de chaque sa. C'estainsi que travaille Sieber (1974), dans une étude destinéeà comparer les réponses de certitude selon que l'enjeu del'examen est faible ou élevé. On peut remarquer aussi laprocédure préconisée par Finetti (1965) qui consiste àfournir au sujet, par question, un nombre d'étoiles égalau nombre de sa de la question. La tâche du sujet est

de distribuer ces étoiles sur l'ensemble des SO en fonc­tion de la probabilité relative qu'elles ont pour lui d'êtrevraies. La note à la question est égale au nombre d'étoilesreçues par la sous-question vraie.

Ces procédures, adaptées au cas où le sujet saitqu'une seule SO est vraie par question, se caractérisentpar le fait que la somme des points accordés à chaquequestion est fixe. Ainsi, pour Sieber, attribuer la proba­bilité .70 (ou 70 sur 100) à une sa entraîne nécessaire­ment que la somme des probabilités des autres SO estégale à .30, ce qui est conforme à un usage bien établien psychologie expérimentale (Flament, 1963 b; Bellan etNoizet, 1971).

Lorsque la position du patron exact sur le simplexe'n'est pas indiquée au sujet (pratique fréquente dans cer­tains pays, en particulier en Grande~Bretagne : Lennox,1967.), ce qui inclut le cas du jugement multiple, l'auto­pondération est à somme variable. La somme des pro­babilités dépend du nombre de sa que le sujet estime,à des degrés qui peuvent être divers, comme vraies.L'exposé technique détaillé de l'une des procédures uti­lisées est fourni par Leclercq (1973).

D.ans la mesure où l'étude des biais de jugement desénoncés comme la mise en relation de ces biais avec lescaractéristiques de l'auioévaluation subjective étaient deuxobjectifs essentiels de notre recherche, c'est la sit!J:I~ion

d'autopondération à somme variable que nous avons étu­diée expérimentalement (Fabre et Noizet, 1977 a). Elle·permet en effet de recueillir les réponses de sujets placésdans des conditions d'information minimale et d'o:J:enirsur des énoncés de caractéristiques variées des juge­ments séparés les uns des autres.

III. - LA DICHOTOMIE SIGNAUX!DISTRACTEURS

Le terme <~ distracteur» est du langage courant pourquiconque est quelque peu familiarisé avec l'évaluationpar QCM. Traditionnellement, est défini comme distrac­teur tout énoncé qui possède deux propriétés : la faus­seté et la vraisemblance. II entre dans cette notion deséléments divers. Une souswquestion fausse est introduitedans le but de provoquer une erreur de jugement si lesavoir de l'étudiant est insuffisant. A priori, toute SOF estdonc un distracteur. Cependant, le relevé des réponses:.d'un groupe de sujets permet un contrôle statistique de"la vraisemblance des SOF. En général, le pouvoir distrac­teur des SOF s'avère inégal. Il arrive même qu'il soit nul:on dit alors que les SOF concernées n'ont pas fonctionné'comme distracteurs. Au contraire, certains distracteurspeuvent se révéler anormalement efficaces, ce qui pro­voque une étude critique de leur contenu et de leur forme.Dans ce cas, ou bien ils apportent une information du

21

Page 7: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

Tableau 1

Crol$emenl des dfchofom(ea vrafltaux et afflrmatlf/négatlfdes énoncés.

Les signaux. correspondent à la diagonale principale rvt~ et FN),les drstracteurg à la diagonale secondaire (FA et VN}.

Vrais Fauxaffirmatifs (VA) affirmatifs (FA)

Vrais Fauxnégatifs (VN) négatifs (FN)

plus haut intérêt pour la didactique ou bien ils doiventêtre reje~és pour faute d'ambiguïté ou d'inadaptation à lapopulation visée.

L'introduction du terme (l signal", par analogie avecle système de concepts de la Théorie de la Détection duSignal (qui oppose le signal aU bruit), est due d'abord à:Ia volonté d'interpréter un fait expérimental maintes fois;a',testé, comme nous le verrons plus loin : le repérage de'J'énoncé vrai est plus facile que le repérage de l'énoncéfaux. Elle est due ensuite au souci de rendre compte-de la manière dont le sujet questionné traite les énoncés..de forme négative.

AFFIRMATIFS

NEGATIFS

VRAIS FAUX

:Lorsqu'un énoncé est affirmatif, il véhicule une infor~

mation conforme ou non conforme au savoir selon qu'ilest vrai ou faux. On a par exemple:

(a) L'Espagne est un pays riverain de la Méditerranée.

(b) Le Viet-Nam est un pays riverain de la Méditer~

ranée.

Lorsqu'un énoncé est négatif, il faut distinguer deuxniveaux : celui de l'information totale qu'il véhicule etcelui de l'information qU'îl porte abstraction faite de lanégation. On a ajnsi :

(c} L'Espagne n'est pas un pays riverain de la Médi~

teffanée.

(d) Le Viet~Nam n'est pas un pays riverain de la Médi~

teffanée.

S'il est conforme au savoir que (c) est faux et (d)vrai, on voit qu'à la négation près le degré de concordanceavec le savoir est plus élevé pour (c) que pour (d). Eneffet, la position géographique du Viet-Nam est habituel~

lement caractérisée par son appartenance à une région ducontinent asiatique plutôt que par sa non-appartenanceau Bassin méditerranéen. Cette structuration du savoiren connaissances positives répond à une condition évi~

dente d'économie. Un calcul logique simple permet dedéduire l'information négative de l'information affirmatlvealors que pour l'inverse il n'en va en général pas de même.

A la dichotomie des énoncés en vrais et faux, nousajoutons donc une dichotomie plus fondamentale liée àla concordance avec le savoir. Nous appelons « signaux"les énoncés concordants et "distracteurs" les énoncésdiscordants. Le croisement de ces deux dichotomies estreprésenté dans le tableau 1. Nous dissocions ainsi lescaractères « distracteur l> el « faux» d'un énoncé. Cecidécoule de l'hypothèse suivante : dans les tâches dejugement multiple, les SQV négatives fonctionnent vis-à­vis de la réponse « faux l) comme les SQF affirmativesvis~à~vjs de la réponse I( vraie »,

:22

Les observations expérimentales confirment en lanuançant la validité de la distinction entre énoncés~

signaux et énoncés-distracteurs.

Jugement d'énoncés affirmatifs

Le résultat massif, attesté par plusieurs expériences,est qu'en moyenne le jugement des énoncés vrais est plusexact que celui des énoncés faux.

Le pourcentage de jugements de vérité appliqués àdes énoncés faux est relativement élevé, nettement plusque le pourcentage de jugements de fausseté appliquésà des énoncés vrais, Ce résultat a été obtenu au coursd'épreuves de connaissances portant sur des contenusdivers et ;}Vec des questions de structures variées (lespatrons exacts occupant selon les questions des niveauxdifférents du simplexe). Il se traduit globalement par lefait que le pourcentage de jugements de vérité est plusélevé que le pourcentage d'énoncés vrais.

Que le jugement des énoncés faux soit relatiVementerroné ne saurait étonner, étant donné leur fonction dedistracteurs. Le caractère remarquable de ces résultatsqu'un système de réponse du type choix multiple n'auraitpas permis d'apercevoir, est la dissymétrie du traitementdes énoncés vrais et faux. Cette dissymétrie permet desupposer que J'exac~Hude relativement élevée du juge­ment des énoncés vrais ne traduit pas nécessairement unebonne qualité de ce jugement. En fait, J'expérience montrequ'intervient de manière très générale un biais de réponse~n faveur des SRV, dont la fréquence est toujours supé~

fleure à ceJJe des SQV. Ce biais trouve son orIgine soitdans une surestimation de la probabilité des SQV soItdans une dissymétrie de la matrice des coOts d'erre~r lefait de prendre le vrai pour le faux apparaissant ~IUsgrave au sujet questionné que le fait de prendre le fauxpour le vraI.

Reste à montrer sur quels types d'énoncés cettedissymétrie de traitement se manifeste préférentiellement.

Page 8: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

C'est ce que permet une analyse des erreurs en fonctionde la structuration des savoirs telle qu'elle a été enseignéeaux étudiants, c'est-à-dire en fonction des choix didacti~

ques. Cette analyse des erreurs montre que les sujets nerépondent pas à l'aveuglette mais au contraire utilisentdes «( étalons» subjectifs de jugement constitués de leursavoir préalable (notions véhiculées par le sens commun,stéréotypes, idéologie) ou d'acquisitions fragmentaires maldominées (non organisées en système de connaissances).

Il va de soi qu'une sous~questlon vraie peut aussi,dans certains cas, être appréhendée à plusieurs niveaux.Une lecture fragmentaire suffisant à entraîner la sous­réponse «vrai )', on voit pourquoi il ne faut pas conclureque les SQV sont réellement mieux jugées que les SQF.L'examen par QCM est ainsi propice à la mise en évidencede phénomènes de contamination des notions apprisespar des savoirs non scientifiques, de réduction du sensglobal d'énoncés à des aspects limités non pertinents.

Le point de vue esquissé ici peut être illustré pardeux questions extraites d'épreuves portant sur des disclwplines distinctes (psycholinguistique et méthodologie) etproposées à des populations différentes d'étudiants.

1re question

L'hypothèse du codage pour la mémorisation desphrases prédit spécifiquement que :

(a) les phrases seront d'autant plus difficilementmémorisées qu'elle seront plus longues;

(b) les phrases interrogatives seront plus facilementmémorisées que Jes phrases négatives;

(c) les phrases actives seront plus facilement mémo­risées que les phrases passives;

(d) les phrases formées de mots usuels seront plusfacilement mémorisées que {es phrases forméesde mots rares;

(e) les erreurs éventuelles dans le rappel iront dansle sens de la simplification syntaxique.

Cette question de connaissances est donnée en exem­ple en raison même du caractère extrême des résultatsqu'elle a produits. Les SQV sont les sous-questions (c)et (e). Les SQF sont de deux sortes. Si l'on décrit une SOcomme formée d'un énoncé de base commun aux cinq SO(qu'on appellera la tige) et d'un énoncé spécifique à laSQ (le rameau), les rameaux pris en eux-mêmes sont vraisou très vraisemblables dans les cas (a) et (d) et non dansle cas (b). Mais, cependant, les 50 (a) et (d) sont faussescar la longueur des phrases ou la fréquence d'usage desmots n'ont aucun rapport avec la théorie (syntaxique) ducodage. Le rameau est acceptable, la relation tige-

rameau ne l'est pas (même en l'absence de l'adverbe« spécifiquement)) qui est redondant).

Les exemples de ce type peuvent évidemment êtremultipliés. A titre d'information, voici les pourcentages dechoix de la sous-réponse «vrai), (sur 42 sujets) :

(a) 64 'l,(b) 14 %(c) 81 %(d) 76 %(e) 100 %

Les erreurs des sujets montrent qu'ils ont acquIs cer­taines connaissances et qu'ils ne manquent pas de <c bonsens ». Ce dernier ne suffit hélas pas pour maîtriser cer·tains thèmes de réflexion caractéristiques de la psychowlinguistique contemporaine.

La deuxième question donnée en exempie permet deconcrétiser l'idée selon laquelle les sources d'erreur dejugement qui se manifestent sur des énoncés faux peuwvent être des sources d'exactitude, mais seulement appa­rente, du jugement des énoncés vrais: à une question deméthodologie concernant la distinction nécessaire desdeux plans de J'observation et de l'interprétation, laconfusion des deux niveaux apparaH sur une SQV et surune SQF dont les énoncés ne sont pas indifférents àl'idéologie spontanée des sujets.

Extrait de la 2° question:

On observe que les enfants manifestent plus fréquem­ment des comportement agressifs lorsque le climat fami­lial est autoritaire que lorsqu'il est libéral.

A el/e seule, cette observation permet d'affirmer:

(a) le climat familial est plus souvent autoritaire lors­que les enfants sont agressifs que lorsqu'ils ne lesont pas;

(b) l'agressivité des enfants est une réponse auxmanifestations d'autorité de leurs parents.

La SQ (a.), qui n'est qu'une autre façon de présenterJ'exposé de départ (la relation observée) n'est jugée vraieque par 47 iJ/o des sujets. alors que 42 ()/o des sujets jugentvrai l'énoncé (b) (qui présente une hypothèse parmid'autres possibles qui seraient aussi en accord avec lefait). Ces pourcentages ont été calculés sur un effectifde 109 étudiants.

Avec cet exemple, on remarquera qu'il faut se garderde l'idée selon laquelle l'interprétatIon des réponsesobtenues à un QCM est chose aisée. Ainsi, étant donnéles pourcentages qui viennent d'être indiqués, on pourraits'attendre à ce que le croisement des deux SQ fasse appa­raTtre deux grandes catégories de réponses : les deux

23

Page 9: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

jugements sont exacts (a vrai et b faux) ou inexacts(a faux et b vrai). Sur le tableau 2, c'est la diagonalesecondaire qui obtiendrait les effectifs les plus élevés.Or, c'est le contraire qui se produit

Tableau 2

Extrait de la deuxième question. Répartition des effectifssur le croisement des éventualités de réponse aux sa (a) et (h).

sous~questfon (b)

insu) avait à juger des é~oncés qui étaient répartis enquatre catégories d'effectif égal : vrais affirmatifs VA,vrais négatifs VN, faux affirmatifs FA et faux négatifs FN.

Le tableau 3 expose les résultats pr!ncipaux de l'unede ces deux expériences (l'autre expérience donne desrésultats encore plus marqués.). Il s'agit des nombresmoyens de sous-réponses exactes par catégorie d'é~on­cés. Ces moyennes sont calculées sur un total de vingtréponses données par 52 sujets.

sa (alvrai

faux

vrai

28

18

faux

23

40

51

58

Tableau 3

Nombre de sous~réponses exactes selon la valeur de véritéet la forme des énoncés (maximum : 20).

Enoncés

46 63 109 vrais faux

Ce résultat est un indice supplémentaire du fait quele jugement exact d'une sous-question vraie ne signifiepas nécessairement l'évaluation adéquate d'un énoncé :une lecture « idéologique l' de la SO (a) peut conduire illa sous-réponse (( vrai )~.

Formeafflrmative

négative

16,71

13,38

15,05

12,29

14,63

13,46

14,50

14,01

II est fréquent d'entendre dire et de lire que l'évalua·tian par QCM ne s'adresse qu'à une forme élémentairede mémoire et chacun connaît les exemples caricaturauxque mettent en avant les adversaires de toute procédureautomatisée d'évaluation. Or il ressort de l'analyse expé­rimentale des OCM - et ce n'est pas le mo(ndre desparadoxes auxquels cette analyse conduit - que la dif­ficulté essentielle d'une utilisation quelque peu ambitieusedes aCM paraît se trouver dans la complexité du dispo~

sitif à prévoir pour atteindre, à partir d'un ensembled'items, une appréhension précise des raisonnemen(s quisont, en réalité, sous-jacents aux réponses.

Jugements d'énoncés négatifs

Deux expériences ont montré le bien-fondé de lacatégorisation des énoncés en signaux et distracteurs, quidérive de l'hypothèse selon laquelle les déterminationsd'objets et de relations sont essentiellement positives(Fabre et Noizet, 1977 b).

Les questionnaires, adressés à deux cat$gories diffé~

rentes d'étudiants, étaient construits de façon que chaquecontenu de sa soit véhiculé par un énoncé affirmatif etpar un énoncé négatif (auquel cas on vérifiait le change­ment de valeur de vérité). Dans chacune des deux expé~

riences, les sujets étaient répartis en deux groupesd'effectif égal. Tous les énoncés présentés aux sujets dugroupe 1 à l'affjrmatif J'étaient au négatif pour le groupe 2,et inversement. De cette façon, sur l'ensemble des deuxgroupes, chaque contenu de sa était aussi fréquemmentaffirmatif que négatif et vrai que faux. Chaque sujet (à son

24

On remarque la plus grande exactitude du jugementdes énoncés-signaux (VA et FN) : la différence des dia­gonales (comparaison d'interac:ion entre valeur de véritéet forme des énoncés) est très significative à l'analysestatistique.

Cet effet cependant n'épUise pas les différences por­tées sur le tableau. La vari·able «Forme syntaxique desénoncés)) provoque des différences significatives, ce quine surprendra pas le psycholinguiste qui connaît la diffi­culté que suscite le traitement des énoncés négatifs, Maisplus intéressant est l'effet significatif dO à la valeur devérité des énoncés. Il peut trouver deux explications,d'ailleurs non contradictoires. La première est que, si tastructuration des savoirs montre une grande majorité deliaisons positives entre concepts, elle comprend sansdoute aussi quelques relations négatives. La seconde estque le système de réponse vrai/faux est un systèmeorienté (3).

Cette deuxième explication est à mettre en rapportavec les recommandations de prudence qui ont souventété prodiguées aux constructeurs de QCM concernant

(3) Ces ,deux phénomènes, ont vraisemblablement joué conjoin~te~ent .au niveau d~ l'élaboration des questionnaires: qu'Ils soIentaffirmatifs ou négatifs, les énoncés sont jugés exactement avec unefréquence plus élevée lorsqu'ils SOnt vrais que lorsqu'ils sont faux.Ce ré,sultat eS,t SignificatIf dans le cas des énoncés qui on: été(pr,emlè~o version) conçus comme vrais, que ce soit sous la formeaffirmative ou sous la forme négative (Fabre et Noizet 1977 bp. 419), ' ,

Page 10: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

l'usage de la négation. On lit dans les manuels (cf.Landsheere, 1974) qu'une cause d'échec artificielle estl'emploi de la « double négation". Cette notion de « dou­ble négation» recouvre des cas divers, dont le plus fré­quent est du type: «Est-il faux que l'Espagne n'est pasriveraine de la Méditerranée?» Dans ce cas une négationlexicale s'ajoute à une négation syntaxique. Effectivement,l'impression subjectîve est celle de la difficulté. D'oùprovient-eJle ? Certainement de ceci que, comme l'a mon­tré Clark (1969,), la question implicite du sujet est «Est-ilvrai que... ?» Ainsi, pour répondre à la question posée,faudra-t-il la traduire, conserver la trace de cette traduc­tion en mémoire immédiate, déduire le caractère non vraide l'énoncé négatif du caractère vrai de son contenupositif, puis solliciter la mémoire immédiate pour fournirla réponse adéquate à la question "Est~il faux que... ? »

Dans le cas du jugement multiple, la mise en mémoirepréalable est inutile puisque la réponse ne sera pas « oui»ou "non» à la question « Est-il faux que?» mais «oui»ou « non» à la question (implicite) " Est-il vrai que? », Laseule déduction est liée à la négation linguistique. Laproduction de la réponse "faux l>, quand elle a lieu, nes'accompagne vraisemblablement pas de la ques'cton impli­cite qui lui correspond directement : "L'énoncé est-ilfaux? ». Il y a semble-t-il vérification de non vérité, pasde fausseté,

Avec la procédure expérimentale que nous avonsutilisée, nous observons que les énoncés faux négatifssont l'objet de jugements exacts fréquents. Cependant,l'absence de processus de vérifica',ion directe de laréponse explicite, absence probable étant donné la dif­ficulté de la « double négation », laisse le sujet en étatd'incertitude, comme nous le verrons plus loin.

totale. Nous avons donc soumis ce souhait à un examenexpérimental.

Enfin, le cas des énoncés négatifs doit être traité àpart dans la mesure où, nous l'avons vu, deux propriétéssemblent carac',ériser leur jugement. D'une part, ils peu­vent être questionnés à deux niveaux : le niveau globalde l'énoncé (vrai ou faux) et Je niveau de son contenuaffirmatif (faux ou vrai). D',autre part, dans le cas où c'estleur contenu affirmatif qui est interrogé, le jugement estle résultat d'une (SRV) ou deux (SRP) déductions.

On peut ainsi s'attendre à ce que les réponses decertitude recueillent dans une certaine mesure un effetde la dichotomie affirmatif/négatif, ce qui serait conformeà une expérience subjective que chacun peut faire quo­tidiennement.

Certitude et autopondératlon

Une expérience a été réalisée, avec des énoncésaffirmatifs, afin de comparer les réponses de certitudeexprimées sur une échelle en trois points: (1 : certitudefaible, 2 : moyenne, 3 : forte,) selon que les nombres 1,2 et 3 doivent ou non servir de coefficients de pondéra­tion. Ainsi, Jes sujets en condition d'autopondérationsavent « que les nombres 1, 2 et 3 sont, à chaque fois, lespoints qu'ils gagneront si leur jugement est correct, etqu'ils perdront s'il est incorrect» (Fabre et Noizet, 1977 a).Pour l'autre condition, ces nombres indiquent seulementta confiance attachée au jugement.

En fonction de cette différence de conditions, ni lespourcentages de sous-réponses exactes ni les certitudesmoyennes affichées ne diffèrent notablement. Du pointde vue du « réalisme », c'est-à-dire de la liaison avecl'exactitude, les deux types d'expression de la certitudefonctionnent de façon comparable.

Tableau 4

Jugement

Certitudes moyennes selon la valeur de vérité de l'énoncéet l'e)Cactitude du jugement (maximum : 3).

« Réalisme» de la certitude

Le tableau 4 expose les résultats obtenus à la suited'une expérience de jugement d'énoncés aHirmatiis avecdes réponses d'autopondération (autopondération expriméeavec les nombres 1, 2 et 3). Les moyennes ont été obte­nues sur un total de 120 énoncés avec un groupe de21 sujets.

2,20

1,912,66

2,20

exact inexact

faux

vraiEtlOtlcé

IV. - L'AUTOPONDËRATION DES RËPONSES

Les procédures d'autopondération f 0 n d é e s surl'ex.pression de la certitude se présentent comme desréponses classiques de certitude : le premier travail estde vérifier que la réponse de certitude présente les mêmescaractéristiques selon que le sujet la manipule ou non envue d'un effet sur le calcul de son score.

Il est en général souhaité de ces caractéristiquesqu'elles soient celles du « réalisme". La raison de cesouhait tient à un souci de cohérence dans les réponsesdes sujets, mais aussi et surtout à [a survivance du modèlede la réponse « au hasard ». Il s'agirait, par J'autopondé­ration, de pratiquer de façon plus personnalisée laméthode de correction du hasard selon l'attirance réelledes solutions. Dans cette optique, sauf quelques casextrêmes, les erreurs devraient s'accompagner de certi­tudes basses et les réponses exactes de certitudes éle­vées, le <' hasard» étant caractérisé par l'incertitude

25

Page 11: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

Tableau 5

Exemple de certitudes moyennes selon l'exactitude et l'attraitdes sous-réponses u vrai» et u faux ». Les certitudes moyennes

associées aux SR exactes sont marquées d'un astérisque.

<a) 6' 36 2,48 2,23 .. + 0,25(b) " 86 1,50 2,19 .. -0,69

sa (c) 81 ,. 2,59 .. 1,88 + 0,71(d) 76 2' 2,41 2,50· -0,09(e) 100 0 2,95

La caractéristique remarquable de ces résultats est,en moyenne, l'absence de sensibilité de la certitude àJ'exa~titude du jugement des énoncés faux, alors que le<~ réalisme" est manifeste lorsqu'Il s'agit d'énoncés vrais.

, L'aspect paradoxal de ce résultat disparaît cependant~I o~ .considère (en liaison avec le fait que l'interrogationImplicite à laquelle le sujet apporte une réponse est :(~Tel énoncé est-il vrai? »} que la certitude est liée àla fois à l'exactitude et au type de sous-réponse. En effet,la diagonale principale du tableau 4 correspond aux sous­réponses «vrai» (certitude moyenne : de 2,66 à 2,20), ladiagonale secondaire aux sous-réponses «faux» (certi­tude moyenne: de 2,20 à 1,91).

Sur l'ensemble du questionnaire, la certitude associéeaux SRV est plus élevée que celfe qui accompagne lesSRF en raison de la plausibilité élevée de la majoritédes sous-questions. Plus précisément, sur un ensemblede questions, la valeur moyenne de la certitude liée à untype de sous-réponses dépend de l'attrait moyen de cetype de sous-réponses. Cet attrait moyen se mesure àla fréquence d'apparition.

A titre d'illustration de ce point de vue, le tableau 5donne (sur 42 sujets) les pourcentages de SR exactes,de SRV et de SRF pour chacune des SQ de la premièrequestion citée antérieurement et indique les certitudesmoyennes selon que la sous-réponse est « vrai» ou~(faux ». Il apparaît que la certitude est davantage liéeà l'attirance de la sous-réponse qu'à son exactitude (4),

Nous avons pu ainsi vérifier sur un nombre important dedonnées qu'il existe une corrélation linéaire élevée entrefréquence de SRV et différence des moyennes de cer­titude qui accompagnent les deux types de SR (r =0,72).

Ainsi, on peut remarquer que le modèle du « réalisme »)

n'est pas conforme auX résultats. Le sujet ne disposed'indications subjectives qu'en ce qui concerne la plau­sibilité relative des réponses. Si un type d'erreur dejugement est fréquent il est en moyenne accompagnéde fortes pondérations, Il s'ensuit que "erreur attractivecoQte cher. On voit que l'autopondération produit de cefait un résultat inverse de ceux qu'on obtient avec la cor­rection du hasard fondée sur l'attirance réelle et la pon­dération établie sur la réussite (procédure Risse). Deuxconséquences contradictoires peuvent être tirées de cerésultat. (a) L'autopondération apparaît comme un systèmeplus discrimina~if, qui privilégie ceux d'entre les sujetsqui savent juger l'ensemble d'une sous-question et, parconséquent, ont une meilleure performance. (b) L'engage­ment de points sur une réponse inexacte dépend del'attractivité de cette réponse; cette attractivité reposantsur l'acquisition d'une connaissance, même partielle, ils'ensuit que le sujet qui n'a pas effectué cette acquisitionperdra moins de points que celui qui l'a effectuée (5).

Négation et Incertitude

L'analyse des réponses de certitude en fonction dela forme affirmative ou négative des énoncés confirmeles deux hypo~hèses exposées ciMdessus concernant lastructure négative des énoncés et l'attirance des sous­réponses.

La première est que la négation dimInue la confianceaccordée au jugement. L'effet est statistiquement trèssignificatif, que les énoncés soient vrais ou qu'ils soientfaux. L'ordre des moyennes de certitude est le suivant :VA, FA, VN, FN. On le voit, cet ordre est très différent decelui des pourcentages de sous~réponses exactes (VA FNVN, FA). ' ,

, La ,deUXième confirmation est ceUe du Uen, par caté­gone d énoncés, entre certitude et attractivité de la sous·réponse. Ceci se voit à la mise en relation dans Jetable~u 6 , des séries de pourcentages de sou~-réponses« vrai» et «faux» et de la série des différences des cer~

Différencedes certltu~

des selon leJugement

SRF

Certitudesmoyennesen cas de

SRVSRF

Pourcentagesde

SRV------------

Parmi les 120 énoncés du questionnaire, 111 reçoiventdes sous-réponses des deux types (SRV et SRF.), auxquel­les sont bien entendu associées des réponses de certitude.

(4) Il ne s'agit que d'une Illustration. La relation certltudeM

fréquence, est statistique, ce que traduit j'Idée de corrélation, ellene se vénfle pas (comme une liaison fonctionnelle) dans les détailsdes données mals au niveau du groupe des observations.

(5) ~a~s une perspectIve de Psychologie fondamentale nousavo~s fait 1hypothèse (Fabre et Nolzet, 1977 a) que le sujet é~ettaltUn Jugement de :-,ralsemblance de chaque énoncé et que la réponsede certitude était fonction de la distance 1 éd'un critère subjectif d d· h qu s pare ce jugementh' e IC otomlsatlon «vrai-faux 10, CeUe hypo-~iV~~:' ~~~efoàur~~~eunel.~~Pllcatlon plausible du lien certltude-aUree­s6mb'lance sur le va 1 El par. la recherche d'Une éChelle de vrai-

s sous-questions, ou au moins certaines d'entreelles. Cette recherche s'effectuera par l'ét d dréponses. u e es patrons de sous-

26

Page 12: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

CONCLUSION

Tableau 6

Certitudes moyennes par types d'énoncés, selon l'attrait moyendes sous-réponses « vrai» et « faux ».

tltudes moyennes associées aux deux types de sous­réponses (moyennes calculées à partir des réponses four­nies par 52 sujets à 80 SOl.

On remarque, ce qui étaye notre conclusion qu'inter­viennent deux effets différents, que l'attractivité ne permetcependant pas de rendre compte, au niveau des énoncésfaux, de la différence des certitudes moyennes liées aucaractère affirmatif ou négatif des énoncés (2,48> 2,39) ;il faut faire intervenir également l'effet de la «doublenégation» (lexicale et syntaxique).

quelles qu'en soient les techniques, on peut toutefoisremarquer qu'une procédure automatisée ne les supprimepas.

Le QCM permet, à condition d'être construit de façonadéquate, d'apprécier la maîtrise des connaissances etla sûreté d'un raisonnement. Paradoxalement, les erreursles plus fréquentes sont liées à J'acquisition de connais­sances : le distracteur efficace est en quelque sorte unénoncé qui permet de mettre en évidence des erreurs« positives ". Cette remarque nous convie à un renverse­ment de perspective par rapport à la perspective habi­tuelle : il est possible de faire porter le questionnementsur la mise en relation (sous des formes diverses) desconnaissances en utilisant les acquisitions effectuées pourconstruire les distracteurs. Ces distracteurs efficaces sontsusceptibles de révéler les cas où la mise en relationeffectuée par les sujets est insuffisante, à condition decroiser différentes sous-questions pour faire la part dessous-réponses exactes dues à un jugement correct et dessous-réponses exactes permises par une faiblesse desconnaissances (et en conséquence une inefficacité desdistracteurs).

L'attractivité des énoncés soumis à jugement peutêtre prise en compte de multiples façons dans le calculde la note. De plus, elle peut être déduite de l'ensembledes réponses d'un groupe d'élèves ou faire l'objet d'uneapproche plus personnalisée au moyen de réponsessubjectives d'autoévaluation. Nos résultats incitent cepen~

dant à la réflexion et à la prudence pour ce qui concernel'utilisation incontrôlée d'autopondérations en vue ducalcul des notes.

Un point supplémentaire doit être noté, quoi qu'iln'ait pas été abordé dans notre exposé : autant J'étudedes erreurs peut être profitable à l'évaluateur - et doncà J'enseignant soucieux de didactique - autant elle per­met (avec le QCM mieux peut-être qu'avec une autreméthode) une compréhension par l'élève de ce que sadémarche compte d'erroné, ce qui est la condition néces~

saire à une correction de sa démarche.

Jean-Marc FABRE,Georges NOIZET,

laboratoire de psychologIe expérlml;lntale,UnIversité de Provence.

+ 0,41+ 0,33-0,18-0,30

Différencedes certitu­des selon la

Jugement

2,102,142,482,39

SRF

2,512,472,302,09

Certitudesmoyennes

SRV

16336173

SRF

84673927

en cas dePourcentages

de

SRV

Type VAde VN

sous- FAquestfons FN

Les QCM constituent une méthode d'évaluation auto­matisée qui comporte des aspects très diversifiés, enparticulier selon le type de questions choisi et les procé~

dures d'enregistrement de la performance.

Les études que nous avons menées montrent qu'ilest possible d'utiliser cette méthode pour apprécier desactivités complexes, contrairement à la croyance couranteselon laquelle elle ne s'adresse qu'à une forme élémen­taire de mémoire. L'important est le but qui préside àl'utilisation de l'instrument. Cependant, lorsque la décisionse manifeste de ne pas se contenter d'observations sim­plistes, les véritables difficultés apparaissent, qui sontd'interprétation, de compréhension et de notation deserreurs et des réponses exactes. Si ces difficultés ne sontpas propres aux QCM mais à J'évaluation elle-même,

27

Page 13: à UNE PROCEDURE AUTOMATISEE D'EVALUATION DES …

Références blbUographfques

ADAMS (J.K.) et ADAMS (PA). - Realism of confidence judge·ments, Psychologlcal Revlew, 1961, 68, 33-45.

BELLAN (D.) et NOIZET (G.). - L'influence du système de réponsesur la discrimination perceptive passe-t-elle par la recherched'information? CahIers de PsychologIe, 19'71, 14, 17-31.

CLARK (H.H.). - Linguistic processing in deductive reasoning,Psychologleal Revlew, 1969, 76, 387-404. Traduction françaisein MEHLER (J.) et NOIZET (G.) (Eds), Textes pour une psy­cholinguistique, Paris : Mouton, 1974, 565-602.

FABRE (J."M.). - Docimologie expérimentale et évaluatlon par ques­tionnaires : étude du Jugement multiple el de l'autopondéra­Uon, thèse de doctorat de 30 cycle, Aix~en-Provence, Labora­toire de Psychologie Expérimentale, Université de Provence,1977, 224 p. polycopiées.

FABRE (J.~M.) et NOIZET (G.). - Oonfiance attachée aux réponsesà des questlolls à choix multiple, Journal de PSYChologIe Nor·male et Pathologique, 1977 a, 74, 335-362.

FABRE (J.-M.) et N01ZET (G.). - Jugement du vrai et du faux surdes énoncés affirmatifs et négatifs, in Psychologie expérimen­tale et comparée, Hommage à Paul Fraisse, ParIs : PressesUniversitaires de France, 1977 b, 411-426.

FINETTI (8. de). - Methods for discriminating levels of partialknow!edge concerning a test item, British Journal of Mathe­mallcal and Statlsllcal psychology, 1965, 18, 87-123.

FLAMENT (C.). - Modèle à caractéristiques non-monotones dansl'étude d'un questionnaire, Revue Française de Sociologie,1963 a, 4, 172-194.

FLAMENT (O.). - Fréquence et certitude des réponses dans unesérie prédictive, L'Année Psychologique, 1963 b, 63, 29·41.

FLAMENT (C.). - L'analyse booléenne de quesllonnalre, Paris etLa Haye : Mouton, 1976, 299 p.

28

HART (J.T.). _ Memory and the Feeling~of-Knowing experlence,Journal of Educatlonal Psychology, 1965, 58, 208-216.

LANDSHEERE (G. de). _ Evaluation continue et examens. Précis·de docimologie. Paris : Nathan, 1974, 286 p.

LECLEROQ (D.). _ Critique des méthodes d'applicatl?n, de .cor­rection et de cotation des questions à chOIX mUltiple,Sclenlla Paedagoglca Experlmentalls, 1973, 10, 46-57.

LECOCQ (P.) et HAUTEKEETE (M.). _ Relations ~ntre la représen­tatIon subjective de la quantité d'Information possédée etla quantité d'information stockée, PsychOlogie Française, 1971,16, 15-33.

LENNOX (B.). _ Marking multiple-choice examinations, BrlllsnJournal of Medical Education, 1967, 1, 203-211.

NOIZET (G.) et OAVERNI (J.-P.). - Psychologie de l'évaluationscolaire, Paris : Presses Universitaires de France, 1978, 231 p.

NOIZET (G.) et FABRE (J.-M.). - Etude docimolog.lque des ques­tionnaires à choix multiple (OCM) : perspectIVes de recher­che, Sclentla P3edogica Experimentalls, 1975, 12, 38-62.

RISSE (R.J.). - Réflexion doc!mologlque : A propos de deux exa­mens du premier cycle des études médicales, Thèse de Doc­torat de médecine, Paris, 1972.

SANDERSON (P.H.). - The" don't know" option ln MOa exami­nations, BritIsh Journal of Medical Education, 1973, 7, 25-29.

SHUFORD (E.H.), ALBERT (A.) et MASSENGILL (H.E.). - Admis­sible probabifity measurernent procedures, Psychometrlka,1966, 31, 125-145.

SIEBER (J.E.). - Effects of decision importance on ability ta gene­rate warranted subjective uncertainty, Journal of Personalltyand Social Psychology, 1974, 30, 688-694.