Cardinet_Evaluer Sans Juger

Embed Size (px)

Citation preview

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    1/13

    Jean Cardinet

    Evaluer sans jugerIn: Revue franaise de pdagogie. Volume 88, 1989. pp. 41-52.

    Abstract

    Evaluation without judgment. - From a formative point of view, it remains possible to organise the class so that pupils individually

    receive a lot of feedback information, enabling them to correct their mistakes and at the same time increasing their familiarity with

    those characteristics associated with a good performance. From of summative point of view, the school should take account of

    the varied curricular and extra-curricular achievements of individual pupils instead of simply comparing them globally with one

    another or merely with reference to the academic programme. Such descriptive evaluation (records of achievement) is an

    approach which should be most compatible with the teacher's helping role.

    Citer ce document / Cite this document :

    Cardinet Jean. Evaluer sans juger. In: Revue franaise de pdagogie. Volume 88, 1989. pp. 41-52.

    doi : 10.3406/rfp.1989.1412

    http://www.persee.fr/web/revues/home/prescript/article/rfp_0556-7807_1989_num_88_1_1412

    http://www.persee.fr/web/revues/home/prescript/author/auteur_rfp_493http://dx.doi.org/10.3406/rfp.1989.1412http://www.persee.fr/web/revues/home/prescript/article/rfp_0556-7807_1989_num_88_1_1412http://www.persee.fr/web/revues/home/prescript/article/rfp_0556-7807_1989_num_88_1_1412http://dx.doi.org/10.3406/rfp.1989.1412http://www.persee.fr/web/revues/home/prescript/author/auteur_rfp_493
  • 7/23/2019 Cardinet_Evaluer Sans Juger

    2/13

    REVUE

    FRANAISE DE

    PDAGOGIE

    N 88

    ]uillet-aot-septembre

    1989,

    41-52

    VALUER SANS

    JUGER

    par

    Jean CARDINET

    On

    a

    cherch

    rsoudre les

    problmes

    de

    l valua

    tion

    colaire

    par

    l'emploi de

    tests

    pdagogiques.

    Plu

    sieurs modles

    ont t

    proposs

    pour

    les construire.

    L'approche psychomtrique,

    d'abord,

    se rvle insatisfai

    sante,arce qu'elle

    repose

    sur la

    mise en

    comptition

    des lves. L'valuation par objectifs manque de thorie

    statistique. La mesure de l'cart au

    seuil

    de

    russite

    demande un

    nombre

    excessif d'observations. H faut donc

    se

    rsigner ne

    pas

    pouvoir situer

    exactement la position

    de

    chaque

    lve,

    ce qui d'ailleurs vite

    le

    danger

    d'une

    catgorisation

    dshumanisante.

    Du

    point de vue formatif,

    il

    reste possible

    d'organiser la classe pour que l'lve

    reoive de nombreuses informations en

    retour,

    l'aidant

    corriger

    ses reprsentations et comprendre les critres

    d'une

    performance correcte. Du point

    de vue

    sommatif,

    l'cole

    doit rendre compte des diverses acquisitions de

    l'lve, au lieu de

    le comparer

    aux autres, ou au pro

    gramme. Cette valuation descriptive est la seule qui soit

    compatible

    avec

    une

    relation

    d aide de la part de

    l ensei

    gnant.

    (*) Confrence

    prsente l 'Universit Catholique

    de

    Louvain,

    Louvain-la-Neuve, le 4 octobre

    1988.

    I. - LE

    PROBLME A RSOUDRE

    1.1. La demande des enseignants

    Dans une

    enqute

    effectue

    en Suisse

    (Roth et

    Schellhammer, 1974), les

    enseignants

    interrogs ont

    dsign

    l'valuation comme

    leur difficult

    principale.

    Ils

    pensaient

    sans

    doute au rle qu'ils devaient

    jouer

    dans

    la

    slection ou

    la

    promotion de leurs lves, mais

    la

    mise de

    notes toute occasion leur pose tout autant de pro

    blmes En effet,

    rien

    ne prcise aux enseignants ce

    qu'ils doivent rellement

    exiger. Mme

    si les objectifs

    taient bien dfinis, il resterait difficile pour

    eux

    de situer

    chacun

    de leurs lves par rapport cette norme.

    1.2. La rponse des scientifiques

    Les spcialistes en

    sciences de

    l'ducation

    ont

    tent

    de

    rpondre

    ces

    besoins.

    D'abord, ils ont propos des cadres

    thoriques pour

    analyser

    les

    tches d'apprentissage et ainsi

    faciliter

    la

    dfinition

    des objectifs ducatifs

    viss. Les chercheurs

    universitaires belges

    ont t

    particulirement actifs dans

    ce

    domaine

    (De

    Block,

    1970;

    De

    Ketele, 1982;

    G.

    et

    V.

    De Landsheere, 1975

    ; V.

    De Landsheere, 1987

    ;

    D'Hai-

    naut,

    1985

    ; Stievenart et Tourneur,

    1983

    ; Vandevelde,

    1982).

    Ensuite,

    les

    scientifiques ont dvelopp des

    mthodes de mesure permettant d'obtenir des informa

    tions

    rcises

    et

    fidles.

    On

    pourrait

    citer un

    grand nomb

    re

    e ces tentatives, depuis

    les

    premires recherches

    en

    docimologie, jusqu au

    dveloppement

    actuel

    des

    banques

    d'items

    informatises,

    surtout aux

    Etats-Unis.

    Etait-ce

    la

    bonne solution

    ? On verra

    ci-dessous les raisons d'en

    douter.

    1.3.

    Plan de l'expos

    Les pages qui

    suivent

    vont d'abord retracer

    brive

    ment

    es

    tapes

    logiques de cet

    effort

    de

    quantification.

    Sans

    nier l'intrt de tels

    dveloppements,

    qui trouvent

    dj

    de

    multiples applications,

    la

    conclusion

    de

    ce rapide

    survol

    sera

    pourtant ngative,

    la

    solution

    tant

    attendue

    par les matres ne semblant

    pas

    atteignable par cette

    voie.

    Pour rorienter

    la recherche,

    il

    faudra

    tudier

    alors

    l'origine

    de cette difficult,

    c'est--dire les raisons

    qui

    amnent consacrer un

    temps

    excessif au contrle.

    Sur

    cette base, des

    propositions

    seront

    faites pour

    une valuation qui ne

    cherche plus

    reprer constam

    ment

    a position des

    lves, ni mme

    se

    prononcer

    sur

    leurs

    comptences particulires.

    41

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    3/13

    En

    conclusion seront explicits les principes psycho

    logiques

    et philosophiques qui justifient de dvelopper

    une valuation qui ne juge pas l'lve.

    II.

    -

    L'ESPOIR DANS

    LA

    MESURE

    2.1.

    Bases

    thoriques

    L'tude exprimentale de

    la

    notation des

    copies

    du

    baccalaurat, ralise d'abord par Laugier et Weinberg

    (1938), mais confirme ensuite plusieurs reprises par

    Piron (1963),

    puis

    Reuchlin

    et

    Bcher (1968),

    entre

    autres,

    conclut

    l'insuffisance radicale des

    mthodes

    d'valuation couramment

    utilises,

    puisque les notes don

    nes un mme travail pouvaient prsenter, selon

    les

    correcteurs,

    un cart de 13

    points

    sur une chelle de 20.

    Les diffrences entre les moyennes des notes donnes

    par des jurys parallles pouvaient atteindre

    4

    5

    points,

    mme

    dans les

    branches

    objectives

    comme

    la

    mathmati

    que

    t

    la

    physique.

    Pour

    proposer des

    solutions,

    ces chercheurs se sont

    naturellement tourns vers la psychologie

    diffrentielle.

    Les tests

    d'aptitudes

    offraient le

    modle

    d'une quantifica

    tionontrle.

    Il fallait

    crer paralllement des tests de

    connaissances, en utilisant les mthodes de

    la

    psychom-

    trie.

    Mais, sur le

    plan

    conceptuel, ces mthodes

    elles-

    mmes

    ont beaucoup volu tout au long de ce sicle. La

    thorie de la gnralisabiht en

    offre

    actuellement la fo

    rmulation

    la

    plus

    englobante.

    C'est

    en

    se

    rfrant

    elle

    que quatre conceptions

    successives

    des tests de

    con

    naissances

    vont tre dcrites ci-dessous. Les deux

    pre

    mires

    relvent encore

    de la psychologie diffrentielle,

    alors

    que les

    deux autres visent

    spcifiquement

    la mesure

    en

    ducation.

    2.2. L'approche

    psychomtrique

    2.2.1. La

    diffrenciation

    des

    sujets

    Au tout

    dbut de la

    psychologie,

    la

    mesure

    portait

    directement sur

    les performances

    observes :

    on

    estimait

    des

    seuils

    perceptifs ou

    des

    temps de

    raction.

    Ce

    fut

    le

    coup de gnie de

    Binet

    de proposer une chelle

    mtrique

    diffrente, applicable

    n'importe

    quel comportement (au

    dessin comme

    la rcitation, par

    exemple),

    et qui repos

    ait

    ssentiellement

    sur le

    classement

    des performances

    des sujets.

    C'est

    pourquoi

    la psychomtrie

    a

    toujours

    pris

    comme rfrence, pour

    interprter un

    rsultat,

    la distribu

    tione l'ensemble des autres

    rsultats

    obtenus. La

    mesure est exprime, en consquence, en

    termes

    d'cart

    leur moyenne

    gnrale,

    ce qui

    fournit

    ce qu'on appelle

    une mesure relative.

    2.2.2. La thorie classique des tests utilisant la

    mesure relative

    Exemple

    II

    est inutile de rappeler la dmarche bien connue de

    construction

    d'un

    test

    standardis

    (dfinition des objectifs

    ducatifs

    viss

    et des conditions de leur observation).

    D'innombrables

    ouvrages

    les ont donnes

    en

    modle aux

    enseignants en formation. Une rflexion plus pousse sur

    la

    finalit

    de la

    mesure en ducation aurait

    sans doute

    permis

    de

    nuancer

    ce

    souci

    de prcision.

    Il faut nanmoins reconnatre aux psychomtriciens le

    mrite de s'tre

    donn le

    moyen

    de

    contrler

    la

    qualit

    de

    telles

    preuves.

    A

    l'aide

    de l'analyse statistique de la

    variance,

    ils

    peuvent estimer

    quelle

    part

    de

    variation

    revient aux diffrences relles entre lves et quelle part

    revient l'erreur d'chantillonnage. La fidlit de

    la

    mesure est alors

    calcule

    comme

    la

    proportion de

    variance systmatique dans

    la

    variance totale

    des

    scores

    observs.

    Un exemple rel va permettre de

    comparer

    les

    rsul

    tats que fournissent les

    quatre

    conceptions annonces

    pour les

    tests

    de connaissances. Une enseignante, pro

    fesseur de physique

    Genve (Zimmermann, en

    prparat

    ion),

    construit

    une

    preuve

    sur la chaleur,

    en

    abordant

    les trois domaines

    : thermomtrie, changements d'tat, et

    diffrence

    entre

    chaleur

    et

    temprature,

    l'aide

    de

    sept

    questions

    par domaine.

    Une tude de fidlit habituelle

    (Cardinet, 1988)

    aboutit un

    coefficient

    de

    0,851.

    Ainsi, plus des

    quatre

    cinquimes

    de la

    variance

    des scores

    observs

    n'est

    pas

    due au

    hasard.

    Cette enseignante

    peut

    se considrer

    satisfaite de son

    preuve, qui classe

    ses lves d'une

    faon

    qui

    serait tout fait rptable partir d'autres

    chantillons de questions.

    Discussion

    Doit-elle pourtant

    vraiment

    se

    rjouir

    ?

    La

    seule

    info

    rmation

    que

    fournit son preuve,

    en

    tant

    que test psycho

    mtrique,

    est

    l'cart de chaque lve la moyenne de

    l'cole. Cette

    mesure relative fait totalement

    abstraction

    de la performance d'ensemble de

    l'cole,

    qui pourrait tre

    insuffisante.

    De

    plus, il est absolument impossible d util

    iseres carts

    la moyenne

    pour savoir si les

    rsultats

    sont meilleurs,

    ou

    moins

    bons que l'anne

    prcdente.

    En admettant que ce

    ne soit pas

    le but premier de

    l'preuve,

    qui

    s adresse

    surtout

    aux lves,

    ceux-ci

    ont-

    42

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    4/13

    ils

    lieu d'tre satisfaits ? Peut-tre s'apercevront-ils que si

    l'un d'entre eux a progress depuis la dernire preuve,

    ce

    fut en

    forant un de ses camarades

    chouer

    sa

    place,

    puisque

    le

    nombre

    d checs reste

    toujours

    const

    ant.

    Pourquoi

    travailleraient-ils ensemble dans ces condi

    tions

    ?

    Pourquoi

    ne dcideraient-ils

    pas plutt

    de

    cesser

    tous

    d'tudier,

    puisque

    la

    distribution

    des

    notes

    resterait

    de toute

    faon

    la mme

    ?

    On voit que le principe de la mesure relative, aussi

    ingnieux

    ait-il t au

    dpart

    en psychologie, n'est

    pas

    acceptable en

    pdagogie.

    Depuis longtemps, les cher

    cheurs ont tent de rsoudre ce

    problme,

    en particulier

    Cronbach et ses collaborateurs (Cronbach,

    Gleser,

    Nanda

    et

    Rajaratnam,

    1972).

    2.2.3. L'cart au

    seuil

    de matrise, utilisant une

    mesure absolue

    Exemple

    Une faon claire de

    poser

    le problme est de se

    placer dans l'optique d'une valuation par objectifs, qui

    prcise que l'lve doit rpondre correctement au

    moins 70 des

    questions,

    par exemple, pour recevoir

    son crdit. Cronbach considre que le but de l'valuation

    pdagogique est d'estimer o

    se

    situe chaque lve par

    rapport

    ce

    seuil.

    La distribution d'ensemble est alors

    sans intrt. Seule doit tre connue la marge

    d'erreur

    dans la mesure de la distance ces 70 .

    Supposons qu'un lve se

    situe

    juste

    la

    limite. Cet

    lve

    pourrait, lors

    de tirages

    successifs

    de sries

    de

    questions

    plus

    ou

    moins

    difficiles, russir 65 , ou

    75

    ,

    par exemple. La thorie statistique

    permet

    de

    pr

    ciser cette marge de

    variation.

    Dans

    le

    cas

    du test de

    physique, les fluctuations attendre iraient de

    51

    89 .

    Il serait

    donc

    possible

    d'affirmer

    que les lves qui

    donnent

    moins de

    51

    de rponses correctes n'ont pas

    atteint l'objectif,

    alors

    que ceux qui

    rpondent

    juste

    9

    fois

    sur

    10 ont

    acquis la

    matrise demande. L'interprtation

    reste

    incertaine

    entre ces deux

    limites.

    Discussion

    L'enseignante

    peut-elle tre satisfaite de ce

    rsultat

    ?

    Certainement pas, parce que la marge d'incertitude est

    nettement trop

    grande. La majeure partie des rsultats

    vont tomber dans cette

    zone.

    La pratique scolaire oblige

    pourtant

    prendre

    des dcisions.

    Il serait possible,

    bien

    sr, de rduire l'erreur, mais condition d'allonger le

    test. En doublant

    le

    nombre de questions,

    la marge

    d'er

    reur autour de

    70 passerait

    de plus

    ou

    moins

    1

    9

    plus

    ou

    moins

    14 . Il ne semble pas que cette amliorat

    ionn vaille

    la

    peine.

    Le chercheur qui examine cette solution

    est-il, lui,

    satisfait ?

    Pas

    vraiment

    non

    plus, car

    il

    est difficile d vi

    ter

    a

    question

    de la fidlit de la mesure des rsultats

    des lves. Ds

    que

    l'on

    veut

    mettre une

    variance vraie

    en

    relation avec

    la

    vanance-erreur

    ci-dessus,

    la

    question

    se pose de savoir quelle est cette variance vraie. Si c est

    la

    variance

    entre

    lves,

    le

    modle

    devient contradictoire

    avec

    le

    principe de la pdagogie par objectifs qu'il

    pr

    tendait

    servir,

    car il

    rintroduit la comptition et pnalise

    un enseignement o tous

    les

    lves russiraient :

    comme

    il

    n'y aurait plus de

    variance,

    la fidlit de l'valuation

    paratrait nulle

    Bien

    que

    le modle de Cronbach fasse

    avancer

    la

    thorie d'un grand pas, il semble encore insuffisant pour

    fonder la mesure en

    pdagogie.

    2.3. L'approche dumtrique

    2.3.1. L'tude d'un

    autre

    continuum:

    le

    progrs

    individuel

    Une

    solution

    au

    problme

    consiste

    prendre

    en

    compte d'autres dimensions de variation que la dimension

    inter-lves.

    Dj certains

    chercheurs (par exemple

    Cardi-

    net, 1973) avaient not que lorsqu'on mesurait les rsul

    tats d'un curriculum, les questions devenaient objets

    d tudes et les lves, instruments d'observation.

    Si

    l'on

    considre un

    plan factoriel

    crois trois

    facteurs,

    (Sujets,

    Questions, Phases d'apprentissage,

    par

    exemple, comme

    la figure

    1), les diffrences

    entre

    phases d apprentis

    s gent exactement le mme

    statut que les

    diffrences

    entre

    sujets.

    Il

    est

    donc possible

    d'estimer

    avec

    quelle

    fidlit les niveaux d'apprentissage sont diffrencis,

    mme s'il n'y en a que deux. Il suffit de

    transposer

    les

    indices

    des

    formules

    de fidlit

    classiques.

    L'un des

    avantages

    de la symtrisation de la

    thorie

    de la gnralisabilit, introduite par Cardinet, Tourneur et

    Allai

    (1976) est de faire apparatre une multitude de

    cas

    de

    figures

    diffrents, correspondant toutes

    les

    direc

    tions de gnralisation (ou au contraire de fixation) possi

    bles. On

    peut tudier, en particulier, avec quelle fidlit

    se

    diffrencient

    le niveau initial de performance

    d'un

    lve

    et son niveau final.

    Il est galement

    possible de

    calculer

    quelle

    est

    la

    marge d'erreur moyenne, pour

    l'ensemble

    des lves

    d'un

    groupe, autour d'une valeur

    thorique quelconque sur ce continuum de progrs.

    2.3.2. La mesure absolue du progrs et de l'cart au

    seuil

    Exemple

    L'tude a t

    effectue

    pour les donnes du test de

    physique. Il

    avait

    en

    effet

    t prsent deux fois aux

    43

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    5/13

    Figure

    1

    Dispositif

    crois

    trois

    facteurs

    PHASES

    D'APPRENTISSAGE

    F in ^^

    ^

    n(s)

    QUESTIONS

    lves, avant et

    aprs l'tude

    du thme de la chaleur

    (Cardinet,

    Zimmermann,

    Bain et Muller,

    1988).

    Dans ces

    conditions, une

    autre

    variance peut tre

    calcule,

    celle

    due au

    progrs

    individuel de

    chaque lve.

    On

    notera

    qu'elle est totalement

    indpendante

    des

    diffrences exis

    tant

    entre

    lves (plus

    prcisment

    de

    la

    variance de

    leurs rsultats au total

    du

    pr-test

    et du

    post-test).

    Un

    coefficient

    de

    fidlit

    peut maintenant

    mettre

    en

    rapport,

    pour

    chaque lve sparment, la

    variance

    due

    son progrs

    et la

    variance d'chantillonnage correspon

    dante. partir

    d'une

    analyse

    de la variance,

    on trouve

    facilement quelle est

    la moyenne de tous ces

    coefficients

    de

    fidlit

    individuels. On

    obtient pour

    le

    test

    de physique

    une

    valeur trs faible,

    gale

    0,674, ce qui

    signifie qu'un

    tiers de

    la variance

    que l'on attribue aux progrs indiv

    iduels est due en fait au hasard.

    Cette

    fidlit est insuff

    isante pour permettre

    une

    mesure

    assure

    de l'cart au

    seuil de

    matrise

    dsir.

    La source

    du problme

    est facile localiser. C'est

    la

    variance d'chantillonnage

    des

    difficults

    des

    questions

    qui est trop grande.

    C'tait

    elle qui

    avait caus une

    marge

    d'erreur

    excessive

    au cas

    prcdent. La

    variance

    d'erreur reste la mme dans cette troisime conception,

    mme si la

    variance

    vraie

    est diffrente. Il faudrait dou

    bler la longueur de l'preuve (qui comporte

    pourtant

    dj

    21

    problmes) pour

    atteindre une fidlit de 0,80.

    Discussion

    Si le thoricien

    apprcie, dans cette troisime

    ception des tests de connaissances,

    d'avoir

    pu complter

    le modle de Cronbach, en donnant une base

    thorique

    aux tests d'objectifs, l'enseignante n'a gure de raison

    d'tre

    plus

    satisfaite

    qu'avant.

    La fidlit de l'preuve

    se

    rvle faible et la marge d'incertitude autour du seuil de

    russite demeure excessive. En thorie,

    il

    suffirait de

    multiplier

    les

    observations

    pour

    obtenir

    une

    information

    plus prcise. En pratique, cette

    solution est

    irralisable,

    parce

    qu'elle

    serait trop coteuse en temps d cole :

    il

    faut bien garder un moment pour l'tude

    2.3.3. Le contrle du progrs,

    avec

    une mesure

    relative

    Exemple

    Devant

    cette impossibilit,

    une position de repli

    est

    de rduire

    la

    porte de

    la

    gnralisation

    effectue.

    Au

    lieu

    de

    faire

    comme

    si

    l'on

    tirait

    chaque

    fois

    un

    chantillon

    de

    questions diffrent, en dbut et en fin d'apprentissage,

    pour mesurer

    la russite sur une

    chelle

    absolue,

    on peut

    conserver

    les

    mmes

    questions

    et se

    contenter de com

    parer les

    performances initiale et

    finale

    la

    mme

    preuve.

    On

    peut

    ainsi

    contrler

    le progrs individuel,

    mais

    sans

    pouvoir situer dans l'absolu les deux niveaux

    observs,

    parce qu'on n'assure plus l'quivalence de dif

    ficult des

    preuves que

    l'on

    utilise.

    En renonant ainsi un bilan par objectif, en faveur

    d'un simple

    contrle

    du progrs individuel ( finalit plu

    tt

    formative), on devrait obtenir une fidlit

    meilleure.

    C'est

    bien

    ce

    qu'on observe dans

    l'exemple

    du test

    de

    physique

    :

    les

    coefficients

    individuels atteignent

    cette fois

    une

    moyenne

    de 0,879. La diffrenciation des deux

    niveaux (initial et final) est donc excellente avec l'preuve

    actuelle.

    Discussion

    Le prix payer pour

    cette

    prcision de la mesure

    est

    l'troitesse de l'information que l'on obtient.

    L ensei

    gnante

    qui

    a prpar cette

    preuve peut contrler l'effet

    positif de son

    action,

    mais

    ne peut pas

    vrifier si ses

    rsultats sont

    suffisants

    ou non dans

    l'absolu.

    Reste

    savoir

    si

    le

    problme

    est nouveau. Les

    tudes

    de docimologie montrent qu'il

    en

    a toujours t

    ainsi dans les

    examens.

    Jusqu'ici les chercheurs ont cha

    que fois conclu que cette

    situation tait inacceptable

    et

    ils

    ont propos d'amliorer

    les procdures d'valuation

    pour

    galiser

    les exigences.

    C'tait

    bien dans

    ce

    but que

    la

    thorie

    de la gnralisabilit avait t dveloppe

    in

    iti lement (Cardinet et Tourneur, 1985).

    Une solution

    plus raliste

    ne

    serait-elle pas,

    pourtant,

    e

    tirer les

    consquences,

    dans

    la pratique

    sociale,

    de l

    44

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    6/13

    non-quivalence

    des niveaux ?

    Cette diversit

    va subsist

    er,

    n

    effet, parce qu'elle a une fonction pdagogique

    essentielle

    : elle

    correspond

    au fait que chaque ensei

    gnant doit

    prendre

    ses lves o ils sont

    pour les

    mener

    o

    il

    peut.

    Former

    tous

    les

    lves de la mme faon est

    impossible.

    Comment

    pourrait-on,

    et pourquoi devrait-on,

    donner

    tous

    un

    diplme

    quivalent

    ?

    Une rflexion s'impose

    pourtant

    avant d'avancer des

    propositions de solution. O

    se

    situent les obstacles qu'il

    faudra contourner

    ?

    qui

    permettait d'en

    maintenir l'effet

    constant.

    C'est ainsi

    qu'ils ont cr les

    tests.

    Enfin leur effort de quantification visait, comme tou

    j ours

    en science,

    rendre

    leurs donnes

    plus facilement

    intgrables dans des modles

    thoriques.

    Pour faciliter

    les comparaisons

    entre

    tests,

    ils ont

    choisi

    de

    travailler

    avec

    des rangs

    plutt qu avec

    des valeurs

    concrtes,

    autrement dit

    avec une

    chelle

    relative,

    en abandonnant

    toute

    information

    concernant

    la moyenne ou la

    dispersion

    des

    rsultats

    des sujets.

    III.

    -

    LES OBSTACLES A LA MESURE EN PDAGOGIE

    3.1.

    Attraits et

    dangers

    d'une

    mesure

    absolue

    Pour passer du fait

    observ

    (la

    faible gnralisabilit

    de

    nos mesures)

    la

    loi

    que

    l'on pressent

    (l'impossibilit

    de tout contrler), il faut possder un cadre conceptuel

    explicatif qui rende compte de cette difficult. Une

    faon

    de le dcouvrir est de s'interroger sur ce qui distingue la

    mesure

    en

    psychologie (apparemment satisfaisante) et

    en

    pdagogie (o

    les

    exigences de la quantification

    ne

    semb

    lent

    pas

    satisfaites).

    3.1.1. En

    psychologie

    On peut rsumer l'histoire du dveloppement des

    tests

    en

    disant

    que les psychologues

    ont cherch

    dcrire

    les caractristiques

    de la personnalit des

    sujets

    de

    faon

    exhaustive (mais parcimonieuse),

    stable,

    fidle

    et quantifiable.

    n ce qui concerne leur premier but, une

    description

    exhaustive, mais

    parcimonieuse, ils suivaient un

    principe

    universel

    de la mthode scientifique,

    qui

    cherche tra

    vailler avec le

    nombre

    minimum de paramtres. Pour y

    parvenir, ils ont utilis l'analyse factorielle, qui

    permet

    de

    dterminer des variables exprimant chacune la mme

    information que tout un ensemble d'autres. Ils ont admis

    que quelques preuves typiques pouvaient mesurer ainsi

    les traits fondamentaux de la personnalit.

    Le souci

    d'obtenir

    des

    caractristiques

    stables

    est

    justifi

    par

    le

    mme principe de parcimonie. Il

    s'agit

    d'obtenir des informations qui

    soient

    valables pour tout

    un ensemble d occasions. Les psychologues y sont par

    venus

    en proposant des

    tches

    artificielles, ainsi nces

    sairement

    nouvelles

    pour les

    sujets, et donc

    l'abri

    d'un

    apprentissage incontrl.

    Si

    les psychologues voulaient obtenir aussi

    des

    observations fidles,

    c'est

    bien

    sr qu'ils

    dsiraient

    rduire

    l'erreur d'observation. Ils ont pour cela

    standar

    dis

    igoureusement

    leurs conditions d'observation, ce

    3.1.2.

    En pdagogie

    Ce rappel historique

    n'a

    d'intrt que parce qu'il per

    met

    de mettre

    en vidence

    combien le contexte de la

    mesure est diffrent en

    pdagogie.

    Si une description exhaustive du

    domaine est

    bien

    fournie

    par

    les

    diverses taxonomies d'objectifs

    ducatifs,

    cites en introduction,

    la

    recherche

    de

    parcimonie est,

    par contre,

    totalement

    inexistante dans cette discipline.

    Pour

    l'cole,

    ce

    n'est

    pas

    la

    mme

    comptence de

    raisonner logiquement

    en mathmatique,

    ou

    en philoso

    phie.

    ous

    les contenus

    sont

    essentiels.

    Toutes

    les

    dmarches

    de pense le sont

    aussi,

    puisque ce n'est

    pas

    le

    mme objectif ducatif

    de connatre la

    loi

    d'Ohm et de

    savoir l'appliquer. En fait, toutes les combinaisons

    possi

    bles de contenus, de dmarches cognitives

    et

    de situa

    tions d'observation

    (telles

    qu'elles

    apparaissent

    dans les

    cellules

    de

    la

    figure

    2)

    constituent

    des

    objectifs

    indpen

    dants

    t

    irrductibles.

    Le dsir d'obtenir des

    caractristiques

    stables est

    bien absent galement

    de l'cole.

    Les

    enseignants veu

    lent

    au

    contraire voir

    voluer la performance de

    leurs

    lves et souhaiteraient pouvoir

    suivre leurs progrs de

    faon continue.

    La standardisation laquelle

    les

    psychologues ont eu

    recours parat, elle aussi, inacceptable en

    pdagogie.

    C'est la capacit

    d'effectuer

    tous

    les

    calculs possibles,

    de

    lire

    toutes

    les

    sortes de textes, de traiter toutes

    les

    formes

    d'quations, etc. qu'ils veulent

    contrler,

    et

    il

    n'est

    par

    consquent

    pas

    possible

    de

    contrler une

    forme

    d'preuve par une autre.

    Quant

    la

    quantification, les pdagogues

    la

    ralisent

    au

    moyen

    d chelles absolues

    plutt

    que relatives. C'est

    que l'erreur n'est

    pas

    admise

    l'cole

    : qu'une

    opration

    soit longue

    ou non, elle doit tre juste.

    A

    un examen, il

    n'est

    pas

    indiffrent de recevoir une

    question

    facile ou

    difficile,

    alors

    que dans un test

    psychologique

    le niveau

    d'exigence

    est

    contrl par

    l'utilisation d'un

    talonnage.

    On

    voit

    qu'en

    tous points,

    la

    conception de

    la

    mesure

    45

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    7/13

    est diffrente dans les

    deux

    disciplines, ce qui ne peut

    manquer d'avoir

    des

    consquences pratiques.

    3.1.3. Consquences

    en ducation

    Faute d'une

    description

    parcimonieuse

    des objectifs

    ducatifs,

    les

    pdagogues

    sont

    obligs

    de

    mesurer

    tous

    ces savoir-faire sparment. Ils

    essayent

    bien

    avec

    De

    Ketele

    (1983), de dterminer

    des

    objectifs terminaux

    d'intgration, mais le

    refus

    de la standardisation et

    l'emploi d'une chelle absolue empchent de contrler le

    niveau d'exigence de ces preuves et les

    rend

    donc

    difficilement

    interprtables.

    Pour bien faire,

    chaque

    object

    ifevrait donc tre contrl pour

    lui-mme.

    La masse d'examens

    que

    ce

    projet ncessite est

    multiplie

    par l'ambition de suivre en temps rel la pro

    gression de chacun de ces

    apprentissages.

    Plus

    le

    contrle

    se

    veut

    troit,

    plus

    les preuves

    doivent

    tre

    nombreuses.

    Puisque la comptence dsire doit tre gnrale,

    il

    faut prvoir

    galement

    l'examen au moins un

    certain

    chantillon de chaque type de tches, pour pouvoir s'en

    assurer.

    Enfin,

    du fait de l'emploi

    d'une

    chelle absolue,

    l'influence

    du choix des

    questions,

    ou

    si

    l'on prfre, de

    leur

    formulation, se rvle norme.

    Il

    faut,

    pour

    rduire ce

    facteur d'erreur, augmenter

    considrablement

    le nombre

    de

    questions

    poses dans

    les

    preuves.

    Ainsi, sur tous les

    plans

    la

    conclusion

    est la mme : il

    faut

    toujours

    multiplier

    les preuves.

    On

    comprend

    alors

    pourquoi les enseignants croulent sous

    le nombre

    de

    contrles et estiment en mme temps qu'il leur en fau

    drait encore plus : ils souhaitent un

    contrle

    total de leur

    classe. Pourtant, ils poursuivent une chimre

    s'ils

    s imagi

    nent

    arvenir

    un jour, tels des

    contrleurs

    du ciel,

    suivre leurs lves

    sur

    leur

    cran-radar.

    Ne

    vaudrait-il

    pas

    mieux admettre, une fois

    pour

    toutes, que les possibilits de mesure seront

    toujours

    radicalement

    insuffisantes

    par

    rapport

    nos besoins et

    qu'il est

    plus sage de modifier nos attentes et notre

    conception de l'valuation ?

    Ne

    serait-ce pas,

    d'ailleurs,

    une raction

    de

    toute faon

    ncessaire

    devant cet

    autre

    danger de l'valuation

    actuelle

    : l'explication pseudos

    cientifique par

    les

    traits de personnalit ?

    3.2. Attraits

    et

    dangers

    des

    traits personnels

    3.2.1. L'attribution

    de

    proprits

    aux

    objets:

    ncessit

    et

    risque en

    science

    Face

    au nombre infini d'informations

    que

    nous

    trans

    mettent nos organes des sens, nous avons recours un

    processus

    simplificateur :

    la

    catgorisation. Nous pouvons

    ainsi

    identifier les objets en les rattachant

    des

    classes,

    et c'est ce

    qui

    nous

    permet

    de

    les

    utiliser.

    S'il est en

    effet

    essentiel de savoir que

    tel

    type de

    champignons est

    vnneux, et tel

    autre comestible, cette

    dmarche

    de

    catgorisation

    devient

    problmatique

    lor

    squ on veut en faire un principe

    explicatif.

    Cet enfant ne

    russit pas parce qu'il est peu dou est un jugement

    aussi tautologique que L'opium fait

    dormir

    parce qu'il a

    la

    vertu

    dormitive

    .

    L'explication scientifique

    progresse lorsqu'elle peut

    remplacer

    les

    proprits attribues

    aux objets

    par des

    relations dans lesquelles ces derniers sont

    insrs.

    Par

    exemple,

    Aristote

    pensait que

    les

    corps

    lourds

    avaient la

    proprit de tomber et

    les

    corps lgers

    celle

    de

    s'lever.

    Archimde dcouvrit

    que c'tait

    le rapport des masses

    spcifiques qui expliquait

    ce phnomne et Galile donna

    la

    loi

    de

    la

    chute

    des

    corps

    en

    fonction

    du

    temps.

    3.2.2. En

    psychologie

    Jacques-Philippe

    Leyens

    (1983), dans

    Sommes-nous

    tous des psychologues

    ?

    dmontre

    la tendance

    sponta

    nees hommes (et les psychologues en font

    partie...)

    mettre en

    cause

    la personnalit d'autrui.

    Pour rendre compte

    du comportement d'une per

    sonne, on

    suppose chez cette dernire une structure

    sta

    ble, un trait permanent, qui sous-tend et explique cette

    raction.

    Si nous voyons

    un

    lve

    en

    frapper

    un

    autre,

    par exemple, nous

    le

    jugeons agressif... et nous lui

    attr

    ibuons mme toutes sortes d'autres caractristiques que

    nous croyons

    en

    corrlation avec ce trait.

    Les nombreuses expriences cites par cet auteur

    montrent que nous faisons

    la

    mme erreur

    qu'Aristote,

    et

    que nous sous-estimons

    l'influence

    de

    la

    situation

    et

    celle

    des

    circonstances

    locales,

    qui

    peuvent

    tout aussi bien

    expliquer

    le

    comportement observ.

    Lee

    Ross (1977),

    psychologue amricain, dnomme cette tendance

    gnr

    ale l'erreur fondamentale .

    On peut

    citer

    titre

    d'exemple

    la

    fameuse exprience

    de

    soumission l'autorit, o

    des sujets,

    mis dans

    le rle

    de

    professeurs,

    avaient

    t

    amens

    donner des chocs

    lectriques

    dangereux

    aux

    lves

    avec qui ils travaillaient.

    La raction la plus

    courante

    des

    personnes informes

    des

    rsultats de cette

    recherche a

    t de mettre

    en

    cause la

    personnalit de ces

    sujets,

    ou

    la

    culture d'o ils prove

    naient. En fait, l'analyse

    des

    observations montre qu'il

    suffit de changer

    la situation sur des points

    mineurs

    (que

    la

    victime soit dans

    la

    pice,

    par exemple,

    ou que ce soit

    l'exprimentateur

    qui

    tienne

    ce rle) pour que

    le compor

    tement

    des

    sujets change

    du

    tout

    au

    tout.

    46

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    8/13

    Puisqu'on peut passer de presque 100 0 de

    soumission

    selon

    les

    cas, comment peut-on invoquer

    massivement la personnalit de ces sujets, demande

    Leyens

    (p.

    101) au lieu de

    s'attacher

    aux dterminants

    communs

    qui influencent leur

    comportement

    ?

    C'est

    justement

    le but

    de

    la

    psychologie

    scientifique

    de mettre

    en vidence

    des

    lois gnrales,

    au heu d'avoir

    recours

    l'hypothse

    ad hoc de traits personnels. On

    pourra ainsi expliquer de faon plus satisfaisante

    les

    ractions individuelles, de la mme

    faon

    que la

    loi

    de la

    chute des corps suffit

    rendre

    compte des vitesses

    diffrentes de billes roulant sur des plans plus ou

    moins

    inclins.

    3.2.3. En pdagogie

    Chacun sait

    que

    l'erreur fondamentale

    mise

    en

    vidence

    par

    les

    psychologues

    est, dans les coles, r

    ige

    en

    systme

    :

    la

    russite

    ou

    l'chec

    sont attribus

    l'lve, pour l'essentiel, que

    l'on mette

    en avant

    son

    intelligence, son travail,

    ou

    son milieu socio-culturel. Les

    bulletins et les notes

    imposent le

    strotype du bon et du

    mauvais

    lve.

    D'ailleurs les russites ou les checs

    se

    rptent tellement systmatiquement qu'on voit mal, sou

    vent, comment

    remettre

    en

    cause

    cette classification. En

    fait,

    c'est

    parce qu'ils n'examinent qu'un ensemble extr

    mement

    troit

    de

    situations

    que les enseignants ont cette

    illusion de stabilit.

    D'abord,

    les

    activits

    d'apprentissage,

    et donc

    les

    objectifs

    pdagogiques

    correspondants,

    varient

    beaucoup

    moins

    l'intrieur

    d'une

    classe que

    d'un professeur

    l'autre.

    La preuve

    en est que les preuves de

    contrle

    d'une

    classe ne

    sont

    pas

    applicables

    une

    autre classe

    :

    les

    lves y

    chouent, ne retrouvant pas les

    exercices

    auxquels

    ils

    sont

    habitus.

    Que

    mesurent

    alors ces

    preuves,

    si

    elles

    sont

    si

    spcifiques ? Des

    savoirs

    beau

    coup plus troits

    que ceux que les

    enseignants croyaient

    mesurer.

    Ensuite, la

    tradition

    scolaire

    restreint les

    questions

    d'examen

    quelques

    formes

    devenues habituelles, parce

    qu'elles suscitent le taux de russite

    moyen

    ncessaire,

    dit-on,

    la

    diffrenciation

    des

    lves.

    Mais

    il

    suffit

    de

    changer

    la

    forme

    de

    ces

    questions

    pour

    faire

    russir ou

    chouer

    tous

    les

    lves.

    Pour

    l'objectif

    savoir calculer

    la

    surface

    d'un triangle,

    par exemple (Bodin,

    1985), pres

    que tous

    les

    lves savent noncer la

    rgle. L'appliquer

    un

    triangle dont on

    donne la base et la hauteur

    est

    possible

    pour

    70 des lves de 12

    ans. L'appliquer

    au

    mme triangle

    dessin sur une

    feuille, en utilisant

    une

    rgle

    gradue pour

    obtenir

    les

    dimensions, n'est dj plus

    ralisable que

    par

    46

    d'entre

    eux.

    Si la

    verticale issue

    du

    sommet ne coupe

    plus la base,

    seuls 20 russis

    sent.t si

    la figure

    est prsente

    la pointe

    en

    bas,

    un

    bon

    nombre

    d'enfants n'y reconnaissent plus un

    triangle.

    Qui peut dcider

    alors si

    les

    lves savent, ou

    ne

    savent

    pas, calculer cette surface

    ?

    En fait, c'est l'examinateur

    qui

    les

    fait russir, ou

    chouer,

    selon la

    question qu'il

    choisit.

    On

    pourrait

    vouloir

    prendre

    comme

    critre

    de

    con

    naissance vritable la capacit d'appliquer le savoir scol

    aire dans un

    autre

    contexte, plus significatif. En ralit, le

    transfert d'un

    contexte

    un autre est

    extrmement

    faible.

    On

    savait depuis

    longtemps

    que les

    rsultats

    scolaires

    avaient

    trs

    peu de

    rapport

    avec la russite au sein d'une

    profession

    (Ghiselli, 1966). Des

    expriences rcentes

    de

    psychologie sociale

    (Capon

    et

    Kuhn,

    1979) ont

    montr

    pourquoi

    :

    les dmarches

    de pense utilises

    pour

    com

    parer des prix, par exemple, varient totalement selon

    que

    les

    adultes interrogs se trouvent dans une

    cole

    ou dans

    un supermarch. Les

    comptences

    scolaires ne sont pas

    utilises dans la vie pratique. Inversement, des enfants du

    Brsil (Carraher, Carraher

    et

    Schliemann, 1985),

    qui

    savent rsoudre

    de tte des problmes

    arithmtiques

    au

    march,

    chouent

    le

    lendemain lorsque les mmes ques

    tions

    leur

    sont poses

    l'cole. Quelle

    est leur

    connais

    sance

    ritable ?

    Pour

    une

    bonne

    part,

    ces incohrences apparentes

    proviennent

    de la

    dynamique de

    la situation

    d'examen.

    Les personnes

    interroges

    cherchent

    rpondre

    aux

    demandes de l'examinateur, telles

    qu elles les peroivent

    (Lave,

    1987).

    Le contexte de l'examen

    va donc induire

    telle ou telle

    orientation

    des stratgies d'attaque du

    pro

    blme

    et

    modifier

    les

    probabilits de

    rponse

    correcte

    des sujets

    (Dumont,

    1989,

    en

    a donn de

    nombreux ex

    emples .

    Mais ce contexte, son tour, peut tre apprhend

    diffremment,

    comme

    les recherches de psychologie

    sociale

    de

    l'ducation

    issues des premiers travaux de

    Perret-Clermont (1979) l'ont

    dmontr rcemment.

    La

    signification

    que la situation revt

    pour

    le sujet joue le

    rle

    de mdiateur entre ce sujet et la tche (Grossen,

    1988, p. 453).

    Il

    devient donc

    impossible

    de dfinir

    les

    capacits cognitives ou

    les

    connaissances du sujet

    en

    soi. De son ct, l'objet d'tude

    ne

    se dfinit plus

    non

    plus

    par

    ses

    caractristiques

    propres,

    mais par

    la signif

    ication

    qu'il reoit. Examinateur

    et

    examin

    se

    caractri

    sent

    lors l'un par

    l'autre.

    Toute

    rponse est donc indis

    sociable

    de

    ses

    conditions de production, c'est--dire

    des

    aspects

    relationnels et sociaux de la situation

    (idem,

    p.

    455).

    De plus, comme

    chaque

    situation

    sociale

    est cratrice

    de

    nouveaux

    savoirs,

    chaque

    situation de

    test

    est aussi

    situation d'apprentissage : l'valu volue... En cons

    quence,

    la

    recherche d'un niveau

    de performance

    vrai

    semble

    une entreprise dnue de sens.

    47

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    9/13

    Il faut donc admettre que la russite ou l'chec

    observs en classe ne permettent

    pas

    de porter un juge

    ment sur la russite ou l'chec du

    mme

    lve

    devant

    d'autres

    questions,

    formules diffremment, dans un

    autre

    contexte, ou dans des

    conditions

    de

    motivation diff

    rentes.

    Il

    n'existe

    pas

    plus

    d lves capables

    ou

    incapables

    que de

    corps

    lgers ou

    lourds.

    Comme en psychologie,

    nous

    sous-estimons toujours,

    en

    ducation,

    l'influence

    des

    conditions d'observation.

    IV.

    - UNE

    VALUATION

    QUAND MME

    4.1.

    Pourquoi

    il faut

    valuer:

    les

    vises

    formative

    et

    sommative

    La

    difficult

    de raliser

    une

    valuation

    quantitative

    satisfaisante

    ne doit pourtant pas

    nous faire renoncer

    compltement

    toute

    valuation. Nous

    avons toujours

    besoin d'informations

    en

    retour

    pour

    ajuster notre action,

    ou

    pour

    modifier plus fondamentalement nos objectifs.

    A l'cole, ces deux vises correctives,

    court

    ou

    moyen terme, correspondent au besoin de guider la

    pro

    gression de

    l'tude,

    ou de la contrler. On distingue ainsi

    deux

    formes d'valuation

    trs diffrentes, dites

    formative

    et

    sommative.

    La premire vise

    amliorer

    les conditions

    d'apprentissage

    de l'lve, la seconde tablir un bilan

    de leurs rsultats.

    Mais comment

    effectuer ces

    valuations

    si

    l'on ne

    peut

    pas savoir o

    se situe

    chaque lve ?

    4.2. Ce qui reste possible du point de vue formatif

    Pour comprendre pourquoi les obstacles voqus

    plus haut n'affectent en

    rien la

    dmarche d'valuation

    formative, il faut

    se reprsenter

    l'ensemble

    du

    domaine

    des objectifs

    ducatifs.

    La figure 2

    en montre les

    dimensions principales :

    les

    contenus

    d'abord,

    tels qu'ils figurent dans

    les

    pr

    ogrammes

    scolaires,

    puis

    les

    qualifications,

    c'est--dire

    ce

    que les lves

    doivent faire par

    rapport ces contenus

    (les mmoriser,

    les

    appliquer, les analyser, etc.) et enfin

    les

    situations

    o

    ces tches sont

    effectuer (cole,

    vie

    professionnelle, etc.).

    Un objectif ducatif, s'il est formul correctement,

    renvoie ces trois dimensions, et correspond donc

    une

    seule

    cellule. Une mesure correcte de la matrise d'un

    objectif

    particulier

    est certainement possible,

    mais

    ne

    nous renseigne

    pas

    sur

    la

    connaissance qu'aurait l'lve

    de ce mme contenu dans d'autres situations, ni

    sur sa

    Figure 2

    Dimensions principales de

    classement

    des

    objectifs

    CONTENUS

    (ou

    reprsentations)

    Classe

    Institutions

    autres

    Profession

    Famille

    de

    jeux

    SITUATIONS

    (ou rles)

    Trans-

    disciph-

    naires

    Converg.

    Personn.

    Diverg.

    Sociales

    QUALIFICATIONS

    (ou dmarches)

    GNRALES

    capacit appliquer la mme

    dmarche

    dans d'autres

    disciplines, par exemple. L'extrapolation d'une cellule

    toute une colonne, ou toute une range, est impossible.

    C'est l que se situe l'obstacle principal la mesure,

    parce que le contrle spar de

    chacun

    des objectifs

    particuliers devient trop lourd pour tre praticable.

    Par

    contre, il

    reste

    possible

    et

    minemment

    souhaita

    ble

    ue l'exercice d'un objectif particulier, dans

    une

    cel

    lule donne, soit

    l'occasion

    pour

    l'lve

    d'acqurir les

    contenus, d'exercer les dmarches,

    etc.,

    qui correspon

    dentux ranges en question. Les

    situations

    d apprentis

    s gee sont pas

    soumises

    aux

    mmes

    contraintes que

    les

    situations

    d'valuation.

    En particulier,

    en

    traitant un problme de physique,

    l'lve

    pourra

    dcouvrir

    que

    sa reprsentation initiale du

    concept avec lequel

    il travaille (disons

    le poids)

    tait

    fausse

    et qu'il doit la modifier.

    Il pourra

    s'apercevoir

    que

    la

    faon

    dont

    il

    a

    formul

    sa rponse

    n'est

    pas

    comprise

    par d'autres et qu'il doit s'habituer anticiper

    les ques

    tions de ses lecteurs, etc. Toutes sortes de retours

    d'information

    seront

    possibles

    dans tous

    les domaines,

    et

    cela

    d'autant plus

    que

    l'activit

    sera

    plus riche,

    c est--

    dire

    plus

    complexe

    et

    significative.

    La

    situation de mesure,

    par opposition,

    doit tre

    troite et dpouille, si l'on veut pouvoir analyser ce que

    l'on

    mesure.

    Sans doute pourrait-elle galement donner

    lieu un retour

    d'information

    l'lve,

    mais

    pourquoi

    passer par un lourd bilan pour

    le

    faire

    ? Si

    un jeune

    48

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    10/13

    enfant

    fait

    une

    faute

    de franais

    en parlant, on corrige

    son expression

    ; on ne

    cherche

    pas juger

    sa

    compt

    ence.

    En

    rsum,

    l'valuation

    formative souhaitable est

    un

    retour

    d'information

    multidirectionnel, s'adressant

    l'lve,

    au

    lieu

    de

    porter sur

    l'lve.

    4.3.

    Ce qui reste possible du point de vue

    sommatif

    Des bilans d'apprentissage

    restent

    nanmoins souhai

    tables, en

    particulier

    pour guider des ajustements plus

    long terme, concernant les objectifs viser et la

    faon

    de

    les poursuivre. Mais

    la

    conception de ces

    bilans

    doit tre

    soigneusement

    rflchie, car ils ont des rpercussions

    majeures sur tout le fonctionnement du systme

    scolaire.

    une valuation

    non

    comparative

    Pour

    les

    raisons

    dj

    indiques

    propos

    de

    la

    psy-

    chomtrie, l'habitude de comparer

    les

    lves

    les

    uns aux

    autres,

    pour dcider

    si un apprentissage est suffisant ou

    non,

    ne

    peut se justifier

    que

    par sa facilit. Psychologi

    quementt

    socialement,

    cette procdure est dangereuse.

    Juridiquement,

    elle est indfendable, parce

    que

    contradict

    oire

    vec

    les

    finalits

    dclares

    de l'entreprise ducative.

    Enfin elle est

    absurde, puisqu'elle

    value

    ce

    que

    sait

    l'lve

    partir de ce

    que

    savent

    les autres.

    sans

    gabarit prtabli

    L'habitude

    trs

    gnrale

    de

    dfinir

    un

    programme

    d'examen

    et

    de

    contrler

    si

    l'lve

    matrise

    suffisamment

    l'ensemble

    de

    ce

    programme

    parat galement criticable.

    Qu'on songe seulement la perte

    d'information

    que

    reprsente l'alternative unique laisse au

    jury de tels

    exa

    mens : accorder ou non

    le

    diplme Il se peut qu'un lve

    reu ait t admis par

    le

    jeu de compensations qui trom

    peront ensuite ceux qui feront confiance au diplme.

    Inversement, un lve qui

    choue

    n'est pas pour autant

    dnu de comptences, qui pourraient trs

    bien

    tre

    mises profit dans

    le monde du

    travail.

    C'est

    pourquoi les milieux

    professionnels

    approuvent

    le

    principe

    du

    nouveau

    certificat

    de

    fin

    d'tudes

    secon

    daires de Grande-Bretagne.

    Son but est de rendre

    compte

    de toutes

    les

    comptences de l'lve, y compris

    dans les domaines extra-scolaires. Son ambition est

    d al

    ler

    aussi

    loin

    que

    possible

    dans

    la description des

    rus

    sites de

    chacun,

    sans

    se

    rfrer

    un gabarit prtabli de

    connaissances

    requises.

    Il ne fait aucun

    doute,

    vu l'explosion des connais

    sances,

    que l'ducation

    de l'avenir devra tre

    diversifie,

    les

    lves

    se dveloppant chacun

    dans la

    direction

    de

    leur choix. Seul un systme ouvert de ce

    genre permettra

    de

    rendre compte

    de

    ce

    qu'ils

    auront acquis, plutt que

    de

    ce qu'ils

    ignoreront ncessairement.

    simplement descriptive

    Si

    l'on veut

    valoriser

    les acquis, il

    importe

    de

    rassemb

    leres

    informations

    qui les mettent en vidence. La

    pratique

    des

    portefeuilles

    de

    comptences

    va

    dans

    ce

    sens. A l'image

    du

    portefeuille dans lequel les

    artistes

    prsentent leurs productions,

    la

    pratique

    se rpand

    dans

    l'ducation

    des

    adultes de rassembler dans un dossier les

    documents qui

    peuvent

    manifester ce qu'un tudiant est

    capable

    de faire. La mme ide est parfois applique

    l cole

    lorsqu'un lve doit changer de classe,

    le

    pre

    mier enseignant transmet son

    successeur

    l'ensemble

    des travaux dj effectus par cet

    lve.

    L'intrt vident

    de

    cette

    faon de faire

    est d'viter

    que ne se

    perdent

    les informations qui

    sont essentielles

    pour

    l'tablissement

    du

    bilan

    recherch.

    Son

    intrt

    majeur est

    pourtant autre

    : elle permet d'viter les erreurs

    d'un

    double transcodage, celui du premier valuateur qui

    doit quantifier

    la performance

    qu'il a observe,

    et

    celui

    du

    second qui doit

    redonner

    un sens

    concret

    la

    note qu'il

    reoit, en

    imaginant

    quelles productions elle

    peut cor

    respondre.

    sans jugement de valeur

    Indpendamment

    de son incertitude

    bien

    connue,

    l'valuation chiffre d'une performance

    pose un problme

    fondamental : elle oblige

    choisir une

    chelle de

    valeur.

    Donner une note

    une

    dissertation

    ou

    un

    expos

    suppose

    en

    effet

    que

    l'on

    pondre d'une

    certaine

    faon

    chacune de

    leurs caractristiques. Ceci

    implique

    qu'il

    existe

    une faon optimale, et une

    seule, de

    valoriser ces

    caractristiques. L'existence

    de styles

    diffrents,

    de

    faons contraires de

    parvenir

    au mme

    but,

    est difficil

    ement ompatible avec cette conception : il est

    pourtant

    admis,

    par

    exemple, qu'on peut tre un

    bon

    enseignant

    de faons trs diffrentes

    Rien

    ne

    prouve

    non

    plus

    que

    la personne qui recevra

    l'information chiffre attribue la mme importance relative

    que

    ^'valuateur chacune des

    caractristiques que

    ce

    dernier

    a

    prises

    en

    compte.

    Or,

    si

    ce

    n'est

    pas

    le

    cas,

    la

    transformation

    quantitative

    a dfinitivement

    perdu toute

    l'information

    initiale et

    rendu impossible

    sa rcupration.

    C'est l

    ce qui justifie

    le

    plus fondamentalement

    une

    valuation descriptive : en ne prenant pas

    position

    au

    dpart, l'cole

    rserverait

    le

    jugement

    de

    valeur celui

    qui devrait prendre effectivement

    plus

    tard

    une

    dcision

    impliquant ces

    valeurs. Elle permettrait

    ainsi

    diverses

    personnes de porter des regards diffrents sur la

    mme

    ralit. Ce minimum de tolrance parat indispensable

    dans

    la

    socit pluriculturelle dans laquelle nous entrons.

    49

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    11/13

    V.

    -

    VALUER

    N'EST

    PAS

    NCESSAIREMENT

    JUGER

    En

    conclusion

    de ces

    rflexions, il

    parat

    utile

    d expli

    citera

    conception gnrale de l'ducation qui

    fonde

    ces

    propositions.

    L'argumentation,

    pour

    tre plus rigoureuse,

    prendra la

    forme d'un syllogisme.

    5.1.

    L'enseignement

    est

    une

    relation

    d'aide

    Notre sicle a vu

    se

    dvelopper le secteur tertiaire,

    celui des activits de service, et parmi celles-ci une

    cat

    gorie d'activits professionnelles nouvelle, celle des

    assistants, des conseillers, des thrapeutes, par exemple

    les

    assistants sociaux,

    les conseillers en

    orientation

    pro

    fessionnelle les psychologues scolaires, les

    logopdistes,

    les ergothrapeutes, etc.

    Ces

    professions

    ont une srie de caractristiques

    communes. Leurs membres :

    possdent des

    connaissances spcialises,

    relat

    ivement un type de problmes, qui font justement

    dfaut

    leur partenaire ;

    ne prennent pas de

    responsabilit directe, mais

    aident les autres exercer leur responsabilit ;

    ont pour rle d'analyser

    la situation et

    d'en g

    ger

    es

    traits

    pertinents, pour que leur

    partenaire puisse

    choisir plus

    consciemment l'action

    la plus

    efficace

    par

    rapport ses propres

    valeurs

    ;

    conoivent

    leur intervention comme

    temporaire,

    limite

    la

    priode

    o leur

    partenaire

    ne

    pourrait pas

    faire

    face seul

    la

    complexit

    des

    problmes qu'il ren

    contre ;

    visent donc

    communiquer

    leur comptence, pour

    rendre leur

    partenaire

    capable

    d'assumer seul ses respons

    abilits par la suite ;

    doivent matriser

    les

    problmes de relations

    humaines, pour que

    la communication ncessaire cette

    collaboration

    soit

    optimale.

    Toutes ces caractristiques s'appliquent, sans restric

    tion, ceux qui

    s'occupent

    d'ducation des adultes. La

    thse de tous les

    promoteurs

    de l'ducation permanente,

    depuis

    les

    annes

    70,

    est

    qu elles

    s'appliquent

    galement

    aux enseignants

    de

    l'cole

    de

    base.

    Il s'agit en fait

    d'une description

    valable pour

    toute

    relation ducative

    et

    qu'acceptent maintenant les mdec

    ins t

    les infirmires, les

    ecclsiastiques,

    les juristes, les

    ditticiens, etc.

    pour

    la

    part

    de

    formation

    du public

    que

    leur activit comporte.

    5.2.

    Toute

    relation

    d aide exclut le

    jugement

    La vrit du deuxime terme du syllogisme a t

    dmontre plus particulirement par Carl Rogers dans le

    cadre de sa

    pratique

    psychothrapeutique, mais cette

    affirmation a une porte beaucoup plus gnrale.

    Il est vident d'abord que

    le conseiller

    doit viter de

    prendre des dcisions

    la

    place de son client.

    Si c'est

    l'autonomie

    de ce dernier qui est vise, tout ce qui

    ren

    forcera it

    sa

    dpendance

    est

    exclure.

    Il est clair aussi que

    le conseiller

    ne doit pas

    expri

    mer

    de

    jugement

    de

    valeur personnel, si cette prise

    de

    position risque d'interfrer avec le processus de

    dcision

    de

    son client,

    dont

    la

    hirarchie

    de

    valeur peut

    tre

    diffrente.

    Une

    cole

    pluri-culturelle est inconcevable

    sans

    ce

    respect

    des

    diffrences

    existant entre

    personnes

    et entre groupes.

    Rogers va plus loin

    encore. Il

    souligne

    que

    le simple

    fait de situer

    le

    client dans une catgorie nosologique, ou

    de lui attribuer un trait

    psychologique,

    est dj une

    atteinte sa

    libert

    et un obstacle son dveloppement.

    Le

    jugement d'autrui

    est

    en

    effet

    rducteur.

    Il

    enferme

    dans un rle.

    Les psychologues

    sociaux

    ont montr que les tu

    diants

    construisaient une image

    de leurs

    capacits

    part

    ir de

    l'attribution d'une seule

    note,

    et

    que cette

    image

    persistait mme aprs qu'on leur ait

    expliqu

    que cette

    note

    avait t en ralit tire au hasard (Ross, Lepper

    et

    Hubbard,

    1975).

    Les psychothrapeutes considrent

    que mme

    l'auto-

    valuation peut tre

    dangereuse

    : si elle conduit la

    construction d'une

    image

    de soi

    rigide,

    aboutissant une

    dmarche

    d'attribution

    soi-mme

    de

    caractristiques

    stables,

    voire

    irrmdiables,

    elle peut

    constituer un

    pro

    cessus nvrotique.

    L'auto-valuation doit plutt correspondre une prise

    de conscience librante. En apercevant ses erreurs,

    l'ind

    ividu se dissocie

    d'elles.

    Le

    fait mme qu'il prenne de

    la

    distance

    transforme

    sa

    situation

    et

    introduit

    une ouvert

    ure,

    une

    possibilit

    de renouveau. C'est l

    que s'insre

    sa

    libert.

    La confiance accorde par

    l'ducateur est galement

    l'expression

    de

    ce refus

    de

    juger

    l'autre,

    d'enfermer

    son

    avenir

    dans

    son

    prsent.

    C'est

    sur

    cette

    ngation

    du

    simple constat et sur

    cet

    appel au dpassement

    que peut

    alors

    s'appuyer

    le dveloppement de sa

    personne.

    5.3. Donc

    l'cole doit

    valuer les lves sans les juger

    Dire que l'enseignement, en tant que dmarche du

    cative,

    doit viter le jugement, c'est suggrer une nou

    velle

    dfinition du terme

    valuation

    .

    Classiquement, en effet, valuer un objet consiste

    en

    estimer la valeur. C'est

    donc

    attribuer

    cet

    objet

    une

    50

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    12/13

    classe

    d'quivalence,

    celle de tous les objets valant

    autant, si l'valuation est quantitative, ou bien celle de

    tous les objets ayant un attribut semblable, si l'valuation

    est

    qualitative.

    On

    a

    beaucoup

    discut de l'aspect

    rducteur

    de

    la

    notation

    chiffre

    pour

    proposer de

    la

    remplacer par une

    apprciation

    verbale,

    respectant la

    multidimensionnalit

    de

    la performance de

    l'lve.

    La

    diffrence est en

    effet

    notable, mais du

    point

    de vue du

    respect

    de

    l'enfant,

    l'une

    comme

    l'autre paraissent inadmissibles, parce

    qu elles transforment l'lve en objet. Il faut

    rejeter

    l va

    luation en troisime

    personne,

    pour chercher une valuat

    ion ompatible avec

    la relation ducative,

    c'est--dire

    une

    valuation en

    deuxime,

    voire en premire personne.

    La nouvelle dfinition propose

    pour

    l'valuation est

    issue de l'analyse de systme, qui fait d'un processus

    d'valuation efficace la condition de fonctionnement

    essentielle

    de

    tout

    ensemble

    rgul

    :

    l'valuation

    est

    l'ap

    port

    d'information

    en retour sur le rsultat des actions

    passes,

    qui permet

    au sujet d'adapter la suite de ses

    actions par rapport son but.

    Vue dans cette perspective, l'information concernant

    la russite ou l'chec de son projet est, pour

    l'enfant,

    une

    valuation essentielle, celle sur laquelle

    se

    construit

    sa

    connaissance du monde, selon Piaget. Aucun

    adulte,

    aucun instrument, aucun jugement de valeur mme, ne

    sont ncessaires cette valuation

    par le succs

    .

    Une

    autre

    valuation

    la

    deuxime

    personne,

    mais

    dveloppant

    le

    dialogue

    de

    l'enfant

    avec

    le

    monde,

    est

    l'valuation

    par la rponse

    .

    La simple raction de ses

    partenaires

    lui

    apporte

    en

    effet une

    information en

    retour,

    soit

    sur ses reprsentations, que ses

    partenaires peuvent

    contester,

    soit

    sur l'expression de son message, qu'ils

    peuvent

    avoir mal compris (Weiss, 1979). Un ajustement

    de

    sa

    part est

    sans doute

    ncessaire, en cas de percept

    ionivergente, mais ce

    conflit

    ne met pas

    directement

    en cause sa personnalit.

    L'valuation en

    miroir

    est

    le retour

    d'information

    que chacun reoit quand il a l'occasion de s'observer de

    l'extrieur

    :

    partir

    d'un

    enregistrement

    vido,

    par

    exemp

    le,

    ais

    mme travers l'image de lui-mme que

    fournit

    son

    curriculum

    vitae ou son portefeuille de comptences.

    C'est la base de

    l'auto-valuation,

    ou valuation

    en pre

    mire

    personne.

    Une valuation ainsi comprise,

    comme

    apport d info

    rmation en

    retour,

    ne

    prsuppose

    ni jugement de valeur, ni

    chelle de

    valeur.

    C'est celui qui reoit cette

    information

    qui

    peut l'utiliser comme

    il

    lui

    plat.

    L cole n'a

    pas

    prendre

    parti

    par rapport aux donnes qu'elle

    transmet.

    5.4. Finalit de cette prise de

    position

    Travailler rduire

    les

    activits d'tiquetage, l int

    rieur de

    l'cole,

    c'est

    redonner

    son sens premier

    cette

    institution,

    qui

    se

    veut ducative.

    Refuser le

    classement

    et la

    slection, pour rendre

    possible la

    promotion

    des

    lves,

    c'est

    opter pour

    le droit de tous la culture, dans

    l'esprit

    des

    Dclarations

    Universelles des Droits de

    l'Homme

    et de

    l'Enfant, dont on

    fte l'anniversaire

    en

    1988

    et

    en 1989.

    N'est-ce

    pas galement

    chercher

    appliquer,

    au

    milieu

    journalier

    des classes et des coles, ce prcepte

    esquiv,

    tant

    il semble

    exigeant :

    Ne

    jugez

    pas

    (Mat

    thieu

    VII 1)

    ?

    Jean CARDINET

    Institut romand de

    recherches

    et de documentation

    pdagogiques

    Neuchtel,

    Suisse

    Rfrences

    BODIN

    A. (1985),

    Problmes

    de l'valuation

    des

    savoirs

    mathmat

    iques,

    Petit X

    n 7, p. 5-28.

    CAPON

    N.,

    KUHN

    D.

    (1979),

    Logical

    reasoning

    in

    the

    supermark

    etAdult

    females'

    use of a

    proportional

    reasoning

    strategy

    in an everyday context, Developmental Psychology, vol. 15,

    n

    4, p.

    450-452.

    CARDINET J.

    (1973),

    L'adaptation

    des

    tests aux finalits de

    l va

    luation,

    Sciences

    de l'Education, n* 2-3, p. 148-182.

    CARDINET

    J.,

    Le

    biais

    social dans les tests et les critres,

    Bulletin

    de la Commission internationale

    des

    tests, n 9 (juin 1978),

    Pans

    :

    Editions du

    Centre

    de

    Psychologie Applique, p.

    3-22.

    CARDINET J. (1988), La mesure d'un

    apprentissage

    en physique,

    Compte rendu

    des

    sances

    du Groupe

    de Travail

    Edum-

    trie ,

    Neuchtel

    : Institut romand de Recherches et de Docu

    mentation Pdagogiques.

    CARDINET J.

    TOURNEUR

    Y. (1985), Assurer la mesure: Guide

    pour

    les

    tudes

    de

    gnralisabiltte, Berne : Peter Lang.

    CARDINET

    J., TOURNEUR

    Y.

    ALLAL L.

    (1976),

    The symmetry

    of

    generalizabihty theory : applications

    to

    educational measure

    ment, ournal of

    Educational

    Measurement, vol. 13, n

    2,

    p. 119-135.

    CARDINET

    J.,

    ZIMMERMANN

    M.L. (1988),

    Pour mesurer

    les pro

    grs des lves en physique,

    Neuchtel

    : Institut romand de

    Recherches et de Documentation Pdagogiques.

    CARRAHER T.N., CARRAHER D.W.

    SCHLIEMANN

    A.D.

    (1985),

    Mathematics in the streets

    and

    in schools, British Journal of

    Developmental Psychology, vol.

    3,

    p. 21-29.

    CRONBACH L., GLESER G., NANDA H. RAJARADNAM N.

    (1972),

    The dependability of behavioral measurements : theory

    51

  • 7/23/2019 Cardinet_Evaluer Sans Juger

    13/13

    of

    generalizability for

    scores

    and profiles, New York : J.

    Wiley.

    DE

    BLOCK A. (1970),

    Voorstel

    van

    taxonomie, Onderwijs

    en

    Media,

    vol.

    2, n1,

    p. 56-61.

    DE KETELE J.M. (1983),

    Evaluation

    des objectifs d'intgration. In :

    INRAP,

    Actes de la session Evaluation

    du

    27

    au

    30

    septembre

    1983,

    Dijon

    :

    Institut

    National

    de

    Recherches

    et

    d'Applications

    Pdagogiques,

    Tome

    1,

    p.

    87-112.

    DE KETELE J.M.

    (dcembre 1982), Les

    objectifs

    intgrs,

    Commun

    ication

    au Colloque international

    sur

    la Dfinition des ob

    jectifs ducatifs et socio-culturels dans

    la perspective

    d'une

    meilleure

    prparation des jeunes la vie active , Mons :

    Universit de l'Etat.

    DE LANDSHEERE G. DE LANDSHEERE V. (1975),

    Dfinir

    les

    objectifs de l'ducation, Lige : Georges Thone.

    DE LANDSHEERE

    V. (1987), La

    problmatique

    de

    la

    comptence

    minimale, Thse

    de

    doctorat

    en

    Sciences

    de l'Education,

    Lige

    : Universit

    de

    l'Etat.

    D'HAINAUT L. (1985), Des fins

    aux

    objectifs,

    Bruxelles: Labor

    4e

    dition).

    DUMONT B. (1989), Questionnements et interprtation des erreurs

    en mathmatiques, Pans : Universit de

    Pans

    VII (Thse de

    doctorat).

    GHISELLI E.

    (1966),

    The

    validity

    of

    occupational aptitude tests,

    New York :

    John

    Wiley.

    GROSSEN

    M.

    (1988), La construction sociale de l'intersubjectivit

    entre adulte et

    enfant

    en situation de

    test,

    Cousset (Fn-

    bourg)

    : Delval.

    LAUGIER

    H. WEINBERG

    D.

    (1938), Recherches

    sur

    la solidarit

    et l'indpendance

    des

    aptitudes intellectuelles d'aprs les

    notes

    des

    examens

    crits du baccalaurat, Pans :

    Chantenay

    (Imprimeur).

    LAVE

    J.

    (1987),

    Arithmetic

    practice

    and

    cognitive

    theory,

    New

    York

    :

    Cambridge

    University

    Press.

    LEYENS

    J.Ph.

    (1983), Sommes-nous tous des

    psychologues?

    Bruxelles :

    Mardaga.

    PERRET-CLERMONT A.N.

    (1979),

    La construction de l'intelligence

    dans

    l ' interaction

    sociale,

    Berne :

    Peter Lang.

    PERRET-CLERMONT A.N.

    NICOLET M. (1988), Interagir et

    conn

    atre. Enjeux et rgulations sociales dans

    le

    dveloppement

    cognitif,

    Cousset

    (Fribourg) : Delval.

    PIRON H. (1963), Examens et docimologie, Paris : Presses

    Uni

    versitaires de France.

    REUCHLIN

    M.

    BACHER

    F.

    (1968),

    L'apprciation

    des

    lves

    par

    leurs professeurs, Revue Franaise de Pdagogie,

    n2,

    p. 19-

    25.

    ROSS

    L. (1977),

    The

    intuitive

    psychologist

    and

    his short-comings,

    in : L. Berkowitz (Ed.), Advances in Experimental Social Psy

    chology, vol.

    10,

    New York: Academic Press.

    ROSS L,

    LEPPER

    M.R. HUBBARD

    M.

    (1975),

    Perseverance

    in

    self perception and social perception : Biased attributional

    processes in the debriefing paradigm, Journal of Personality

    and Social

    Psychology, vol. 32, p. 880-892.

    ROTH P. SCHELLHAMMER E. (1974),

    Entscheidungssftuationen

    im

    Berufsfeld des Lehrers, Basel : Beltz.

    STIEVENART M. TOURNEUR

    Y.

    (1983),

    Conception d'un pr

    ogramme de

    comptences

    fondamentales

    en

    vue

    d'une

    meil

    leure

    prparation

    des

    jeunes

    la

    vie

    :

    mthodologie

    et

    rsul

    tats, Rapport d'une recherche commandite par la

    direction

    gnrale de l'Organisation des

    Etudes,

    Mons : Universit de

    l'Etat.

    VANDEVELDE L.

    (1982),

    Aider devenir, Bruxelles : Labor.

    WEISS J. (1979), L'valuation formative dans

    un enseignement

    diffrenci

    du franais : une conception de la formation

    dpasser, in : L. Allai, J. Cardinet Ph. Perrenoud, L'valua

    tion

    ormative dans un enseignement diffrenci, Berne : Pe

    ter Lang, p. 194-202.

    WILLIAMS F. NAREMORE R. (1969), On the functional analysis

    of

    social class differences

    in modes of

    speech. Speech

    Monogr. ,

    vol.

    36,

    p. 77-102.

    ZIMMERMANN M.L., Contribution l'tude des conceptions

    d'lves

    et

    de

    leurs

    utilisations

    dans un processus

    d'apprent

    issage,Thse

    de

    doctorat (en prparation), Genve : Univers

    ite

    Genve, Facult

    de

    Psychologie

    et des

    Sciences

    de

    l'Education.

    52