Evaluation Des Enseignements : De La Contrainte

Evaluation des enseignements : de la contrainte administrative à l'amélioration

des pratiques

Fribourg, 24 septembre 2007

Pascal Detroz ([email protected])Système Méthodologique d’Aide à la Réalisation de Test

Université de Liège

Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiquesFribourg - Pascal Detroz – 24/09/2007

Introduction : l’Evaluation des enseignements par les étudiants

L’évaluation des enseignements est une pratique ancienne puisque, selon Doyle (1983), on en trouve des traces jusqu’en 350 avant Jésus Christ. Si certaines études, sur ce sujet furent publiées à la fin du 19ème siècle1 c’est surtout dans le courant du vingtième siècle que ce champ théorique s’est étoffé.

Dans ce contexte, les pratiques d’Evaluation des Enseignements par les Etudiants (EEE) furent décrites plus tardivement. Si en 1924, un groupe d'étudiants de l'université de Harvard publie le Confidential Guide to Course, probablement le premier répertoire de cours évalués (Bernard, 1992), et que le premier formulaire d’évaluation des enseignements a été rempli en 1954 (Guthrie, 1954), il faudra attendre le début des années 60 pour que la pratique d’EEE se généralise. Cette généralisation se fera d’abord lentement, puis de manière plus spectaculaire à la fin du 20ème siècle. Ainsi, une étude longitudinale de Seldin (1993) portant sur 600 collèges américains montre que 29 % de ceux-ci utilisaient l’EEE en 1973, qu’ils étaient 68 % en 1983 et que ce chiffre atteignait les 86 % en 1993.

En Europe, et plus particulièrement dans les pays francophones, cette méthodologie se diffuse plus lentement. Par exemple, Dejean (2002) dans son rapport sur l’évaluation de l'enseignement dans les universités françaises conclut que cette forme d’évaluation est encore peu développée et a du mal à s’imposer. En Belgique francophone, il faut attendre le milieu des années 80 pour voir ce type de méthodologie sporadiquement utilisée. Cependant, partout en Europe, le rythme de diffusion de ces méthodes a été très largement accéléré par le processus de Bologne.

Parallèlement à ces pratiques, un épais corpus théorique s’est dégagé à partir des années 60. Ainsi, Cashin (1995) a répertorié plus de 1500 références scientifiques portant sur l’évaluation de l’enseignement par les étudiants (student ratings).

Une très large part de cette littérature a eu trait à la validité et à la fidélité de la mesure récoltée à l’aide ce cette méthodologie (Thivierge, 1996). Très tôt, des recherches crédibles démontrent la validité de l’EEE alors que d’autres continuaient à s’interroger. Par exemple, en 1981, Cohen conclut à la validité de l’EEE après une méta-analyse portant sur 41 études indépendantes. Malgré les travaux tendant à démontrer la validité et la fidélité de la procédure, le scepticisme reste souvent de mise parmi les enseignants évalués. Ce qui fait dire à Cohen (1990) que « Negative attitude towards student ratings are especially resistant to change, and it seems that faculty and administrators support their belief in student-rating myths wit personal and anecdotical evidence wich [for them] outweighs empirically based research evidence ».

Même si des études francophones approfondies sur les représentations des enseignants par rapport à l’EEE (Bernard 2000, Younes, 2006) concluent que les représentations sont moins univoques et souvent plus ambivalentes que ce que souligne Cohen, il n’en reste pas moins que les chercheurs-praticiens en EEE ont dû et doivent encore constamment faire la preuve de la qualité des mesures effectuées à l’aide de cette méthode, ce qui explique le très large champ théorique consacré à cet aspect. Il est d’ailleurs amusant de remarquer que Aleamoni ait publié en 1987 un article portant le titre « Student rating myths versus research facts » et qu’un peu plus tard Theall (2002) ait produit une note interne dans son université s’intitulant « Student Ratings: Myths vs. Research Evidence ».1 Rice (1898) publie une étude comparative de la performance de 33.000 étudiants en épellation, étude dans laquelle il fit une critique sévère des procédés d’enseignement jusqu’alors utilisés (cité par Nadeau, 1990).


Cette omniprésence de la validité et de la fidélité dans le champ scientifique de l’EEE a longtemps relégué au second plan des éléments de nature extrêmement importante. Si quelques articles ont traité du développement des activités d’évaluation et leur dissémination dans les institutions universitaires (Bernard, 1992 ; Centra, 1993), alors que d’autres s’attachaient à comprendre les enjeux liés à l’EEE (par exemple, Dejean, 2002), très peu d’articles et tous assez récents (par exemple, Mc Keachie, 1997 ; Knight, 2002 ; Rege Colet, 2005) se sont intéressés à l’impact de cette méthode sur les pratiques des enseignants. En d’autres termes, l’analyse de la validité conséquentielle (Messick, 1993) ou de la validité catalytique (Lather, 1986) de l’EEE n’a été posée que très récemment et les réponses demeurent actuellement largement incomplètes.

Or cette question nous semble être centrale au débat. En effet, l’EEE ne se justifie que si elle produit un effet positif sur les enseignements. Or la seule qualité édumétrique du feedback issu de la procédure ne suffit pas à garantir que des effets se manifestent.

Dans le premier chapitre, nous allons rapidement passer en revue quelques travaux sur la validité et la fidélité de l’EEE et illustrer le type de débat contradictoire qui y prend place. Nous aborderons alors succinctement la littérature portant sur les conditions de réussite de l’EEE. Dans le second chapitre, nous tenterons d’apporter notre point de vue sur l’impact de l’EEE en présentant un modèle qualité de construction d’EEE étayé par la littérature.

1. La littérature en EEE

1.1. La validité de la mesure

L’essentiel de la littérature du vingtième siècle a porté sur la validité et la fidélité de la mesure récoltée via cette méthode. Ce champ théorique comprend plusieurs centaines d’articles, certains en totale contradiction les uns avec les autres. Ainsi Greenwald et Gillmore (1997) ont catégorisé les recherches sur la validité des EEE en tant que mesures de la qualité de l’instruction. Certaines plaident en faveur de la validité, d’autres en sa défaveur.- Revues et recherches empiriques en faveur de la validité des EEE : Cashin (1995), Cohen (1981), Feldman (1988), Howard, Conway et Maxwell (1985), Howard et Maxwell (1980, 1982), Marsh (1980, 1982, 1984), Marsh et Dunkin (1992), McKeachie (1979).- Revues et critiques empiriques mettant en cause la validité des EEE : Dowell et Neal (1982), Holmes (1972), Powell (1977), Snyder et Clair (1976), Vasta et Sarmiento (1979), Worthington et Wong (1979).

Ce relatif paradoxe s’explique par la difficulté méthodologique d’évaluer la fidélité de l’EEE. Abrami, d’Apollonia et Cohen (1990) répertorient 5 types différents de recherche portant sur la validité de l’EEE qui sont [a] l’approche multitrait, multiméthode, [b] l’approche multisection, [c] l’analyse des biais, [d] les méthodes de laboratoire et [e] l’approche multidimensionnelle. Passons-les en revue.

1.1.1 L’approche multitrait-multiméthode

Cette approche consiste à corréler les résultats obtenus par un enseignement lors de l’EEE à d’autres mesures critériées de la qualité d’un enseignement. Typiquement, il ‘agit ici de comparer la performance d’un enseignement à l’EEE avec, par exemple, le score obtenu à l’examen par les


étudiants, l’évaluation des anciens étudiants, l’évaluation par les pairs, le portfolio….) – pour l’aspect multitrait - mais aussi pour ce faire d’utiliser différentes méthodes (item ouverts et fermés, interviews…) –pour l’aspect multiméthode. Les études sérieuses qui se sont penchées sur ce sujet concluent en faveur d’une validité convergente et discriminante de l’EEE (Howard, Conway et Maxwell, 1985 ; Marsh, 1982). La problématique inhérente à ce type de recherche et la validité des indicateurs comparés, comme par exemple, le score obtenu par les étudiants à l’examen ou l’évaluation par les pairs, pose également beaucoup de questions. Ce ne sont, en fait, que des mesures incomplètes et imparfaites du même objet : la qualité de l’enseignement.

Par exemple, le score obtenu par les étudiants à l’examen est une mesure qui ne reflète pas que la performance de l’enseignement. En Effet :

• Elle ne tient pas compte des compétences des étudiants à l’entrée dans le cursus d’apprentissage. De manière caricaturale, si un étudiant connaît préalablement la matière, il peut afficher un excellent score à l’examen sans avoir rien appris au cours. Les pédagogues peuvent solutionner ce problème en recourant au gain relatif GR=Gain effectué/Gain possible (Mc Guigan, 1967). Or cette méthode exige un prétest et un post-test exactement de la même difficulté, ce qui peut se révéler difficile à mettre en œuvre.

• Le gain relatif peut être influencé par des variables externes à l’enseignement. Celles-ci comment le climat d’un département ou d’une institution influençait l’apprentissage des étudiants en favorisant ou en défavorisant leur engagement.

• On sait depuis Piéron (1963), à quel point l’évaluation des étudiants est soumise à un manque de fidélité inter-juges et intra-juges. Le score obtenu ne reflète donc pas uniquement la performance de l’étudiant.

• Souvent, l’examen manque de validité de contenu et/ou de validité de construct. En d’autres mots, les questions de l’examen ne sont souvent qu’un échantillon peu représentatif de l’ensemble du contenu du cours.

• Les examens ont la plupart du temps lieu juste après les enseignements et ne présagent en rien de l’apprentissage à long terme, par exemple, du transfert qui pourra être réalisé dans un contexte professionnel.

Le score obtenu à l’examen est donc une mesure incomplète et imparfaite qui reflète finalement avec peu de certitude la qualité d’un enseignement. Conclusion qui peut d’ailleurs s’étendre au portfolio de l’enseignant (Kane, Krooks et Cohen 1999 ; Richlin et Manning, 1996), à l’évaluation par les anciens étudiants (Kulik, 2001), et à l’observation par des pairs qui n’évaluent qu’un échantillon du cours.

En conclusion, si l’approche multitrait-multiméthode révèle une bonne corrélation entre l’EEE et d’autres mesures critériées de la qualité de l’enseignement, on ne peut toutefois conclure que l’EEE mesure complètement, parfaitement et exclusivement la qualité de l’enseignement.

1.1.2 L’approche Multisection

Les études multisection sont utilisées pour mesurer la relation entre l'évaluation des enseignements et le score des étudiants dans des chapitres différents du même cours donné par des enseignants différents. Cette méthodologie présente l’avantage de contrôler les variables inhérentes au contexte et celles inhérentes à l’étudiant, puisque ce sont les mêmes cours suivis par les mêmes étudiants. Au total, ces études montrent une corrélation entre résultats et le jugement EEE qui va dans le sens de la validité de l’EEE puisque les cours où les étudiants ont les


meilleurs scores sont ceux qu'ils évaluent le plus favorablement : Abrami, d'Appolonia et Cohen (1990), d'Appolonia et Abrami (1997).

Cette méthodologie n’échappe toutefois pas complètement à l’analyse que nous avons effectuée sur l’évaluation des étudiants dans le sous-chapitre précédent.

1.1.3 L’analyse des biaisL’évaluation des enseignements par les étudiants doit, pour être valide, évaluer la qualité de l’enseignement sans être influencée par d’autres variables. Beaucoup de recherches, mettant en œuvre des méthodes très variées (de la simple corrélation à la méta-analyse), ont tenté de mettre à jour de telles influences. La recherche porte en fait sur trois grands types de biais (Ory, 20012).

• Les biais liés à l’enseignant Parmi les variables étudiées figurent notamment le statut de l’enseignant, son âge, son expérience, sa popularité, sa qualité de chercheur, son sexe et sa race. Certaines variables sont légèrement corrélées avec les scores EEE. Ainsi, les enseignants expérimentés semblent obtenir un meilleur score que les enseignants novices (Feldman, 1983) et les enseignants nommés un meilleur score que les assistants (Brandenburg, Slinde et Batista, 1977 ; Centra et Creech, 1976).

D’autres, comme l’âge (Ory, 2001), n’ont pas d’effet. D’autres enfin comme la qualité de chercheur et le sexe montrent des résultats inconstants et plus difficiles à interpréter. Ainsi, pour le sexe, il semblerait que les auditoires masculins évaluent plus favorablement les hommes et que les auditoires féminins évaluent plus favorablement les femmes. Cet effet est cependant marginal (Bennett, 1982; Bernard, Keefauver Elsworth et Maylor, 1981 ; Feldman 1992). Il semblerait également que les filles évaluent plus positivement certains aspects spécifiques, comme de l’enseignement que les garçons (Aleamoni et Hexner, 1980). Il semblerait également que les enseignantes obtiennent un meilleur score que les enseignants sur certaines variables, comme par exemple « l’attention portée au progrès des étudiants » (Feldman, 1983). Bennet (1982), cité par Younes (2002) a mis en évidence que les étudiants seraient plus exigeants par rapport aux comportements féminins (ex. : disponibilités envers les étudiants) chez les femmes que chez les hommes. En d’autres termes, un même comportement ne sera pas perçu de la même manière selon le sexe de l’enseignant. Sur certains aspects, le niveau d’exigence ne sera pas nécessairement le même pour les enseignants que pour les enseignantes3.

Une des variables liées à l’enseignant qui a été la plus débattue dans la littérature est la popularité et la personnalité de l’enseignant. La plupart des études montrent que ces caractéristiques de l’enseignant influence, à des degrés divers, le jugement des étudiants par rapport à l’enseignement prodigué (Aleamoni, 1987 ; Feldman, 1978 et Theall et Franklin, 1990). Au-delà des corrélations, la plupart du temps très faible, entre certaines de ces variables et l’EEE, il est nécessaire d’interpréter ces résultats de recherche. Ainsi, un enseignant expérimenté, nommé et populaire aurait, en tendance, une meilleure évaluation qu’un jeune assistant impopulaire. Cet effet, ne montre-t-il tout simplement pas qu’un enseignant expérimenté prodigue un meilleur enseignement, qu’un enseignant nommé est plus efficace et que la popularité est étroitement liée à la capacité à enseigner aux étudiants ? Certains auteurs vont dans ce sens. Par exemple, la recherche montre que les étudiants apprécient les enseignants

2 L’analyse des biais en EEE que nous proposons se base en partie sur cet article.3 Pour plus de détails : Kierstead, d’Agostino et Dill (1988), Sandler (1991), Richardson et Cook (1991).


compétents, chaleureux, extravertis et enthousiastes qui sont également des caractéristiques améliorant l’enseignement (Murray, Rushton, et Paunonen, 1990). Certaines études prêtent plus à la controverse. Ainsi, par exemple, Emery (1995)4, dans une étude non publiée, semble avoir démontré que les enseignements qui amenaient de la nourriture en classe recevaient le meilleur score à l’EEE. Abrami, Leventhal, et Perry (1982) ont montré que certaines caractéristiques de l’expressivité de l’enseignant avaient un effet sur son score à l’EEE, mais n’avait pas d’influence sur la qualité des travaux réalisés. Les études en laboratoire se sont également largement penchées sur l’effet potentiel du style de l’enseignant sur le score à l’EEE. Nous y reviendrons dans la section suivante.

Enfin, en ce qui concerne la race de l’enseignant, qui a très peu été investigué, des études récentes (Hamermesh et Parker, 2005 ; Glascock et Ruggerio, 2006) montrent que, toutes choses égales par ailleurs, les enseignants faisant partie de minorités ethniques ont en tendance des scores inférieurs à ceux des enseignants de couleur blanche.

• Les biais liés aux étudiants Parmi les variables étudiées figurent les scores obtenus ou espérés à l’examen par les étudiants, leur sexe (déjà discuté lors des biais liés à l’enseignant), leur motivation pour la matière, leur personnalité.

Les liens entre le score obtenu ou espéré par les étudiants et leur jugement sur la qualité de l’enseignement reçu a fait l’objet d’une très large littérature. Contrairement aux autres variables analysées dans ces recherches de biais, pour lesquelles nous avons choisi de ne fournir au lecteur que les résultats les plus probants, nous avons choisi de les résumer soigneusement et historiquement. En effet, cette perspective historique fera comprendre au lecteur la difficulté méthodologique inhérente à l’étude des biais et la difficulté à interpréter les résultats obtenus.

La première étude sur ce thème qui mérite d’être mentionnée est celle de Rodin et Rodin (1972). Premièrement parce qu’elle a été publiée dans la célèbre revue Science mais aussi parce que ses résultats étaient très interpellants. En effet, les auteurs démontraient une corrélation négative de -.75 entre le score à l’examen (grading) et le score obtenu à l’EEE (rating). A ce jour, c'est la seule étude à montrer une corrélation négative de cette ampleur. Cette étude, si elle a eu le mérite d’ouvrir un nouveau champ de recherche, a subi depuis un lot important de critiques. Par exemple, Doyle (1975) écrit à son sujet une réplique cinglante : "L’attention accordée à l’étude de Rodin et Rodin semble proportionnelle à son manque de rigueur".

Plus sérieuse, la méta-analyse de Cohen (1981) sur le sujet conclut à une corrélation de .43 entre le score à l’examen et les réponses à l’EEE. Ceci dit, dans sa méta-analyse, tous les articles ne vont pas dans le même sens. Ainsi certains de ceux-ci démontrent une corrélation légèrement négative. Il analyse les raisons à ce manque de constance et met en avant deux facteurs explicatifs.

Le premier est lié aux items du questionnaire EEE. Il montre par exemple que les items liés à la capacité de l'enseignant et à l'organisation du cours sont très corrélés avec le score à l’examen, que ceux liés au rapport élève-

4 Cité par Emery, Kramer and Tian (2003).Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques

Fribourg - Pascal Detroz – 24/09/2007

enseignant sont pauvrement corrélés et que ceux liés à la difficulté du cours ne sont pas du tout corrélés.

Le second est lié à certaines variables contextuelles. Ainsi les variables « professeur à temps plein », « résultat à l’examen obtenu ou non lors de l’EEE » et « évaluation interne ou externe » influence significativement la corrélation.

Les études de Greenwal et Gillmore (1997) vont dans le même sens. Ils concluent que, toutes choses égales par ailleurs, augmenter le score à l’examen augmente le score à l’EEE. Ils y voient la preuve que l’EEE n’est pas valide : il suffirait de diminuer les exigences à l’examen pour obtenir une bonne évaluation. Abrami et Appolinia (1997) et Marsh et Roche (1997) ne partagent pas cette analyse : ils soulignent que ce n'est pas parce qu'il y a une corrélation entre score à l’examen et réponse à l’EEE qu’il y a une causalité.

Ils disent qu’il est probable qu’une variable causale, la qualité de l’enseignement, influence simultanément le score à l’examen et les réponses à l’EEE. L’étude de Franklin et Theall (1991) constitue également un argument majeur contre l’hypothèse énoncée par Greenwald et Gillmore (1997). En effet, ils analysent des milliers de cours pendant les cinq premières années de l’introduction de l’EEE. Ils mettent en évidence une augmentation faible, mais significative des notes et, dans un même temps, une diminution des évaluations. Augmenter le score à l’examen ne garantit donc pas une évaluation EEE plus positive.

A noter que l’analyse des corrélations entre score à l’examen et résultats obtenus lors d’une EEE a été discutée dans le cadre des études multitrait-multiméthode mais aussi dans le cadre de l’analyse des biais liés à l’EEE. Si un lien est avéré, cela renforce la validité de l’EEE selon le paradigme de l’approche multitrait-multiméthode, mais cela la déforce selon celui de l’analyse des biais car cela pourrait être interprété comme le fait que les enseignants cotant largement les examens seraient aussi ceux obtenant le meilleur score à l’EEE.

Ce phénomène paradoxal a été discuté par Abrami (2001). Il explique que ce paradoxe est inhérent au score à l’examen qui est le reflet de deux facteurs combinés. Le premier est l’apprentissage à l'intérieur du cours. Le second est la sévérité de l'enseignant. Il note aussi que le score à l’examen reflète également les compétences transversales des étudiants. Kulik (2001) pour sa part met en avant les problèmes de validité inhérents aux examens. Comme on ne peut maîtriser ces différentes sources, Abrami (2001) préconise d’avoir recours à l'expérimentation en laboratoire ou aux études de terrain. Abrami, Dickens Perry Leventhal (1980) ont mené une expérience de ce type. Ils n’ont trouvé que des effets faibles et inconsistants du score à l’examen sur le score à l’EEE.


Comme cette perspective le souligne, les difficultés méthodologiques et interprétatives rendent ce champ d’étude apparemment paradoxal. En ce qui concerne la motivation, les études montrent que les étudiants ayant un intérêt prononcé pour une matière enseignée évaluent légèrement plus favorablement les cours s’y rapportant (Marsh et Cooper, 1981 ; Ory, 1980 ; Perry, Abrami, Leventhal et Check, 1979). Marsh (1983) signale toutefois que la variable « intérêt pour la matière » influence à la fois les apprentissages et le score à l’EEE. Il serait intéressant de considérer la variable de la motivation à la lumière d’une étude longitudinale. Comment la motivation de l’étudiant pour la matière a-t-elle varié tout au long du cours et quel est, au final, l’impact de cette variation sur l’EEE.

Enfin, en ce qui concerne la personnalité de l’étudiant, les études d’Abrami, Perry et Leventhal (1982) concluent qu’il n'y a pas de liens consistants et porteurs de sens entre des traits de personnalité de l'étudiant et ses évaluations.

• Les biais liés au contexte Les variables qui ont été étudiées dans ce contexte sont relatives au caractère obligatoire du cours, au niveau d’enseignement auquel il s’adresse, à la taille de la classe, à la discipline enseignée, à la charge de travail donnée aux étudiants et aux méthodes de passation de l’EEE.

Les liens entre EEE et le caractère optionnel ou obligatoire du cours ont été questionnés par de nombreux auteurs ( Costin, Greenough et Menges, 1971 ; Brandenburg, Slinde et Batista, 1977 ; Feldman, 1978 ; Mc Keachie, 1979 ; Marsh, 1984 ; Aleamoni, 1989). Tous concluent que les cours obligatoires obtiennent une évaluation plus négative que les cours optionnels. Même si la part de la variance expliquée par cette variable est minime, Brandenburg, Slinde et Batista (1977) recommandent de rédiger des normes différentes pour les cours obligatoires et optionnels.

L’impact du niveau d’enseignement dans lequel est donné le cours sur l’EEE a été exploré par Costin, Greenough et Menges (1971), Aleamoni et Graham (1974), Bausell et Bausell (1979), Feldman (1978), Kulik et McKeachie, (1975), Doyle (1983) et par Aleamoni (1989). Même si les corrélations sont peu élevées, tous signalent qu’en tendance, un enseignant donnant cours dans les niveaux supérieurs aura une évaluation plus élevée qu’un enseignant dans un niveau inférieur.

La taille de l’auditoire a également été étudiée. Les enseignants pensent souvent qu’enseigner à un petit groupe leur permet d’être plus performant que quand ils enseignent à de grands groupes. Les études ne démontrent pourtant pas ce fait. Ainsi, Feldman (1978), dans une revue portant sur 52 études réalisées dans des auditoires de taille différente trouve une corrélation de -0,9 entre la taille de l’auditoire et le score à l’EEE. La corrélation ne semble cependant pas être l’indicateur qui convient le mieux pour ce type d’analyse. En effet, certaines études parmi celles que Feldman a étudiées montrent que les évaluations sont en tendance plus positive pour les très petits groupes (<15 etudiants) ou pour les très grands groupes (>100 étudiants). Plus tard, Cashin (1992) conclura qu’isolée, la variable taille de l’auditoire n’est pas une source sérieuse de biais. Un an plus tard, Centra (1993) ponctue en disant que la taille de l’auditoire « have little practical signifiance » sur le score à l’EEE.

En ce qui concerne la discipline enseignée au cours, Feldman (1978) avait déjà démontré que les mathématiques et les sciences étaient, en tendance, un score inférieur aux autres disciplines. Ce qui l’amenait à dire qu’il fallait tenir compte de cette variable, soit en créant des normes spécifiques pour les enseignants de ces matières, soit en contrôlant statistiquement cette différence. Un peu plus tard, Cashin (1990, 1992) et (Centra, 1993) arrivent à des conclusions


proches en établissant une classification. En ordre décroissant, les arts et sciences humaines, les langues, la biologie et sciences sociales, administration des affaires, informatique, mathématique, sciences appliquées et physique obtiennent en tendance des évaluations différentes, les premières étant les plus largement rétribuées que les dernières. Toutefois, Chiu (1999), cité par Ory (2001) en appliquant une ANOVA sur des groupes de tailles différentes (Unbalanced Nested Anova) trouve que cette variable n’explique que 1,19 % de la variance totale.

Le rapport entre la charge de travail et le score à l’EEE est assez étonnant. La plupart des auteurs (Marsh, 1980, 1982, 1983, 1984 ; Cashin, 1988) trouvent une relation positive entre ces deux variables : plus la charge de travail inhérente à un enseignement augmente plus, en tendance, le score obtenu lors de l’EEE pour cette enseignement augmente.

Enfin, les méthodes de passation de l’EEE peuvent influencer, même si ce n’est que marginal, les résultats à l’EEE. Ainsi Les EEE recueillies pendant un examen final (Frey, 1976) et celles pour lesquelles l’étudiant ne doit pas s’identifier (Argulewiz et O'keefe, 1978 ; Feldman, 1979 ; Hartnett et Seligsohn, 1967 ; Stone, Spool et Rabinowitz, 1977) sont, en tendance, plus sévère. Alors que les EEE sont plus élevées si les résultats sont utilisés à des fins de promotion (Centra, 1976 ; Feldman, 1979 ; Overall et Marsh, 1979), si l'enseignant reste dans la classe pendant l'évaluation, et si un administrateur fait un court speech sur l'importance de l'évaluation (Frey, 1976)

La conclusion sur les biais liés au contexte revient à Theall et Franklin (2001). Ils citent l’étude de Marsh (1987) - dont les conclusions sont que les variables contextuelles n’influencent pas grandement les EEE – mais précisent qu’il est vrai qu'un jeune enseignant d'un cours de premier cycle et obligatoire en physique aura un score en tendance plus faible qu'un enseignant confirmé de second cycle, d'un cours optionnel. Cela n'est peut-être pas un biais, en ce sens que ce sont les enseignements qui sont évalués et qu'il est sans doute plus difficile de donner un enseignement de qualité sous certaines conditions.

1.1.4 Les méthodes de LaboratoireCette méthode, très peu authentique, consiste à recréer une situation d’enseignement en laboratoire. L’idée sous-jacente est de garder la variable « qualité de l’enseignement » sous contrôle et de faire varier expérimentalement un certain nombre d’autres variables pour voir si le score à l’EEE se modifie. Si c’est le cas, cela signifierait que la variable enseignement n’est pas la seule qui influence le score à l’EEE, ce qui dès lors, pourrait l’invalider en tant que mesure de l’efficacité de l’enseignement.

La plus connue des études de laboratoire est probablement celle dite du « Docteur Fox ». Dans cette étude, Naftulin, Ware et Donnelly (1973) ont demandé à un acteur (nommé le Doctor Fox) de donner une leçon de mathématique à des médecins en formation. Cette leçon était truffée d’erreurs en terme de contenu (néologisme inexistant présenté comme concepts clés, …) mais avec un maximum d’emphase. A la fin de cette leçon, un questionnaire d’EEE fut rempli. L’évaluation était très positive, ce qui aux yeux des auteurs signifiait que l’EEE mesurait le style de l’enseignant plutôt que la qualité de son enseignement. Cette étude a très vite été critiquée dans la littérature, notamment sur base de l’authenticité d’une telle étude. Ainsi, Abrami, Leventhal et Perry (1982), Frey (1979), Marsh et Ware (1982) critiquèrent le fait que les étudiants aient dû porter leur jugement après une seule séance de cours, dans une matière qu'ils ne connaissaient absolument pas (ils étaient en début de premier cycle) et sans avoir pu fonder


leur jugement sur d'autres aspects de l'enseignement (par exemple les notes de cours, les supports d’apprentissage, les examens) ce qui est très loin des conditions réelles d'EEE.

Dans la lignée de l’expérience du Doctor Fox, l’étude de William et Ceci (1997) mérite également d’être mentionnée. Ces auteurs ont tenté de démontrer que l’EEE était plus influencée par le style de l’enseignant que par le contenu du cours. D’une une étude multisection, ils ont en effet comparé les scores EEE lorsqu’un même enseignant variait son style d’enseignement (intonation de la voix, comportement non verbal, enthousiasme, …) dans deux groupes différents sans toutefois modifier ni le matériel, ni le contenu du cours. Ils arrivent à la conclusion que les performances des étudiants en fin de semestre à l’examen ne varient pas entre les deux groupes, mais que le score EEE, lui, varie de manière significative (il passe de 3.08 à 3.92 sur 5). Ils en concluent que l’EEE ne dépend pas du contenu, mais bien du style de l’enseignant. d’Apollonia et Abrami (1997) ont sévèrement critiqué cette recherche d’un point de vue méthodologique, la qualifiant de recherche préexpérimentale. Ils soulignent qu’eux-mêmes (Abrami, Leventhal et Perry, 1982) ont publié une revue des études quantitatives sur le sujet. Ils y concluent que l’expressivité de l’enseignant à un plus grand impact sur son score EEE que sur l’apprentissage des étudiants. Dans cette même étude, ils concluent également que le contenu du cours a un plus grand impact sur l’apprentissage des étudiants que sur le score à l’EEE. Toutefois, ils interprètent ces résultats très différemment des détracteurs de l’EEE. Pour eux, ces résultats ne sont en rien la preuve de la non-validté de l’EEE. Ils disent que, plutôt que de la remettre en cause, ces résultats posent la question des raisons de la validité de l’EEE. Ils soutiennent que des études comme celles du Docteur Fox et de William et Ceci (1997) sont plus utiles pour comprendre ce qui peut influencer la relation entre score à l’EEE et apprentissage des étudiants que pour démontrer que cette relation est forte assez que pour assurer la validité.

Une autre étude de laboratoire, est celle menée par Ambady et Rosenthal (1992). Dans cette recherche, ils ont soumis à des observateurs des séquences vidéos de trente secondes, qu’ils ont appelées « fines tranches d’expressivité (Thin slices of expressive behavior) ». Ces séquences ne comprenaient pas de son. Ils ont demandé aux observateurs de prédire quel serait le score de l’EEE pour ces enseignements. Ils observent une corrélation positive élevée (.76) entre le jugement des étudiants et le pronostique des observateurs. Ils en concluent que le score attribué à un enseignement dépend essentiellement de comportements non verbaux indépendamment de la qualité de l’enseignement. Kulik, 2001 a commenté cette étude. Il signale que le faible échantillonnage de cours vidéoscopés rend l’erreur de mesure très importante. Il fait également référence à une étude de la littérature de Feldman (1989), qu’il juge plus sérieuse sur les liens entre score EEE et score attribué par les observateurs. Les études revues par Feldman comprenaient l’observation de longues séquences d’enseignement (visuelles et auditives). La corrélation moyenne relevée par Feldman est de .50.

1.1.5. Le structure conceptuelle de l’EEE.

Comme le spécifie Ory et Ryan (2001), beaucoup d’études (Kulik et McKeachie, 1975 ; Feldman, 1976 ; Marsh, 1987) ont été conduites, revues ou méta-analysées pour tenter de repérer un set commun de facteurs sous-tendant le construct qui est mesuré par le score à l’EEE. Bien qu’il y ait quelques éléments communs à toutes ces études, la recherche n’est pas parvenue à isoler un seul ensemble de dimensions, ce qui plaide pour le fait de voir la qualité de l’enseignement comme étant multidimensionnelle.

1.1.6. Conclusion


La littérature scientifique a échoué dans sa tentative de faire la preuve formelle de la validité de l’EEE. Si une masse imposante d’arguments en faveur de l’EEE ont été mis à jour par la recherche, certains arguments en sa défaveur restent encore avec des réponses insatisfaisantes. Que faut-il en conclure ? Nous sommes assez en phase avec les conclusions de Kulik (2001) qui signale que les résultats de cette méthode ont généralement montré des preuves partielles de validité convergente et discriminante mais pas de manière parfaite. En toute objectivité, on peut, tout au plus, parler d’un faisceau d’arguments qui plaident pour la validité de l’EEE et ce même si les travaux de Cohen (1981) et les méta-analyses d’Appolonia et Abrami (1997) soutiennent l'idée qu’il y a une liaison établie, signifiante et porteuse de sens entre l’EEE et l’apprentissage.

Notre conclusion personnelle portera sur deux principes. Le premier est un principe de précaution. Le second est un principe d’efficacité.

• Principe de précaution : même si certains auteurs, comme Abrami (2001) continuent à plaider pour l’utilisation prioritaire de l'EEE à des fins administratives, qui influencent la carrière des enseignants, nous sommes de ceux qui pensent que l’EEE ne peut être utilisée seule qu’à des fins formatives. En effet, au vu de la littérature, il est probable que les scores à l’EEE soient influencés, même faiblement, par d’autres caractéristiques que la qualité de l’enseignement stricto senso. Au vu de l‘intérêt de l’information fournie par l’EEE et sachant qu’il n’existe pas de recueils d’informations qui présentent des caractéristiques plus robustes, nous pensons que ces légers biais sont acceptables dans le cadre d’une évaluation formative. Dans le cadre d’une évaluation formative, toutefois, ceux-ci pourraient mener à des problèmes d’équité, surtout dans le cadre d’une évaluation normative, ce qui semble inacceptable.

Dans le cadre d’une évaluation administrative, nous pensons que sous certaines conditions5, l’EEE pourrait être utilisée avec d’autres méthodes.

• Principe d’analyse systématique de l’efficacité : comme le relevé de la littérature que nous venons de présenter le laisse apparaître, beaucoup d’études portent sur la validité de l’EEE. Paradoxalement, assez peu d’études portent sur l’effet qu’a eu l’EEE sur la régulation des enseignements, sur ce que Lather (1986) a appelé la validité catalytique. Or, l’EEE n’est qu’un outil. On peut bien sûr évidemment passer beaucoup de temps à observer un outil, mais il est peut-être utile de s’interroger sur les conditions de passage d’un outil décontextualisé à un instrument de régulation. Nous sommes ainsi en phase avec McKeachie (1997) qui plaide pour que les recherches s’axent sur la validité conséquentielle (Miller et Linn, 2000) de l’EEE, Il spécifie que les recherches doivent porter, d’une part, sur les représentations véhiculées par le dispositif mais aussi, d’autre part, sur son effet sur les divers porteurs d’enjeux.

Quelques études de ce type ont été effectuées et mettent en avant des résultats paradoxaux. Ainsi, si de nombreux effets positifs des EEE sur les pratiques d’enseignement ont été mis en évidence dans les recherches de Marsh et de ses collaborateurs, des effets négatifs (Mc Keachie, 1979) ou une absence d’effets (Bernard et al. 2000 ; Johnson, 1999) ont aussi été rapportés. Ces effets contradictoires ont aussi été retrouvés dans la recherche conduite dans une université française sur les effets de l’EEE par Younes (2006). Pourquoi de tels effets contradictoires et quelles sont les

5 Contrôle statistique de certaines variables, prise en compte de l’erreur de mesure, …Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


conditions d’une utilisation de l’EEE à des fins de régulation formative de l’enseignement ? Il est probable que les réponses résident dans les caractéristiques et les conditions de l’implémentation de l’EEE dans les universités. La littérature propose quelques guidelines qui vont être abordées au chapitre 2.

1.2. Lignes directrices pour une EEE favorisant la régulation

Desjardins et Bernard, en 2002, listent un certain nombre de modèles favorisant une évaluation des enseignements de qualité :

Ainsi, Cashin (1999) propose un certain nombre de pistes pour rendre cette opération valide et efficace : utiliser de nombreuses sources d’information en plus des étudiants ; faire l’évaluation du matériel d’enseignement ; valoriser la contribution du professeur à son évaluation ; interpréter les résultats en fonction de leurs variables contextuelles.

Menges (1990) présente, pour sa part, un modèle qu’il nomme les 4P : Plans, Procedures, Preconditions, Products, permettant de faciliter l’utilisation des informations contenues dans les évaluations pour améliorer l’enseignement. Le modèle de Menges rejoint en tout point le modèle de Bernard (1992) qui propose de prendre en considération les différentes dimensions de l’enseignement, dont la planification, la prestation, les résultats et les conditions d’enseignement, afin d’en tracer un portrait complet.

Pour Brinko (1991), une évaluation doit être suivie d’une rétroaction et d’une action. Cette chercheuse propose un modèle en quatre phases qui va bien au-delà de l’évaluation proprement dite : une rencontre initiale avec le professeur et un expert afin de définir les besoins d’amélioration ; une formation permettant de mieux cerner la situation de l’enseignement ; une évaluation de l’enseignement ; une analyse des résultats suivie d’une planification de l’amélioration.

Quant au modèle de Centra (1993), le NVHM, il constitue un modèle intéressant pour favoriser le changement à la suite des évaluations : faire en sorte que l’évaluation apporte des informations nouvelles (New Knowledge) ; que cette information soit valorisée (Value) ; qu’elle conduise au changement (How to Change) et que la motivation soit au centre du processus (Motivation). Ainsi, une évaluation informative qui conduit au changement et une évaluation valorisée qui motive le changement seraient des conditions de succès dans l’utilisation des résultats de l’évaluation.

Outre ces modèles cités par Desjardins et Bernard (2002), d’autres auteurs ont proposé une série de lignes directrices. Ainsi, Ory (2001) préconise de mettre sur pied une commission d’EEE comprenant des représentants de l’ensemble des porteurs d’enjeux. Cette commission aura pour mission de

• Fournir une théorie consistante pour choisir les items du questionnaire et créer un dispositif pour répondre à des critères psychométriques forts.

• Mener des recherches sur les effets voulus et non voulus de l’EEE et sur la manière dont le dispositif se met en place et est utilisé par les acteurs.

• Vérifier que les administrateurs jouent leur rôle et utilisent les évaluations conformément à leurs objectifs.

• Vérifier que les enseignants prennent l’EEE au sérieux. Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


Pour Arreola (1994), les premiers pas et les plus importants à faire pour favoriser une bonne pratique en EEE sont : arriver à un consensus sur ce qui est important, sur ce qui devra être évalué, déterminer qui participera à cette évaluation, et définir les critères de qualité qui seront utilisés.

Theall et Franklin (2001) définissent quant à eux 12 lignes directrices qui sont :• Etablir les objectifs de l'EEE et l'utilisation qui sera faite des résultats avant

l'opération.• Impliquer les porteurs d'enjeux dans les décisions prises à propos de l'EEE.• Présenter clairement et publiquement toute information au sujet des critères,

procédures et processus d'EEE.• Produire des rapports qui peuvent être compris rapidement et efficacement.• Former les destinataires de feedbacks pour éviter les erreurs ou les mauvaises

interprétations.• Garder en tête un équilibre entre les besoins des individus et ceux de l'institution.• Inclure à la procédure des ressources pour l'amélioration de l'enseignement. Si on ne fait

pas cela, la procédure est stigmatisée comme punitive, puisqu'elle ne peut pas être formative. Cela mène à de l'anxiété, de la résistance et de l'hostilité.

• Garder les évaluations formatives confidentielles et les distinguer clairement des évaluations sommatives.

• Adhérer à des pratiques psychométriques et docimologiques rigoureuses.• Réguler régulièrement le dispositif d'EEE.• Mettre en place un système légal de recours et un système de recueil des doléances.

Emery et ses collègues, en 2003, propose 9 lignes directrices dont certaines sont communes à celle de Theall et Franklin (2001) :

• Ne pas utiliser l’EEE de manière isolée, mais utiliser de multiples sources de données.• Dans le questionnaire, utiliser des items traduisant plus la performance de l’étudiant

plutôt que sa satisfaction. Privilégier, par exemple, des items comme « avez-vous fait des progrès en connaissance ? ».

• Privilégier une évaluation critériée plutôt que normative. Si on opte pour une évaluation normative, vérifier que les conditions d’enseignements soient les mêmes.

• S’assurer que les données soient techniquement acceptables, notamment en terme de taux de réponses.

• Demander aux étudiants de commenter les feedbacks quantitatifs qu’ils ont donnés.• Former les évaluateurs à l’évaluation et les superviseurs à donner/diffuser des

feedbacks.• S’assurer que le système est légal.• S’assurer que le système est flexible et soit adaptable à la situation de chacun.• S’assurer que le système reconnaisse la pluralité des méthodes éducatives.

Plus récemment, Younes (2006) a mis en évidence sept catégories de conditions favorables pour que l’EEE ait un effet de régulation formative sur l’enseignement :

• Un objectif formatif clairement distingué d’un objectif administratif (contrôle). • Une meilleure connaissance de l’EEE, les enseignants comme les administrateurs ayant en

général peu de connaissance sur l’EEE. Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


• Acceptation négociée d’un dispositif informatif. • Un engagement des acteurs dans un processus de réflexivité collective.• La prise au sérieux des points de vue des étudiants dans une perspective d’amélioration

de l’enseignement.• Acceptation négociée de la diffusion des résultats. • Des ressources pédagogiques pour accompagner les enseignants dans l’évolution de leur

enseignement.

Sur base de l’ensemble de ces considérations, et à partir de notre propre expérience, nous avons tenté de définir un modèle englobant de création d’EEE de qualité. Celui-ci sera présenté dans le chapitre 2 de ce document.

2. Modèle de création et de gestion qualité des évaluations des enseignements (CGQEE)Evaluer c’est récolter de l’information afin de porter un jugement permettant une prise de décision (ex. : Stufflebeam, 1980). Or le jugement fait peur et très rapidement des fantasmes peuvent exister sur la portée de la décision. Et c’est d’autant plus le cas dans des institutions pour lesquelles la liberté académique a longtemps fait partie de la structure identitaire des professeurs. Ceci dit, la relative résistance aux procédures d’évaluation des enseignements, ne s’explique pas que par des caractéristiques liées aux concepts de résistance aux changements. En effet, les procédures utilisées ne répondent parfois pas à d’élémentaires critères de qualité comme la validité ou la fidélité. De plus, la communication autour du processus d’évaluation (qui peut parfois avoir un impact sur la carrière des professeurs) est souvent laconique et déficiente.

Notons que la crainte accompagnant parfois l’évaluation des enseignements, la qualité des procédures utilisées et la communication qui entoure le processus peuvent avoir des effets cumulatifs, voir même démultiplicatifs entraînant parfois le rejet pur et simple de la procédure.

Il y a donc des enjeux importants à proposer des procédures d’évaluation valide et fidèle, à communiquer au sujet de celle-ci, à éclaircir la portée des décisions qui pourront être prises et à expliciter l’ensemble du processus. Pour atteindre l’ensemble de ces objectifs, nous avons créé un modèle englobant.


Logiques et Objectifs de l'évaluation desenseignements

Niveaux et Objets d'évaluation

Définitions des outils d'évaluation

Traitements et jugements

Mise en œuvre de l'outil

Construction des outils d'évaluation

Cont

extu

alisat

ion

- ac

cept

ation

Macrorégulation

Décisions de régulation

Info

rmat

ion/

form

ation

Micro

-Ré

gulation

Plan

ificat

ion

Vous trouverez dans le chapitre 2.1 une brève introduction à ce modèle. Les chapitres 2.2 à 2.12 reprendront une à une chacune des étapes qui le constituent.

2.1. Introduction au modèle CGQEEE

2.1.1. Logiques et Objectifs de l’évaluation des enseignements

L’évaluation des enseignements par les étudiants peut poursuivre divers objectifs, comme par exemple améliorer le processus d’enseignement (évaluation formative) ou promouvoir un enseignant (évaluation administrative). Des objectifs choisis pour l’évaluation va découler l’ensemble de la procédure.

2.1.2. Niveaux et Objets d’évaluation

Que cherche-t-on à évaluer ? Le contenu de l’enseignement, les capacités du professeur à transmettre un message, l’augmentation des compétences chez les étudiants, la qualité des évaluations faites par l’enseignant, la qualité de la manipulation de l’enseignant dans les travaux pratiques ? Les facettes d’un enseignement sont nombreuses et il s’agit ici de déterminer celles dont l’évaluation apportera une information permettant de remplir le ou les objectifs définis à l’étape 1.

2.1.3. Définitions des outils d’évaluation


Pour définir l’outil, il est important de se poser trois questions qui sont « qui possède l’information permettant d’évaluer les objets d’évaluation définis à l’étape 2 », «quels moyens humains et logistiques possède-t-on pour mener à bien l’évaluation » et « quelle(s) méthode(s) semble(nt) la(les) meilleure(s) pour obtenir l’information désirée ». En fonction des réponses fournies et de leur arbitrage, il sera possible de définir au mieux l’outil ou les outils à utiliser.

2.1.4. Construction des outils d’évaluation

Une fois les objectifs précisés, les objets d’évaluation définis et l’outil choisi, il reste à construire, à peaufiner ou à adapter ce dernier. Cela nous semble devoir être fait par un comité d’experts, dans un dialogue collaboratif. Ce comité sera composé différemment en fonction des objectifs, objets et outils d’évaluation, mais il nous semble important qu’il comprenne au moins le responsable de l’évaluation des enseignements dans l’institution et pour chaque faculté concernée : - des enseignants, - des représentants des individus participant à la mise en œuvre de l’outil (des étudiants par exemple) et - un responsable académique des enseignements (recteur, doyen ou président de conseil des études). Ce comité créera une première version de l’outil qui devra être testée sur le terrain. Après cette première évaluation une version définitive de l’outil pourra être créée et utilisée en routine.

2.1.5. Mise en œuvre de l’outil

Un outil, aussi parfait soit-il, ne sera efficace que s’il est bien utilisé et dans de bonnes conditions. Souvent sous-estimée, c’est pourtant essentiellement de cette étape de mise en oeuvre que dépendra la qualité intrinsèque des données récoltées. Par exemple, les données extraites d’un questionnaire (par ailleurs excellent et valide), soumis à un échantillon peu représentatif nous donnera des résultats difficilement interprétables.

2.1.6. Traitements et jugements

Quel type de traitement va-t-on effectuer ? Va-t-on, par exemple, se centrer exclusivement sur les moyennes et les écarts-types, ou va-t-on présenter des histogrammes de fréquence ? Les données seront-elles présentées de manière brute, ou les comparera-t-on à une norme ? Et si c’est le cas, comment constituera-t-on cette norme ? Ces questions sont cruciales pour que les résultats de l’évaluation soient présentés de la manière la plus claire possible et que le jugement qui en découle soit le moins possible sujet à l’interprétation.

Par ailleurs, l’étape de jugement est l’une des plus délicates. Les deux questions essentielles sont : « qui va juger » et « selon quels critères ». De la première réponse pourrait dépendre le degré de confidentialité de la procédure. Imaginons que la procédure d’évaluation ait été mise en œuvre pour que les étudiants puissent choisir les cours à option sur des bases pédagogiques, les juges sont les étudiants et la confidentialité des résultats est quasi nulle. La deuxième réponse est, elle aussi, capitale « quels sont les éléments apportés par l’évaluation à prendre en compte ? », « comment les pondérer les uns par rapport aux autres ? », autant de questions auxquelles il faut apporter une réponse claire et limpide.

2.1.7. Décisions de régulationLa procédure d’évaluation des enseignements demande la plupart du temps des moyens logistiques et humains importants. Et souvent, les décisions découlant du jugement ne sont pas prises dans des temps raisonnables. Si, par exemple, le processus avait comme objectif d’améliorer


l’enseignement évalué, il est nécessaire que des décisions allant dans ce sens (et nourries par les résultats) soient prises. C’est la crédibilité même de la procédure d’évaluation des enseignements qui en dépend.

Les étapes suivantes sont présentées verticalement. Elles sont en fait concomitantes et continuent aux 9 premières étapes.

2.1.8. Macrorégulationla fin du cycle constitue un moment idéal pour repérer, à l’aide d’information plurielles, ce qui peut être améliorer dans le cycle suivant.

2.1.9. Contextualisation – acceptation

La procédure d’évaluation des enseignements ne pourra être efficace que si elle requiert l’adhésion de la majorité des acteurs. Convaincre est le maître-mot. Débusquer les mythes, démontrer la pertinence des procédures utilisées, donner de la crédibilité à l’ensemble du processus est une condition sine qua non à la mise en œuvre d’une évaluation de qualité. Une analyse institutionnelle de l’établissement, voire même le recours à des moyens psychosociaux, comme l’analyse des représentations sociales des divers acteurs impliqués, sera parfois nécessaire pour analyser les adjuvants et les freins à l’évaluation des enseignements.

2.1.10 Information/formation

Nous l’avons déjà signalé à l’étape de contextualisation : convaincre est le maître-mot. Et pour convaincre, il faut garantir la qualité et communiquer intelligemment. A partir du moment ou le processus d’évaluation se fait dans les règles de l’art, ou chacune des étapes décrites a été menée consciencieusement et ou des représentants du corps professoral ont été intégrés à divers moments du processus, la procédure peut et doit être mise en lumière. Jouer la transparence et démontrer la limpidité du processus est très important en terme d’évaluation des enseignements.

2.1.11. Planification

Etablir un calendrier prévisionnel est un élément important pour garder le cap dans des procédures longues et complexes comme l’évaluation des enseignements. Ainsi déterminer pour quand l’outil d’évaluation devra être prêt, quel sera le moment de son utilisation, et la date à laquelle les résultats devront être disponibles est utile. Chaque acteur du processus sait ainsi à l’avance quand il devra intervenir et quand les éléments nécessaires à son action seront prêts. Le respect de ce planning donne aussi de la cohérence à l’ensemble de la procédure.

2.1.12. Micro - Régulation

Les huit premières étapes développées semblent être linéaires et s’enchaîner en une suite logique. Dans la réalité, il n’en va toutefois pas de même. Les mouvements de va et vient entre les différentes étapes ne sont pas rares et sont même parfois souhaitables.


2.2. Logiques et Objectifs de l’évaluation des enseignements

L’évaluation des enseignements peut poursuivre de nombreux objectifs dans nos établissements universitaires. Bernard (1992) en définit plusieurs. Pour cet auteur, l’évaluation des enseignements est un moyen de

o reconnaître que l'enseignement a sa place et donc de le valoriser et l'améliorer ;o donner aux différents acteurs un feedback sur la qualité de l’enseignement ce qui

permettra d’améliorer ce dernier ;o promouvoir l'enseignement en tant que critère de promotion et, par le fait même, de voir

à l'élaboration d'instruments et de méthodes d'évaluation valides qui permettront une prise de décision éclairée (évaluation administrative) ;

o permettre aux étudiants de faire leurs choix de cours en fonction des résultats des évaluations ;

o se positionner comme une université au management participatif dans lequel les étudiants peuvent s’exprimer sur les processus qu’ils vivent.

Centra (1993), Murray (1984), Doyle (1983), MCKeachie (1979) se sont eux aussi prononcés sur les buts de l'évaluation de l'enseignement. Tous s'entendent sur les deux buts les plus importants à savoir [1] l'évaluation pédagogique, faite à des fins d'amélioration de l'enseignement, et [2] l'évaluation administrative, faite à des fins de promotion, permanence et renouvellement de contrats.

Ces deux buts doivent-ils être vécus dans une même évaluation ou doivent-ils être réalisés séparément et différemment ? Les auteurs divergent sur cette question. Pour certains, il faut dissocier les deux buts puisque chacun demande une démarche totalement différente. Centra (1993) et Bernard (1992) proposent que le but formatif précède le but administratif. D'autres recommandent de concilier les deux buts en faisant en sorte que le but administratif serve aussi à des fins formatives.

L’enjeu de cette question est important et les arguments nombreux et parfois contradictoires. En voici quelques-uns :

• La qualité de l’information requise pour une évaluation administrative doit être maximale en terme de validité et de fidélité. Difficile à mettre en œuvre de par son formalisme, l’évaluation administrative ne peut être très fréquente pour des raisons de praticabilité. De plus, elle doit idéalement utiliser plusieurs méthodes ou sources de données. Au contraire, la qualité de l’information nécessaire à une évaluation formative pourrait être moindre en terme de validité et de fidélité, l’essentiel étant de proposer un feedback suffisamment diagnostique et fréquent que pour améliorer l’enseignement. Cet argument nous semble important lorsque, pour des raisons de praticabilité, il est difficile d’atteindre à la fois des objectifs de validité, fidélité et de diagnosticité.

• Il n’est pas opportun d’évaluer les enseignements de manière administrative si on ne les a pas évalués au préalable de manière formative. Dans la plupart des universités européennes, très peu d’enseignants bénéficient d’une formation pédagogique pointue. De plus, la plupart du temps, ils ont été engagés sur base de leur carrière de chercheur et souvent, leur dossier pédagogqiue n’est pas pris en compte (ou très peu) lors de leur engagement (Dejean, 2002). Evaluer leur enseignement de manière formative leur donne donc l’opportunité de connaître leurs forces et leurs faiblesses et d’ainsi réguler leurs pratiques.


• L’évaluation formative peut se centrer sur l’un ou l’autre aspect de l’enseignement et se contenter d’une seule source d’information (les étudiants, par exemple). L’évaluation administrative se doit d’être holistique et de varier les sources d’information. L’évaluation administrative d’un enseignement ne devrait, par exemple jamais, ce centrer sur une seule facette d’un enseignement. De même, faire porter le poids du jugement administratif d’un cours uniquement sur les étudiants ne nous semble pas opportun.

• Idéalement, l’évaluation fomative devrait pouvoir être mise en œuvre sur le simple souhait de l’enseignant. En effet, le fait qu’un enseignant veuille améliorer ses pratiques sur base des résultats d’une évaluation formative, nous semble être une attitude à favoriser. Pour ne pas briser un tel élan, il est important que les résultats d’une telle évaluation, s’ils mettent en lumière des pratiques à améliorer, ne puissent desservir l’enseignant dans le cadre d’une évaluation administrative.

• Lorsqu’un nouvel outil d’évaluation des enseignements est mis en œuvre, il doit encore être validé et ne peut servir à des évaluations administratives. Pour certains auteurs (Bernard, 2002), rien ne s’oppose à ce qu’il soit uilisé de manière formative.

2.3. Niveaux et Objets d’évaluation

2.3.1. Les niveaux de l’évaluationChacune des logiques d’évaluation définies au chapitre 2.2. peut être croisée avec un ou plusieurs niveaux d’évaluation. De fait, l’évaluation des enseignements peut être qualifiée de multi-niveaux.

• A un niveau micro, le niveau d’évaluation est l’enseignement et le feedback est adressé à l’enseignant, de manière individuelle. La régulation de l’enseignement est, elle aussi individuelle

• A un niveau méso, le niveau d’évaluation est l’enseignement, mais pas de manière isolée. Il est évalué en même temps que ses pairs d’une même section ou d’une même filière d’étude. Les résultats sont agrégés et c’est sur cette agrégation (par exemple la moyenne générale obtenue à un item dans une section) que collectivement, les décisions de remédiations seront prises. La régulation est donc collégiale.

• A un niveau macro, c’est la faculté qui est évaluée. Le recueil d’informations et le feedback se fait au niveau de la filière d’étude, de la section, du département. Ce niveau met en place les outils et instruments liés à l’évaluation de programme (Voir Nadeau, 1990, pour un recueil de ces techniques) ou à l’évaluation des cursus en interrogeant les étudiants diplômés sur leur insertion socio-professionnelle et sur la manière dont leur formation a facilité celle-ci.

Les logiques d’évaluation et les niveaux d’analyse peuvent alors se croiser dans un espace en deux dimensions, ce qui offre un cadre de réflexion qui permettra de mieux cibler le dispositif d’évaluation à mettre en place :

Objectifs Micro Meso MacroReconnaître que l'enseignement a sa place et donc de le valoriser et l'améliorer.

Donner aux différents acteurs un feedback sur la qualité de l’enseignement ce qui permettra d’améliorer ce dernier.Utiliser l'enseignement en tant que critère de promotion et, par le fait même, de voir à l'élaboration d'instruments et de méthodes d'évaluation valides qui permettront une prise de décision éclairée (évaluation administrative).Permettre aux étudiants de faire leurs choix de cours en fonction des résultats des évaluations.Se positionner comme une université au management participatif dans lequel les étudiants


peuvent s’exprimer sur les processus qu’ils vivent.

Legende : en grisé figure les croisements possibes.2.3.2. Les objets d’évaluation

Les objets d’évaluation d’un enseignement sont nombreux et il n’est pas toujours facile d’en isoler certains au détriment d’autres. La notion même d’enseignement est complexe. Certains enseignants universitaires adoptent des méthodes axées sur l’exposé magistral, parfois agrémenté de l’une ou l’autre technique plus interactive, comme par exemple, l’utilisation de boîtiers de vote électronique (Detroz & al., 2002). D’autres, ont recours à l’approche par problème. Parfois, c’est l’approche par projet qui est adoptée. Certains enseignants demandent aux étudiants de produire des exposés interactifs (Jans & al., 1998) alors que d’autres privilégient les études de cas. Notons enfin que certains enseignants ont également recours à la mise à distance de leurs cours ou exploitent le Blended Learning.

En dehors de ces cours, les étudiants vivent également des séances de travaux pratiques ou, en fonction des disciplines et des ressources, ils peuvent parfois être observateurs de phénomènes et parfois acteurs de leur apprentissage.

Pour autant qu’il n’y ait pas d’épreuves externes, l’évaluation fait aussi partie intégrante de l’enseignement. De l’oral au QCM en passant par l’écrit, la simulation ou l’observation d’actions spécifiques, de l’exposé à la production de rapports, les méthodes sont multiples et variées.

Notons également que nos enseignants, dans le cadre de leurs enseignements sont souvent amenés à accompagner les étudiants tout au long de leur travail de fin d’études et de les superviser dans le cadre de leur stages.

Comme nous le voyons, les options sont nombreuses et les objets d’évaluation multiples. Il faudra faire des choix. Trois approches permettent de les effectuer.

• La conformité à la norme ou l’approche dogmatiqueUne approche dogmatique consisterait à mesurer la conformance d’un enseignement par rapport à un modèle pédagogique dominant dans une institution en se référant à la littérature spécifique portant sur ce courant pédagogique. Les effets pervers de cette méthode doivent être analysés soigneusement. En effet, en l’état de nos connaissances, il n’y a pas globalement et dans l’absolu une méthode d’enseignement/apprentissage meilleure que d’autres. Par exemple, les travaux de Vernon et Blake (1993), d’Albanese et Mitchell (1993) et de Berkson (1993), au sujet de la pédagogie par problème mettent en avant, d’une part, que la qualité de l’approche par problème n’est pas constante d’une institution à l’autre et que, d’autre part, elle n’est pas globalement meilleure qu’une approche traditionelle. De manière plus précise, elle obtient de moins bons résultats sur un ensemble de critères (e.g. connaissance) et de meilleurs résultats sur dautres (performances cliniques) par rapport aux approches traditionelles (cité dans Leclercq, D. 1998). Dans la plupart des institutions, le choix d’une approche pédagogique est laissé à l’enseignant ou à un groupe d’enseignants en fonction de critères qui leur appartiennent et qui sont non standardisés. Le plus souvent, le panel de méthodes pédagogiques utilisé dans une institution donnée est extrêmement large et invalide l’approche dogmatique pour établir les objets à évaluer.


• L’approche participativeCette approche consiste à interviewer divers porteurs d’enjeux comme les enseignants, les étudiants, les alumni, … pour leur demander ce qu’ils estiment être caractéristiques d’un bon enseignement. C’est ce qu’a notamment fait Feldman (1988). Même si les enseignants et les étudiants ne sont pas toujours d’accord sur ces caréctéristiques, cet auteur parvient à identifier huit facteurs d‘efficacité qui semblent faire l’unanimité, à savoir :

1. la préoccupation du professeur envers les progrès de l’étudiant2. la préparation et l’organistaion du cours3. la maîtrise de la matière4. le dynamisme du professeur5. la clarté et la facilité à rendre la matière compréhensible6. la disponibilité7. le respect de l’étudiant8. l’impartialité et la justice dans l’évaluation des étudiants, ainsi que la qualité des

examens.

Cette méthode participative pour déterminer les caractéristiques d’un bon enseignement, si elle est tentante, présente néanmoins un certain nombre de défauts. Ainsi, Feldman (1989), un an plus tard écrit que ces 8 facteurs, mis en avant par les enseignants et les étudiants, n’ont pas tous nécessairement d’effet sur l’apprentissage, alors que d’autres, qui n’ont pas été cités, comme par exemple « la stimulation de l’intérêt des étudiants » joue un rôle clé dans celui-ci.

• L’approche Evidence BasedUne autre méthode consiste à exploiter la littérature portant sur le sujet et de se concentrer sur les éléments dont on a la preuve qu’ils favorisent les apprentissages des étudiants. Après exploration, nous avons choisi d’établir une matrice à deux dimensions pouvant caractériser les objets d’évaluation. Sur la première, on trouve le moment sur lequel porte l’évaluation. Nous distinguerons sur celle-ci la préparation du cours et la prestation du cours. La deuxième porte sur les dimensions de l’enseignement. Bernard (1992) synthétise le tout dans le tableau suivant :

Dimension de l’enseignement

Composantes Critères d’évaluation

Prestation du cours OrganisationIntérêt pour l’enseignementInteraction professeur/étudiantEvaluation et rétroactionHabilités d’enseignement

ClartéStructurePertinenceStimulation

Planification du cours ObjectifsContenuBibliographieMatériel d’enseignement et d’apprentissageMéthode d’enseignement et d’apprentissage

ClartéPrécisionExhaustivitéStructurePertinenceCohérenceStimulation


Moyens d’évaluation intellectuelle

Cette approche est intéressante. Cependant, la variable indépendante de ce type d’étude est la plupart du temps le score à l’examen de fin d’année. Hors, une littérature nombreuse met en garde contre l’utilisation de ces résultats. Nous avons illustré ce fait au chapitre 1.1.1. L’approche multitrait-multiméthode

• L’approche transversale :Elle consiste à déterminer les objets à évaluer sur base de modèles pédagogiques décrits dans la littérature. Méthode souple et adaptative, elle consiste à entraîner un dialogue collaboratif entre les différents porteurs d’enjeux pour traduire les concepts-clés des modèles en objets évaluables. Parmi les modèles présents dans la littérature, celui de Gilles et al. (2006) retient notre attention.

L’idée générale est que la cohérence entre ces activités d’enseignement-apprentissage peut être soutenue par un modèle en vue d’aider les enseignants à créer et analyser leurs actions didactiques. Ce modèle dit du Polygone des paramètres des actions didactiques permet de prendre en compte dix composantes classiquement décrites dans la littérature présente dans toutes les séquences d’enseignement-apprentissage, quelle que soit leur spécificité didactique.

Ce modèle insiste autant sur les pôles du polygone, les paramètres à prendre en compte dans toute action didactique, que sur les lignes qui unissent ces différents pôles et qui mettent en évidence les interactions entre les composantes de l’action didactique.

Ce modèle nous semble intéressant à utiliser pour choisir des objets d’évaluation, surtout lorsque la logique d’évaluation est pédagogique. En effet, il fournit un cadre général permettant une démarche d’ouverture puis de focalisation sur les éléments qui semblent opportuns dans un contexte donné.

Ainsi, l’aproche transversale permet à la fois d’utiliser un référentiel éprouvé scientifiquement et de le confronter aux choix d’un groupe de porteurs d’enjeux.

2.4. Définitions des outils d’évaluation


De nombreux outils sont utilisés pour évaluer la qualité des enseignements. Ce qui fait dire à Newby (1999) que la majorité des options disponibles pour évaluer la qualité ont déjà été développées et, la plupart du temps, appliquées dans les universités. Une analyse approfondie de ces méthodes d’évaluation nous amène à la conclusion qu’aucune n’est parfaite. L’enseignement est une activité complexe, poursuivant des buts multiples et impliquant de nombreux acteurs. C’est la multiplicité des outils d’évaluation qui permettra d’obtenir des mesures suffisamment valides, fidèles et diagnostiques que pour autoriser le jugement et la prise de décision.

Le choix d’un ou de plusieurs outils d’évaluation ne peut être fait à la légère. Ce choix s’intègre dans un processus plus large au cours duquel il a fallu, au préalable, déterminer les buts de l’évaluation, les objets de l’évaluation, les sources d ‘informations disponibles par rapport à ces buts et objets et enfin les moyens disponibles.

Parmi les outils classiquement définis dans la littérature, outre l’évaluation des performances des étudiants que nous avons déjà commentée, nous pouvons relever :

2.4.1. L’évaluation critériée externe

L’évaluation critériée externe est extrêmement répandue dans nos universités européennes. C’est d’ailleurs le mode d’évaluation proposée par l’European University Association. En effet, cette association recommande d’utiliser les normes publiées en 2005 (ENQA, 2005) concernant des standards et guidelines pour l’assurance qualité en Enseignement Supérieur. Sur base de ces standards les départements rédigent un rapport d’autoévaluation qui sera analysé et commenté par des experts externes à l’université.

La plupart du temps, ce type d’évaluation est issu de l’approche qualité en entreprise et notamment des normes EFQM (European Foundation for Quality Management). Développé en 1992 et révisé en 1999, le modèle EFQM envisage la qualité dans sa globalité et non en tant que simple résultante d’actions individuelles. L’EFQM envisage 9 domaines à évaluer qui sont le leadership, la gestion du personnel, l’axe politique et stratégie, les ressources, le processus, la satisfaction de la clientèle, la satisfaction du personnel, l’intégration à la vie de la collectivité et les résultats opérationnels.

En Belgique, ces normes ont été traduites dans le monde de l’éducation via une association de Hautes Ecoles flamandes sous l’appellation « PROSE ».

En suisse, l’OAQ (Organe d’Accréditation et d’Assurance Qualité des Hautes Ecoles Suisses) élabore des directives et des standards de qualité destinés à l'accréditation dans le domaine des hautes écoles universitaires suisses et effectue des procédures d'accréditation en suivant les directives approuvées par la Conférence universitaire suisse.

Plus loin, en Australie, Younes (2002) nous apprend que McKinnon, Walker et Davis (2000) ont élaboré un manuel à destination des institutions d’enseignement supérieur australiennes. Leur manuel contient 67 références regroupées en catégories comme le gouvernement, l’impact, la finance, l’enseignement et l’apprentissage, le soutien des étudiants, la recherche et l’internationalisation. Dix indicateurs de référence concernent l’enseignement : plans d’enseignement et d’apprentissage, processus d’établissement de cours, expertise d’enseignement, environnement d’enseignement, processus de comptes-rendus universitaires, utilité des cours, rétention, équité, satisfaction des étudiants, employabilité. Chaque référence contient de l’information sur ses raisons, des sources de données, des exemples de bonne pratique et des profils descriptifs de niveaux de performance.


Dans un souci de complétude, citons également, les normes ISO et plus précisément la norme

SO/IEC 17024:2003 Évaluation de la conformité -- Exigences générales pour les organismes de certification procédant à la certification de personnes, la norme EQUIS décernée par l'European Foundation for Management Development (EFMD) dont le public cible est constitué des écoles de Management et la norme Q*For qui, essentiellement sur base de la satisfaction du client, labellise les centres de formation.

2.4.2. L’évaluation par les pairs

Cette méthode consiste à ce que des pairs évaluent l’enseignement. Cela peut se faire soit dans une logique administrative (c’est le concept de leçon publique). Ce type d’évaluation n’est pas sans poser un certain nombre de problèmes. Scriven (1993) est acerbe envers cette modalité d’évaluation. Il précise que la simple présence des observateurs altère la leçon, que les séquences d’observation sont peu nombreuses et trop courtes que pour porter un jugement fiable, et que les observations présentent un certain nombre de biais. Il ajoute que la leçon n’est qu’une part de l’évaluation des enseignements qui en comprend bien d’autres (matériel didactique, examens, …). Il conclut en disant, au sujet de cette évaluation « it’s not just incorrect, it’s a disgrace ». A noter qu’une corrélation modérément positive entre l'évaluation par les pairs et l’EEE a été démontrée dans la recherche (Doyle et Chrichton, 1978, Feldman, 1978). Feldman en 1989 trouve même une corrélation de .50.

L’évaluation par les pairs peut également servir une fin formative. Dans ce cadre, elle regroupe une famille de stratégies d’amélioration de l’enseignement qui impliquent que des collègues travaillent ensemble de manière systématique dans un programme bien structuré (Morrison, 1997). Ce sont en général des pairs travaillant ensemble pendant au moins un semestre dans une relation d’aide qui inclut des visites de cours mutuelles, des discussions avec les étudiants et des rencontres régulières pour aborder leurs pratiques d’enseignement et des façons de l’améliorer.

2.4.3. L’évaluation par le portfolio

Selon Younes (2001), Shore a le premier exprimé l’idée que c’est aux enseignants universitaires de construire eux-mêmes la démonstration de leur efficacité en tant qu’enseignants, « a portfolio of evidence » (Shore, 1975, p. 8). Toujours selon le même auteur, le portfolio est donc envisagé non comme une nouvelle méthode d’évaluation mais plutôt comme un système de collecte, combinaison et organisation de l’information à partir d’une large série de sources incluant les approches traditionnelles de l’évaluation de l’enseignement comme les visites de pairs et les évaluations des étudiants.

Les portfolios donnent une vision plus large de l’enseignement que celle fournie uniquement par les évaluations des étudiants. Le fait qu’ils soient rédigés par la personne qui sera évaluée questionne cependant leur fiabilité et leur objectivité. Une étude publiée par l’American Association for Higher Education (Anderson, 1993) conclut à leur caractère satisfaisant, cependant les études formelles des portfolios sont rares. Centra (1993) est un des quelques chercheurs qui a rassemblé des données sur la fiabilité et la validité des portfolios. Il a comparé les décisions de titularisation et de promotion basées sur les portfolios à celles qui étaient prises sans ce support et a trouvé que les jugements étaient raisonnablement fiables (accord inter-juges) quand les juges travaillaient avec des critères spécifiés. Il a conclu qu’utiliser les portfolios pour prendre des décisions sommatives quant à l’enseignement pouvait fournir une image de la performance plus complète et que l’évaluation des portfolios nécessitait de discuter


des standards et des critères d’évaluation. Il recommande que les portfolios n’incluent pas seulement ce que les personnes disent mais aussi ce qu’elles font. Il trouve une corrélation positive, mais faible entre le score à l’EEE et l’évaluation du portfolio par les pairs.

Toutefois d’autres études sont plus pessimistes quant à l’utilisation du portfolio pour l’évaluation administrative des enseignements. Selon Kane, Crooks et Cohen (1999), les portfolios fournissent une information complexe. Or ils soulignent que plus la tâche à évaluer est complexe et ouverte, plus il est difficile d’établir des critères standardisés robustes qui s’appliquent à toutes les productions. Cela signifie que l'évaluation porte sur un large corpus d'information qui implique une nécessaire interprétation de la part de l’évaluateur. Selon Schultz et Moss (2004), une telle interprétation implique un niveau d’abstraction sélective. Ainsi, certains aspects peuvent être aléatoirement mis en avant et d’autres jugés comme anecdotiques, entraînant un manque de Fidélité inter-correcteur. Richlin et Manning (1996) sont encore moins optimistes lorsqu’ils écrivent « Programs that use Portfolio to make decisions about promotion, tenure, or honors seldom have guidelines that apply explicit criteria to those portfolios. In most case, it’s not that there is no evaluation system… but that system is without agreed-upon and explicit criteria for assessment”.

Cette difficulté à atteindre un niveau de qualité suffisant en termes de fidélité (reliability) pose la question de la pertinence du portfolio en termes d'outils d'évaluation administrative. Dans le cadre d’une évaluation formative, cet outil nous semble ouvrir une plateforme vers un dialogue collaboratif en profondeur.

2.4.4. L’évaluation par des observateurs externes

L’évaluation par des évaluateurs externes poursuit essentiellement les mêmes objectifs, les mêmes procédures et présente les mêmes défauts que celle des pairs. L’aspect fondamentalement différent est lié aux caractéristiques de l’observateur qui peut par exemple être un expert en pédagogie ou un évaluateur externe. En fonction de ce profil, l’évaluateur sera ressenti comme plus ou moins bienveillant.

2.4.5. L’auto-évaluation

Le processus d’auto-évaluation à des fins pédagogiques nous semble extrêmement important et utile puisqu’il ouvre à une analyse réflexive de la qualité de son propre enseignement, première étape d’un processus de régulation. Toutefois, il nous semble devoir être nourri et complété par des informations provenant d’autres sources. Seul, il nous semble être sujet à trop de subjectivité. A noter que les recherches montrent une corrélation légèrement positive entre l’auto-évaluation et l’EEE (Blackburn et Clarck, 1975, Marsh, Overall et Kessler, 1979, Braskamp, Caulley et Costin, 1979 )

2.4.6. L’enquête auprès des étudiants

Même si Dejean (2002) spécifie que cette méthode d’évaluation a des difficultés à s’imposer en France, ce type d’évaluation est la plus pratiquée au sein des universités au niveau mondial. Ainsi l’enquête de Seldin sur l’évaluation des enseignements (1993) montre qu'on est passé de 29 % d'utilisation de cette méthode d’évaluation dans les universités américaines en 1973, à 68 % en 1983 et à 86 % en 1993. Aucune autre source d'information n'atteint ce score. Pour Murray


cette large utilisation est une bonne chose. Il précise Les étudiants sont les seuls témoins constants de la prestation de l'enseignement, ils sont les seuls à pouvoir indiquer si les exposés du professeur sont clairs, si les commentaires sur les travaux les aident à progresser, si les documents utilisés favorisent la compréhension de la matière (Murray, 1984).

L’introduction de ce papier a traité en long et en large de la validité et de la fidélité de l’EEE.

2.4.7. L’enquête auprès des anciens étudiants

Ces enquêtes sont, en général, focalisées sur la réussite lors des poursuites d’études aussi bien que sur les évaluations rétrospectives des bénéfices de la formation. La réussite professionnelle et les revenus peuvent aussi être examinés en tant qu’indicateurs de l’efficacité de la formation suivie. L’information concernant l’embauche est une autre source de données. Ainsi, en France, selon Younes (2002), les bases de données de l’assurance chômage sont des sources d’informations utiles pour suivre l’histoire de l’emploi des diplômés et peuvent être directement liées aux systèmes d’information de l’institution.

Certaines critiques concernant ce type d’évaluation peuvent être formulées. Par exemple, Scriven (1983) fustige le faible taux de réponses de ce genre d’étude mais surtout le fait que les données récoltées portent sur une situation d’enseignement obsolète qui a sans doute évolué.

2.4.8. Autres techniques

Afin d’être tout à fait complet, nous citerons également le focus group constitué d’étudiants (Tiberius, 2001) et la commission qualité des étudiants (Spence et Lenze, 2001).

2.4.9. Comment effectuer un choix parmi tous ces outils ?

Pour Fenwick et Parsons (2000), chacune de ces approches fournit différents types d’informations et chacune a des avantages et des inconvénients. Il s’agit d’apprécier comment les utiliser pour évaluer l’enseignement de manière productive.

Pour nous l’outil doit être choisi en fonction des logiques, objectifs et objets d’évaluation privilégiés et des critères qualité que ces éléments favorisent.

Pour analyser la qualité d’un outil, nous faisons référence aux critères de qualité définis par Gilles en 2002. Cet auteur propose 8 critères dans le cadre de l’évaluation des étudiants et les adaptons à notre contexte. Ainsi, un outil peut assurer

• La validité : les informations récoltées lors de la phase d’évaluation des enseignements doivent représenter ce que l’évaluateur veut mesurer, permettre des inférences solides (validité de construct ou théorique) et couvrir les aspects importants de l’enseignement (validité de contenu).

• La fidélité : les informations liées à un enseignement donné, permettant un jugement donné, doit l’être de la même façon si elle est traitée par d’autres (concordance inter-juge) et/ou à un autre moment (consistance intra-juge).

• La sensibilité : la mesure doit être précise, refléter les phénomènes subtils de l’enseignement.


• La « diagnosticité » : les résultats doivent permettre le diagnostic précis des difficultés d’enseignement/apprentissage (et idéalement de leurs causes), des processus maîtrisés par l’enseignant et de ceux qui ne le sont pas.

• L’équité : tous les enseignements doivent être traités de façon juste et en principe de la même façon (standardisation).

• La « praticabilité » : La procédure d’évaluation doit être faisable endéans des délais raisonnables et à l’aide des ressources en personnel et en matériel disponibles et proportionnées à l’importance relative des enjeux.

• La « communicabilité » : les informations non confidentielles relatives au déroulement du processus doivent être communiquées et comprises par les partenaires (enseignants, étudiants, équipe SMART, responsables facultaires, ….) engagés dans la réalisation des évaluations.

• L’ « authenticité » qui consiste à offrir une évaluation porteuse de sens pour les parties prenantes de l’évaluation.

Il est difficile de choisir un outil satisfaisant à l’ensemble de ces critères. Le choix d’un outil est la plupart du temps un choix sous contrainte. Il est, par exemple, difficile d’avoir à la fois un outil valide, diagnostique et répondant également à des critères de praticabilité.

Pour établir un choix, nous avons classé ces outils par rapport aux critères de qualité

En vert : point fort de la méthodeEn rouge : point faible de la méthode

En blanc : élément satisfaisant de la méthode

Les critères de qualité à favoriser dépendent des objets de l’évaluation. Le tableau suivant met en correspondance les compatibilités méthodes d’évaluation/objets évalués, en se basant à titre indicatif sur les éléments du modèle du polygone des paramètres de l’action didactique présenté au chapitre 2.3.2.


Comme les éléments précédents le suggèrent, aucun outil d’évaluation ne couvre avec efficacité l’ensemble des critères de qualité. Dans le même ordre d’idée, aucun outil ne permet d’évaluer l’ensemble des paramètres de l’action didactique. C’est la raison pour laquelle nous préconisons la triangulation des outils proposés.

Initialement, le concept de triangulation à d’abord été défini comme un ensemble d’opérations méthodologiques qui avaient pour objectifs de voir si les résultats corroborent ou non entre eux (Flick, 1992). Les résultats d’études plus récentes montrent toutefois que la stratégie de triangulation vise à conférer aux démarches qualitatives non seulement de la validité, mais aussi et surtout de la rigueur et de la profondeur d’analyse (Denzin et Lincoln, 1998). Denzin (1989) propose 4 types de triangulation.

o La triangulation des données (utiliser différentes sources de données dans une étude).

o La triangulation du chercheur (engager plusieurs chercheurs pour la collecte et l’interprétation des données).

o La triangulation théorique (utiliser différentes théories pour interpréter les données recueillies).

o La triangulation méthodologique (utiliser différentes méthodes et techniques pour étudier le même phénomène particulier.

Appliquer la triangulation de données et la triangulation méthodologique nous semble être une voie assurant la qualité du processus en termes de validité, fidélité, sensibilité et diagnosticité.

Toutefois, nous sommes conscients que dans nos institutions universitaires sous-financées, il est difficile de varier les outils de recueil d’informations. Même si pour des raisons de praticabilité, on sera tenté de privilégier des méthodes standardisées, peu coûteuses en matériel humain, la clé principale du choix doit porter sur les objets d’étude que l’on veut privilégier et sur les critères de qualité que l’on souhaite promouvoir. Notons dans ce cadre que la méthode d’évaluation des enseignements par les étudiants est celle qui couvre le plus de critères de qualité et le plus d’objets d’évaluation.


2.5. Construction des outils d’évaluation

Lorsque, suite à une analyse des logiques, des niveaux et des objets d’évaluation, on a décidé de mettre en place une procédure d’évaluation des enseignements par les étudiants, la première question à se poser est de savoir le design que celle-ci va prendre. Une question essentielle est de savoir si on va opter pour un questionnaire unique ou pour un questionnaire adapté à chacun des cours. Un certain nombre d’arguments plaident pour l’une ou l’autre des situations.

• Le questionnaire unique : o Il permet des comparaisons longitudinales, puisque ce sont exactement les mêmes

questions qui sont posées chaque année.

o Il permet des comparaisons entre enseignements et/ou la constitution d’une norme. Il faut toutefois être très prudent : il n’est pas raisonnable de comparer des cours prenant place dans des contextes différents.

o Il permet une régulation collective, par exemple au niveau d’un département. En effet, chacun ayant eu les mêmes questions, les points forts et faibles du département peuvent être mis en lumière et des régulations collectives s’effectuer.

o On peut utiliser des questionnaires standardisés et validés par la littérature. Par exemple, le Student Evaluation of Educational Quality (SEEQ), créé et révisé par Marsh (1982a, 1984, 1987) pour évaluer 9 facteurs ou dimensions de l’enseignement en 35 items semble intéressant. A noter la méthode utilisée pour créer ce questionnaire : [1] Créer une banque d’items à partir de l’ensemble des questionnaires EEE existants [2] Faire évaluer leur importance par les enseignants et les étudiants [3] Demander aux enseignants s’il pourraient utiliser l’information provenant des feedbacks de ces items [4] Analyser les commentaires ouverts des étudiants pour voir si aucun critère ne manquait. Plus tard, Marsh et Dunkin (1992) ont mis en évidence la qualité psychométrique du SEEQ.

o Il est sans doute plus praticable, puisqu’il permet plus facilement l’utilisation de matériel de passation de questionnaire et de traitement standardisé (Lecture optique de marques, automatisation des rapports,….

o Il permet de valider a priori la fidélité du questionnaire à l’aide de traitements statistiques comme l’alpha de Cronbach.

• Le questionnaire adapté à chacun des courso Il permet de cibler le questionnaire sur les aspects que l’enseignant juge

important. Grâce à cela, il peut être très sensible et très diagnostique.o Il peut s’adapter aux méthodes pédagogiques utilisées dans l’enseignement.o Il permet aux enseignants d’être partie prenante très tôt, dès la constitution du

questionnaire dans le dispositif EEE et donc, d’une certaine manière, de pouvoir mieux se l’approprier.

Une fois choisi le design de l’EEE, il faut se pencher sur la construction des questionnaires. Bernard (2002) donne quelques lignes directrices pour la constitution de ceux-ci. Au niveau de la constitution des items, elle préconise de [1] respecter les facteurs d’efficacité de l’enseignement reconnus par la recherche; [2] être clair et sans équivoque ; [3] être affirmatif; et [4] être descriptif et impersonnel. En terme d’échelle, elle préconise [1] d’être objective; [2]


de ne pas comporter de point neutre; [3] de comprendre le point «sans objet»; [4] d’être explicite; [5] d’être de longueur raisonnable; [6] d’être appropriée au type d’énoncé; [7] d’être identique tout au long du questionnaire.

En général, les questionnaires d’EEE contiennent également une partie ouverte. Plutôt que la laconique case « commentaires », Lewis (2001) propose d’utiliser les questions suivantes :

• Qu’est ce qui vous a aidé dans vos apprentissages lors du cours ?• Qu’est ce qui vous a perturbé dans vos apprentissages lors du cours ?• Quelles suggestions de changement pouvez-vous faire qui amélioreraient votre

apprentissage en classe ?

La taille des questionnaires est également un facteur important à prendre en compte. L’enjeu sera de concevoir un questionnaire suffisamment long pour être valide, sensible et diagnostique. Mais un questionnaire trop long risque de poser des problèmes en terme de praticabilité, de voir un taux de réponses insuffisant, ou de voir un manque de concentration des étudiants. Un juste équilibre, en fonction des objectifs poursuivis et des moyens disponibles devra être trouvé.

En marge de la construction du questionnaire, il est utile de prévoir un protocole de passation du test. Nous y reviendrons dans le chapitre portant sur la communication.

Une fois le ou les questionnaires créés, il sera nécessaire de le ou les prétester. Cette phase de prétest a plusieurs fonctions et vise principalement à augmenter la fidélité, la validité et la praticabilité du questionnaire (Oppenheim, 1992 ; Morrison, 1993 ; Wilson et MC Lean, 1994). Au cours de cette phase, chaque questionnaire sera présenté à un échantillon de répondants. Les objectifs de ce prétest peuvent être les suivants (Cohen, Manion, Morrison, 2007).

• Vérifier que les items du questionnaire, les instructions et le protocole soient clairs.• Obtenir des feedbacks sur la validité du questionnaire.• Eliminer les mots ambigus ou complexes.• Vérifier la lisibilité du questionnaire.• Vérifier la pertinence du type de questions et de son format (échelles utilisées, …).• Utiliser les réponses ouvertes pour éventuellement proposer de nouvelles questions

fermées.• Identifier les omissions, repérer les items redondants.• Obtenir des informations sur l’intérêt porté au questionnaire par les répondants.• Vérifier le temps de passation.• Vérifier les caractéristiques du questionnaire (motivant, intrusif, polémique, …).• Tester le système de codage ou de classification pour les questions ouvertes.

2.6. Mise en œuvre du/des questionnaires

L’administration du questionnaire pose plusieurs questions. Si à ce stade du développement, les répondants cibles ont déjà été identifiés, il faudra déterminer notamment le niveau de contraintes imposé aux répondants ainsi que le mode de passation des questionnaires.

2.6.1. Le niveau de contraintes imposé aux étudiants

Le taux de réponses des étudiants est une variable clé du dispositif. Un taux de réponses trop faible poserait des problèmes évidents en terme de représentativité et de fiabilité des données.


Pour éviter ce biais, certains praticiens rendent l’opération d’évaluation obligatoire. Si cette méthode permet d’accroître considérablement le taux de réponses (on passe ainsi, selon notre pratique d’une quarantaine de pour-cent à environ 80 % de taux de réponses), cette méthode présente une lacune évidente. Elle se base sur le postulat que les étudiants ne répondent pas à l’EEE par négligence, par manque de temps, ou par oubli et que les contraindre résoudra cette situation. Or, certains étudiants ne répondent pas car ils doutent de l’intérêt de la procédure, ont des craintes quant à l’anonymat des données, pensent que les résultats ne seront jamais traités, ou éprouvent un manque d’intérêt total pour l’EEE. Ainsi, dans une des facultés de notre université où l’EEE avait été rendue obligatoire, nous avons vu des étudiants répondre en quelques secondes à des questionnaires, sans même lire les questions, de manière à strictement se conformer à leurs obligations. Il va sans dire l’impact qu’avait ce comportement sur la qualité des mesures effectuées. Nous avons résolu partiellement ce problème grâce à la création du logiciel « electronic Network for Global Evaluation of Learner’s Satisfaction – e-NGELS » qui permet notamment d’évaluer les enseignements en ligne. En effet, lorsque l’EEE est obligatoire, les étudiants sont tenus de se connecter sur la page permettant d’évaluer l’un de leur cours, mais toutes les questions sont par défaut sur l’option « sans avis ». Ceux qui n’ont pas envie de répondre peuvent alors valider le questionnaire en un simple clic, sans que les données ainsi récoltées ne soient biaisées.

Cependant, le meilleur moyen d’obtenir un taux de réponses élevé est de donner aux étudiants la culture de l’évaluation, notamment en les tenant informés de chacune des décisions prises dans le cadre de la mise en œuvre du cycle de construction et gestion qualité des EEE. Plus particulièrement, un feedback à l’attention des étudiants, montrant un résumé des données récoltées et précisant les décisions de régulation prises sur base de celles-ci, est un levier puissant pour assurer, l’année suivante, un taux de réponses intéressant.

2.6.2. Le mode de passation des questionnaires

Dans notre université, deux modes de passation ont été testés au fil des années. Il s’agit de la passation papier/crayon et la passation informatisée. Vous en trouverez la liste des avantages et des inconvénients dans les lignes qui suivent.

• La qualité du mode de passation papier/crayon dépend très fort du moment de la passation. Dans notre université, nous avons parfois distribué les questionnaires à la fin d’un cours, organisé une demi-journée portant sur l’évaluation ou encore, avons envoyé les questionnaires sous pli postal.

o Le questionnaire rempli à la fin du cours est le moyen qui assure le meilleur taux de réponses. La plupart des étudiants sont présents et cette activité est, à leurs yeux, liée aux obligations du cours. Par ailleurs, cela laisse la possibilité aux autorités de faire une introduction sur l’importance de l’EEE dans l’institution. Il existe, par contre, plusieurs inconvénients. Le premier est que cette méthode ne permet pas de recueillir l’information auprès des étudiants absents au cours. Or, justement, leur absence est parfois liée à la qualité insuffisante (à leurs yeux) du cours. Deuxièmement, le questionnaire est distribué et parfois repris en présence du titulaire du cours, ce qui entraîne des biais (voir chapitre 1.1.3.). Troisièmement, les étudiants en présence de leur pairs, et parfois sur leur regard scrutateur, et il est possible que l’évaluation ne soit plus strictement individuelle, mais se conforme à la désirabilité sociale. Enfin, cette solution peut manquer de praticabilité puisque la collecte d’information se fait à divers moments, parfois par diverses personnes.


o Le questionnaire rempli lors d’une demi-journée portant sur l’évaluation à l‘avantage d’institutionnaliser la procédure d’évaluation puisqu’une demi-journée, dans le calendrier académique lui est consacrée. Elle est de plus très praticable : il suffit de bloquer une demi-journée pour cela, sans « rogner » sur les horaires de cours, ce qui peut chagriner certains enseignants. Le gestionnaire EEE peut faire un discours global sur l’intérêt de l’EEE. En terme d’inconvénient, il est parfois difficile d’avoir un taux de participation élevé, puisque la passation doit idéalement avoir lieu entre le dernier cours et les examens, c'est-à-dire à une période ou les étudiants sont très concentrés sur leur période de bloque. Pour pallier à ce lien, cette journée est parfois organisée en octobre de l’année suivante. Dans ce cas, cependant, on ne recueille que l’information des étudiants qui ont réussi, ce qui biaise considérablement les résultats. Enfin, les biais liés à la désirabilité sociale sont présents lors de ce mode de passation.

o La passation par envoi postal. Elle a comme avantage que les étudiants répondent individuellement au questionnaire au moment où ils le souhaitent. Elle présente cependant certains désavantages : [1] Il n’est pas sûr que les étudiants reçoivent l’information. En effet, certains sont domiciliés à un endroit où ils n’habitent pas de fait [2] Elle est relativement coûteuse, en envoi et en dépouillement [3] Elle ne permet pas de discours du gestionnaire des EEE [4] Elle nécessite, si l’on veut atteindre un taux de réponses favorable, une lettre de rappel.

• La qualité de la passation électronique dépend du logiciel utilisé. Outre le taux de réponses inférieur à un tel questionnaire par rapport à son homologue papier-crayon (Rege Colet, 2002), Carini (2003) souligne que les réponses mènent à une évaluation légèrement plus favorable dans le cas de l’enquête électronique. Pour sa part, Sax (2003) a prouvé que les réponses à un questionnaire en ligne pouvaient s’avérer très différentes de celles données à un formulaire similaire papier-crayon en fonction de l’ethnie d’origine du répondant. Dans ses travaux, si la modalité de questionnement avait peu d’impact sur les individus de races blanche, noire ou latino-américaine, elle en avait un non-négligeable sur les individus asiatiques et indiens, selon lui moins habitués culturellement à l’utilisation de nouvelles technologies. Ces critiques sont fondées. Toutefois si l’on en tient compte et que l’on met en place des techniques pour les surpasser, l’EEE via formulaire électronique présente de nombreux avantages. Le plus important est probablement la praticabilité qu’offre ce type de passation (Parchemal et Ycart, 2002 ; Younes 2005). Outre cet aspect, certains logiciels permettent d’augmenter la qualité de la méthode EEE. Ainsi, voici certaines caractéristiques du logiciel e-NGELS qui est en phase avec certains conseils prodigués dans la littérature.

o Une représentation fréquente (Ory, 2001) des enseignements est que les étudiants évaluent moins durement les cours qu’ils ont réussis. La littérature nous enseigne que cette représentation est nuancée et que ce n’est pas le score obtenu qui influence les résultats, mais bien l’anticipation de celui-ci par les étudiants. En effet, les étudiants qui s’attendent à recevoir ou reçoivent une note élevée à l’examen évaluent l’enseignement de manière plus favorable que ceux qui s’attendent à recevoir ou reçoivent une note peu élevée (Abrami et al, 1980; Feldman, 1976; Marsh, 1987).

Ceci peut entraîner l’adoption par les enseignants d’une stratégie qui consiste à diminuer leurs exigences afin de s’assurer une évaluation positive. Pour enrayer cette stratégie, le logiciel e-NGELS autorise l’utilisation de trois formulaires (à


savoir le questionnaire d’évaluation des cours, d’évaluation des examens et d’évaluation des TP/cliniques/labo) à remplir à des moments différents. Le questionnaire d’évaluation des cours et celui d’évaluation des TP/cliniques/labo étant présentés aux étudiants avant l’examen, à un moment où les étudiants ne risquent pas d’être influencés par leurs performances lors de l’épreuve certificative.

o D’autres études mettent en évidence que les évaluations signées sont plus favorables aux enseignants que les évaluations anonymes (ex. : Spool et Rabinowitz, 1977). Afin de laisser les étudiants s’exprimer en toute liberté, et ainsi améliorer les aspects de fidélité de l’évaluation, nous avons conçu notre système de manière à ce que les réponses données par un étudiant soient intégrées au système de manière anonyme, même si le logiciel peut à tout moment nous dire qui a déjà évalué un enseignement.

o Notre méthode prend également en compte les travaux de Bernard (1992) qui propose des règles relatives à la formulation des items et à la constitution d’échelles de réponses. Le logiciel e-NGELS tient compte de l’ensemble de ces règles

o Un certain nombre de variables influencent également les résultats obtenus par les enseignants. Ainsi, certaines caractéristiques de l’auditoire, comme le pourcentage de chacun des genres (ex. : Basow, 1995 et 1998) ou encore le cycle d’études dans lequel prend place l’enseignement (Bausell et Bausell, 1979; Feldman 1978), peuvent influencer les résultats. Il nous semble dès lors pertinent d’effectuer une évaluation comparative où le score de l’enseignement d’un professeur est présenté en parallèle des résultats de ses pairs partageant le même auditoire, à savoir la même année d’études et la même section. Ce type de feedback est géré par e-NGELS.

o Il est fondamental de démontrer aux étudiants que leurs réponses sont prises en compte et traitées (Thivierge et Bernard, 1996). Le fait de pouvoir traiter des feedbacks généraux au sein des conseils des études (organe qui comprend des étudiants élus) sans néanmoins lever l’anonymat des évaluations a été un premier pas vers la communicabilité en direction des étudiants. Le logiciel e-NGELS permet à tous les étudiants de recevoir un feedback de ce type.

2.7. Traitements et jugements

2 .7.1. Les données quantitatives

Les données peuvent être présentées de différentes manières. En général, les rapports contiennent des données descriptives (distribution de fréquences, moyenne, déviation standard,…) pour chaque item du questionnaire. Parfois, des données comparatives sont fournies. Par exemple, certains feedbacks spécifient si le résultat de l’enseignant est significativement différent de la norme du groupe. A l’université de liège, nous présentons les résultats de manière très visuelle. L’enseignant voit la moyenne qu’il a obtenue pour chacun des items. Il voit aussi comment il se situe par rapport à ses pairs :


La simplicité d’analyse des résultats est une variable importante pour assurer une bonne utilisation de ceux-ci. En effet, Abrami ( 2001) nous dit qu’il y a une large variabilité dans la manière dont les résultats de l’EEE sont interprétés par les commissions de promotion. Il signale que parfois, les résultats sont utilisés de façon abusive, par exemple en classant les enseignants au dixième de point. Dans d’autres cas, ces commissions n’examinent même pas les résultats. Theall et Franklin (2001) partagent cette analyse, à tel point qu’ils se demandent si le débat sur la validité de l’EEE n’occulte pas un débat plus déterminant sur l’utilisation des résultats. Damron, 1996 (cité par Emery et al. (2003) disait à ce propos que même si les procédures EEE avaient un taux de validité suffisant, il n’y a aucune garantie que l’interprétation des données soit valide, consistante, raisonnable et cohérente. Déjà en 1990, Franklin et Theall écrivaient que le problème d’utilisateurs incompétents, prenant des décisions sur des interprétations invalides ou ambiguës, devait être analysé. En 1989, ces mêmes auteurs (Franklin et Theall, 1989), suite à une recherche portant sur plusieurs institutions, avaient noté que plus de la moitié de leurs collègues ne savaient pas répondre à des questions de base sur les indicateurs qui leur étaient fournis. Ils précisent, en 1990, que trois types d’erreurs sont fréquentes. La première est l’interprétation de données imparfaites, présentant des biais, par exemple suite à un trop faible taux de réponses. La deuxième est le jugement portant sur des données fiables, mais sans la prise en compte des théories statistiques. Par exemple, on peut privilégier un enseignant vis-à-vis d’un autre alors que la différence entre leur score n’est pas statistiquement significative. Dans la troisième, les données sont fiables, le jugement tient compte des théories statistiques, mais il y a des erreurs dans l’interprétation d’éventuelles différences significatives. Par exemple, ils n’en tiennent pas compte car d’après leur propre jugement, un item donné n’est finalement pas si intéressant…). Abrami, 2001, propose une procédure statistique complexe pour faciliter la prise de décisions des commissions de nominations ou de promotions. Celle-ci se base sur un seul score pour l’ensemble des cours donnés par l’enseignant (soit la moyenne pondérée des scores à chacun des items, pour chacun des cours, soit une moyenne d’un item global de satisfaction) qui est la meilleure méthode à utiliser (Abrami, d’Appolonia et Rosenfield (1996). Ils précisent que dans le cadre d’une évaluation normative, cela n’a pas de sens. Cette procédure a été sévèrement questionnée (Theall, 2001). L’argument principal est que l’EEE est une mesure imparfaite d’un domaine encore mal défini (qualité de l’enseignement) et que lui donner une mesure trop précise risque de générer une représentation de fausse certitude.


We must be careful to keep in mind that teaching is not purely a science. It’s a complex, multidimensional, dynamic process that defies perfect description. When we attempt to measure the quality of teaching, we must use all the available tools and we must know what we are looking for and what we value. We, in the field of faculty evaluation must continue to stress and argue for improvement of overall practice. This means better theory, better research, and better measurement as we strive for the most accurate an most interpretable data that we gather and present to decision makers (Theall, 2001).

2.7.2. Les données qualitatives

La plupart des questionnaires d’EEE contiennent au moins une question ouverte ou l’étudiant est libre de commenter le cours. Bernard et al. (2000) a mis en évidence que plus de la moitié des enseignants considéraient que ces commentaires sont une source intéressante de suggestion. Nous verrons, lors du chapitre 2.10 « Information/formation » une méthode pour permettre aux étudiants de donner un avis utile à l’enseignant. Lewis (2001) écrit toutefois qu’une des choses les plus difficile lorsqu’un enseignant reçoit son feedback est d’interpréter ce que les étudiants ont voulu exprimer, tant ceux-ci peuvent être contradictoires. Il pense que cela est dû au fait qu’il n’y a aucune structure logique dans les commentaires qui sont, la plupart du temps, une suite d’avis désordonnés. Il préconise qu’au niveau du traitement, les commentaires soient classés dans une matrice à deux dimensions.

La première dimension est le niveau de satisfaction global de l’étudiant qui a exprimé son avis. Ainsi, une critique qui peut paraître sévère peut être ressentie différemment si elle est formulée par un étudiant qui a apprécié le cours ou par un étudiant qui l’a détesté.

La seconde dimension est axée sur l’objet du cours sur lequel portent les remarques. Il préconise d’utiliser les dimensions suivantes : commentaires portant sur la matière, y compris son évaluation, commentaires portant sur l’organisation et la clarté du cours, commentaires sur l’interaction entre l’enseignant et le groupe ou l’étudiant, commentaires sur le dynamisme et l’enthousiasme de l’enseignant. Il préconise toutefois qu’un enseignant peut créer sa propre classification en fonction de ses besoins.

Pour lui, les commentaires prendraient donc place dans une matrice à double entrée qui ressemblerait à celle-ci (Lewis, 2001).


2.8. Décisions de régulation

Cette étape est cruciale. L’ensemble de ce cycle et du dispositif mis en place a pour objectif que cette étape se déroule dans les meilleures conditions possibles. C’est la finalité de l’opération. Cette étape est dépendante des décisions prises à l’étape 2.3.1. « Les niveaux de l’évaluation ». Ainsi, en fonction des niveaux, les décisions de régulation sont soit dans les mains de l’enseignant, ou d’un groupe d’enseignants (par exemple au niveau d’une section, ou d’une commission d’évaluation). Le dispositif EEE doit prendre en compte et favoriser la régulation. Il serait illusoire de croire à un effet mécanique dans lequel le recueil d’informations et le jugement impliqueraient automatiquement la régulation. En effet, comme le souligne Rege Colet (2005), le simple fait de mettre en place une ou plusieurs procédures d’évaluation ne suffit pas pour que le changement ait lieu et que l’on observe un développement durable et satisfaisant des prestations.

D’ailleurs, Desjardins et Bernard (2002) sont très défaitistes à ce sujet lorsqu’ils disent que « diverses études montrent qu’après trois décennies de mise en application, cette pratique n’a pas porté fruit et ce, malgré les conseils et stratégies proposés par les chercheurs les plus réputés dans le domaine ». Seldin (1993) n’est guerre plus optimiste lorsqu’il précise que l’évaluation n’a pas réussi à motiver les professeurs à améliorer leurs enseignements.

Dans la même veine, signalons l’enquête de Wright et O’Neil (1995), auprès des directions des différentes institutions universitaires canadiennes, américaines, australiennes et européennes sur les stratégies permettant l’amélioration de l’enseignement. Celles-ci démontrent que parmi 36 stratégies proposées, les deux plus efficaces sont la reconnaissance de l’enseignement dans les dossiers de promotion et le rôle des directeurs et des doyens face à l’importance de l’enseignement. Par ailleurs, le programme de monitorat à l’intention des nouveaux professeurs arrive au 5e rang, l’attribution de subventions aux professeurs désirant améliorer leur enseignement se positionne au 6e rang, suivi des ateliers de formation sur mesure, des prix d’excellence et de l’évaluation du matériel d’enseignement à des fins formatives. L’évaluation faite par les étudiants, à la fin de la session, se situe en 34e position, alors que l’évaluation en cours de session se classe au 21e rang.


McKeachie, en 1979, trouve même un effet négatif de l’EEE sur l’enseignement dû à une mauvaise utilisation des résultats.Pourtant, certains effets positifs ont été rapportés. Notre équipe a ainsi mis en évidence (Gilles, 2002 ; Gilles et al. 2007) comment la Faculté de Psychologie des Sciences de l’Education avait, sur base de l’EEE, régulé ces pratiques en terme de feedbacks après les examens.

D’autres études démontrent également l’efficacité de l’EEE. La plupart de ces résultats ont été obtenus à l’aide d’un protocole de recherche suivant : A la moitié du semestre, on rend un feedback EEE à la moitié des enseignants (groupe 1). Les autres n’en reçoivent pas (groupe contrôle). On observa alors les résultats à l’examen à la fin du semestre comparés aux résultats à une interrogation intermédiaire à la moitié du semestre. Marsh, Fleiner et Thomas (1975) ont mené une étude de ce type. Ils concluent qu’en rendant simplement les FB à mi-parcours, on influence très peu (mais positivement) les résultats à la fin. Cohen (1980) est en accord avec ces conclusions et montre dans sa méta-analyse portant sur 22 études que la corrélation est de .1.

Plus tard, Overall et Marsh (1979), toujours sur base du même dispositif, ont montré que si on donne le FB à mi-cours ET qu'on provoque une discussion sur la manière de s'améliorer, on améliore le score final des étudiants. Cohen (1980) montre qu’avec cette procédure la corrélation est de .3.

Les auteurs sont donc contradictoires quant à l’effet de l’EEE. Younes (2002) trouve même une variabilité des effets de l’EEE au sein même de sa propre institution. Cependant les études de Marsh sont très intéressantes parce qu’elles montrent qu’à feedback égal, l’impact est plus élevé lorsqu’il y a une discussion entre enseignants. Il y aurait donc des variables qui amélioreraient l’impact de l’EEE sur l’enseignement.

Quelles sont ces conditions ?

Une analyse de la littérature nous porte à considérer des variables sociales, institutionnelles et individuelles. 2.8.1. Les variables sociales

Fave-Bonnet (2005) met en relation le faible développement des activités d’évaluation des formations et des enseignements en France avec l’absence d’une véritable culture de l’évaluation définie comme « un consensus collectif sur les valeurs, les représentations et les pratiques d’évaluation ». Cette culture manque aussi bien au niveau national, qu’au niveau de l’établissement ou des acteurs. Or elle est indispensable pour la diffusion de l’évaluation. Par ailleurs, la recherche EVALUE (Dubois, 1998) a montré que les établissements d’enseignement supérieur dans lesquels l’évaluation est généralisée sont situés dans des pays où il existe une culture de l’évaluation à trois niveaux interdépendants (national, établissement, discipline).

2.8.2. Les variables institutionnelles

Paulsen et Feldman (1995) mettaient déjà en évidence la nécessité de mettre en place une culture universitaire qui soutient l’évaluation et les enseignements. Plus tard dans leur étude européenne, Gueissaz, Häyrinen-Alestalo, Fischer-Bluhm et Snell (1998, p. 173-174)6, mettent en évidence l’importance d’instituer des structures d’évaluation permanentes étant donné que

6 Cité par Younes (2002).Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


«L’évaluation est une construction à long terme, qui comporte une dimension stratégique. Elle ne peut avoir de sens que si elle s’inscrit dans un processus de planification, d’apprentissage et d’accumulation de l’expérience».Toujours selon les mêmes auteurs, les structures permanentes internes d’évaluation en relation étroite à la fois avec la présidence et avec les composantes de l’université semblent être efficaces.

À cet effet, le chapitre de Green (1990) propose des recommandations intéressantes à l’intention des administrateurs des institutions universitaires :

- faire de l’enseignement une priorité;- encourager et soutenir les professeurs;- superviser le changement;- injecter des sommes d’argent dans l’enseignement;- valoriser de façon significative l’excellence;- faire en sorte que l’enseignement devienne une responsabilité institutionnelle;- veiller à ce que l’enseignement fasse partie des critères d’engagement et de promotion.

Dans la même perspective que Green, Lucas (1990) insiste sur la valorisation de l’enseignement au sein des unités administratives, et certaines de ses recommandations sont dirigées vers les responsables de départements :

- faire de l’enseignement une priorité;- créer un climat de confiance et de soutien entre les professeurs;- valoriser l’excellence en enseignement;- placer l’enseignement à l’ordre du jour dans les réunions départementales;- échanger les plans de cours;- créer un comité sur l’enseignement;- utiliser les résultats des évaluations pour valoriser l’enseignement;- développer un système de monitorat.

2.8.2. Les variables Psychosociales

Fave Bonnet (2005) écrit que la culture universitaire dominante considère que l’accent doit essentiellement être mis, dans l’enseignement supérieur, sur la formation disciplinaire acquise dans et par la culture scientifique, contrairement à une autre conception dans laquelle il importe d’y ajouter une dimension pédagogique. Dans le modèle scientifique disciplinaire, il est considéré que l’enseignant est formé à la pédagogie à partir de la culture scientifique et technique acquise. Dans le modèle pédagogique, il est considéré que la diversité des méthodes pédagogiques, dont l’évaluation, et la prise en compte des caractéristiques de l’apprenant aussi bien sur le plan affectif que cognitif et social, sont à acquérir par des formations spécifiques.

Barbier (1990)7 évoque la résistance aux changements des enseignants du supérieur et invoque l’idée d’un espace idéologique construit autour de l’idée d’évaluation dont le pôle négatif serait organisé autour des notions de répression, de sélection, de sanction, de contrôle et dont le pôle positif serait organisé autour des notions de progrès, de changement, d’adaptation, de rationalisation. Ainsi, certains enseignants sont favorables à la formalisation de systèmes d’évaluation de l’enseignement par les étudiants, ils l’appliquent pour leurs cours alors que d’autres refusent la démarche et la dénigrent.

7 Cité par Younes, 2002.Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


Une étude sérieuse des représentations sociales des enseignants nous en apprendrait probablement plus à ce sujet.

2.8.3. Les variables individuelles

• Psycho-affective8

Certains concepts psychologiques comme le sentiment d’auto-efficacité (Bandura, 1977), l'attribution de l’effort (Weiner, 1986) et les prophéties auto-réalisatrices (Jones 1977) peut influer sur la manière dont un enseignant perçoit le feedback reçu. Par exemple, la notion de voir quelqu'un de moins qualifié porter un jugement sur le travail de quelqu'un de plus qualifié peut entraîner de l'anxiété et de la résistance. Boice (1992) a, par exemple, décrit l'attitude dépitée de jeunes enseignants qui malgré leurs efforts sont soumis à la critique des étudiants qui peut aller jusqu'à la mélancolie de l'enseignant (Machell 1989). Dans ce contexte, les jeunes enseignants peuvent rejeter la procédure.

• La motivationSi l’on se réfère à la théorie de la motivation de Viau (1997), on sait qu’un enseignant sera motivé à améliorer son enseignement si celui-ci présente pour lui une valeur, s’il se sent compétent pour mener à bien cette amélioration et s’il a le sentiment de contrôle sur le processus éducatif.

Sans vouloir être trop caricatural, on peut se poser la question de la valeur de l’enseignement pour un enseignant universitaire. En effet, celui-ci vit dans un univers professionnel ou il exerce plusieurs types d'activités en concurrence (recherche, enseignement, administration, ...). Et la culture dominante donne la primauté à la recherche dans les représentations collectives, que ce soit dans la vie quotidienne ou dans les recrutements et promotions (Dejean, 2006). Sachant de plus que la plupart des études démontrent que la qualité de l’enseignement n’est pas corrélée à la qualité de la recherche (Feldman, 1987), on peut se poser la question de la valeur réelle des activités d’enseignement pour les enseignants-chercheurs universitaires. Cette question est d’ailleurs au centre du discours de Dejean (2006) lorsqu’il écrit « un certain nombre d'enseignants pensent que ceux qui s'intéressent à la pédagogie sont mauvais sur le plan scientifique (…). S’engager dans l'enseignement, c'est dès lors dévaloriser son statut de chercheur».

La notion de compétence peut laisser, elle aussi, perplexe sachant que, dans le processus de sélection des enseignants universitaires en vigueur dans la plupart des pays européens, la recherche est toujours le critère dominant si pas le critère exclusif. Cet effet à l’engagement est assez peu contrebalancé par une formation après sélection car dans la plupart des pays européens, les enseignants universitaires ne sont pas tenus de suivre un cursus pédagogique avant d’enseigner.

Quant au contrôle exercé par les enseignants-chercheurs sur la qualité de leur enseignement, il s’inscrit dans un contexte de mutation de l’enseignement universitaire confronté à de nouveaux défis (Rege Colet et Romainville, 2006), tels la massification des étudiants, la demande sociale envers des diplômes professionnalisant, le contexte accru de le concurrence au niveau européen. Autant de défis et d’enjeux qui expliquent un contexte mouvant et émergent probablement peu propice à un sentiment de contrôle.

8 Cité par Theall et Franklin (2001).Evaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


Ainsi donc, dans le contexte de concurrence entre leurs diverses activités, certains enseignants universitaires ne seraient peut-être pas motivés à l’idée d’améliorer la qualité de leur enseignement et leur donner une information pertinente sur la qualité de leur enseignement serait un acte vide de sens à leurs yeux.2.9. Macro-Régulation

La procédure d’EEE est cyclique par définition puisqu’elle se reproduit d’un semestre à l’autre, d’une année à l’autre. Si l’on veut l’améliorer, il faut pouvoir prendre de l’information sur son efficacité réelle et déterminer quels éléments doivent être modifiés. Or cette prise d’information ne se fait pas de manière spontanée. Quand la régulation se fait par un ensemble d’enseignants et qu’elle prend place dans un contexte institutionnel, il peut parfois être possible de glaner quelques éléments d’informations à travers les P.V. de réunion. Quand la régulation est réalisée de manière individuelle, en général, aucune information n’est disponible. En effet, la sphère de l'enseignement est souvent reconnue comme privative par les enseignants (Dejean, 2006) qui nouent avec celui-ci un rapport presque intime. Même si Franklin (2001) conseille aux enseignants de rédiger un rapport sur les feedbacks EEE qu’ils ont reçus et y expriment les améliorations qu’ils ont apportées à leur enseignement, cette pratique est peu répandue. Il faudra donc recueillir cette information, par exemple sous forme de questionnaire. Cependant, demander aux enseignants s’ils ont régulé leur enseignement suite à l’EEE manque de sensibilité. C’est pourquoi nous nous proposons d’utiliser l’échelle d’attitude développée par Rege Colet (2005) sur base notamment des travaux de Towler (1998). Cette échelle comprend 8 niveaux qui se présentent comme suit :

Niveau Description Indicateurs0 Rien Aucune action1 Information Prend connaissance

desrésultats

Lit simplement le rapport

2 Analyse Examine les résultats

* Fait des liens entre les différents types et catégories de réponses* Etablit des liens entre les résultats et le contexte dans lequel s’est déroulé l’enseignement*Effectue des comparaisons avec les résultats des années passées

3 Partage Echange et discute desrésultats

* Fait un retour aux étudiants* Discute les résultats à l’intérieur de son équipe pédagogique* Discute les résultats avec un responsable de formation* Analyse les résultats avec un conseiller pédagogique

4 Régulation pédagogique

Modifie son enseignement

* Adapte le contenu de l’enseignement* Clarifie et explicite les objectifs* Change de méthode de travail, fait des innovations* Ajuste l’évaluation des apprentissages* Propose de nouveaux supports ou matériels didactiques* Sollicite davantage la participation des étudiants

5 Développementprofessionnel

Se forme dans le domainede l’enseignementuniversitaire

* Fait des lectures et des recherches* Demande une observation de son enseignement* Prend contact avec un conseiller pédagogique* Participe à des activités de formation* Demande un accompagnement pédagogique du cours

6 Valorisation Rend compte et promeut ses activités d’enseignement

* Tient un dossier sur l’évaluation des cours* Prépare un rapport d’activités d’enseignement* Valorise par des présentations ou des publications ses activités d’enseignement

7 Formation Soutient l’autre et développel’évaluation

* Aide ses collègues dans l’analyse et l’interprétation des résultats* Elabore des outils pour l’évaluation de l’enseignement* Conseille sur le développement pédagogique* Encourage la formation pédagogique de ses collaborateurs


8 EngagementMilitant

S’investit sur le planinstitutionnel

* Participe à la définition de la politique pour sa structure

Posée comme variable dépendante et récoltée systématiquement lors de chaque distribution de feedbacks, cette échelle d’attitude nous permettra d’analyser les variations dues à des modifications dans les modalités liées à l’EEE.

2. 10. Contextualisation - Acceptation

Tout au long du processus d’EEE, il faut constamment avoir à l’esprit que les résistances peuvent être nombreuses et empêcher le processus d’atteindre ses objectifs de régulation. La littérature montre que ces résistances peuvent être levées par une information ad hoc. Ainsi, Franklin et Theall (1989) ont démontré une corrélation positive entre le manque de connaissance sur le sujet et une attitude négative. Toutefois, pour bien communiquer, il est important de connaître les représentations des divers porteurs d’enjeux. Nous relevons 3 types d’acteurs impliqués : les étudiants, les enseignants et les administrateurs. Grâce notamment aux divers travaux de Bernard, nous connaissons leurs représentations.

2.10.1. Représentation des étudiants

Thivierge et Bernard (1996) ont réalisé une étude auprès de 391 étudiants de l’Université de Montréal pour explorer leurs perceptions de l’importance et de l’utilité de l’évaluation de l’enseignement ainsi que de sa valorisation institutionnelle. Younes (2002) résume cette recherche en disant que la grande majorité des sujets affirment s’acquitter sérieusement de la tâche d’évaluer l’enseignement, presque tous considèrent que c’est une tâche importante et apprécient de pouvoir s’exprimer sur la qualité de l’enseignement reçu. De plus, 95% considèrent que l’évaluation de l’enseignement ne peut se faire sans la contribution des étudiants, 96% jugent la démarche d’évaluation de l’enseignement comme très importante pour améliorer la qualité de l’enseignement à l’Université et 84% pensent qu’elle peut aider les professeurs à améliorer la qualité de leur enseignement.

Si 60% des étudiants interrogés estiment que la qualité de l’enseignement est une préoccupation importante pour les enseignants, 37% croient que les professeurs se soucient peu de la qualité de l’enseignement, plus de 40% croient qu’ils ne se donnent même pas la peine de lire les commentaires qu’ils font sur leurs cours et 58% croient que les évaluations faites par les étudiants n’influencent pas les pratiques d’enseignement des professeurs.

Enfin, 70% des sujets ne croient pas que les évaluations des professeurs faites par les étudiants sont prises en considération pour porter un jugement sur la qualité de l’enseignement et près de 80% ne croient pas que la direction de l’Université les prenne en considération pour la titularisation des enseignants.

L’analyse des commentaires exprimés à la fin du questionnaire montre que 45% de ces commentaires portent sur le manque de valorisation institutionnelle de l’évaluation de l’enseignement et de sa qualité. Près de 20% des commentaires se rapportent au contenu du questionnaire d’évaluation, en demandant des questions plus spécifiquement liées à la qualité et au type de l’enseignement. 17% des étudiants émettent le souhait d’être informés des résultats de l’évaluation et 10% proposent des évaluations à mi-session.


2.10.2. Représentation des enseignants

Bernard, Postiaux et Salcin (2000) ont creusé cette question. Pour cette étude, portant sur 393 sujets (217 professeurs et 176 chargés de cours), Une liste de 75 énoncés issus de la recension des écrits et de l’expérience des auteurs en ce domaine a été élaborée et présentée aux enseignants. Les auteurs classent ces affirmations en trois catégories. Les consensus, partagés par la majorité des enseignants, les sujets, les tendances, partagées par environ une moitié des étudiants et les sujets polémiques.

Après analyse, il se dégage les consensus suivants : • l’enseignement n’est pas une fonction trop complexe pour être évaluée;• toutes les catégories du personnel enseignant devraient être évaluées sans égard à leur

rang et à leur statut ;• les étudiants ne peuvent être l’unique source d’information consultée, • le professeur évalué doit pouvoir s’exprimer sur son enseignement ;• les excellents communicateurs reçoivent de meilleures évaluations; • l’institution devrait entreprendre des actions concrètes afin d’améliorer l’enseignement.

Les tendances sont les suivantes :• l’évaluation faite par les étudiants constitue une opération utile qui aide à identifier les

points forts et les aspects à améliorer de son enseignement ;• les commentaires des étudiants sont une source intéressante de suggestions même s’ils

peuvent constituer, dans certains cas, une occasion de défoulement ; • les résultats ne peuvent être accessibles uniquement au professeur, le directeur pourrait

les consulter en tout temps et un comité pourrait y avoir accès;• les collègues ne sont pas plus compétents que les étudiants pour juger de la qualité de

l’enseignement;• les professeurs qui sympathisent avec leurs étudiants et ceux qui leur donnent des notes

élevées obtiennent de meilleures résultats que les autres; • on juge que les directeurs n’ont pas la compétence nécessaire pour aider les professeurs

qui éprouvent des difficultés en enseignement et que les collègues ne sont pas davantage accessibles.

Enfin, concluons avec les sujets polémiques• les questionnaires sont-ils de bons moyens d’évaluation ? • les étudiants sont-ils compétents ?• les étudiants devraient-ils s’identifier ?• les diplômés sont-ils de meilleurs juges ?• les résultats devraient-ils être utilisés à des fins de promotion ?

2.10.3 Représentations des a dministrateurs

Outre l’étude déjà mentionnée que Wright et O’Neil (1995) ont menée et qui, après une enquête réalisée auprès des autorités universitaires, les a menés à la conclusion que les EEE étaient classées en trente-sixième position sur les trente-six mesures d’amélioration de l’enseignement proposées, Desjardins et Bernard (2002) ont approfondi les représentations qu’ont les administrateurs sur l’EEE. Voici leurs principales conclusions :


Les administrateurs pensent globalement que les enseignants ne sont pas insensibles à leurs feedbacks EEE. Environ la moitié d’entre eux croient que les enseignants les utilisent pour faire des ajustements relativement mineurs.

Septante pour cent des administrateurs affirment que, suite à leurs résultats, certains de leurs professeurs consultent des ressources spécialisées mais ils n'en connaissent pas le nombre. Vingt pour cent admettent que l'évaluation de l'enseignement a surtout pour effet de créer une pression sur les jeunes professeurs. La plupart reconnaissent cependant que le dossier de recherche pèse beaucoup plus lourd dans la promotion d'un professeur que celui de l'enseignement.

La plupart de ces représentations se basent sur des sentiments subjectifs plutôt que sur la réalité objective. Certaines, sont d’ailleurs contredites dans la recherche. Mettre en place une politique de communication efficace, basée sur des données fiables, permettra sans doute de diminuer certaines résistances inhérentes à certains de ces mythes.

2.11. Information/formation

L’EEE est un processus complexe, véhiculant de nombreuses représentations erronées, et demandant des aptitudes qui nécessitent une formation ou, à tout le moins, une information. Elle devra être complète et porter sur l’ensemble des étapes de la méthodologie utilisée. Il faudra être convaincant pour fédérer l’ensemble de l’institution dans une approche de type réflexif. Cette formation/information devrait être adressée aux étudiants d’une part, aux enseignants et administrateurs d’autre part.

2.11.1. Information/formation envers les étudiants

• Frey (1976) a montré que lorsqu’un administrateur fait un discours rappelant l’importance des EEE, les étudiants sont moins sévères dans leur évaluation. Une des explications à ce fait vient peut-être des théories de la psychologie cognitive. En effet, comme le psychologue prix Nobel Daniel Kahneman (2003) l’explique, il y a deux types de processus de la pensée humaine. Ce qu’il appelle le system 1 et le system 2. Le premier système implique une pensée rapide, automatique, dénuée d’efforts, associative, implicite et souvent chargée en émotion. Le deuxième système est plus lent, réflexif, coûteux en effort, plus conscient et plus sous contrôle. La plupart de nos jugements proviennent du système 1. Pourtant l’EEE serait plus valide si les jugements correspondaient aux caractéristiques du système 2. Nous faisons l’hypothèse que le discours conscientisant d’un administrateur peut faire en sorte que les étudiants passent du système 1 au système 2.

• Nous avons vu au chapitre 2.7.2. comment traiter les commentaires écrits des étudiants pour qu’ils prennent tout leur sens pour les enseignants. Svinicki (2001), constatant que les feedbacks étaient souvent vagues et frustrants pour les enseignants, préconise de motiver les étudiants à produire des feedbacks plus intéressants. Mais elle spécifie que ce n’est pas suffisant. Elle soutient qu’il faut les former à la rédaction de commentaires écrits. Elle trace ainsi les caractéristiques d’un bon feedback. Pour elle :

o Le feedback doit être spécifique et doit utiliser des exemples.o Le feedback doit porter sur des comportements observables, pas sur des

sentiments ou des impressions.


o Le feedback doit éviter des personnalisations ou des mots chargés émotionnellement.

o Le feedback doit exprimer l’effet que le comportement notifié a eu sur la personne qui a donné le feedback.

o Le feedback doit offrir des pistes de remédiation.o Le feedback doit porter sur les bonnes pratiques et sur les mauvaises pratiques.

Svinicki (2001) précise que donner un feedback de ce type est une performance complexe qui doit pouvoir être entraînée souvent. Elle préconise de demander aux étudiants d’écrire un feedback sur papier libre à la fin de chaque séance de cours. Elle précise toutefois qu’il faut que ce feedback soit traité rapidement et qu’une information soit faite en retour aux étudiants.

• Les étudiants ont souvent le sentiment que les résultats de l’EEE ne sont pas pris en compte par les enseignants. Quarante pour cent d’entre-eux pensent même que ces derniers ne se donnent pas la peine de lire leurs commentaires. Dans ces conditions, ils ont souvent du mal à se motiver pour passer du temps à remplir les formulaires, et lorsqu’ils le font, il considèrent cela comme étant plutôt une obligation à caractère administratif. Or, il y a des enjeux importants à ce qu’ils se considèrent comme des vecteurs de changement et d’amélioration, en tout cas si l’on souhaite récolter des feedbacks sensibles et diagnostiques, notamment dans les questions ouvertes. Les feedbacks aux étudiants peuvent être donnés à plusieurs niveaux. Notre institution prévoit l’organisation d’un événement collectif au cours duquel un retour est effectué auprès des étudiants. Afin de ne pas lever l’anonymat des résultats, auquel tiennent énormément certains enseignants, le retour se fait sur la moyenne obtenue par la section ou le département sur chacun des items. Des décisions de régulation sont, à cette occasion, communiquées aux étudiants. Lewis (2001) préconise que chaque enseignant organise un retour auprès de ses propres étudiants, en tout cas dans l’hypothèse ou l’évaluation a lieu à la moitié du semestre. Pour lui, il faut signifier aux étudiants ce qu’il a appris à partir des informations communiquées à travers l’EEE et ce qu’il a amélioré sur cette base en terme d’enseignement. On peut également imaginer qu’un dossier soit complété par l’enseignant (Franklin, 2001) comprenant les éléments de l’EEE qui ont du sens pour lui et exprimant la manière dont il les prendra en compte dans sa pratique professionnelle. Une diffusion de ce dossier pourrait s’apparenter à un premier pas vers le scholarship of teaching (Boyer, 1990).

2.11.1. Information/formation envers les enseignants

• Franklin et Theall (1989) ont mis en évidences le fait que la moitié des enseignants étaient incapables d’interpréter correctement et avec certitude les feedbacks qu’ils recevaient. Il semble donc important de former les enseignants dans ce domaine.

• Une fois les feedbacks interprétés et les décisions de régulation prises, encore faut-il passer à l’action et améliorer son enseignement. Parfois, les enseignants sont démunis car il ne trouvent pas le support dont ils ont besoin dans leur institution. Par exemple, Bernard et Bourque (1999) ont mis en évidence le peu de lien qui était fait entre politique EEE et politique de formation continuée au Canada. Il semble opportun de renforcer ce lien et de communiquer aux enseignants les divers supports dont ils peuvent bénéficier pour mettre en œuvre les modifications qu’ils souhaitent apporter à leur enseignement.

2.11. PlanificationEvaluation des enseignements : de la contrainte administrative à l'amélioration des pratiques


Etablir un calendrier prévisionnel est un élément important pour garder le cap dans des procédures longues et complexes comme l’évaluation des enseignements. Comme le souligne Gueissaz et al. (1998), l’évaluation est une construction à long terme, qui comporte une dimension stratégique. Elle ne peut avoir de sens que si elle s’inscrit dans un processus de planification, d’apprentissage et d’accumulation de l’expérience.

Nous pensons que cette planification doit porter sur 2 aspects. Le premier est lié à la construction et la gestion qualité de l’EEE. Mettre en œuvre l’ensemble des étapes du cycle peut prendre un certain temps. Les dossiers peuvent avancer lentement à certains moments. Le dialogue collaboratif entre tous les porteurs d’enjeux est un élément déterminant de la bonne réussite du dispositif. Selon les cas, un tel dialogue peut être plus ou moins long, surtout sur un sujet aussi polémique et porteur de sens que l’évaluation. D’autant plus que la culture de la régulation des enseignements peut paraître anachronique dans nos universités. En effet, comme le souligne Felouzis (2003), la régulation du travail universitaire est une régulation par la recherche. Il qualifie l’université d’institution faible incapable d’imposer une action normative du point de vue des activités pédagogiques. Ainsi, la faible régulation des activités pédagogiques à l’université se traduirait par une faible mobilisation des universitaires sur les questions pédagogiques ou, en tout cas, la renvoie à des configurations locales plus ou moins aléatoires…. En tout cas jusqu'à ce que l’institution impose une évaluation de ces activités pédagogiques.

Ce processus est donc long et semé d’embûches. Il sera nécessaire de le planifier au préalable dans le temps afin de ne pas perdre le cap.

Le deuxième élément de planification est l’EEE, elle-même. Quand va-t-on évaluer les enseignements et avec quelle fréquence ? Tous les enseignements vont-il être évalués tous les ans ? A chacune des leçons, au milieu du semestre ou à la fin de l’année ? Va-t-on imposer une évaluation à tous ou va-t-on travailler sur base volontaire ? Va-t-on fixer un calendrier de base pour l’ensemble de l’institution ou va-t-on négocier avec chaque enseignant ou chaque département, au coup par coup, les dates de l’EEE ? Autant de questions qu’il faudra trancher car l’évaluation doit instrumenter un processus réflexif continu au sein de l’institution.

2.12. Micro régulation

Les huit premières étapes développées semblent être linéaires et s’enchaîner en une suite logique. Dans la réalité, il n’en va toutefois pas de même. Les mouvements de va et vient entre les différentes étapes ne sont pas rares et sont même parfois souhaitables : il n’est jamais trop tard pour avoir de bonnes idées. Toutefois, il faudra être attentif à ce que les retours en arrière ne soient pas trop nombreux, pour ne pas ralentir inutilement le processus. Il faudra aussi être particulièrement attentif à ce que les propositions soient toujours bienveillantes : Seldin (1993) affirme que certains groupes de professeurs provoquent volontairement l’échec du système d’évaluation.

Conclusion

Donner un feedback diagnostique, sensible, fidèle et valide aux enseignants concernant la qualité de leur enseignement constituerait le premier moment d'une dynamique de régulation ayant pour fin de procéder à des ajustements (guidance), par utilisation adéquate de l'information en retour


(feedback)... pour se rapprocher d’un fonctionnement optimal (Allal, 1988). Ainsi, l’EEE serait la porte d’entrée vers une pratique réflexive menant à la qualité. Les enjeux sont donc de poids.

Les risques de dérive existent toutefois. Ainsi, Dejean (2006) relève la crainte de certains enseignants de se voir attribuer individuellement, par l'évaluation des enseignements, la responsabilité d'insuffisances ou de dysfonctionnements collectifs. Kulik (2001) nous apprend que les enseignants expriment des craintes sur le fait que les étudiants transforment une évaluation institutionnelle des enseignements en une critique de la personnalité des enseignants.

Les enseignants sont donc conscients de certaines dérives possibles et expriment une certaine méfiance vis-à-vis du système. Ainsi, pour Potocki (1998), les réticences à l’évaluation de l’enseignement restent nombreuses et entraînent un désintérêt à son égard tant de la part des enseignants que des étudiants.

Par ailleurs, l’évaluation de la qualité du travail d’un enseignant engage tout son être. Certains enseignants vivent d’ailleurs ce processus d’évaluation avec émotion. Emery (2003) relate d’ailleurs que l’EEE peut être démoralisante pour les enseignants. En ce qui le concerne, Boice (1992) décrit l'attitude mélancolique de jeunes enseignants qui, malgré leurs efforts, sont soumis à la critique des étudiants.

Il serait dommage que par des biais liés à la méthode utilisée des effets pervers se manifeste. Ory et Ryan (2001) dressent d’ailleurs un inventaire de ces éventuels effets pervers.

• Les instructeurs altèrent leur enseignement pour obtenir de meilleurs scores (diminution des exigences, …).

• L’université récompense des enseignements faibles.• Les universités n’utilisent que cette méthode pour évaluer les enseignements d’un point

de vue administratif.• Le contenu des formulaires d’EEE détermine ce qui DOIT être fait en classe, sans

réflexion de l’enseignement.• Les étudiants évaluent favorablement les enseignements les plus pauvres en espérant

avoir, en retour, de meilleurs points à l’examen.• Les données EEE seules servent à discriminer les enseignants alors que leur qualité

métrique ne le permet pas.• L’EEE devient une procédure administrative sans sens, ni pour les enseignants, ni pour les

étudiants.

Pourtant la fidélité de l’EEE a été prouvée sans ambiguïté par la recherche scientifique (Feldman, 1977 ; Marsh 1987 ; Murray, Rushton et Paunonen, 1990). La validité de la méthode est encore en question, mais la plupart des études sur le sujet concluent à une validité suffisante, sous certaines conditions, dans le cadre d’une évaluation visant une régulation pédagogique des enseignements.

Ces conditions ont été longuement développées dans cet article et une méthode, le cycle de construction et gestion qualité des EEE, a été proposée. Celle-ci se base sur notre propre expérience et trouve une certaine validation à travers la littérature. Elle reste toutefois à valider scientifiquement. Nous sommes toutefois convaincus qu’à travers celle-ci et le dialogue collaboratif qui la sous-tend, les procédures d’EEE gagneront en qualité.


Bibliographie

Abrami, P. C. (2001). Improving judgements about teaching effectiveness using teacher ratings forms. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate : Are they valid ? how can we best use them (pp. 59-87). San Francisco: Jossey Bass.

Abrami, P. C., d'Apollonia, S., & Cohen, P. A. (1990). Validity of student ratings of instruction: What we know and what we do not. Journal of Educational Psychology, 82, 219-231.

Abrami, P. C., Dickens, W. J., Perry, R. P., & Leventhal, L. (1980). Do teacher standards for assigning grades affect student evaluations of instruction? Journal of Educational Psychology, 72, 107-118.

Abrami, P. C., Leventhal, L., & Perry, R. P. (1982). Educational seduction. Review of Educational Research, 52, 446-464.

Albanese, M. A., & Mitchell, S. (1993). Problem based learning : A review of littérature on its outcomes and implementation issues. Academic Medicine, 68(1), 52-81.

Aleamoni, L. M. (1989). Typical faculty concerns about evauation of theaching. In L. M. Aleamoni (Ed.), Techniques for evaluating and improving instruction (). San Francisco: Jossey Bass.

Aleamoni, L. M. (1987). Student rating myths versus research facts. Journal of Personnel Evaluation in Education, 1(1)

Aleamoni, L. M. (1987). Typical faculty concerns about student evaluation of teaching. In L. M. Aleamoni (Ed.), Techniques for evaluation and improving instruction (). San Francisco: Jossey-Bass.

Aleamoni, L. M., & Graham, N. H. (1974). The relationship between CEQ rtings and instructor's rank, class size, and course level. journal of educational measurement, 11, 189-201.

Aleamoni, L. M., & Hexner, P. Z. (1980). A review of the research on student evaluation and a report on the effect of different sets of instructions on student course and instructor evaluation. Instructional Science, I(9), 67-84.

Allal, L. (1988). Processus de régulation interactive, rétroactive et proactive. In M. Huberman (Ed.), Assurer la réussite des apprentissages scolaire. les propositions de la pédagogie de maîtrise (pp. 86-126). Paris: Delachaux et Niestlé.

Altet, M. (2004). Enseigner en premier cycle universitaire : Des formes émergentes d'adaptation ou de la "metis" enseignante. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur : Enseigner, apprendre, évaluer (pp. 37-52)l'harmattan.

Ambady, N., & Rosenthal, R. (1992). Half a minute: Predicting teacher evaluations from thin slices of nonverbal behavior and physical attractiveness. journal of Personality and Social Psychology, 64, 431-441.

Anderson, E. Campus use of the teaching portfolio: Twenty-five profiles. Washington, D.C.: American Association for Higher Education.

Argulewiz, E., & O'Keefe, T. (1978). An investigation of signed versus anonymously completed ratings of high school student teachers. Educational Research Journal, 3, 39-44.

Arreola, R. A. (1994). Developing a comprehensive faculty evaluation system: A handbook for college faculty and administrators on designing and operating a comprehensive faculty evaluation system. Boston: Anker Publishing Co.

Bandura, A. Self-efficacity : Towards a unifiying theory of behavioral change. Psychological Review, 84, 191-215.

Barbier, J. M. (1990). L’évaluation en formation (2ème édition ed.). Paris: Presse Universitaire de France.

Basow, S. A. (1998). Student evaluations: The role of gender bias and teaching styles. In L. H. Collins, J. C. Chrisler & K. Quina (Eds.), Career strategies for women in academia: Arming athena (pp. 135-156)Thousand Oaks, CA: Sage Pub.


Basow, S. A. (1995). Student evaluations of college professors: When gender matters. Journal of Educational Psychology, 87(4), 656-665.

Bausell, R. B., & Bausell, C. R. (1979). Student rating and various instructional variables from a within-intructor perspective. Research in Higher Education, 11, 167-177.

Bennett, S. K. (1982). Student perceptions of and expectations for male and female instructors: Evidence relating to the question of gender bias in teaching evaluation. Journal of Educational Psychology, 74(2), 170-179.

Bennett, S. K. Student perceptions of and expectations for male and female instructors: Evidence relating to the question of gender bias in teaching evaluation. Journal of Educational Psychology, 74(2), 170-179.

Berkson, L. (1993). Problem-based learning : Have the expectations been met ? Academic Medicine, 68, 579-588.

Bernard, H. (1992). Processus d’évaluation de l’enseignement supérieur. Théorie et pratique (Éditions Études vivantes ed.). Laval:

Bernard, H., & Bourque, S. (1999). Portrait des politiques et pratiques d’évaluation, d’amélioration et de valorisation de l’enseignement des universités québécoises. Res Acamedica, 1(2), 33-60.

Bernard, H., Postiaux, N., & Salcin, A. (2000). Les paradoxes de l'évaluation de l'enseignement universitaire. Revue des sciences de l'éducation, XXVI(3), 625-650.

Bernard, M. E., Keefauver, L. W., Elsworth, G., & Maylor, F. D. (1981). Sex role behavior and gender in teachers-student evaluations. Journal of Educational Psychology, 73, 681-696.

Blackburn, R. T., & Clark, M. J. (1975). An assessment of faculty performance: Some correlates between administrators, colleagues, students and self-ratings. sociology of education, 48, 242-256.

Boice, R. (1992). The new faculty member: Supporting an fostering professionnal development.

Boyer, E. (1990). Scholarship reconsidered: Priorities of the professiorate. Princeton: Carnegie Foundation for the Advancement of Teaching.

Brandenburg, D. C., Slinde, J. A., & Batista, E. E. (1977). Student ratings of instruction: Validity and normative interpretations. Journal of Research in Higher Education, 7, 67-98.

Braskamp, L. A., Caulley, D. N., & Costin, F. (1979). Student rating and instructor self-ratings and their relationship to student achievement. American Educational Research Journal, 16, 295-306.

Brinko, K. T. (1991). The interactions of teaching improvement. effective practices for improving teaching. Directions for Teaching and Learning, 48, 39-49.

Bru, M. (2004). Pratiques enseignantes à l'université : Opportunités et intérêt des recherches. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur : Enseigner, apprendre, évaluer (l'Harmattan ed., pp. 17-36)

Carini, R. M., Hayek, J. C., Kuh, G. D., Kennedy, J. M., & Ouimet, J. A. (2003). Student responses to web and paper surveys: Does mode matter? Research in Higher Education, 44(1), 1-19.

Cashin, W. E. (1999). (Student ratings of teaching : Uses and misuses. In P. Seldin (Ed.), Changing practices in evaluating teaching. A practical guide to improved faculty performance and Promotion/Tenure decisions (pp. 25-44)Bolton, MA : Anker Publishing.

Cashin, W. E. (1995). Student ratings of teaching: The research revisited. IDEA Paper, 32


Cashin, W. E. (1992). Student ratings: The need for comparative data. Instructionnal Evaluation and Faculty Developpement, 12, 1-6.

Cashin, W. E. (1990). Students do rate different academic fields differently. In M. Theall, & J. Franklin (Eds.), Stiudent ratings of instruction: Issues for improving practice (). San Francisco: Jossey Bass.

Cashin, W. E. (1988). Students ratings of teaching : A summery of the research. Kansas State University.: Center for Faculty Evaluation and Development.

Centra, J. A. (1993). Reflexive faculty evaluation effectiveness. enhancing teaching and determiningfaculty effectivenessSan Francisco : Jossey-Bass.

Centra, J. A., & Creech, F. R. (1976). The relationship between students, teachers, and course characteristics and student ratings of teacher effectiveness (N.J.: Educational Testing Service ed.)Princeton.

Chacko, T. I. (1983). Student ratings of instruction: A function of grading standards. Educational Research Quarterly, 8(2), 19-25.

Chiu, S. (1999). Use of the unbalanced nested ANOVA to exam factors influencing student ratings of instructional quality. Unpublished manuscript.

Cohen, L., Manion, L., & Morrison, K. R. B. (2007). Research methods in education (Routledge ed.)

Cohen, P. A. (1990). Bring research into practice. In M. Theall, & J. Franklin (Eds.), Student ratings of instruction: Issues for improving practice: New directions for teaching and learning, (Jossey Bass. ed., pp. 123-132)

Cohen, P. A. (1981). Student ratings of instruction ans student achievement: A meta-analysis of multisection validity studies. Review of Educational Research Fall, 51(3), 281.

Costin, F., Greenough, W. T., & Menges, R. J. (1971). Student ratings of college teaching: Reliability, validity, and usefulness. Review of Educational Research. 41, 511-535., 41, 511-535.

Damron, J. C. (1996). Instructor personality and the politics of the classroom. Unpublished manuscript.

d'Apollonia, S., & Abrami, P. C. (1997). Navigating student ratings of instruction. American Psychologist, 52(1198), 1208.

Dejean, J. (2006). Les réticences à l'évaluation de l'enseignement en france, signe de la culture professionnelle des enseignants-chercheurs ou trait de la culture française ? In N. Rege Colet, & M. Romainville (Eds.), La pratique enseignante en mutation à l'université (pp. 61-80). Bruxelles: de boek.

Dejean, J. (2002). L'évaluation de l'enseignement dans les universités française :Rapport suivi de l'avis du haut conseil de l'évaluation de l'école. France: Haut conseil de l'évaluation de l'école.

Denzin, N. (1989). The research actEnglewood Cliffs, Prentice Hall.

Denzin, N., & Lincoln, Y. (2000). Handbook of qualitative research (2nd ed.). London: Thousand Oaks, CA and New Delhi: Sage.

Desjardins, J., & Bernard, H. (2002). Les administrateurs face à l'évaluation des enseignements. Revue des sciences de l'éducation, 28(3)

Detroz, P., Noel, F., & Gilles, J. L. (2002). Mesure de l’impact de l’utilisation des boîtiers de vote en amphithéâtre. Louvain-la-neuve.

Dinauer, L. D., & Fink, E. D. (2005). Interattitude structure ans attitude dynamics : A comparison of the hierarchical and galileo spatial-linkage models. Human Communication Research, 31 n°1, 1-32.


Donald, J. G. (1991). The commission of inquiry on canadian university education: The quality and evaluation of teaching. Revista Iglu, 1, 157-173.

Dowell, D. A., & Neal J.A.

Dowell, D. A., & Neal, J. A. (1982). A selective review of the validity of student ratings of teachings. The Journal of Higher Education, 53(1), 51-62.

Doyle, J. J. O. (1983). Evaluating teaching (Lexington, Mass.: Lexington Books. ed.)

Doyle, K. 0. (1975). Student Evaluation of Instruction. Lexington, MA: D.C. Heath and Co. (1975). Student evaluation of instructionLexington, MA: D.C. Heath and Co.

Doyle, K. O., & Crichton, L. I. Student, peer, and self-evaluation of college instruction. Journal of Educational Psychology, 70, 815-826.

Dubois, P. (1998)., Rapport final. (1998). EVALUE, évaluation et auto-évaluation des universités en europeProjet financé par la communauté européenne.

Emery, C. R. (1995). Student evaluations of faculty performance. Unpublished manuscript.

Emery, C. R., Kramer, R., & Tian, R. G. (2003). Return to academic standards: A critique of student evaluations of teaching effectiveness. Quality Assurance in Education, 11(1), 37-46.

European Network for Quality Assurance in Higher Education. (2005). Standards and guidelines for quality assurance in the european higher education area. Helsinski - Finland:

Fave-Bonnet, M. F. (2005). La difficile mise en oeuvre de l’évaluation des formations dans les universités en france : Culture française, culture universitaire ou cultures disciplinaires ? In M. Lecointe, & A. Aubert-Lotarski (Eds.), Evaluations et cultures, les dossiers des sciences de l’éducation (pp. 87-104)

Feldman, K. A. (1997). Identifying exemplary teachers and teaching: Evidence from student ratings. In R. P. Perry, & J. C. Smart (Eds.), Effective teaching in higher education: Research and practice. (pp. 368-395). New York: Agathon Press.

Feldman, K. A. (1989). Instructional effectiveness of college teachers as juged by teachers themselves, current and former students colleagues, administrators and external (neutral) observers. Research in Higher Education, 30, 137-194.

Feldman, K. A. (1988). Effective college teaching from the students’ and faculty’s view: Matched or mismatched priorities? Research in Higher Education, 28, 291-344.

Feldman, K. A. (1987). Research productivity and scholarly accomplishment of college teachers as related to their instructional effectiveness: A review and exploration. Research in Higher Education, 26, 227-298.

Feldman, K. A. (1983). Seniority and experience of college teachers as related to evaluations they receive from their students. Research in Higher Education, 18, 3-124.

Feldman, K. A. (1979). The signifiance of circumstances for college students' ratings of their teachers ans courses : A review and analysis. Research in Higher Education, 10, 149-172.

Feldman, K. A. (1978). Course characteristics and college students’ ratings of their teachers; what we know and what we don’t. Research in Higher Education, 9, 199-242.

Feldman, K. A. (1977). Consistency and variability among college students in rating their teachers and courses: A review and analysis. Research in Higher Education, 6, 223-274.


Feldman, K. A. (1976). The superior college teacher from the student's view. Research in Higher Education, 5, 223-274.

Felouzis, G. Les mutations actuelles de l’université. Paris: Presse Universitaire de France.

Fenwick, T., & Parsons, J. (2000). The art of evaluation. A handbook for educators and trainers. Toronto: Thompson Educational Publishing, Inc.

Flick, U., (1992). (1992). Triangulation revisited - strategy of or alternative to validation of qualitative data. Journal for the Theory of Social Behavior, 2, 175-197.

Franklin, J. (2001). Intepreting the numbers: Using a narrative to help others read student evaluations of your teachnig accurately. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 85-100). San Francisco: Jossey Bass.

Franklin, J., & Theall, M. (1990). Communicating student ratings to decisions makers : Design for good practice. In J. Franklin, & M. Theall (Eds.), Student ratings of instruction: Issues for improving practice (pp. 75-93). San Francisco: Jossey Bass.

Frey, P. W. (1976). Validity of student instructionnal rating as a function of their timing. Journal of Higher Education, 47, 327-336.

Gilles, J. L. (2002). Qualité spectrale des tests standardisés universitaires. Unpublished These présentée pour l'obtention du grade de Docteur en Sciences de l'Education, Université de Liège.

Gilles, J. L., Detroz, P., Crahay, V., & Mainferme, R. (2007). La qualité des évaluations des apprenants : Effets d’une régulation à l’aide du dispositif d’évaluation des enseignements. Montreal: Association Internationale de Pédagogie Universitaire.

Glascock, J., & Ruggiero, T. (2006). The relationship of ethnicity and sex to professor credibility at a culturally diverse university. Communication Education, 55, 197-207.

Green, M. F. (1990). Why good teaching needs active leadership. In P. Seldin (Ed.), How administrators can improve teaching. moving from talk to action in higher education (pp. 45-62). San Francisco: Jossey Bass.

Greenwald, A. G., & Gillmore, G. M. (1997). No pain, no gain? the importance of measuring course workload in student ratings of instructions. Journal of Educational Psychology, 89(4), 743-751.

Gueissaz, A., Häyrinen-Alestalo, M., Fischer-Bluhm, K., & Snell, K. (1998). Les acteurs de l'évaluation, la décision d'évaluer. In P. Dubois (Ed.), EVALUE. rapport final. ()

Guthrie, E. R. (1954). The evaluation of teaching: A progress report. Seattle: University of Washington,:

Hamermesh, D. S., & Parker, A. (2005). Beauty in the classroom: Instructors' pulchritude and putative pedagogical productivity. Economics of Education Review, 24(4), 369-376.

Hartnett, R. T., & Seligsohn, H. C. (1967). The effects of varying degrees of anonymity on response to different types of psychological questionnaires. journal of educational measurement, 4, 95-103.

Holmes, D. S. (1972). Effects of grades and disconfirmed grade expenctancies on students' evaluation of their instructor. Journal of Educational Psychology, 63, 130-133.

Howard, G. S., Conway, C. G., & Maxwell, S. E. (1985). Construct validity of measures of college teaching effectiveness. Journal of Educational Psychology, 77, 187-196.

Howard, G. S., & Maxwell, S. E. (1982). Do grades contaminate students' evaluation of college teaching: A multi-trait multimethod analysis. Journal of Educational Psychology, 74, 264-279.


Howard, G. S., & Maxwell, S. E. (1980). Correlation between student satisfaction and grades: A case of mistaken causation ? Journal of Educational Psychology, 72, 810-820.

Jans, V., Leclercq, D., Denis, B., & Poumay, M. (1998). Projets d'animation réciproques multimédias (PARM). In D. Leclercq (Ed.), Pour une pédagogie universitaire de qualité (pp. 207-242). Sprimont: Mardaga.

Johnson, T. (1999). Course experience questionnaire. Unpublished manuscript.

Jones, R. A. (1977). Self-fulfilling prophecies : Social, psychological and physiological effects of expectancies. New York: Halsted Press.

Kahneman, D. A perspective on judgement and choice : Mapping bounded rationality. American Psychologist, 58, 697-698.

Kane, M., Crooks, T., & Cohen, A. (1999). Validating measures of performance. Educational Measurement: Issues and Practice, 18(2), 5-17.

Kierstead, D., D'Agostino, P., & Dill, H. (1988). Sex role stereotyping of college professors: Bias in students' ratings of instructors. Journal of Educational Psychology, 80(3), 342-344.

Knight, P. (2002). A systematic approach to professional developpement : Learning as practice. Teaching and Teacher Education, 18(3), 229-241.

Kulik, J. A. (2001). Student rating: Validity, utility, and controversy. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate: Are they valid? how can we best use them? (New Directions for Institutional Research ed., ). San Francisco: Jossey Bass.

Kulik, J. A., & McKeachie, W. J. (1975). The evaluation of teachers in higher education. In F. N. Kerlinger (Ed.), Review of research in education (Itasca, Ill.:Peacock ed., )

Lather, P. (1986). Research as praxis. Harvard Educational Review, 56, 257-277.

Lewis, K. G. (2001). Making sense of student written comments. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 25-32). San Francisco: Jossey Bass.

Lucas, A. F. (1990). The department chair as change agent. In P. Seldin (Ed.), How administrators can improve teaching. moving from talk to action in higher education (pp. 63-88). San Francisco: Jossey-Bass.

Machel, D. F. (1989). A discourse on professional melancholia. Community Review, 9(1-2), 41-50.

Marsh, H. W. (1987). Students' evaluations of university teaching : Research findings, methodological issues, and directions for future research. International Journal of Educational Research, 11(3), 255-388.

Marsh, H. W. (1984). Students evaluations of university teaching: Dimensionality, reliability,validity, potential biases, and utility. Journal of Educational Psychology, 76(5), 707-754.

Marsh, H. W. (1983). Multidimensional ratings of teaching effectiveness by students from different academic settings and their relation to student/ Course/Instructor characteristics. Journal of Educational Psychology, 75(1), 150-166.

Marsh, H. W. (1982). Validity of students' evaluations of college teaching: A multitrait-multimethod analysis. Journal of Educational Psychology, 74(2), 264-279.

Marsh, H. W. (1980). The influence of student, course, and instructor characteristics in evaluations ofuniversity teaching. American Educational Research Journal, 17(2), 219-237.

Marsh, H. W., & Cooper, T. (1981). Prior subject interest, students' evaluations, and instructional effectiveness. Multivariate Behavioral Research, 16, 82-104.


Marsh, H. W., & Dunkin, M. (1992). Students' evaluations of university teaching: A multidimensional perspective. In J. C. Smart (Ed.), Higher education: Handbook on theory and research (pp. 143-234)Agathon Press.

Marsh, H. W., Fleiner, H., & Thomas, C. S. (1975). Validity and usefulness of student evaluations of instructional quality. Journal of Educational Psychology, 67, 833-839.

Marsh, H. W., Overall, J. U., & Kessler, S. P. (1979). Validity of student evaluations of instructional effectiveness : A comparison of faculty self-evaluations and evaluations by their students. Journal of Educational Psychology, 71, 149-160.

Marsh, H. W., & Roche, L. A. (1997). Making students' evaluations of teaching effectiveness effective. American Psychologist, 52, 1187-1197.

Marsh, H. W., & Ware, J. E. (1982). Effects of expressiveness, content coverage, and incentive on multidimensionnal student rating scale : New interpretations of the dr. fox effect. Journal of Educational Psychology, 74, 126-134.

Mc Guigan, F. J. (1967). The G. statistics, an index of AMount learned. National Society for Programmed Instruction, 6, 14-16.

Mckeachie, W. J. (1997). Student ratings: The validity of use. American Psychologist, 52, 1218-1225.

McKeachie, W. J. (1979). Student rating of faculty : A reprise. Academe, 65, 384-397.

McKinnon, K. R., Walker, S. H., & Davis, D. (2000). Benchmarking, a manual for australian universities. Unpublished manuscript.

Menges, R. J. Using evaluative information to improve instruction. In P. Seldin (Ed.), How administrators can improve teaching. moving from talk to action in higher education (pp. 104-121). San Francisco: Jossey Bass.

Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (pp. 13-104). New York: Macmillan.

Miller, D. M., & Linn, R. L. (2000). Validation of performance-based Assessments. Applied Psychological Measurement, 24(4), 367-378.

Morrison, D. E. (1997). Overview of instructional consultation in north america. In K. Brinko, & R. Menges (Eds.), Practically speaking: A sourcebook for instructional consultants in higher education ()Stillwater, Oklahoma : New Forums Press.

Morrison, K. R. B. Planning and accomplisging school-centered evaluation. Dereham, UK: Peter Francis.

Murray, H. G. (1984). The impact of formative and summative evaluation of teaching in north american universities. Assessment and Evaluation in Higher Education, 9(2), 117-132.

Murray, H. G., Rushton, J. P., & Paunomen, S. V. (1990). Teacher personality traits and student instructional ratings in six types of university courses 82(2):250-61. Journal of Educational Psychology, 82(2), 250-261.

Nadeau, M. A. (1990). L’évaluation de programme : Théorie et pratique. Laval: Presse Universitaire de Laval.

Naftulin, D. h., Ware, J. E., & Donnelly, F. A. (1973). The doctor fox lecture: A paradigm of educational seduction. Journal Of Medical Education, 48, 630-635.

Newby, P. Culture and quality in higher education. Higher Education Policy, 12, 261-275.

Oppenheim, A. N. (1992). Questionnaire design, interviewing and attitude measurement. London: Pinter.

Ory, J. C. (2001). Faculty thoughts and concerns about student ratings. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 3-15). San Francisco: Jossey-Bass.


Ory, J. C. (1980). The influence od students' affective entry on instructor and course evaluations. Review of Higher Education, 4, 13-24.

Ory, J. C., & Ryan, K. (2001). How do student ratings measure up to a new validity framework?'. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate: Are they valid? how can we best use them? (pp. 27-44). San Francisco: Jossey-Bass.

Overall, J. U., & Marsh, H. W. (1979). Midterm feedback from student: Its relationship to instructional improvement ans students' cognitive and affective outcoms. Journal of Educational Psychology, , 856-865.

Parchemal, Y., & Ycart, B. (2002). Evaluation en ligne des enseignements : Le logiciel QUESTEL. Sciences et techniques éducatives, 9, 491-500.

Paulsen, M. B., & Feldman, K. A. (1992). Toward a reconceptualization of scholarship. Journal of Higher Education, 66(6), 615-640.

Perry, R. P., Abrami, P. C., Leventhal, L., & Check, J. (1979). Instructor reputation: An expectancy relationship involving student ratings and achievement. Journal of Educational Psychology, 71, 776-787.

Piéron, H. (1963). Examens et docimologie. Paris: Presse Universitire de France.

Potocki Malicet, D. (2001). Les défis de l'évaluation des enseignements dans les universités. In L. Demailly (Ed.), Évaluer les politiques éducatives (). Bruxelles: de boek.

Powell, R. W. Grades, learning, and student evaluation of instruction. Research in Higher Education, 7, 193-205.

Ramsden, P., & Entwistle, N. J. (1981). Effects of academics departments on students’ approaches to studying. British Journal of Educational Psychology, 51, 368-383.

Rege Colet, N. (2002). L’arroseur arrosé. evaluation d’un service d’appui à l’évaluation de l’enseignement.

Rege Colet, N., & Durand, N. (2005). Evaluation de l'enseignement à l'université de geneve : Mesure d'impact sur les pratiques enseignantes. Unpublished manuscript.

Rege Colet, N., & Romainville, M. (2006). La pratique enseignante en mutation à l'université. Bruxelles: de boek.

Richlin, L., & Manning, B. (1996). Using portfolios to document teaching excellence. In M. D. Svinicki, & R. J. Menges (Eds.), Honoring exemplary teaching (pp. 65-70). San Francisco: Jossey-Bass.

Richlin, L., & Manning, B. (1996). Using portfolios to document teaching excellence. New Directions for Teaching and Learning, 65, 65-70.

Rodin, M., & Rodin, B. (1972). Student evaluations of teachers. Science, 177(4055), 1164-1166.

Sandler, B. R. (1992). Success and survival strategies for women faculty members Washington, DC: Association of American Colleges.

Sax, L. J., Gilmartinm, S. K., & Bryant, A. N. (2003). Assessing response rates and nonresponse bias in web and paper surveys. Research in Higher Education, 44(4)

Scriven, M. (1983). Summative teacher evaluation. In J. Milman (Ed.), Handbook of teacher evaluation ()Thousand Oaks, Calif. : Sage.

Seldin, P. (1993). The use and abuse of student ratings of instruction. The chronicle of Higher Education, , A-40.

Shore, B. M. (1975). Moving beyond the course evaluation questionnaire in evaluating university teaching. CAUT Bulletin, 23(4), 7-10.


Snyder, C. R., & Clair, M. (1976). Effects of expected and obtained grades on teacher evaluation and attribution of performance. Journal of Educational Psychology, 68, 75-82.

Spence, L., & Lenze, L. F. (2001). Taking student criticism seriously: Using student quality teams to guide critical reflection. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 55-62). San Francisco: Jossey Bass.

Statham, A., Richardson, L., & Cook, J. A. (1991). Gender and university teaching: A negotiated differenceAlbany: State University of New York Press.

Stone, E. F., Spool, M. D., & Rabinowitz, S. (1977). Effects of anonymity and retaliatority potential on student evaluations of faculty performance. Research in Higher Education, 6, 313-325.

Theall, M. (2002). Student rating :Myths vs research evidence. Brigham Young University's FOCUS ON FACULTY Newsletter, 10(3), 2.

Theall, M. (2001). Can we put precision into practice ? commentary and thought. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate: Are they valid? how can we best use them ? (). San Francisco: Jossey Bass.

Theall, M., & Franklin, J. (2001). Looking for bias in all th wrong places: A search for truth or a with hunt in student ratings of instruction. In M. Theall, P. C. Abrami & L. A. Mets (Eds.), The student ratings debate:Are they valid? how can best use them? (pp. 45-56). San Francisco: Jossey Bass.

Theall, M., & Franklin, J. (1990). Student ratings of instruction: Issues for improving practice. In M. Theall, & J. Franklin (Eds.), New directions for teaching and learning (). San Francisco: Jossey-Bass.

Thivierge, A., & Bernard, H. (1996). Les croyances des étudiants à l'égard de l'évaluation de l'ensignement. Mesure et évaluation en éducation, 18(3), 59-84.

Tiberius, R. (2001). Making sense and making use of feedback from focus groups. In K. G. Lewis (Ed.), Techniques and strategies for interpreting student evaluations (pp. 63-75). San Francisco: Jossey Bass.

Trinquier, M. P., & Terrisse, A. (2004). Entre prévision et réalité du cours : Regards croisés sur les pratiques et les représentations des enseignants de DEUG. In E. Annoot, & M. F. Fave-Bonnet (Eds.), Pratiques pédagogiques dans l'enseignement supérieur : Enseigner, apprendre, évaluer (pp. 53-92)L'harmattan.

Trowler, P. (1998). Academics responding to change: New higher education frameworks and academic cultures. Buckingham: SRHE and Open University Press.

Vasta, R., & Sarmiento, R. F. (1979). (1979). Liberal grading improves evaluations but not performance. Journal of Educational Psychology, 71, 207-211.

Vernon, D. T. A., & Blake, R. L. (1993). Does problem-based learning work ? a méta-analysis of evaluative research. Academic Medicine, 68, 550-563.

Viau, R. (1997). La motivation en contexte scolaire. Bruxelles: de boek.

Wagner, W., Duveen, G., Farr, R., Jovchelovitch, S., Lorenzi-Cioldi, F., Markova, I., et al. (1999). Theory and method of social representations. Asian journal of Social Psychology, 2, 95-125.

Weiner, B. (1986). An attributional theory of motivation. New York: Springer-Verlag.

Williams, W. M., & Ceci, S. J. (1997). How'm I doing? problems with student ratings of instructors and courses. Change, 29(5), 13-23.

Wilson, N., & McLean, S. (1994). Questionnaire design : A practical introduction. Newtown Abbay: University of Ulsters Press.


Worthington, A. G., & Wong, P. T. P. (1979). Effects of learned and assigned grades on student evaluation of an instructor. Journal of Educational Psychology, 71, 764-775.

Wright, W. A., & O’Neil, M. C. (1995). Teaching improvement practices : International perspectives. In W. A. Wright (Ed.), Teaching improvement practices. successful strategies for higher education (pp. 1-57). Bolton: Anker Publishing.

Younes, N. (2006). L’effet évaluation de l’enseignement supérieur par les étudiants. Unpublished Thèse présentée pour l’obtention du grade de docteur de l’Université Discipline : Sciences de l’éducation, Grenoble.

Younes, N. (2005). Démarche d’implantation d’un logiciel d’évaluation de l’enseignement fonctionnant sur intranet/Internet. les apports du système qualiense. International Journal of Technologies in Higher Education, 2(1), 52-58.


Documents

Evaluation Des Enseignements : De La Contrainte