Download pdf - L’évaluation formative de la collaboration et de la ...Selon Collins & Halverson (2009), la présente époque représente une révolution numérique ( Digital Revolution ) qui aura

L’évaluation formative de la collaboration et de la

créativité éclairée par des mesures sémantiques dans un

contexte de coélaboration de connaissances

Mémoire

Christian Perreault

Maitrise en technologie éducative

Maitre ès arts (M. A.)

Québec, Canada

© Christian Perreault, 2013

iii

Résumé

Pour réussir dans les sociétés dites du savoir au 21e siècle, ses citoyens sont appelés à

développer un nouvel ensemble de compétences, appelé « compétences du 21e siècle ». De

ces 10 compétences ciblées par le collectif ATC21S, notre étude focalise sur la

collaboration et la créativité. Dans une démarche de design participatif, nous avons étudié

les affordances du Knowledge Space Visualizer (KSV) perçues par des élèves et des

enseignants ayant une certaine expérience d‘utilisation d‘un environnement numérique de

coélaboration de connaissances. Nous avons réalisé des analyses sémantiques sur des

données représentant six années de collaboration parmi les classes de l‘École en réseau. Les

résultats suggèrent que le KSV et différentes mesures sémantiques pourraient contribuer à

soutenir le développement et les méthodologies d‘évaluation de la collaboration et de la

créativité, notamment en fournissant plus d‘indicateurs aux élèves et aux enseignants et en

permettant de connecter davantage les idées dans et entre des classes se transformant, par

moment, en communautés d‘élaboration de connaissances.

v

Abstract

To succeed in developed societies of the 21st century, its citizens are called upon to develop

―21st century skills‖. Our study focuses on collaboration and creativity, two of the 10

competencies targeted by the ATC21S collective. Borrowing a participatory design

methodology, we studied Knowledge Space Visualizer‘s (KSV) affordances as perceived

by students and teachers with some experience in using Knowledge Forum. We performed

different semantic analyzes of the data gathered throughout six years of collaboration

among all the classes participating in the Quebec Remote networked schools initiative. The

results suggest that the KSV and different semantic measures could potentially support the

development and the assessment methodologies of collaboration and creativity, particularly

by providing more indicators to students and teachers and by strengthening the connection

between ideas in and between the knowledge building communities that generate them.

vii

Table des matières

Résumé .................................................................................................................................. iii

Abstract ................................................................................................................................... v

Liste des tableaux ................................................................................................................... ix

Liste des figures ..................................................................................................................... xi

Remerciements .................................................................................................................... xiii

Chapitre 1 — Problématique de recherche ............................................................................. 1

Développement socioéconomique et ses enjeux en éducation ........................................... 1

Habilitation aux compétences du 21e siècle ........................................................................ 2

Intégration de nouvelles technologies ................................................................................. 8

Application des avancées des sciences de l‘apprentissage ................................................. 9

Quatre piliers : l‘apprenant, le contenu, l‘évaluation et la communauté ...................... 10

Trois métaphores : l‘acquisition, la participation et la création de connaissances ....... 11

L‘évaluation par compétences ...................................................................................... 12

La coélaboration de connaissances ............................................................................... 14

L‘analyse de l‘apprentissage ......................................................................................... 16

Le Knowledge Space Visualizer (KSV) ........................................................................... 17

Questions de recherche ..................................................................................................... 21

Pertinence sociale et scientifique de l‘étude ..................................................................... 22

Limites de l‘étude ............................................................................................................. 22

Chapitre 2 — Méthodologie d‘intervention et de recherche ................................................ 25

Le design participatif ........................................................................................................ 25

Éléments conceptuels .................................................................................................... 25

Le contexte élargi : l‘École en réseau ........................................................................... 27

Le contexte spécifique : les participants ....................................................................... 29

Définitions opérationnelles ............................................................................................... 30

Design d‘outils sémantiques ............................................................................................. 31

L‘analyse sémantique ................................................................................................... 31

Du KF au KSV : développement technologique .......................................................... 38

La dimensionnalité des espaces sémantiques ............................................................... 48

Collecte des données : instruments et procédures ............................................................ 54

Procédures d‘analyse des données .................................................................................... 55

Chapitre 3 — Présentation et analyse des résultats .............................................................. 57

Développement d‘une méthode de décision du nombre de thèmes .................................. 57

Affordances du KSV perçues par les élèves et les enseignants ........................................ 60

Par les enseignants ........................................................................................................ 60

Par les élèves ................................................................................................................. 62

Usages potentiels en situation réelle de classe du KSV et d‘outils dérivés ...................... 78

Usages repérés .............................................................................................................. 78

Usages potentiels et développements dérivés ............................................................... 79

Chapitre 4 — Discussion ...................................................................................................... 95

Le potentiel d‘une méthode d‘analyse sémantique ........................................................... 95

L‘accueil fait aux liens sémantiques par les élèves .......................................................... 96

La pertinence d‘intégrer de nouveaux types de visualisation au KF ou à d‘autres

environnements similaires ................................................................................................ 96

viii

Des affordances perceptibles et leur usage potentiel ................................................... 97

Des affordances en support à la collaboration et à la créativité ................................... 97

Des analyses sémantiques des données de l‘ÉER informant la conception de mesures de

la collaboration et de la créativité .................................................................................... 99

Les mesures sémantiques décrivant les notes et les contributions individuelles et

collectives se distinguaient des mesures simples ....................................................... 100

Implications pédagogiques ............................................................................................. 102

L‘avancement du modèle pédagogique au cœur de l‘ÉER ........................................ 102

L‘avancement des méthodologies d‘évaluation de la résolution collaborative de

problèmes ................................................................................................................... 108

La valorisation du pouvoir transformatif et émancipatoire des technologies dans

l‘apprentissage ............................................................................................................ 109

Futures pistes de recherche............................................................................................. 109

Pour l‘avancement des méthodes d‘analyse sémantique............................................ 109

Pour des mesures de « progression » ......................................................................... 110

Conclusion .......................................................................................................................... 112

Références .......................................................................................................................... 115

Annexe 1 ............................................................................................................................ 121

Annexe 2 ............................................................................................................................ 123

Note : Ce document est rédigé selon l‘orthographe rectifiée.

ix

Liste des tableaux

Tableau 1. Les 10 compétences du 21e siècle de l‘ATC21S .................................................. 4

Tableau 2. Caractéristiques des enseignants et des classes participants ............................... 29

Tableau 3. Distribution des similarités sémantiques en fonction de k ................................ 121

Tableau 4. Allure des courbes de similarités en fonction de k ........................................... 123

xi

Liste des figures

Figure 1. Aperçu du Knowledge Space Visualizer (KSV). .................................................. 19

Figure 2. Affichage de notes par similarité sémantique dans le KSV. ................................. 20

Figure 3. Distribution des similarités sémantiques en fonction de k. ................................... 51

Figure 4. k optimal choisi en fonction de la taille du corpus. ............................................... 59

Figure 5. Première perspective présentée selon l‘affichage habituel. .................................. 62

Figure 6. Deuxième perspective présentée selon l‘affichage habituel. ................................ 63

Figure 7. Affichage de deux perspectives superposées dans le KSV. .................................. 64

Figure 8. Affichage de deux perspectives disposées par forces dans le KSV. ..................... 66

Figure 9. Affichage de deux perspectives disposées par forces et leurs liens sémantiques

dans le KSV. ......................................................................................................................... 67

Figure 10. Changement des liens sémantiques après un travail de reformulation. .............. 73

Figure 11. Relation entre le nombre de mots (a) d‘une note et sa longueur vectorielle (b). 81

Figure 12. Corrélation entre b et a au sein de chaque perspective. ...................................... 82

Figure 13. Relation entre le nombre de mots (a) d‘une note et son volume lexico-

sémantique (c). ...................................................................................................................... 84

Figure 14. Corrélation entre c et a au sein de chaque perspective. ...................................... 85

Figure 15. Relation entre le nombre de notes d‘un auteur et son volume sémantique. ........ 86

Figure 16. Relation entre le nombre de mots d‘un auteur son volume sémantique. ............ 87

Figure 17. Relation entre le volume sémantique « normalisé » (d), le volume lexico-

sémantique (c) et le nombre de notes (a) d‘un auteur. .......................................................... 88

Figure 18. Contribution sémantique de chaque auteur selon sa part dans son groupe. ........ 89

Figure 19. Comparaison des ratios de contribution sémantique et lexicale de chaque élève,

par rapport à leur groupe. ...................................................................................................... 91

Figure 20. Relation entre la dynamique d‘un groupe et son volume sémantique. ............... 93

Figure 21. Affichage chronologique et coloration par auteur dans le KSV. ...................... 105

xiii

Remerciements

Ce projet de mémoire de maitrise s‘est étendu sur quelque trois années. Je tiens à actualiser

la coutume selon laquelle on remercie formellement en début d‘ouvrage ceux et celles qui y

ont collaboré.

Merci d‘abord à ma directrice, la professeure Thérèse Laferrière. Sa guidance a donné un

tout nouveau sens à mes études en éducation. Elle m‘a permis de démystifier les études

supérieures, et de vivre une maitrise stimulante, transformative et émancipatoire!

Merci beaucoup aux enseignants et aux élèves ayant accepté de participer à cette étude.

Merci à mes collègues, Christine, Édith, Émilie, Jean-Philippe, Julia, Kesi, Maria Isabel,

Ndiamé, Pier-Ann, Stéphane & Vincent, pour ne nommer que ceux-là, pour leur aide, le

plaisir de travailler et les discussions enrichissantes.

Merci à Isabelle de m‘avoir encouragé à plonger à la maitrise, sa patience, son soutien et

son amour.

Merci à ma famille, ma mère Diane, mon frère Nicolas et mon père Rodrigue pour leurs

encouragements et leur appui indéfectible.

Merci à ma tante Diane pour ses encouragements constants.

Côté musique, un merci spécial à Pink Floyd et aux compilations Saint-Germain-des-Prés

Café pour m‘avoir accompagné dans les centaines d‘heures de travail investies dans ce

projet.

Merci à Pierre-Yves pour sa collaboration exceptionnelle et son aide précieuse.

Merci aux amis pour leurs encouragements et avec qui j'ai eu l‘occasion de discuter et de

nourrir ce projet, dont, entre autres, Alexandre, Can, Christine, Jonathan, Marc-André,

Marie-Ève, Marie-Pier, Marie-Renée, Pierre, Rémi, Steve, Vincent...

Bref, merci à tous ceux et celles qui ne sont pas nommés expressément ici et qui ont

contribué à ce projet : « si le chapeau vous fait, mettez-le, sinon passez-le à Kevin ».

Bonne lecture!

Christian

1

Chapitre 1 — Problématique de recherche

Le présent chapitre présentera d‘abord un portrait sommaire de la relation entre les

systèmes éducatifs et les développements socioéconomiques, de façon à présenter la

situation actuelle en la mettant en perspective avec celle du siècle dernier. Nous discuterons

des changements socioéconomiques produits et des récentes innovations technologiques,

puis de leurs effets actuels et envisagés dans le domaine de l‘éducation, plus

spécifiquement en ce qui a trait aux compétences du 21e siècle. Nous poursuivrons la mise

en contexte de cette étude en discutant de l‘application des avancées des sciences de

l‘apprentissage, notamment la coélaboration de connaissances, l‘évaluation par

compétences et l‘analyse de l‘apprentissage. Nous poserons ensuite les questions de

recherche autour desquelles la présente étude s‘articule, sa pertinence et ses limites.

Développement socioéconomique et ses enjeux en éducation

Selon Collins & Halverson (2009), la présente époque représente une révolution numérique

(Digital Revolution) qui aura un impact d‘une amplitude comparable à celle de la

révolution industrielle (Industrial Revolution) du 19e siècle. Des sociétés passèrent alors

d‘une prépondérance de l‘agriculture et de l‘artisanat à celle du commerce et de l‘industrie,

celle-ci étant marquée par le développement de la production de masse. Le monde du

travail se transformait rapidement, si bien que les dispositifs éducatifs de l‘époque ne

convenaient plus. Ceux-ci consistaient principalement en l‘apprentissage ― entendu au

sens d‘une relation apprenti-mentor ― et ont cédé radicalement leur place à des systèmes

éducatifs de masse pour, entre autres, fournir à une demande accrue de main-d‘œuvre

commerciale et industrielle. En même temps, le contexte économique le permettant, les

aspirations augmentaient en matière de démocratisation de l‘éducation (Dewey, 1916;

UNESCO, 1996). Dans de nombreux pays, un système scolaire dit universel s‘est ainsi

progressivement développé à l‘intention d‘un nombre grandissant de familles non agricoles.

On visait alors à standardiser et à accroitre le débit des connaissances transmises.

There is a general agreement that the much heralded ‗knowledge society‘ (Drucker,

1994, 1968; Bell, 1973; Toffler, 1990) will have profound effects on our health,

educational, cultural, and financial institutions, and create an ever-increasing need

for robust lifelong learning, innovation, and the knowledge and skills to solve

problems of the future. This need for innovation is emphasized by the shift from

2

manufacturing-based to knowledge-based economies, with the health and wealth of

nations tied to the innovative capacity of its citizen. (Scardamalia, Bransford,

Kozma, & Quellmalz, 2012, p. 232)

Aujourd‘hui, dans la perspective de ces derniers auteurs, les sociétés développées

deviennent des sociétés de la connaissance, impliquant des changements profonds au sein

de leurs institutions. Les économies passent d‘une dominante manufacturière à une

dominante basée sur la connaissance. C‘est dire que la santé et le bienêtre des nations

dépendront de la capacité d‘innovation de leurs citoyens. Ceux-ci sont donc appelés à

développer un nouvel ensemble de connaissances et de compétences.

Pour en revenir à ce qu‘écrivent Collins & Halverson (2009), le même patron se répète de

nos jours; les sociétés connaissent un si fort changement dans leurs modes de

fonctionnement que cela exige ― et dans nos termes exigerait ― de repenser les systèmes

éducatifs actuels en profondeur pour les rendre plus congruents avec les exigences du

monde moderne1. Nous pensons ici à des aspects comme la planification et l‘évaluation des

apprentissages en fonction de compétences à développer, l‘éducation permanente et la

différenciation pédagogique.

C‘est dans ce contexte que la présente étude s‘intéresse à l‘aspect de l‘évaluation des

apprentissages, plus spécifiquement à l‘évaluation des compétences dites du 21e siècle.

Habilitation aux compétences du 21e siècle

Fondé en 2009 et formé par des experts en sciences de l‘éducation et en sciences cognitives

appliquées2, le collectif Assessment and teaching for the 21st century skills (ATC21S) cible

les compétences du 21e siècle, voulant ainsi les préciser de manière à les évaluer afin de

refléter les exigences actuelles et envisagées de la société du présent siècle. Il s‘organise en

cinq équipes, chacune travaillant sur un aspect du sujet :

1. La définition des compétences du 21e siècle;

2. Les perspectives sur les enjeux méthodologiques;

3. Les enjeux méthodologiques associés à l‘évaluation assistée par l‘ordinateur;

4. Les nouveaux environnements et les nouvelles formes d‘évaluation pour la

coélaboration de connaissances;

1 Ceci n‘est toutefois pas notre ambition dans cette recherche, bien qu‘elle vise à faire une

contribution allant dans le sens de ce changement envisagé. 2 John Bransford, Marlene Scardamalia, Senta Raizen, Mark Wilson, Beno Csapo, Linda

Darling-Hammond, etc.

3

5. Les politiques-cadres pour les nouvelles formes d‘évaluation.

En plus de tenter de les définir, ce groupe vise à établir leurs priorités, leurs enjeux

méthodologiques et technologiques. Dans une volonté d‘arrimage avec les niveaux des

systèmes éducatifs (c.-à-d. classe, école [micro], commission scolaire [méso],

ministère/gouverne [macro]), l‘ATC21S s‘intéresse aussi à la conception d‘environnements

d‘apprentissage supportés par les TI favorisant ces compétences et à l‘établissement de

politiques pour les nouvelles formes d‘évaluation développées. Le projet ATC21S vise

dans sa plus large mesure à concevoir un modèle de programme éducatif systémique où les

TI occupent une place centrale, et ce, incluant à des fins d‘évaluation des apprentissages. Il

s‘agit de tirer parti de la complexité des outils informatiques pour supporter des

environnements d‘apprentissage plus complexes.

Dans son travail de clarification des définitions données aux compétences, l‘ATC21S a

étudié plusieurs ressources comme des documents produits par différents pays ou initiatives

similaires — par exemple l‘organisation étatsunienne Partnership for 21st century skills —

et les curriculums de plusieurs nations ou régions (p. ex. Union Européenne, OCDE, États-

Unis, Japon, Australie, Angleterre, Irlande du Nord, ISTE). Il a étudié les documents de ces

sources afin d‘analyser jusqu‘où leurs définitions de compétences en fournissaient une

description mesurable en termes de connaissances, d‘habiletés, d‘attitudes, de valeurs et

d‘éthique; ils les ont analysées selon le modèle KSAVE (de l‘anglais knowledge, skills,

attitutes/values/ethics). Les auteurs remarquent que dans l‘ensemble des références

analysées, de nombreuses compétences sont récurrentes, tout en précisant que leur degré de

définition générique ou spécifique varie grandement. C‘est dire que plusieurs documents en

présentent une définition uniquement générique (de l‘ordre d‘une compétence transversale),

alors que d‘autres en présentent une définition spécifique à une discipline ou un cours (de

l‘ordre d‘une compétence disciplinaire).

Le collectif a ainsi repéré 10 compétences à la portée suffisamment large pour épouser

l‘ensemble des documents analysés. Il les a groupées en quatre catégories selon la

proximité de leur nature (Binkley et al., 2012). En voici la liste, et puisqu‘il travaille dans la

langue anglaise, nous proposons une traduction libre en français à laquelle ce mémoire

puisera.

4

Tableau 1. Les 10 compétences du 21e siècle de l‘ATC21S

Libellés anglais Libellés français (traduction libre)

Ways of Thinking Modes de pensée

1. Creativity and innovation 1. Créativité et innovation

2. Critical thinking, problem solving,

decision making

2. Pensée critique, résolution de problèmes,

prise de décision

3. Learning to learn, metacognition 3. Apprendre à apprendre, métacognition

Ways of Working Modes de travail

4. Communication 4. Communication

5. Collaboration (teamwork) 5. Collaboration (travail en équipe)

Tools for Working Outils de travail

6. Information literacy (includes

research on sources, evidences, biases,

etc.)

6. Littéracie informationnelle (inclut la

recherche sur les sources, les données

probantes, les biais, etc.)

7. ICT literacy 7. Littéracie numérique

Living in the World Vivre en société

8. Citizenship — local and global 8. Citoyenneté — locale et globale

9. Life and career 9. Vie et carrière

10. Personal & social responsibility –

including cultural awareness and

competence

10. Responsabilité personnelle et sociale –

incluant la conscience et la compétence

culturelles

Les auteurs présentent ensuite un portrait détaillé de chacune de ces dix compétences. Ils

organisent leur définition en utilisant là encore ledit modèle d‘analyse KSAVE. Plusieurs

exemples d‘initiatives de dispositifs d‘évaluation à travers le monde sont exposés. Voici

une présentation sommaire de ces 10 compétences.

1. Créativité et innovation

La créativité et l‘innovation proviennent de deux écoles de pensée. La première est plus

souvent associée aux sciences cognitives alors que la deuxième relève davantage du

domaine de l‘économie où « l‘objectif est d‘améliorer, de créer et d‘implanter de nouveaux

produits et de nouvelles idées ». Le collectif cite les travaux de Loveless, DeVoogd &

Bohlin (2002) ayant étudié les interconnexions entre la technologie, l‘apprentissage et la

5

créativité. Ce dernier souligne que les éducateurs doivent créer une atmosphère sociale où

les apprenants se sentent confortables de prendre des risques et de jouer avec les idées afin

de favoriser leur créativité. Binkley et al. (2012) soulignent que leur mesure peut être très

difficile. Elles ne peuvent être mesurées par des évaluations à grande échelle qui sont

généralement de courte durée et requièrent, au contraire, un environnement interactif.

2. Pensée critique, résolution de problèmes et prise de décision

Les auteurs d‘ATC21S notent que la pensée critique, la résolution de problème et la prise

de décision sont des éléments d‘une importance grandissante dans les curriculums à travers

le monde. Ils sont plus associés aux programmes de mathématique et de science et les

auteurs mentionnent qu‘au contraire de la compétence créativité et innovation, ceux-ci

peuvent être mesurés par le truchement d‘évaluations à grande échelle. Les auteurs donnent

les exemples du Programme international pour le suivi des acquis des élèves (PISA) de

l‘Organisation de coopération et de développement économiques (OCDE) et du

Programme national étatsunien d‘évaluation du progrès éducationnel (U.S. National

Assessment of Educational Progress) visant spécifiquement leur mesure à l‘échelle

nationale ou internationale. Le PISA est triennal et s‘est respectivement focalisé sur la

lecture (édition 2000), les mathématiques (édition de 2003) et les sciences (édition de

2006). Dans chacune d‘elles, la résolution de problèmes a occupé une place majeure. On

mentionne aussi les possibilités qu‘offre l‘ordinateur quant à la mise en œuvre de

problèmes complexes et interactifs, voire de questions ouvertes évaluables par l‘ordinateur.

L‘édition de 2012 du PISA prévoit à ce sujet inclure des éléments dynamiques où la

résolution de problème s‘opèrera en contexte technologique riche.

3. Apprendre à apprendre, métacognition

Les auteurs d‘ATC21S soulignent que les compétences apprendre à apprendre et

métacognition sont le plus souvent mesurées dans des contextes individuels ou impliquant

quelques individus, par exemple par des réflexions à voix haute, rendant ces méthodologies

difficilement extensibles pour des évaluations à grand déploiement. La technologie présente

néanmoins un potentiel d‘assistance intéressant et permet d‘évaluer l‘apprendre à

apprendre, notamment en ce qui concerne l‘apprentissage autonome, l‘autoévaluation et

l‘évaluation par les pairs. Les auteurs présentent deux initiatives technologiques

6

prometteuses à ce chapitre : eVIVA (Royaume-Uni) et Cascade (Luxembourg). Dans le cas

de l‘exemple du site Web eVIVA, les apprenants se construisent un profil, répondent à

quelques questions d‘autoévaluation et sélectionnent des questions auxquelles ils devront

répondre à la fin de leur cours. Cette plateforme leur permet de se construire un portfolio où

ils peuvent marquer les jalons importants de leur apprentissage, jalons auxquels ils peuvent

joindre des fichiers comme appuis et joindre une description (p. ex. détails, difficultés,

fiertés). Un système de messagerie intégré permet ensuite aux éducateurs et aux pairs

d‘utiliser ces jalons comme éléments de référence pour s‘engager dans un dialogue autour

des apprentissages.

4. Communication

La communication est au cœur des dispositifs d‘évaluation par le truchement de la lecture,

de l‘écriture, de l‘écoute et de l‘expression orale. Il s‘agit essentiellement de la

compréhension et de la production de messages par l‘utilisation de différents langages (p.

ex. mathématique, scientifique, poétique), de différentes représentations (p. ex. graphiques,

tableaux) et de différents médias (p. ex. texte sur papier, texte numérique, audio, vidéo). À

une époque où les moyens de communication fusent ― pensons notamment au courriel, au

clavardage, aux appareils mobiles (p. ex. téléphonie, messages textes), aux forums

électroniques et à la visioconférence ―, les auteurs d‘ATC21S mettent l‘accent sur le

besoin de mettre à jour les méthodes d‘évaluation pour qu‘elles soient plus actuelles et

authentiques. Ils donnent l‘exemple de l‘introduction d‘une simulation de lecture de pages

Web dans une évaluation de lecture numérique (Electronic Reading Assessment) du PISA

en 2009. Ils soulignent aussi le grand potentiel de la vidéo en éducation.

5. Collaboration (travail en équipe)

Le travail en équipe n‘est pas nouveau en éducation. Toutefois, comme les auteurs

d‘ATC21S le soulignent, la plupart des systèmes scolaires focalisent l‘évaluation presque

uniquement sur les performances individuelles. Lorsque les apprenants sont mis en

situation de tâches collaboratives, la question de l‘évaluation tient le plus souvent à trouver

comment distribuer la reconnaissance à travers les membres du groupe et comment tenir

compte des biais possibles des performances individuelles à cause des différences entre les

groupes. D‘ailleurs, à l‘échelle internationale, les auteurs précisent que la prise en compte

7

des différences culturelles constitue un obstacle majeur dans la conception de dispositifs

visant à évaluer la collaboration. Il demeure que le développement des technologies a

favorisé l‘essor de dynamiques de collaboration à l‘extérieur de l‘école, particulièrement

dans le monde du travail, si bien qu‘elle est désormais une compétence particulièrement

importante à développer. En conséquence, les systèmes d‘éducation devront trouver des

solutions pour lui accorder une plus grande importance.

6. Littéracie informationnelle

Cette compétence inclut tout ce qui fait référence à l‘accès, l‘évaluation, l‘usage et à la

gestion de l‘information. Les auteurs d‘ATC21S présentent une statistique éloquente :

l‘information contenue dans le New York Times au cours d‘une semaine, excède celle à

laquelle une personne moyenne au 18e siècle avait accès au cours de sa vie. De fait,

l‘Internet démocratise la production de l‘information et ce rythme n‘est pas de nature à

ralentir. Les gens devront être en mesure de chercher dans plusieurs médias, d‘être critiques

et d‘utiliser cette masse d‘informations.

7. Littéracie numérique

Cette compétence concerne l‘accès, l‘évaluation et l‘usage des TIC. Les auteurs d‘ATC21S

mentionnent dans leur définition opérationnelle l‘usage adéquat (efficacité et efficience) de

différents outils technologiques, comme les texteurs, les feuilles de calculs et les bases de

données, mais sans s‘y limiter et en incluant les outils de télécollaboration. Les outils

publiquement accessibles sur le Web (p. ex. les réseaux sociaux) comportent des enjeux

éthiques/légaux et leur usage adéquat inclut leur compréhension.

8. Citoyenneté — locale et globale

La définition opérationnelle que présentent les auteurs de la citoyenneté inclut la

connaissance des droits civils, des pouvoirs du gouvernement, des personnages clés de

l‘histoire, etc., alors que les habiletés incluent la participation dans la communauté, la

capacité à la solidarité, la capacité à interagir avec les institutions gouvernementales, etc.

Les auteurs d‘ATC21S mentionnent que la citoyenneté n‘est pas nouvelle comme objectif

éducatif puisqu‘elle fait partie des curriculums depuis un bon moment, mais son évaluation

comme compétence représente un défi en terme de mesure.

8

9. Vie et carrière

Dans un monde où la diversité et la mobilité des emplois s‘accentuent, la gestion de la vie

et de la carrière est une compétence pertinente. Les auteurs d‘ATC21S mentionnent qu‘il y

a une longue tradition de mesure des préférences professionnelles pour guider les choix de

carrière, mais qu‘il y a une absence de référentiels solides pour concevoir des dispositifs de

mesure de cette compétence. Ils proposent une définition opérationnelle incluant des

habiletés comme l‘adaptation au changement, la flexibilité, la gestion des échéanciers, le

travail autonome, l‘interaction, la gestion de projets, le leadership, etc.

10. Responsabilité personnelle et sociale

Enfin, les auteurs d‘ATC21S ont ciblé la responsabilité personnelle et sociale. Leur

définition opérationnelle inclut des éléments comme la capacité à communiquer de manière

constructive dans différentes situations sociales, la capacité à générer la confiance et

l‘empathie des autres, la capacité à maintenir un degré de séparation entre la vie

personnelle et professionnelle, etc. Ils mentionnent que certains aspects de cette

compétence se retrouvent également dans la compétence de collaboration (travail en

équipe) et qu‘il n‘existe à peu près pas de littérature concernant sa mesure.

Intégration de nouvelles technologies

Le développement prodigieux qu‘ont connu les TIC dans les dernières décennies a

bouleversé les modes de communication des sociétés dites développées. La puissance des

nouvelles technologies a tôt fait de transformer les entreprises à l‘échelle mondiale, leur

permettant d‘améliorer l‘efficience de leurs opérations. Bien que ces nouvelles technologies

aient progressivement émergé dans le monde de l‘éducation, elles ne s‘y sont pas pour

autant intégrées.

Les TIC ont d‘abord gagné principalement le secteur universitaire et la formation à

distance. On a vu apparaitre au tournant des années 2000 des plateformes d‘apprentissage

en ligne (Learning Management System) permettant entre autres de rendre accessibles des

documents associés à des cours, de faire passer des questionnaires aux apprenants et de leur

offrir un forum de discussion. De nombreux cours à distance comme en face à face ont vu

leur contenu partiellement transféré sur ce média plutôt que sur papier. Ce type de

plateforme a surtout le mérite d‘améliorer l‘efficience et la commodité de certains

9

processus tout en diminuant des frais de fonctionnement, sans vraiment fournir

d‘innovations sur le plan pédagogique.

À l‘école primaire et secondaire, les TIC ont gardé jusqu‘à maintenant un rôle plutôt

périphérique. Les écoles se sont généralement dotées de laboratoires informatiques. Parfois,

il y a quelques ordinateurs dans les classes du secondaire, mais un plus grand nombre de

ces appareils sont présents dans les classes du primaire. Plusieurs programmes existent

aussi où chaque étudiant a son propre ordinateur. Dans ces cas, les ordinateurs servent

surtout à la recherche d‘information au moyen de l‘Internet et à la production de contenu

avec des logiciels de productivité. Là où l‘innovation pédagogique se trouve davantage,

c‘est lorsque l‘on utilise ces environnements technologiques dans le cadre d‘une pédagogie

socioconstructiviste. On tire alors profit du réseau technologique pour supporter et catalyser

le réseau social des apprenants, les connexions aux plans de la pensée et de l‘action. On

parle ici d‘un environnement d‘apprentissage en réseau.

Dans ce type d‘environnement d‘apprentissage, la communauté d‘apprenants est le modèle

de gestion de classe typiquement dominant. L‘information accessible aux apprenants ne se

limite pas à celle préparée par l‘enseignant et à la documentation disponible dans la salle de

classe, comme il est d‘usage dans les environnements d‘apprentissage plus traditionnels.

Cette plus grande souplesse vis-à-vis du contenu laisse plus de place pour la diversification

pédagogique, favorisant ainsi la motivation et l‘engagement des élèves. Mais avant tout, la

technologie sert de levier pour soutenir les interactions entre apprenants et, par conséquent,

déployer une pédagogie socioconstructiviste de façon inédite. De fait, l‘ordinateur facilite

l‘accessibilité, la production et le partage de l‘information. Le rapport à la connaissance

change; les apprenants jouent un rôle plus actif dans leur apprentissage.

Application des avancées des sciences de l’apprentissage

Les progrès dans le domaine de la psychologie cognitive suggèrent que l‘apprentissage est

un processus fondamentalement social. C‘est ce que soutient le socioconstructivisme qui

s‘est taillé une place majeure dans les théories de l‘enseignement-apprentissage, si bien

qu‘il est devenu un élément pilier de nombreux curriculums. À titre d‘exemple, ce fut le cas

dans le contexte québécois au tournant des années 2000, où les nouveaux programmes de

10

formation des écoles primaire et secondaire réaffirmaient un certain positionnement

socioconstructiviste (Québec (Province). Ministère de l‘Éducation, 2001, 2004).

Quatre piliers : l’apprenant, le contenu, l’évaluation et la communauté

En traitant de conception et d‘évaluation d‘environnements d‘apprentissage au regard des

récents développements en sciences de l‘apprentissage, Bransford, Brown et Cocking

(2000) expliquent qu‘il faut tenir compte de quatre centrations : 1) l‘apprenant, 2) le

contenu-matière, 3) l‘évaluation et 4) la communauté.

Au sujet de ce dernier élément, les auteurs écrivent que les enseignants doivent concevoir

des activités d‘apprentissage de façon à promouvoir la camaraderie intellectuelle et des

attitudes à l‘endroit de l‘apprentissage qui forge un sens de la communauté (p. 25). Cette

centration sur la communauté souligne l‘importance des interactions dans l‘apprentissage.

Par ailleurs, les auteurs expliquent que cet aspect de communauté réfère non seulement à un

mode de gestion de la classe communautaire, mais aussi à la représentation de toute l‘école

comme une communauté. Cela sous-tend la connexion des élèves et des enseignants avec la

communauté extérieure à l‘école (c.-à-d. les domiciles, les entreprises, les nations et le

monde). Les nouvelles technologies présentent à ce titre un nouvel univers de possibilités

pour faciliter et concrétiser ce modèle, pour les interactions à l‘intérieur de la classe comme

pour celles avec l‘extérieur.

La centration sur l‘apprenant met en évidence le besoin d‘être particulièrement sensible aux

connaissances, habiletés, attitudes et croyances des élèves. Il s‘agit de reconnaitre

l‘importance des connaissances conceptuelles et culturelles qu‘ils apportent dans

l‘environnement d‘apprentissage.

La centration sur le contenu-matière met l‘accent sur la compréhension approfondie plutôt

que la mémorisation, sans nier son importance, ni celle des connaissances procédurales.

Elle consiste à se préoccuper d‘aider les apprenants à devenir métacognitifs, si bien qu‘ils

puissent anticiper ou mieux cibler les informations desquelles construire du sens, à défaut

de quoi poser les questions de clarification appropriées.

La centration sur l‘évaluation rappelle deux principes clés de l‘évaluation, l‘un étant qu‘elle

doit fournir des occasions de rétroaction et de révision, l‘autre étant qu‘elle doit être

11

congruente avec les objectifs d‘apprentissage de chacun. Bransford et ses collègues écrivent

qu‘il est important de distinguer ses deux usages principaux : formatif et sommatif.

L‘évaluation sommative sert à mesurer le résultat des apprentissages réalisés après une

certaine séquence d‘apprentissage. Les évaluations de fins d‘unités ou d‘étapes, conçues

par les enseignants, de même que les évaluations nationales ministérielles en sont des

exemples phares. Concernant l‘évaluation formative, les auteurs soulignent que les études

sur l‘expertise adaptative, l‘apprentissage, le transfert et le développement initial montrent

que la rétroaction est extrêmement importante. En conséquence, les occasions de

rétroactions devraient être constantes, sans toutefois être intrusives, si bien que les

apprenants puissent les mettre à profit en cours d‘apprentissage. Dans l‘optique

d‘apprentissages axés sur la compréhension, la pensée des apprenants devrait être rendue

visible, notamment par des discussions. L‘auteur soutient que le travail collaboratif peut

accroitre la qualité des rétroactions fournies aux apprenants. Enfin, il ajoute que les

nouvelles technologies ont le potentiel d‘augmenter la qualité des rétroactions, en

permettant aux apprenants, aux enseignants et aux experts d‘interagir de manière synchrone

et asynchrone.

Trois métaphores : l’acquisition, la participation et la création de

connaissances

Sfard (1998) a proposé une dichotomie pour conceptualiser l‘apprentissage : la métaphore

d‘acquisition et la métaphore de participation. La première décrit les concepts comme étant

« des unités de base des connaissances pouvant être accumulés, graduellement raffinés, et

combinés pour former des structures cognitives plus riches », menant à « considérer la

pensée humaine comme une contenant pouvant être rempli de certains matériaux, et

l‘apprenant comme devenant un possesseur de ces matériaux » (p. 5). En ce sens,

l‘enseignement est centré sur la médiation et la transmission des concepts ou

connaissances.

La deuxième, la participation, s‘éloigne des esprits individuels pour focaliser sur les liens

évolutifs qui se construisent entre les individus. L‘apprentissage est conçu comme « le

processus par lequel on devient membre d‘une communauté » et renvoie au concept de

participation périphérique légitime (Lave & Wenger, 1991). L‘apprenant développe

progressivement « sa capacité à communiquer dans le langage d‘une communauté et à agir

12

selon les normes de celle-ci », ces normes étant « négociées dans le processus de

consolidation de la communauté ». Cette métaphore met l‘accent davantage sur le faire que

sur l‘avoir, à savoir les activités d‘apprentissage et les interactions entre les individus,

membres de communautés.

Sfard explique que, si l‘on enseigne traditionnellement surtout selon la métaphore

d‘acquisition, celle de la participation, nouvelle, n‘est pas proposée comme une panacée.

Elle propose ces métaphores comme des outils supplémentaires pour conceptualiser

l‘apprentissage, n‘étant pas mutuellement exclusives. Elle soutient qu‘il serait impossible

de « libérer le discours sur l‘apprentissage de l‘une ou l‘autre » de celles-ci.

En réaction à cette dichotomie acquisition-participation, Paavola, Lipponen et Hakkarainen

(2002) ont proposé une troisième métaphore se voulant complémentaire, celle de la création

de connaissances. Dans cette métaphore, l‘apprentissage est considéré analogue aux

processus d‘investigation, alors que quelque chose de nouveau est créé, où la connaissance

de départ des membres d‘une communauté d‘apprenants est substantiellement enrichie ou

transformée de façon significative à travers le processus. Elle se centre sur les « artéfacts

médiateurs » ou la médiation, en contraste avec le processus d‘échange (participation) et

l‘acquisition individuelle (acquisition). Ces artéfacts médiateurs renvoient à des pratiques et

des objets réels ou symboliques qui sont développés en collaboration durant un processus

de long terme (Fallery, 2004).

L’évaluation par compétences

Ces dernières années, le domaine de la mesure et de l‘évaluation a été à l‘avant-scène avec

le développement de l‘évaluation des apprentissages dans une approche par compétences,

ou en termes plus simples : l‘évaluation par compétences. Scallon (2004) souligne que

l‘évaluation par compétences a été retenue comme un élément de solution prometteur

permettant de contrer des taux d‘abandon scolaire inquiétants :

Ce regard critique jeté sur notre système éducatif et sur son efficacité met en

lumière un certain nombre de préoccupations qui justifient une réforme en

profondeur : les exigences du monde moderne, le peu de motivation à étudier ou à

apprendre et la difficulté des individus à utiliser leurs connaissances et leurs savoir-

faire. L‘une des solutions privilégiées dans plusieurs pays et dans plusieurs

établissements de formation consiste à refondre les programmes en adoptant une

approche par compétences. (p. 10)

13

Selon le Ministère de l‘Éducation du Québec (2004), une compétence est un « savoir-agir

résultant de la mobilisation et de l‘utilisation efficaces d‘un ensemble de ressources

internes ou externes dans des situations authentiques d‘apprentissage ou dans un contexte

professionnel ». L‘évaluation par compétence se centre donc sur l‘action. Elle vise, entre

autres, à évaluer la capacité à mobiliser des connaissances, en contraste avec une

vérification simple de leur possession, typiquement associée à l‘évaluation des

connaissances, à tort ou à raison. L‘approche par compétences n‘exclut donc pas cette

dernière. Au contraire, elle englobe l‘évaluation des connaissances — ressource interne —

au sens où pour en mobiliser, il faut à priori en avoir.

Au Québec, dans la foulée du renouveau pédagogique du début des années 2000, la refonte

des programmes de formation au primaire et secondaire s‘est accompagnée de l‘élaboration

de compétences disciplinaires et transversales. On allait désormais évaluer les

apprentissages à la fois en termes de compétences spécifiques à une discipline qu‘en termes

de compétences génériques, c‘est-à-dire transversales, dépassant les frontières des savoirs

disciplinaires. Les référentiels de compétences transversales ont varié légèrement entre le

primaire et le secondaire. Ils ont en commun « mettre en œuvre sa pensée créatrice » et

« coopérer » que nous assimilons respectivement aux compétences du 21e siècle

« créativité » et « collaborer ».

Depuis la mise en œuvre de ces programmes, les politiques ont été modifiées, distinguant

formellement l‘évaluation des connaissances et des compétences en deux segments.

Actuellement, les éléments de ces deux segments sont pondérés, puis combinés dans un

calcul mathématique produisant les résultats, une démarche semblant par ailleurs contraire

à la vision initiale de l‘évaluation par compétences. Plusieurs acteurs du milieu éducatif ont

réclamé ce changement, évoquant le manque de balises claires concernant l‘approche par

compétences. Cette évolution des pratiques évaluatives peut-elle s‘expliquer par un manque

de moyens déployés pour opérationnaliser cette approche? A-t-on manqué d‘imagination?

A-t-on suffisamment tenté de convaincre la population, les parents au premier chef, du

bienfondé de ce changement? Ou, au contraire, la politique initiale relevait-elle de l‘utopie?

Enfin, le nouveau modèle hybride représente-t-il un meilleur compromis théorie-pratique

au regard des avancées en sciences de l‘apprentissage?

14

À l‘échelle nationale et mondiale, l‘approche par compétences n‘a cessé d‘être mise de

l‘avant dans les recommandations et les politiques de plusieurs autorités et organismes

éducatifs, principalement en termes de compétences du 21e siècle. À ce titre, le collectif

C21 Canada a publié en 2012 une vision et une politique-cadre pour l‘enseignement public

au 21e siècle (C21 Canada, 2012). Ce document, ciblant sept compétences du 21

e siècle, a

été formellement endossé par l‘Association des commissions scolaires canadiennes. Aux

États-Unis, le Conseil national de la recherche a récemment recommandé que davantage de

recherche soit réalisée sur la relation entre les compétences du 21e siècle et le succès à la

vie adulte (National Research Council, 2012). Dans ce même rapport, on ajoute que l‘on

devrait soutenir la recherche pour définir plus clairement et développer des méthodologies

d‘évaluation de ces compétences. À l‘international, le Programme international pour le

suivi des acquis des élèves (PISA) de l‘OCDE, ayant pour objet de mesurer la performance

des systèmes éducatifs à l‘international, a annoncé3 que sa mouture de 2015 allait contenir

une nouvelle composante : l‘évaluation de la résolution collaborative de problèmes. Le

collectif ATC21S travaille d‘ailleurs actuellement au développement de méthodologies

d‘évaluation et prépare un rapport d‘experts au sujet de cette compétence.

La coélaboration de connaissances

La coélaboration de connaissances (knowledge building) (Bereiter & Scardamalia, 1993)

est une théorie décrivant ce qu‘une communauté d‘apprentissage doit réaliser pour

travailler de façon créative avec les idées, ou, dit autrement, pour créer des connaissances.

Elle met l‘accent sur le travail soutenu de création de connaissances ayant de la valeur pour

une communauté, soit au-delà des connaissances et de l‘amélioration des connaissances

individuelles. On parle alors d‘une communauté d‘élaboration de connaissances.

Par le truchement de leurs interactions, les membres d‘une telle communauté, entendre les

collaborateurs, améliorent sans cesse les idées du discours collectif. Il s‘agit donc d‘un

processus itératif, où les idées sont développées progressivement.

D‘ailleurs, précisons que le vocable « idée » utilisé dans cette étude se situe dans une

perspective socioculturelle et non pas à une conception ontologique platonicienne où les

3 Voir http://blogs.cisco.com/education/57226/ (consulté le 11 janvier 2013)

15

idées seraient immuables et universelles, à savoir indépendantes de l‘expérience humaine.

Au contraire, une idée est entendue ici tant comme une construction collective qu‘un outil

de médiation de l‘activité humaine.

À l‘ère du savoir, c‘est « la population en général, et non seulement une élite spécialisée,

qui doit travailler de façon créative avec les idées » (Scardamalia & Bereiter, 2003a). Bien

que sa portée dépasse le milieu scolaire, la coélaboration de connaissances vise à inspirer

une pédagogie qui prépare les jeunes au monde dans lequel l‘innovation et la création sont

omniprésentes. D‘ailleurs, deux décennies d‘expérience et de recherche avec les enfants

d‘un peu partout à travers le monde ont montré que le travail créatif soutenu avec les idées

est à la portée des élèves les plus jeunes et les moins préparés (Scardamalia & Bereiter,

2003b).

Travaillant autour de problèmes authentiques, la communauté d‘élaboration de

connaissances négocie ses objectifs. Puisque ces objectifs sont émergents, ils sont

susceptibles de dépasser, voire de transformer, les objectifs d‘apprentissage prévus dans les

curriculums. Cette dynamique peut donc entrer en friction avec la dynamique scolaire

conventionnelle, où les objectifs, les séquences et le rythme d‘apprentissage sont plutôt

fermes et orchestrés en amont. Par conséquent, « développer une capacité pour le travail

créatif soutenu avec les idées est un nouveau défi pour l‘éducation » (Scardamalia &

Bereiter, 2003b).

Le Knowledge Forum

Le Knowledge Forum (KF) est le premier environnement technologique ayant été conçu

pour soutenir la coélaboration de connaissances. Le collectif ATC21S (2012) l‘a d‘ailleurs

désigné comme un logiciel exemplaire et prometteur pour la conception d‘environnements

et de méthodologies d‘évaluation pour la coélaboration de connaissances. Dans celui-ci, les

collaborateurs peuvent créer des notes, des annotations, des illustrations et des perspectives,

avec lesquels ils élaborent leurs idées.

Une perspective est typiquement utilisée comme un espace désigné pour travailler sur un

problème. Dans sa version actuelle (4.8.1), on peut visualiser les notes de façon linéaire

dans le mode Par Arborescence, et de façon non linéaire par le mode Neuronal ou Léger, où

les notes sont présentées de façon analogue à un réseau de neurones. On peut voir un

16

aperçu du mode Léger à la Figure 5 (p. 62) et à la Figure 6 (p. 63) présentées au

chapitre 3.Figure 5

Le KF présente une affordance singulière : les échafaudages. Ceux-ci soutiennent la

dimension métacognitive de la démarche en permettant de marquer le discours, et du coup,

de préciser les intentions d‘écriture. Ils peuvent être, par exemple, « mettons notre savoir en

commun », « j‘ai besoin de comprendre » et « nouvelle information ».

De plus, à la différence des forums de discussions classiques, le KF permet d‘élaborer des

notes de type Élever le propos. Avec celles-ci, on peut rassembler des notes existantes pour

les combiner dans une nouvelle note visant à constituer une métaorganisation des idées.

Une note de ce type peut, à son tour, faire éventuellement partie d‘une note Élever le

propos, et ainsi de suite.

Le KF fournit et permet d‘ajouter des outils soutenant l‘évaluation concurrente, intégrée et

transformative du processus de coélaboration de connaissances. Ceux-ci permettent

d‘analyser la progression du discours par différentes mesures et visualisations, comme le

nombre de notes écrites, lues et élaborées, le nombre de mots, l‘usage d‘un lexique et le

réseau social, celui-ci basé sur les liens de lecture et d‘élaboration entre les contributions.

La plupart de ces outils sont destinés à être utilisés par tous les acteurs de la démarche. Ils

visent notamment à fournir des rétroactions pouvant être directement réinvesties dans le

processus.

L’analyse de l’apprentissage

Depuis quelques années, le champ de recherche de l‘analyse de l‘apprentissage (learning

analytics) est nouveau et particulièrement effervescent. Dans une revue de l‘historique de

l‘émergence de ce champ, on dit qu‘il existe plusieurs définitions, mais l‘auteure retient

celle choisie pour une première conférence internationale, LAK 2011 : « l‘analyse de

l‘apprentissage est la mesure, la collecte, l‘analyse et la présentation des données sur les

apprenants et leurs contextes, à des fins de compréhension et d‘optimisation de

l‘apprentissage et des environnements dans lesquels il se réalise » (Ferguson, 2012).

L‘auteure souligne qu‘au fil du temps, l‘analyse de l‘apprentissage se centre davantage sur

l‘éducation que sur la technologie. De fait, le défi premier est souvent de nature

technologique : il s‘agit de collecter et d‘explorer des données (data mining) provenant

17

d‘ensembles de plus en plus volumineux. Les outils informatiques s‘étant beaucoup

développés, les enjeux deviennent plus axés sur les finalités éducatives visées que la

faisabilité technologique.

Pour décrire la situation actuelle, l‘auteure cite le rapport NMC Horizon Report : 2011 K-12

Edition (Johnson, Adams, & Haywood, 2011) portant sur les technologies émergentes et

leur impact potentiel sur l‘apprentissage, l‘enseignement et l‘investigation créative

(creative inquiry). Celui-ci cible l‘analyse de l‘apprentissage et ses technologies associées

comme étant à surveiller. Ce rapport affirme également que la discipline pourrait être

particulièrement pertinente pour le primaire et le secondaire (K-12), alors qu‘elle a été

jusqu‘à maintenant surtout liée à l‘enseignement supérieur.

En outre, elle a davantage été orientée vers les enseignants et les administrateurs de

systèmes, mais aujourd‘hui, il semble pertinent que ses apports soient tout autant dirigés

vers l‘intérieur de la classe, directement aux apprenants. De fait, avec l‘utilisation

grandissante des nouvelles technologies en classe, le potentiel de cumulation et d‘analyse

des traces des élèves explose. Parallèlement, plus y a de traces, d‘indicateurs, de mesures,

plus on peut raffiner le suivi et informer le jugement de la progression des élèves.

L‘analyse des données des apprenants pourrait fournir des indices importants au sujet de

ceux qui sont en difficulté et qui auraient besoin d‘un soutien additionnel pour améliorer

leur succès et leur confiance dans le processus d‘apprentissage (Siemens & Long, 2011).

Le Knowledge Space Visualizer (KSV)

Comme son nom l‘indique, en anglais, le Knowledge Space Visualizer4 (KSV) (Teplovs &

Scardamalia, 2007; Teplovs, 2008, 2010) est outil logiciel de visualisation d‘espaces de

connaissances. Il est conçu pour appuyer l‘analyse visuelle des relations sémantiques et

sociales au sein d‘un espace de discours. Dans le contexte de la coélaboration de

connaissances, son usage vise à bonifier l‘évaluation formative en fournissant des données

plus sophistiquées aux utilisateurs et en leur fournissant davantage de pouvoir d‘action dans

la génération de visualisations d‘espaces de connaissances. Dans le KF, les notes sont

actuellement organisées selon leurs liens d‘élaboration, dits des liens explicites (explicit

semantic links) puisque les utilisateurs choisissent délibérément de créer ces liens. En mode

4 Christopher Teplovs a distribué son logiciel sous la licence libre GPL v3.

18

neuronal, leur position dans l‘espace à deux dimensions est déterminée par défaut par le

logiciel, mais les utilisateurs peuvent déplacer ces notes à souhait. Ce faisant, ils peuvent

créer une nouvelle organisation, où les notes demeurent connectées par leurs liens

explicites. Le KSV vise à bonifier la vue neuronale, en proposant d‘afficher des objets

supplémentaires de l‘espace de discours, comme les auteurs, les perspectives, les

échafaudages et des éléments de schémas de codification. Bref, il permet de représenter

graphiquement de façon inédite le contenu d‘une ou plusieurs perspectives du KF.

Une nouveauté saillante du KSV est la possibilité d‘afficher des liens sémantiques, dits des

liens implicites (implicit semantic links), entre différents objets, comme des notes ou des

auteurs. L‘intensité de ces liens est calculée selon une méthode d‘analyse sémantique,

présentée plus en détail dans la section « L‘analyse sémantique latente (LSA) » au

chapitre 2. Pour afficher ces liens, il faut s‘abord choisir un seuil d‘intensité sur une échelle

allant de 0 à 1. Les liens sémantiques ayant une intensité en deçà de ce seuil sont alors

ignorés par le KSV. On peut ainsi afficher, simultanément ou séparément, des liens

explicites et implicites, les uns représentés par des flèches bleues et les autres par des

flèches rouges, tel que l‘illustre la Figure 1. On y voit des notes, représentées par des carrés

bleus, ainsi que leurs liens explicites et implicites. Le seuil d‘intensité minimal des liens

sémantiques y est défini à 0,7.

19

Figure 1. Aperçu du Knowledge Space Visualizer (KSV).

La création du KSV s‘inscrit dans un modèle de systèmes plus large conceptualisant une

version plus évoluée du KF où l‘utilisation des visualisations pour l‘évaluation formative

des processus de coélaboration de connaissances est facilitée. Ce modèle comporte trois

couches : 1) l‘infrastructure, 2) le discours et 3) la visualisation. Le KSV se situe dans cette

troisième. Il veut permettre un plus grand pouvoir d‘action (agency) aux utilisateurs pour la

visualisation de leurs espaces de connaissances. Dans la version actuelle du KF, les notes

sont organisées dans des perspectives. Teplovs (2010) soutient que la création de

perspectives représente une activité cognitive importante en coélaboration de

connaissances; c‘est le moyen principal avec lequel les participants travaillent avec des

idées multiples. Bien que les perspectives soient construites de façon collaborative au fur et

à mesure que la compréhension des participants évolue, le KF actuel n‘offre pas la

possibilité de générer différentes vues de son contenu. Teplovs soutient que la création de

perspectives ou visualisations peut aussi être considérée comme une technique d‘évaluation

formative. C‘est pourquoi il propose un modèle visant à soutenir une plus grande

intentionnalité chez les utilisateurs dans la création de représentations de plus en plus

20

sophistiquées ou abstraites de leur travail, si bien qu‘ils soient davantage en mesure

d‘évaluer comment leur travail se situe par rapport à celui des autres et aux objectifs de leur

communauté. Le KSV marque un changement d‘une évaluation conduite à côté du KF

(typiquement par un plugiciel d‘analyse) vers une évaluation plus intégrée à l‘interface.

Lorsqu‘il présente les notes contenues dans une perspective du KF, le KSV peut les afficher

selon leur position originale, donc de façon très similaire à celle du mode neuronal. Une

innovation qu‘il propose est de réorganiser les différents objets selon une disposition

dirigée par forces (force-directed layout). Cet affichage se construit à partir de l‘existence

et de l‘intensité des liens entre les objets. Par exemple, on peut ainsi ignorer les liens

d‘élaboration (explicites) entre les notes pour n‘afficher que les liens sémantiques

implicites. En les réorganisant ensuite de cette façon, on obtient des amas de notes dont la

proximité visuelle se veut représentative de leur similarité sémantique. Dit autrement, on

peut positionner automatiquement les notes selon la proximité des idées qu‘elles

contiennent, en faisant abstraction de leurs liens d‘élaboration, comme illustré à la Figure

2.

Figure 2. Affichage de notes par similarité sémantique dans le KSV.

Le KSV permet aussi de colorer les notes en fonction de leur auteur (comme illustré à la

Figure 2) ou d‘un mot-clé recherché, et de moduler la taille des notes en fonction du

nombre de mots qu‘elles contiennent ou de leur longueur vectorielle (comme illustré à la

21

Figure 2). De plus, on peut zoomer et se déplacer parmi les éléments si bien que l‘on peut

autant visualiser le portrait global que focaliser sur un groupe d‘éléments pour étudier leurs

relations plus finement.

Cet outil a également été conçu dans un effort de mesure du chevauchement sémantique

d‘un discours avec celui d‘un curriculum scolaire ou d‘un discours d‘experts, voire de

sources d‘autorité. Dans ce cas, au lieu d‘analyser les notes entre elles, elles sont comparées

à un corpus externe. Cela aiderait à évaluer dans quelle mesure le discours des élèves

rejoint celui attendu par leur programme de formation ou celui d‘experts en la matière. En

outre, on peut visualiser non seulement la relation sémantique des notes, mais aussi de leurs

auteurs, et ce, à partir de l‘ensemble des notes qu‘ils ont écrites, pendant une période

donnée. Cela pourrait indiquer la relation de partage et d‘influence des idées de chacun

dans le discours collectif.

Questions de recherche

Par les données qu‘il collige et les interactions personne-communauté qu‘il supporte, nous

croyons que le Knowledge Forum est un environnement particulièrement propice au

développement et à l‘évaluation des compétences de créativité et de collaboration. Ces

compétences nous paraissent intimement liées au processus de coélaboration de

connaissances. Dans cette démarche, il nous semble périlleux de tenter de dissocier ces

deux compétences. Suivant cette logique, cette étude se propose de focaliser sur

l‘évaluation formative de la créativité et la collaboration, en les abordant de manière

conjuguée.

Nous avons cherché à poursuivre les travaux relatifs à la visualisation d‘espaces de

connaissances, du genre offert par le KSV, et à l‘utilisation d‘outils d‘analyse sémantique

associés, le tout à des fins d‘évaluation dans un contexte de coélaboration de connaissances.

Puisque les affordances (Gaver, 1991) du KSV n‘ont pas été étudiées, nous avons voulu en

faire un objet d‘étude, notamment pour explorer la pertinence d‘intégrer ses nouveautés à

une éventuelle version du KF ou à d‘autres environnements similaires. Concernant

l‘analyse sémantique, nous avons choisi d‘explorer ses possibilités quant au développement

de nouvelles mesures de la collaboration et de la créativité et d‘étudier comment ces

22

mesures pourraient être utilisées en situation réelle de classe. En conséquence, nos deux

principales questions de recherche s‘articulent comme suit :

1. Quelles affordances du KSV sont perceptibles par les enseignants et les élèves de classe

primaire ayant une expérience d‘utilisation du Knowledge Forum?

2. Quels seraient les usages potentiels en situation réelle de classe du KSV et d‘outils

dérivés pour l‘évaluation formative de la collaboration et de la créativité?

Pertinence sociale et scientifique de l’étude

Bien que le collectif ATC21S ait repéré la collaboration et la créativité comme des

compétences du 21e siècle faisant l‘objet d‘un consensus, il affirme que le travail de

conception de méthodologies d‘évaluation associées et supportées par les TI demeure un

problème vaste, voire entier. Cette étude vise à contribuer à ce besoin de développement de

tels dispositifs d‘évaluation. Dans une plus large mesure, elle vise aussi à contribuer à la

conception d‘un modèle éducatif systémique aux TI intégrées, et où la coélaboration de

connaissances pourrait avoir une plus large part de l‘agenda. De plus, en explorant de

nouvelles mesures et de nouveaux indicateurs de développement de compétences, cette

étude participe au développement de la discipline de l‘analyse de l‘apprentissage,

notamment dans son volet de données destinées aux apprenants.

En contexte québécois, ces différentes contributions signifient faire avancer le modèle

pédagogique au cœur de l‘initiative École en réseau, présentée au chapitre 2. Cette étude

vise également à l‘avancement des méthodologies d‘évaluation de la résolution

collaborative de problèmes, qui fera l‘objet de l‘enquête internationale PISA 2015, à

laquelle le Québec participera. En outre, les résultats permettront de contribuer à valoriser

le pouvoir transformatif et émancipatoire (Engeström & Middleton, 1998) des technologies

dans l‘apprentissage. Pour ces raisons, cette étude est pertinente autant des points de vue de

la recherche que de la pratique en éducation.

Limites de l’étude

Comme nous le verrons plus en détail dans le chapitre suivant, les données recueillies et

utilisées dans cette étude ont deux volets, l‘un étant des échanges en face à face avec des

enseignants et des élèves ayant une expérience d‘utilisation du KF et l‘autre, les bases de

connaissances du KF de 2006 à 2012 de l‘École en réseau.

23

Concernant ce dernier volet, nous avons mené des analyses sémantiques sur celles-ci en ne

considérant d‘autre matériau que ce qui est enregistré comme information, dont notamment

le contenu des notes, leurs auteurs et les perspectives auxquelles elles sont associées. Nous

n‘avons donc pas eu accès ou considéré des données supplémentaires ou ne laissant

pratiquement aucune trace dans le KF, comme le temps consacré à l‘élaboration des notes,

le niveau scolaire des élèves, la nature du travail et tout autre échange ayant pu avoir lieu

autour du travail dans le KF.

De fait, les classes de l‘ÉER ont souvent des discussions de vive voix en grande classe et en

équipe d‘élèves autour des connaissances élaborées dans le KF. En conséquence, les idées

proposées dans le KF ne viennent parfois pas d‘un seul élève, ni même directement de lui,

alors qu‘il en est reconnu le seul auteur dans le KF. De plus, le temps et la nature du travail

dans le KF peuvent largement varier entre les élèves d‘une même classe. Il y a par exemple

plusieurs classes multiâges dans lesquelles certains élèves vont collaborer davantage avec

des collègues provenant d‘une autre classe, alors que d‘autres vont concentrer leur

collaboration avec des collègues du même groupe qu‘eux.

Aussi, la nature du travail dans le KF peut varier largement, les perspectives pouvant

contenir des échanges autour de disciplines variées comme la science et technologie,

l‘univers social, la mathématique, le français, l‘anglais langue seconde, etc. En ce sens, des

données supplémentaires caractérisant ces derniers aspects auraient pu permettre de

relativiser, puis de raffiner, nos résultats liés aux contributions individuelles et collectives.

De plus, les analyses sémantiques réalisées l‘ont été en mode autoréférencié et non en

utilisant des corpus de référence externe comme il est l‘habitude de faire dans ce domaine.

De surcroit, il y a des limites inhérentes à la méthode d‘analyse sémantique utilisée que

nous aborderons plus en détail au chapitre suivant.

25

Chapitre 2 — Méthodologie d’intervention et de

recherche

Comme présenté au chapitre précédent, notre étude s‘inscrit dans la suite des travaux de

Teplovs (2010) relatifs au Knowledge Space Visualizer. Ce chapitre présente les aspects

méthodologiques de l‘étude. Nous présenterons d‘abord le design participatif, soit la

méthodologie de recherche choisie pour guider l‘ensemble de notre démarche. Nous

présenterons ensuite le contexte élargi et les participants, d‘où ils proviennent et avec qui

nous avons produit nos résultats. Une démarche de développement technologique sera aussi

décrite, de même qu‘un objectif de recherche ayant émergé de celle-ci. Enfin, nous verrons

à quoi tiennent la collecte et les procédures d‘analyse de données réalisées.

Le design participatif

Éléments conceptuels

Le design participatif (Silva & Breuleux, 1994) a comme objectif l‘inclusion des acteurs ou

utilisateurs dans le développement d‘une nouvelle technologie. Silva & Breuleux (1994)

expliquent que le design participatif est né du constat que le design de systèmes traditionnel

était incapable de réaliser efficacement l‘implantation de nouvelles technologies dans les

milieux de travail et les usines. Visant à y remédier, le design participatif place les besoins

des utilisateurs au cœur des préoccupations, au même titre que les autres besoins de

l‘organisation; c‘est un design axé sur l‘utilisateur. Les auteurs citent Greenbaum (1993)

qui a observé que, depuis une trentaine d‘années, les articles de journaux portant sur la

gestion et les systèmes étaient truffés de mentions déplorant le fait que plusieurs systèmes

ne fonctionnent pas ou ne réussissent pas à répondre aux attentes des gestionnaires ou des

utilisateurs.

S‘intéressant au milieu de l‘éducation, Silva & Breuleux présentent cinq raisons de

considérer le design participatif pour le développement d‘une technologie dans ce milieu

(traduction inspirée de celle de Deschênes (2006)) :

1. L‘introduction d‘une nouvelle technologie dans une salle de classe est difficile,

particulièrement à la lumière des expériences passées;

2. Comme plusieurs nouveaux projets dépendent des activités d‘apprentissage

collaboratives, la décision du professeur de combiner les tâches à l‘utilisation

26

d‘Internet requiert une approche qui maximise la participation et la coopération des

élèves;

3. Une approche de design participatif a le potentiel de créer des occasions pour le

chercheur de comprendre et de partager les préoccupations et les perspectives des

participants;

4. Le design participatif est adapté au courant actuel en éducation où l‘attention est

portée sur l‘apprenant et l‘enseignant;

5. La participation à un projet par des intervenants connaissant peu le réseau (Internet)

leur permet de mieux comprendre les enjeux de sécurité y étant associés et s‘assurer

de leur coopération.

Comme le rappelle le troisième élément, le design participatif a une affinité avec les

méthodologies de recherche mettant l‘accent sur l‘interaction entre les chercheurs et les

participants.

Dans son étude du design participatif associé au champ de la communication technique,

Spinuzzi (2005) affirme que les termes « design participatif » (participatory design) et

« conception centrée sur l‘utilisateur » (user-centered design) y sont largement utilisés pour

définir des méthodes et que cette diversité d‘applications est souvent venue au prix de

l‘imprécision. Il conclut ainsi qu‘il est difficile de trouver une bonne explication

méthodologique du design participatif, tout en précisant que ce n‘est pas seulement un

problème pour la communication technique; le design participatif est souvent discuté dans

les domaines de l‘interaction humain-ordinateur, dans le travail coopératif assisté par

l‘ordinateur et il est aussi considéré comme une orientation de recherche ou encore comme

un champ plutôt qu‘une méthodologie de recherche. Spinuzzi (2005) soutient toutefois qu‘à

la lumière des précédents établis, le design participatif peut bel et bien être défini comme

une méthodologie de recherche, bien que cette méthodologie soit souple.

En outre, il y a eu une évolution de la terminologie; « participatory design » a évolué vers

« participatory research » et « design-based research » (expérimentation de devis). Ces

deux dernières méthodologies ayant typiquement une portée plus large, c‘est pourquoi nous

considérons nous inscrire plus directement dans la première puisque nous nous intéressons

spécifiquement au développement d‘une famille de technologies. Toutefois, notre projet

s‘est réalisé à l‘intérieur d‘un contexte plus large, celui de l‘initiative l‘École en réseau, qui

est une expérimentation de devis (Breuleux, Erickson, Laferrière, & Lamon, 2002). Voyons

plus en détail de quoi il s‘agit.

27

Le contexte élargi : l’École en réseau

Notre étude a été menée en collaboration avec des enseignants et des élèves participant à

l‘École éloignée en réseau, ayant été renommée l‘École en réseau (ÉER) à l‘automne 2012.

L‘ÉER est une initiative québécoise lancée en 2002 par le CEFRIO, un centre facilitant, à

l‘aide des TIC, la recherche et l‘innovation dans les organisations. Le CEFRIO a alors fait

appel à différentes universités québécoises pour mettre en place un dispositif de recherche-

intervention visant à trouver des solutions nouvelles aux défis posés par les changements

démographiques et les nouveaux programmes de formation aux niveaux primaire et

secondaire, dont le déploiement a commencé au Québec en 1999. On cherchait alors ainsi à

« enrichir l‘environnement d‘apprentissage d‘élèves de petites écoles rurales du Québec

afin de faire en sorte que ce ne soit pas une question de qualité d‘éducation qui entraine leur

fermeture » (Laferrière, Allaire, et al., soumis).

Le modèle ÉER s‘est développé depuis 2002 par un partenariat entre des commissions

scolaires, des universités, le CEFRIO et le MELS. Il a évolué comme un sous-système à

l‘intérieur du système éducatif québécois. Le dispositif de recherche-intervention ainsi

déployé s‘est opérationnalisé selon une approche d‘expérimentation de devis (design-based

research) (Breuleux et al., 2002; Hawkins & Collins, 1992). Dans le troisième rapport de

recherche de l‘ÉÉR (Laferrière et al., 2008), on la décrit comme une méthodologie « qui

débute par la conception (design) du meilleur modèle apparaissant réalisable. Les acteurs

l‘implantent en cherchant à l‘améliorer, d‘itération en itération, par une intervention

informée par les résultats des cycles d‘analyses précédents ». Cette intervention se réalise à

la fois par les membres de l‘équipe de recherche-intervention (ÉRI) et les acteurs

locaux, ceux-ci étant bien entendu les élèves et les enseignants, mais également les

conseillers pédagogiques, les animateurs RÉCIT, les services informatiques, les directions

d‘établissement et les porteurs de dossiers à la commission scolaire. Pour l‘année scolaire

2011-2012, ce sont 21 commissions scolaires et près d‘une centaine d‘écoles qui sont

engagées dans l‘ÉER. Ce nombre de commissions scolaires représente environ le tiers de

toutes celles du territoire québécois. Les classes participantes proviennent des niveaux

primaire et secondaire, celles du primaire étant beaucoup plus nombreuses.

Les solutions déployées par le modèle ÉER consistent en des outils de télécollaboration

permettant aux acteurs de s‘affranchir des murs physiques et de leur position géographique.

28

Du coup, ceux-ci offrent de nouveaux possibles relatifs en ce qui a trait à l‘enseignement et

à l‘apprentissage. Les outils de base au centre du modèle ÉER sont un forum électronique,

le Knowledge Forum, et un système de visioconférence. Ils sont utilisés directement en

classe; il n‘y a pas de rupture occasionnée par un déplacement du lieu d‘enseignement et

d‘apprentissage habituel à un local – ou laboratoire – d‘informatique. Des classes pour qui

il était pratiquement impossible de collaborer auparavant peuvent désormais le faire grâce à

ces outils, que ce soit des classes de la même école, de la même commission scolaire ou de

commissions scolaires différentes. Cette collaboration s‘est même étendue progressivement

à l‘international. Depuis 2007, les classes de l‘ÉER sont invitées à participer au Knowledge

Building International Project (KBIP), coordonné par le réseau de chercheurs et

d‘étudiants gradués, où elles peuvent collaborer de façon plus ou moins étroite avec des

classes du Canada et d‘autres pays comme le Burkina Faso, la Chine (Hong Kong), la

Colombie, l‘Espagne (Catalogne), les États-Unis et le Mexique (Laferrière, Perreault, et al.,

2011).

Dans le modèle ÉER, la classe est conçue comme une communauté d‘apprentissage, se

définissant comme étant « un groupe d‘élèves et au moins un éducateur ou une éducatrice

qui, durant un certain temps et animés par une vision et une volonté communes,

poursuivent la maitrise de connaissances, d‘habiletés ou d‘attitudes » (Grégoire &

Laferrière, 1998). Les classes réseautées collaborent pour investiguer des phénomènes et

réaliser des tâches. Les outils de base leur permettent de travailler de façon synchrone et

asynchrone, offrant de nouvelles possibilités de différenciation pédagogique, par exemple

lorsque des élèves du même âge ou ayant des objectifs d‘apprentissage communs travaillent

ensemble alors qu‘ils proviennent de classes différentes, souvent des classes multiâges. Ces

communautés d‘apprentissage se transforment régulièrement en communautés

d‘élaboration de connaissances (CoÉco) lorsqu‘elles s‘engagent dans le partage, la

proposition et la production d‘idées et de connaissances pour faire avancer leur

communauté. Elles font ainsi avancer les idées relatives à la compréhension de problèmes

authentiques qu‘elles ont ciblés. C‘est alors le Knowledge Forum qui est tout désigné pour

soutenir cette activité.

29

Le contexte spécifique : les participants

L‘étudiant-chercheur s‘est engagé dans un dialogue avec des enseignants de l‘ÉER dès le

début de son programme de maitrise à l‘automne 2009, dans une logique de cosituation

d‘un objet de recherche (Desgagné, 2001). Cette démarche et cet accès à ces praticiens ont

été facilités par le fait qu‘il était membre de l‘équipe de recherche-intervention l‘ÉER, plus

spécifiquement au sein du « collaboratoire » TACT rattaché à la Faculté des sciences de

l‘éducation de l‘Université Laval. Cela l‘a amené à avoir des échanges réguliers avec

différents praticiens, notamment dans le cadre d‘une veille dans une salle virtuelle d‘un

système de visioconférence où différents acteurs de l‘ÉER, principalement des enseignants,

viennent chercher du soutien ou de l‘accompagnement pédagogique et technologique. Au

départ, l‘étudiant-chercheur s‘intéressait de façon générale à l‘évaluation en lien avec la

pédagogie de la coélaboration de connaissances. Au fil du temps, nous avons spécifié notre

étude autour de l‘évaluation des compétences du 21e siècle, en focalisant sur les

compétences de collaboration et de créativité.

À l‘hiver 2011, une collaboration plus étroite a pris forme avec trois enseignants

expérimentés de l‘ÉER pour la réalisation de cette étude; chacun possédant plusieurs

années d‘expérience dans la pratique de la coélaboration de connaissances et dans l‘usage

du Knowledge Forum avec leurs élèves. Voici un tableau présentant sommairement ces

trois enseignants5 :

Tableau 2. Caractéristiques des enseignants et des classes participants

Enseignant Niveaux scolaires (primaire) Nombre d’élèves

A 4, 5 20

B 3, 4, 5, 6 9

C 5, 6 17

Ils sont devenus ainsi formellement les trois enseignants qui allaient participer à cette

étude. Au début de cette nouvelle phase, l‘étudiant-chercheur leur a présenté à tour de rôle

son projet de recherche en discutant des technologies qu‘il avait ciblées pour la présente

étude, à la lumière des besoins identifiés pour la pratique et pour la recherche et de ses

5 Ces renseignements ne sont pas nominatifs, car cette étude s‘inscrit dans la recherche de

l‘ÉÉR et celle-ci s‘engage à garder les résultats anonymes.

30

intérêts de recherche. L‘étudiant-chercheur leur a notamment présenté le KSV et son

contexte de développement, en référant de manière vulgarisée aux travaux de Teplovs

(2010). À cette étape, ces technologies n‘étaient toutefois pas encore développées et

adaptées à leur contexte, ou de façon plus large au contexte de l‘ÉER. Les trois enseignants

ont alors convenu avec l‘étudiant-chercheur que la prochaine étape majeure à franchir était

de faire fonctionner le KSV et l‘outil d‘analyse sémantique avec des données du KF issues

du travail de leurs classes respectives depuis le début de l‘année. Cela allait leur permettre

de mieux se représenter le fonctionnement de ces technologies de façon à être en mesure de

se positionner sur leurs usages possibles et sur les possibilités d‘éventuels entretiens et

mises à l‘essai avec leurs élèves. L‘étudiant-chercheur a tenu compte des commentaires et

des suggestions formulés par ces enseignants lors de cette vague de rencontres pour

informer cette première étape majeure de développement, de même que les prochaines

pistes d‘intervention avec les enseignants et leurs élèves.

Cette section visait à présenter la méthodologie de recherche dans laquelle cette étude

s‘inscrit – le design participatif – et à présenter la dynamique avec laquelle ce projet a pris

forme. Les prochaines sections présenteront plus en détail la suite de la démarche de cette

étude. Voyons maintenant comment s‘articulent les définitions opérationnelles de la

collaboration et de la créativité informant notre recherche.

Définitions opérationnelles

Dans un contexte de coélaboration de connaissances, la collaboration et la créativité se

traduisent en un avancement du discours collectif (Bereiter, 1994). Au départ, la

collaboration s‘installe typiquement autour de questionnements authentiques pour la

communauté, soit des questions ou problèmes sur lesquels elle convient de se pencher. Les

individus formant cette communauté proposent et améliorent alors progressivement des

idées jusqu‘à ce qu‘une compréhension ou une réponse satisfaisante aux questionnements

initiaux soit négociée et formulée. Dans un environnement de coélaboration de

connaissances comme le KF, ce processus se concrétise notamment par l‘écriture de

contributions (entendre aussi notes) dans lesquelles les idées sont formulées.

Lorsqu‘ils contribuent à l‘avancement du discours collectif, notamment par la soumission

de questionnements, le partage de leur opinion, d‘un fait ou d‘une explication, le partage de

31

documents de référence ou l‘encouragement de leurs collègues, les individus exercent et

font preuve de collaboration. Lorsqu‘ils proposent de nouvelles idées ou contribuent à faire

des liens entre différentes idées existantes, les collaborateurs exercent et font preuve non

seulement de collaboration, mais aussi de créativité. En ce sens, nous définissons une idée

comme un mot ou un ensemble de mots dont le sens est susceptible d‘enrichir le discours

collectif.

L‘analyse du discours collectif, sous l‘angle des idées contenues dans les notes et du

partage de ces idées entre collaborateurs, peut fournir des indicateurs de collaboration et de

créativité. Dans le cadre de cette étude, ces indicateurs prennent la forme de différentes

mesures obtenues par des analyses sémantiques, comme le volume d‘idées partagées et la

similarité sémantique des notes. Ce volume d‘idées ou de connaissances partagées (shared

knowledge content) (Kintsch, 2001) d‘une note, que nous appelons également son volume

sémantique, correspond à son degré de couverture des thèmes constituant le corpus de notes

auquel elle appartient. La similarité sémantique des notes correspond à un degré de

similarité entre les thèmes traités dans leur contenu.

En connaissant les auteurs des notes et leur groupe, on peut alors se servir de ces mesures

pour en dériver d‘autres à l‘échelle individuelle et collective, comme le volume sémantique

d‘un individu ou d‘un groupe, de même que le volume sémantique d‘une perspective du

KF.

Design d’outils sémantiques

Pour injecter des données de l‘ÉER dans le KSV, nous avons entrepris une démarche de

développement technologique. Ce traitement des données du KF de l‘ÉER allait du coup

ouvrir la voie à un développement d‘outils dérivés. Cette démarche technologique sera

présentée un peu plus loin dans cette section. Voyons maintenant à quoi tiennent le concept

de l‘analyse sémantique et ses concepts associés, étant au cœur des nouveautés du KSV et

des développements réalisés dans cette étude.

L’analyse sémantique

« Si, en linguistique, la sémantique porte sur l‘étude du sens à partir de la combinaison des

mots, en intelligence artificielle, elle porte sur la capacité d‘un réseau à représenter de la

32

manière la plus humaine possible des relations entre des objets, des idées ou des

situations. » (Office québécois de la langue française [OQLF]). Quant à l‘analyse

sémantique, l‘OQLF la définit de la façon suivante : « partie de l‘analyse syntaxique dans

laquelle l‘ordinateur tente de déterminer le sens d‘une phrase à partir d‘un ensemble de

règles. » Dans l‘usage, l‘analyse sémantique a toutefois une portée un peu plus large, c‘est-

à-dire allant au-delà de l‘échelle de la phrase, mais plutôt à l‘échelle des documents. La

présente étude en propose donc une définition visant à en rendre compte et à laquelle elle

puisera, à savoir un ensemble de méthodes automatisées tentant de déterminer le sens de

documents écrits en langage naturel. Elles évaluent les thèmes contenus dans les

documents, permettant du coup d‘évaluer la diversité des thèmes et la similarité de ces

documents. Ces méthodes automatisées sont des procédés de traitement du langage naturel

(ex. anglais, cantonais, catalan, français) s‘inscrivant dans l‘ingénierie linguistique, une

discipline puisant à l‘informatique, à l‘intelligence artificielle, à la linguistique et à la

mathématique. Pour mieux l‘introduire, nous nous proposons de faire un parallèle avec la

notion de sémantique de plus en plus populaire dans l‘évolution du Web.

Nous sommes actuellement à une ère technologique généralement désignée par l‘expression

« Web 2.0 ». Il s‘agit typiquement d‘une façon de décrire un Web où les applications Web

permettent facilement aux utilisateurs de collaborer, de produire et de partager de

l‘information, en contraste avec la première génération qui exigeait des compétences

techniques pour produire du contenu sur le Web. On entend maintenant de plus en plus

parler ces dernières années du « Web 3.0 » ou encore du « Web 4.0 ». Il n‘y a pas de

véritable consensus sur la définition de ces expressions, mais le synonyme le plus répandu

de Web 3.0 est le « Web sémantique ». Quant à lui, le Web 4.0 serait le Web des objets,

c‘est-à-dire un système de systèmes reliant l‘univers physique à l‘univers numérique.

Nous présentons ce portrait sommaire pour nous attarder au Web sémantique. Bien qu‘il

soit souvent désigné comme étant toujours à venir, il est en fait très avancé sur le plan

technique et il est déjà en application. Son déploiement est amorcé, mais ses retombées

n‘étant par contre pas encore évidentes ou répandues pour l‘utilisateur moyen, cela pourrait

expliquer le fait que l‘on ne considère pas être encore à cette ère, ou cette « version du

Web ». Le Web sémantique est un ensemble de technologies visant à rendre le contenu des

ressources du Web accessibles et utilisables par les programmes et agents logiciels, grâce à

33

un système de métadonnées formelles. Il utilise surtout la famille de langages développés

par le World Wide Web Consortium (W3C), le consortium chargé de promouvoir la

compatibilité des technologies du Web. Ces nouveaux protocoles de communication et

langages standards permettent le développement de nouveaux usages qui concrétisent la

notion d‘intelligence collective. En bref, il s‘agit d‘associer des métadonnées aux objets (p.

ex. textes, images, vidéos) contenus dans des ressources du Web pour les organiser et ainsi

construire du sens, voire des relations entre ceux-ci, par exemple à des fins de classification

ou d‘organisation hiérarchique. Ces métadonnées peuvent ensuite être interprétées ou

« comprises » et révélées par différents agents logiciels comme des moteurs de recherche.

Dans cette approche, ce sont les informations formalisées, à savoir les métadonnées, qui

sont traitées automatiquement et non le langage naturel contenu dans ces ressources. Ces

métadonnées peuvent être normalisées, selon si elles appartiennent à un schéma ou non, un

schéma étant une « structure de données permettant de décrire les connaissances relatives à

une entité, sous forme d‘un ensemble d‘attributs et de procédures liées à ces attributs »

(OQLF). Un exemple d‘une application rudimentaire serait un lien sémantique établi par un

moteur de recherche entre cinq documents – ou des parties de ceux-ci – marqués comme

traitant de « la fin du pétrole » par leurs auteurs, mais n‘ayant originalement aucun lien

explicite (ex. hyperlien) entre eux. Dans ce cas, ce moteur pourrait quand même établir des

associations si ces documents partagent des mots communs sans avoir métadonnées, à

savoir en traitant seulement leur texte en langage naturel. Toutefois, si ces documents sont

rédigés en différentes langues, la présence de métadonnées – appartenant à un même

schéma ou à des schémas compatibles – peut jouer un rôle crucial dans l‘association de ces

différentes ressources. Par exemple, pensons à deux images de la Lune présentes dans deux

pages distinctes. Si ces images possèdent une métadonnée informant qu‘elles représentent

la Lune, un programme peut alors les « comprendre » et les associer.

Les moteurs de recherche modernes utilisent sans doute à la fois le langage naturel et le

langage formel des différentes ressources pour les indexer et les organiser. Pour les

utilisateurs, ces applications promettent d‘améliorer la recherche et le partage

d‘informations, facilitant du coup la collaboration et la coconstruction de connaissances.

D‘ailleurs, les applications du Web sémantique se développent particulièrement rapidement

chez les plateformes de types wiki et blogue. Ce tour d‘horizon de la notion de sémantique

34

dans l‘univers technologique permettra, nous l‘espérons, de mieux situer le concept de

l‘analyse sémantique central aux technologies que nous avons développées et étudiées.

Rappelons qu‘en contraste avec le langage formel utilisé par le Web sémantique, les

méthodes d‘analyse sémantique utilisées dans cette étude tentent de déterminer le sens du

langage naturel contenu dans différents documents.

Lorsqu‘est venu le temps de choisir une ou plusieurs de ces méthodes, nous nous sommes

alignés sur les travaux doctoraux de Teplovs (2010) en visant à les étendre à notre contexte.

Sa thèse de doctorat en traite deux : l‘analyse sémantique latente (LSA, de l‘anglais latent

semantic analysis) (Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990; T. K.

Landauer & Dumais, 1997) et l‘allocation de Dirichlet latente (LDA, de l‘anglais latent

Dirichlet allocation) (Griffiths, Steyvers, & Tenenbaum, 2007). L‘une, la LSA, y est

centrale, alors que l‘autre, la LDA, y est explorée en conclusion comme une piste

prometteuse pour la suite de la recherche puisqu‘elle lève des limites de la LSA.

Pour évaluer la faisabilité de leur usage et de l‘utilisation du KSV dans le cadre de la

présente étude, l‘étudiant-chercheur s‘est familiarisé avec leurs aspects technologiques tout

en entreprenant un dialogue avec Christopher Teplovs. Ses échanges avec ce dernier lui ont

permis de déterminer une piste de travail viable, consistant en l‘utilisation d‘un récent

logiciel libre implémentant différentes méthodes d‘analyse sémantique, dont notamment

l‘analyse sémantique latente.

L’analyse sémantique latente (LSA)

L‘analyse sémantique latente (LSA) est une théorie et une méthode pour extraire et

représenter la signification des mots selon leur contexte d‘utilisation. L‘idée sous-jacente

est que l‘accumulation de contextes où des mots apparaissent ou n‘apparaissent pas dans un

corpus donné fournit un ensemble de contraintes qui déterminent largement la similarité du

sens de ces mots et de groupes de ces mots. La LSA a été créée au début des années 1990

pour améliorer l‘indexation et la recherche d‘informations (Deerwester et al., 1990). Elle

visait à surmonter un problème fondamental dans ce domaine : la correspondance entre les

mots contenus dans les requêtes de recherche et les mots contenus dans les documents

indexés. D‘ailleurs, on la retrouve également parfois sous le nom d‘indexation sémantique

latente (LSI, de l‘anglais latent semantic indexing) dans le contexte de son application dans

35

la recherche d‘information. Comme ses auteurs l‘indiquent, les utilisateurs recherchent des

documents sur la base de leur contenu conceptuel, mais les mots individuels ne représentent

pas de façon fiable à eux seuls ce contenu conceptuel ou la signification d‘un document

(Deerwester et al., 1990). Qui plus est, il y a généralement plusieurs façons d‘exprimer un

concept, alors donc les termes d‘une requête peuvent ne pas se retrouver parmi ceux

contenus dans un document pourtant pertinent. Ajoutons aussi les problèmes ou défis liés à

la synonymie et à la polysémie, l‘une désignant le fait que plusieurs mots peuvent avoir un

sens semblable ou identique, l‘autre qu‘un même mot peut avoir plusieurs significations.

L‘approche proposée par la LSA tente de surmonter les déficiences de la recherche par

correspondance des termes en traitant le manque de fiabilité des données d‘association

terme-document comme un problème statistique. Elle suppose qu‘il existe une certaine

structure sémantique latente sous-jacente dans les données indexées, cette structure étant

partiellement embrouillée par le caractère aléatoire du choix des mots lors de la recherche.

Elle utilise alors des méthodes algébriques pour estimer cette structure latente et réduire cet

embrouillement. Pour ce faire, la méthode LSA consiste d‘abord à construire une matrice

décrivant l‘association entre les termes et les documents d‘un corpus donné. À cette étape,

ce sont typiquement des corpus très volumineux qui sont indexés, afin que la méthode

« apprenne » (training) le plus possible. Il s‘agit donc d‘une matrice lexicale (ou matrice

terme-document ou matrice des fréquences) à partir de laquelle la méthode construit un

espace de concepts. Les colonnes de cette matrice correspondent aux documents du corpus

analysés alors que les lignes correspondent aux termes uniques contenus dans ce corpus. À

noter que le document est un contexte arbitraire; il peut être un document à proprement

parler, un passage de texte, un paragraphe, une phrase, etc. Les valeurs de chaque couple de

cette matrice lexicale sont le nombre d‘occurrences de chaque terme dans chaque document

et elles sont ensuite habituellement normalisées suivant la méthode TF-IDF (de l‘anglais

Term Frequency-Inverse Document Frequency), pondérant chacune de ses valeurs selon la

fréquence du terme dans le document (pondération locale) et dans l‘ensemble des

documents du corpus analysé (pondération globale), cette dernière valeur étant sur une

échelle logarithmique. Cette pondération tente d‘imiter le processus de compréhension du

langage humain. Elle permet notamment, et d‘abord, d‘élaguer les mots non significatifs

(ex. à, de ou, et) puisqu‘ils sont généralement présents de façon constante dans l‘ensemble

36

des documents. Nonobstant, elle ignore l‘ordre et la position des mots, faisant fi notamment

des marqueurs de relation, servant à établir les relations logiques entre les idées.

Les relations sémantiques entre les mots sont ensuite dérivées de la matrice lexicale en

décomposant cette dernière en valeurs singulières tout en comprimant l‘information en

sélectionnant les k valeurs orthogonales les plus importantes; la nouvelle matrice

recomposée contient une fraction de l‘information de la matrice lexicale initiale tout en

préservant la structure de similarité entre les lignes. Les mots caractérisant les documents y

sont remplacés par des combinaisons linéaires, ces combinaisons formant désormais k

dimensions d‘un espace sémantique. Ces dimensions représentent des composantes de

signification commune extraites de plusieurs mots et documents différents (Deerwester et

al., 1990, p. 395). Elles sont dites « non interprétables », pouvant « toutefois être vues

comme analogues aux traits sémantiques fréquemment postulés pour décrire le sens des

mots » (Landauer & Dumais, 1997 cité dans Bestgen, 2004) . Dans les écrits scientifiques,

elles sont nommées de différentes façons : « concepts artificiels » (artificial concepts),

« concepts » (concepts) (Deerwester et al., 1990; Gong & Liu, 2001), « dimensions

sémantiques » (Bestgen, 2004) ou encore à la fois des thèmes et des concepts

(topic/concept) (Gong & Liu, 2001). Les auteurs sont prudents sur leur appellation, utilisant

souvent les guillemets lorsqu‘ils n‘utilisent pas le terme « dimension ». Dans cette étude,

nous y réfèrerons soit en utilisant les termes « dimension », « dimension sémantique » ou

« thème ». Nous préférons « thème » à « concept », d‘une part puisque nous estimons que

son usage est plus prudent et englobant, d‘autre part puisque c‘est ce terme qui a été adopté

par Gensim (Řehůřek & Sojka, 2010), une bibliothèque logicielle utilisée dans cette étude

(présentée plus loin).

L‘espace vectoriel ainsi construit s‘appelle espace conceptuel (conceptual space)

(Deerwester et al., 1990) ou espace sémantique (Bestgen, 2004) (semantic space) (T. K.

Landauer & Dumais, 1997; Lund & Burgess, 1996; Mehler, Köhler, & Leopold, 2007). Le

sens de chaque mot y est représenté par un vecteur (à k dimensions). On peut alors mesurer

la proximité sémantique entre des mots en calculant le cosinus de l‘angle entre les vecteurs

(ou le produit scalaire des vecteurs) représentant ces mots. C‘est la similarité cosinus. On

peut faire le même calcul pour des groupes de mots (comme des phrases) et des documents,

pourvu que les mots qui les constituent fassent partie du corpus initial, mais il n‘est pas

37

nécessaire qu‘ils forment une séquence présente dans le corpus de départ. Puisqu‘il s‘agit

d‘un cosinus, les valeurs possibles s‘étendent de -1 à 1, -1 représentant un sens très

différent, voire aucune relation, et 1 un sens très similaire, voire identique.

L’analyse sémantique latente probabiliste (PLSA) et l’allocation de Dirichlet latente

(LDA)

L‘analyse sémantique latente probabiliste (PLSA, de l‘anglais Probabilistic latent semantic

analysis) découle directement de la LSA. Sa différence principale est qu‘elle s‘appuie sur

des méthodes statistiques plutôt que sur l‘algèbre linéaire pour élaguer les informations

moins importantes et ainsi faire émerger une structure sémantique latente. Plus

spécifiquement, la LSA décompose la matrice des cooccurrences en valeurs singulières

alors que la PLSA utilise une combinaison de décompositions découlant de l‘analyse des

classes latentes. On dit la PLSA plus souple. L‘allocation de Dirichlet latente (LDA) est

souvent vue comme une réponse à la PLSA. Celles-ci sont similaires puisqu‘elles

modélisent toutes deux chaque document comme un mélange — au sens statistique (c.-à-d.

une densité mélange) — de plusieurs thèmes. Elles sont des modèles thématiques (topic

model).

La LDA modélise les documents selon deux distributions : une distribution de thèmes par

document et une distribution de mots par thème. Autrement dit, elle pose que chaque

document est un mélange d‘un petit nombre de thèmes et que la création de chaque mot est

liée à l‘un des thèmes dudit document. La différence principale entre la PLSA et la LDA est

que chez cette dernière, la distribution de thèmes suppose une probabilité a priori de

Dirichlet. En pratique, cela permet d‘obtenir des mélanges de thèmes représentant chacun

des documents dits plus raisonnables. La recherche indique que le modèle thématique de la

LDA fournit de meilleures performances en termes de mesures quantitatives d‘associations

entre les mots que les mesures basées sur la LSA depuis plus longtemps et plus

couramment utilisées, particulièrement en ce qui concerne la polysémie (Griffiths et al.,

2007, cité dans Teplovs, 2010).

Cette différence dans sa méthode de calcul permet en fait de pallier une faiblesse de la

PLSA, à savoir qu‘elle souffre parfois de « surapprentissage » (overfitting) (Blei, Ng, &

Jordan, 2003) puisque son nombre de paramètres croît proportionnellement au nombre de

38

documents. En outre, on critique surtout la PLSA sur le fait qu‘elle ne soit pas un vrai

modèle génératif (Brants, 2005). Elle en est un pour les documents d‘un corpus donné, mais

pas pour de nouveaux documents (c.-à-d. hors corpus initial). C‘est dire que la PLSA ne

peut assigner une probabilité à un document jusque-là inconnu. La LDA lève cette limite.

En pratique, cela ne consiste pas à générer de nouveaux documents au hasard à partir de

distributions, mais plutôt d‘inférer des distributions à partir des documents analysés.

Quoique la LDA présente des avantages théoriques sur la LSA et la PLSA, la recherche

indique qu‘elle n‘est pas automatiquement plus précise. Dans une recherche sur

l‘évaluation automatisée d‘ensembles de 100 à 150 essais, la LDA a moins bien performé

que les deux autres (Kakkonen, Myller, & Sutinen, 2006). Les auteurs indiquent toutefois

qu‘il faut poursuivre la recherche sur l‘application de la LDA pour savoir mieux la régler et

conséquemment, la rendre plus performante. La LDA est réputée moins précise sur de

petits corpus et cela pourrait se reproduire dans notre contexte puisque généralement, les

documents que nous analyserons contiennent quelques phrases, voire quelques mots, et les

corpus contiennent quelques dizaines de documents. Nous allions donc avoir à développer

des outils logiciels pour faire le pont entre des données du KF et le KSV. Nous présentons

ici notre démarche technologique, revêtant une couleur plutôt technique.

Du KF au KSV : développement technologique

Le développement technologique dans lequel nous nous sommes engagés consistait d‘abord

à injecter des données du KF issues des activités de l‘ÉER dans le KSV. Teplovs a

développé deux méthodes d‘entrée des données dans le KSV. L‘une se connecte

directement à un service KF pour y lire toutes les données, l‘autre passe par la lecture d‘un

fichier GraphML. La première nécessite que les données sémantiques soient inscrites

directement dans la BD du KF. Puisque les droits d‘utilisation du logiciel d‘analyse

sémantique capable de les y inscrire directement étaient restreints et qu‘il était susceptible

de devenir un obstacle à l‘étude d‘autres méthodes que la LSA, nous avons entrepris, à la

lumière de discussions avec Teplovs, d‘utiliser la deuxième méthode, plus générique, c‘est-

à-dire l‘utilisation de fichiers GraphML. Le GraphML se base sur le XML, un langage de

balisage extensible largement utilisé aujourd‘hui dans une optique d‘interopérabilité, c‘est-

à-dire pour faciliter l‘échange entre des systèmes d‘informations hétérogènes. Le GraphML

39

a été conçu par une communauté du domaine du traçage de graphes dans le but de définir

un format d‘échange commun pour les données de structures de graphes.

Nos échanges avec Teplovs nous ont conduits à choisir assez tôt dans le processus de

conception la bibliothèque logicielle Gensim (Řehůřek & Sojka, 2010) — écrite en langage

Python — pour réaliser la portion de l‘analyse sémantique. Par contre, les méthodes que

nous allions emprunter pour obtenir les données du KF et pour les injecter dans le KSV

n‘étaient pas aussi évidentes. Nous n‘avions qu‘une mince idée du temps nécessaire pour

réaliser les différentes étapes de notre chantier. Il y avait beaucoup d‘inconnu; nous devions

nous familiariser avec plusieurs technologies impliquées, comme les langages de

programmation C++, Java et Python, de même que des environnements de développement

intégrés comme les logiciels Eclipse et NetBeans. D‘un point de vue logistique, nous

devions réussir assez vite, car l‘année scolaire filait et nous devions nous assurer d‘avoir le

temps de réaliser notre éventuelle collecte de données.

Lire les données du KF

Nous devions donc trouver d‘emblée un moyen de communiquer avec la BD du KF. Depuis

sa version 4.6, le KF utilise une BD de type tuplebase, appartenant au cadre d‘applications

(application framework) ZooLib6. Nous devions décider si nous allions 1) communiquer

directement avec cette BD ou 2) travailler à partir d‘une réplique de celle-ci dans un autre

format. Nous avions fait quelques essais pour évaluer la faisabilité de la première option.

Nous avons exploré pendant environ deux jours l‘utilisation d‘un servlet Java exécuté avec

le logiciel serveur Apache Tomcat pour interagir par le Web avec la BD du KF. Ce servlet

simple était fourni sur une page du wiki des développeurs du KF. Nous avons rapidement

rencontré un problème lors de sa mise à l‘essai; lorsque les résultats d‘une requête

contenaient un caractère accentué, le servlet s‘arrêtait inopinément. Étant donné que nous

ne prévoyions pas avoir besoin d‘un accès en écriture à cette BD et que l‘usage de ZooLib

est très peu répandu – limitant ainsi les outils et la documentation pour travailler avec celui-

ci –, nous avons dirigé nos efforts sur la deuxième option.

6 Description disponible à : http://zoolib.sourceforge.net/ (consulté le 2 aout 2011).

40

Nous avons alors travaillé à partir d‘une réplique de la BD originale dans le système de

gestion de bases de données (SGBD) MySQL, distribué sous licence libre7. Il allait être fort

probablement plus facile de faire communiquer l‘analyse sémantique avec un serveur

MySQL puisqu‘il y a de très nombreux outils développés dans plusieurs langages de

programmation pour interagir avec ce dernier. De plus, sa robustesse et sa rapidité sont

éprouvées alors nous étions plus rassurés que le programme d‘analyse sémantique que nous

allions utiliser ou développer allait s‘exécuter rapidement tout en s‘adressant à un SGBD

reconnu très stable. C‘est alors que nous avons planché sur deux moyens pour générer la

réplique MySQL de la BD au format tuplebase : 1) programmer un logiciel de conversion

qui lit directement le fichier texte portant une tuplebase et 2) lire les données de la

tuplebase par l‘intermédiaire de son interface de programmation (API) prévue dans ZooLib.

Nous avons exploré ces deux moyens simultanément, jusqu‘à ce que nous statuions sur le

choix de l‘un des deux pour la suite, ce qui nous a pris environ deux semaines. Le

deuxième moyen était certainement plus souhaitable puisque l‘API est conçue justement à

cette fin, mais nous ignorions le temps nécessaire pour sa maitrise alors que le premier

avait le potentiel d‘être réalisé rapidement, à la lumière de notre expérience de

programmation. Dis autrement, le choix de mener les deux moyens simultanément était

motivé par le scénario nous paraissant le plus probable selon lequel nous réussirions à

réaliser le premier plus rapidement, du moins pour satisfaire les besoins de cette phase de

développement, mais que nous allions devoir tôt ou tard utiliser l‘API fournie par ZooLib

(c.-à-d. le deuxième moyen), par souci de stabilité, notamment. En ce sens, notre

familiarisation avec cette API n‘allait pas être vaine.

Pour réaliser la première option, nous avons tout d‘abord examiné la syntaxe du fichier

texte portant une tuplebase, à savoir un fichier tuplestore, pour être en mesure de concevoir

un logiciel qui allait l‘interpréter. Nous avons choisi de réaliser ce logiciel en PHP puisque

ce langage de programmation nous était familier. Il allait convertir une tuplebase en une

BD MySQL, et ce, à partir d‘une version XML qu‘il génèrerait dans une étape

intermédiaire. Considérant son caractère universel, ce fichier XML aurait aussi le potentiel

d‘être réutilisé par d‘autres applications que nous allions peut-être avoir à développer ou

utiliser, ou encore par d‘autres applets du KF. Il n‘allait probablement pas être difficile de

7 Licence publique générale GNU version 2 (GPL v2)

41

trouver ensuite un programme convertissant un schéma XML en un schéma MySQL,

minimisant l‘effort à déployer pour cette étape. Ce sont les principaux facteurs qui nous

motivaient à inclure le XML dans ce processus de conversion, tout en gardant en tête que

nous pourrions l‘abandonner en cours de route s‘il devenait trop encombrant. C‘est ainsi

que nous avons commencé à programmer ce logiciel de conversion lisant directement le

texte contenu dans le fichier tuplestore. Nous le raffinions au fur et à mesure que nous

rencontrions des cas posant problème. Cela pouvait être par exemple la rencontre d‘une

donnée d‘un type jusque-là non prévu ou encore la présence d‘un caractère compliquant la

bonne reconnaissance d‘une donnée, comme la présence d‘un point-virgule dans une chaine

de caractères, alors que le point-virgule est utilisé pour délimiter les données. À ce stade,

nous travaillions essentiellement avec des expressions régulières pour détecter les patrons

et fragmenter les données. En cours de route, nous avons constaté par nos recherches que la

syntaxe du texte du tuplestore est très similaire à celle du YAML8. Nous avons alors

entrepris de lire les fichiers tuplestore en les interprétant comme du YAML, à l‘aide de

l‘extension LibYAML pour PHP. Celle-ci n‘étant distribuée que dans une version compilée

pour Linux et ne voulant pas nous aventurer dans sa compilation pour Windows, nous

avons dû alors déménager une partie de notre environnement de développement de

Windows 7 à Linux, engendrant quelques jours d‘adaptation. Bien que nous progressions

de façon intéressante à l‘aide de cette technique, nous avons fait une percée intéressante

entretemps avec la deuxième option, grâce à l‘aide de Teplovs. Ceci nous a conduits à

mettre la première de côté pour concentrer nos efforts sur celle-ci.

Nous avons développé cet autre logiciel de conversion en langage C++ et seulement pour

Linux. Nous l‘avons développé et compilé sur Debian 5. Il a utilisé comme prévu l‘API de

ZooLib pour lire la tuplebase. Cette version a fait l‘économie de générer une version XML;

nous avons concentré nos efforts sur la réplication en MySQL. Ce convertisseur lit la

tuplebase, génère un fichier d‘exportation (dump) de MySQL (contenant toutes les requêtes

nécessaires à la création d‘un schéma), puis exécute son importation pour concrétiser la

création d‘une BD MySQL. Il faut savoir qu‘une tuplebase est une base de données

orientée objet, sans schéma (Teplovs, Green, & Scardamalia, 2008), contrairement à une

8Le YAML est un langage de sérialisation s‘inspirant des idées et concepts d‘autres

langages comme le C, le Perl, le Python et le XML.

42

base de données MySQL qui est relationnelle, avec schéma. Ce sont deux paradigmes,

posant un défi de conversion bien singulier. Le convertisseur doit parcourir l‘ensemble des

attributs d‘un même objet côté tuplebase pour construire la structure de la ou des tables

correspondantes dans sa réplique MySQL. Nous l‘avons mis à l‘essai sur Ubuntu (versions

10.10 et 11.04) en l‘exécutant sur de nombreuses bases de connaissances de l‘ÉER.

Il s‘agissait de mettre ce convertisseur le plus possible à l‘épreuve en lui faisant traiter une

grande variété de BD. Nous l‘avons testé en deux semaines sur une centaine de bases. Cela

nous a permis de le raffiner et de déterminer les conditions dans lesquelles il s‘exécute bien.

Par exemple, nous nous sommes aperçus qu‘un même attribut pouvait être orthographié

tantôt avec tantôt sans lettre majuscule dans la tuplebase (p. ex. « Cleared » et « cleared »).

Dans ces cas, nous nous sommes assurés qu‘il s‘agissait bel et bien du même attribut

malgré cette variation de casse, et non d‘attributs distincts. Cela aurait pu poser problème

puisque MySQL ne permet typiquement pas de sensibilité à la casse pour les éléments de

structure des schémas. Puisque la vaste majorité des noms d‘attributs étudiés étaient

complètement en minuscules, nous avons programmé notre convertisseur pour qu‘il

retienne la version minusculisée comme nom de champ MySQL correspondant lorsque ces

variations se présentent. Nous avons aussi rencontré un problème avec l‘échappement des

guillemets simples dans les chaines de caractères. Nous l‘avons résolu en faisant une

modification dans un fichier de ZooLib9 qui a permis de placer des barres obliques

inversées aux endroits appropriés. Voilà des exemples notables de problèmes rencontrés à

cette étape de développement d‘un exportateur de tuplebase.

Au moment de savoir que nous pourrions générer des répliques fiables en MySQL, nous

avons entrepris le développement d‘une autre composante majeure : l‘analyseur

sémantique.

Création du KFSA : un analyseur sémantique basé sur Gensim

Comme nous l‘avons mentionné déjà, nous avons choisi d‘utiliser la bibliothèque logicielle

libre Gensim10

à cette fin. Elle a été créée en aout 2009 et elle a connu un essor important

9 ZStrimW_Escapify.cpp

10 Gensim est distribuée sous licence publique générale limitée GNU version 2.1 (LGPL

v2.1).

43

au début de l‘année 2011 alors que son code a été déménagé sur la plateforme de

développement collaborative GitHub. Ses développeurs se sont alors rapidement multipliés.

Cette vivacité est d‘ailleurs toujours présente au moment de rédiger ce mémoire, plusieurs

mois plus tard. Ses créateurs affirment que Gensim vise à combler certaines lacunes

présentes chez les programmes de ce type existants. Ils mentionnent leur manque de

modélisation thématique, la non-extensibilité de leurs modèles, leurs domaines cibles

n‘étant pas le traitement du langage naturel ou la recherche d‘informations et surtout leur

manque d‘unification (Řehůřek & Sojka, 2010). Ses auteurs écrivent que la courbe

d‘apprentissage des programmes existants est souvent très abrupte, ce qui en décourage

plus d‘un à les utiliser. Les gens vont souvent préférer écrire leur propre logiciel plutôt que

de plonger dans l‘étude laborieuse des subtilités de ceux existants. Au contraire, Gensim se

veut rassembleur. Il intègre, ou unifie, de nombreuses fonctionnalités en un seul logiciel,

tout en étant extensible. Son langage, le Python, est bien établi. Sa syntaxe claire fait de lui

un langage simple à apprendre, souvent utilisé par les pédagogues. Gensim est bien

documenté et sa licence libre permet justement de le modifier librement, apportant une

flexibilité étant bienvenue. De plus, il intègre les deux méthodes d‘analyse sémantique que

nous envisagions d‘utiliser dans la présente étude : la LSA et la LDA. Voilà tant de facteurs

qui nous ont convaincus d‘utiliser Gensim dans notre projet.

Nous avons commencé à travailler avec Gensim 0.7.7 (13 février 2011). Pendant nos

développements de l‘hiver 2011, la version 0.7.8 est sortie (26 mars 2011), mais nous

l‘avons d‘abord ignorée pour nous assurer de poursuivre nos essais et calculs dans les

mêmes conditions, c‘est-à-dire que nous ne voulions pas risquer alors d‘introduire la

variabilité qu‘aurait pu apporter cette nouvelle version par ses méthodes de calcul, aussi

mince qu‘elle soit. Par contre, nous avons mis à niveau notre analyseur sémantique pour

qu‘il soit compatible avec Gensim 0.8.0, une importante mise à jour sortie le 28 juin 2011

améliorant les performances et instaurant plus de rigueur et de cohérence dans la

nomenclature de ses composantes. Son API n‘était pas rétrocompatible avec les versions

antérieures. Une fois notre programme mis à niveau pour interagir avec Gensim 0.8.0 (p.

ex. renommage de variables, de fonctions et de classes appelées), nous avons reproduit de

nombreux calculs d‘analyse sémantique effectués jusque-là avec la version 0.7.7. Les

résultats étaient exactement les mêmes. Ceci a permis de renforcer la confiance en nos

44

résultats obtenus de mars à juin avec cette version 0.7.7. Notons enfin que Gensim s‘appuie

sur les bibliothèques de calcul scientifique NumPy et SciPy.

Une fois nos bases de données du KF obtenues en MySQL, nous pouvions commencer à

programmer notre logiciel d‘analyse sémantique. C‘était notre première expérience de

programmation en Python; nous devions en apprendre les rudiments. En analysant le code

de Gensim et en consultant quelques tutoriels, nous avons pu commencer à nous mettre à la

tâche en quelques jours. Le premier défi principal a été de faire communiquer Gensim avec

MySQL. Comme sources de données, Gensim est capable de lire nativement un fichier

texte, un dump de l‘encyclopédie Wikipédia, puis les formats qu‘il gère pour sérialiser les

données vectorielles, à savoir : GibbsLDA++, LDA-C de Blei, Matrix Market et SVMlight.

Nous n‘allions utiliser aucun de ces formats. Il fallait non seulement pouvoir injecter nos

données MySQL dans Gensim, mais pouvoir aussi ajouter les résultats de ses calculs dans

les BD MySQL analysées, et non les enregistrer dans des fichiers détachés (e.g. Matrix

Market). En les centralisant, cela allait maximiser notre aisance à étudier et à utiliser, voire

croiser, ces données à d‘autres fins, comme l‘étape de préparation d‘un fichier GraphML

pour le KSV. En ce sens, nous avons décidé que nous allions utiliser MySQL pour stocker

non seulement les résultats, mais aussi pour les données que Gensim génère au travers de

ses processus de calcul (p. ex. termes retenus, matrices d‘occurrences). Nous allions

modifier Gensim pour qu‘il utilise MySQL plutôt qu‘un de ses formats de sérialisation

natifs. Pour ce faire, nous avons d‘abord cherché un connecteur MySQL pour Python, et ce,

pour Linux et Windows, puisque nous développions et testions sur ces plateformes. Nous

avons trouvé rapidement MySQLdb. Il s‘agit du paquet natif mysql-python sur Ubuntu et

Debian et quelques heures de recherches et d‘essais nous ont permis de trouver et d‘adopter

une version compilée pour Windows. Nous avons ensuite entrepris d‘adapter Gensim pour

MySQL. Nous avons écrit une classe mysqlcorpus en remplacement de la classe native

mmcorpus de Gensim.

Cette classe mysqlcorpus devait donc avoir toutes les mêmes fonctionnalités que

mmcorpus, pour s‘interfacer parfaitement entre les différentes composantes de Gensim. En

mettant à l‘essai notre première version, nous trouvions que l‘insertion des données de

similarité sémantique était quelque peu lente. À cette étape, il n‘est pas rare qu‘il y ait

plusieurs milliers de données à insérer; il s‘agit de la similarité sémantique entre chacun des

45

documents formant le corpus analysé. On peut représenter ce nombre de résultats par la

formule suivante :

))

où n = nombre de résultats (comparaison) et d = nombre de documents analysés. Par

exemple, pour 100 documents analysés, il y a 4950 résultats. Nous avons alors commencé à

utiliser pour cette tâche la méthode executemany() de MySQLdb plutôt que execute().

Ainsi, au lieu que chaque insertion se réalise en boucle par des requêtes indépendantes,

MySQLdb combine toutes les insertions en une seule requête au serveur MySQL. Cela a

nettement amélioré la performance, ce qui était souhaitable autant par pure optimisation du

code que par souci de rapidité pour un éventuel traitement de données en lot.

Essentiellement, notre analyseur sémantique consiste à lire des données du KF au format

MySQL, réaliser leur analyse sémantique avec Gensim et retourner les données ou résultats

produits dans cette même BD MySQL. Nous l‘avons baptisé le KFSA, un sigle dérivé de

son nom dans la langue de Shakespeare : Knowledge Forum Semantic Analyzer.

Mise à l’essai du KFSA

Pour les premiers essais, nous avons utilisé les données provenant d‘un projet de la classe

de l‘enseignant A. Nous avons décidé de mettre la LDA de côté pour le moment, préférant

nous centrer sur la LSA ayant été largement plus étudiée par Teplovs. La toute première

analyse conduite avec le KFSA était de bon augure. Il réussissait bien à lire les données du

KF et les thèmes générés étaient pertinents. Ce projet portait sur la Nouvelle-France et deux

termes ayant les plus grands poids parmi plusieurs thèmes étaient « nouvelle » et

« France ». Cela a mis à l‘avant-scène, d‘emblée, l‘enjeu de la construction des unités

lexicales (tokenization) lors de l‘analyse lexicale réalisée au début du processus d‘analyse

sémantique. La phase de l‘analyse lexicale décompose le texte contenu dans les documents

(c.-à-d. les chaines de caractères) en unités lexicales, appelées aussi mots ou jetons

(tokens), formant ainsi le dictionnaire utilisé dans la suite de l‘analyse. Ce dictionnaire est

d‘une grande importance, car l‘analyseur sémantique ignorera les mots qui n‘y figurent pas

pour la suite du processus. Rappelons que l‘analyse sémantique considère d‘emblée tous les

46

mots rencontrés, quels qu‘ils soient, bien orthographiés ou non; il s‘agit d‘une approche

émergente.

Lorsque ce dictionnaire est formé, c‘est souvent l‘occasion de lui appliquer un

antidictionnaire si l‘on souhaite absolument ignorer certains mots. Un antidictionnaire (ou

liste de mots vides) est souvent formé de conjonctions de coordination (p. ex. et, ou, ni,

mais, car, or) et de prépositions (p. ex. avec, sans, selon, de, à). Comme nous l‘avons déjà

mentionné, la méthode tf-idf pondère les mots selon leur fréquence locale et globale, ce qui

élague normalement ce type de mots ayant une présence constante dans l‘ensemble d‘un

corpus. C‘est pourquoi nous avons d‘abord choisi de ne pas utiliser d‘antidictionnaire et de

faire fond uniquement sur la pondération tf-idf. Nous allions voir si nous devrions y avoir

recours ultérieurement.

Ce premier essai nous a permis de constater que Gensim scindait nativement les termes

ayant des traits d‘union. Dans ce cas, le terme « Nouvelle-France » a été éclaté en deux

termes : « nouvelle » et « France ». Ce n‘est pas nécessairement problématique, car les

termes scindés (c.-à-d. les termes « enfants ») cooccurrent autant que la fréquence du terme

ayant été scindé (c.-à-d. le terme « parent »), conduisant normalement l‘analyse sémantique

à établir un lien fort entre ceux-ci. Par principe, nous avons préféré le traiter comme un

terme propre puisque nous croyons que c‘est plus fidèle à l‘usage réel. Nous avons ainsi

décidé de modifier l‘algorithme de Gensim pour qu‘il ne scinde plus sur les traits d‘union et

les guillemets anglais simples (c.-à-d. le caractère « ‗ », comme dans le terme

« aujourd‘hui »), supposant qu‘il était davantage conçu pour l‘anglais et que notre

modification allait être plus appropriée pour l‘analyse du français. Nous avons pris

l‘initiative de faire ce réglage en gardant en tête que nous pourrions éventuellement

l‘annuler selon les discussions et les résultats obtenus avec les classes.

Le KFSA fonctionnait bien dès cette première mise à l‘essai. Les différentes données

produites par Gensim se retrouvaient bien dans la BD MySQL. Nous avons alors

commencé à étudier l‘effet de la dimensionnalité de l‘espace de connaissances, c‘est-à-dire

le nombre de thèmes retenus pour l‘analyse d‘un corpus. Croyant que cette variable pouvait

avoir un effet critique dans l‘analyse de nos corpus, nous avons alors entrepris de

47

documenter un maximum de résultats d‘analyses que nous allions réaliser. Nous aborderons

cet aspect plus en détail dans la section « La dimensionnalité des espaces sémantiques ».

Production des fichiers GraphML destinés au KSV

La dernière pièce logicielle à développer était celle pour faire le pont entre la base de

données MySQL et le KSV; ce logiciel allait exporter des données de celle-ci dans un

fichier GraphML. Nous étions familiers avec la manipulation de bases de données MySQL

par le langage PHP. Nous savions aussi qu‘ils existait des méthodes faciles en PHP pour

générer un fichier en XML, le langage du format GraphML destiné à être lu par le KSV.

C‘est pourquoi nous avons décidé de concevoir ce troisième logiciel en PHP.

Nous avons ensuite commencé à étudier les spécifications du format GraphML et les

exigences du KSV relativement à celui-ci11

. Le GraphML se compose d‘un noyau de

langage définissant les propriétés structurelles d‘un graphe tout en étant extensible, c‘est-à-

dire qu‘il fournit un mécanisme flexible permettant d‘ajouter des données spécifiques aux

applications. Le KSV n‘utilise actuellement que ses éléments de base, à savoir le graphe

(graph), le nœud (node) et le lien (edge). Toutes nos données devaient donc être traduites

en terme de nœuds et de liens. Dans ce schéma, la plupart des objets du KF (p. ex. notes,

auteurs, échafaudages, perspectives) y sont représentés par un nœud alors que leurs liaisons

(p. ex. lien de paternité, lien d‘élaboration) par un lien, comme son nom le suggère. Nous

avons beaucoup appris par l‘exemple, en étudiant justement le fichier exemple fourni dans

la documentation du KSV. S‘en est suivi une valse d‘essais et d‘erreurs pour réussir à

ouvrir un fichier issu de notre programme et contenant nos données. Ce sont surtout les

dates qui nous ont donné du fil à retordre. Au début, nous utilisions certaines valeurs bidon

pour les dates et nous avons découvert que le KSV construisait sa plage de dates à partir

des valeurs contenues à la fois dans les nœuds et dans les liens. En conséquence, il

n‘ouvrait pas notre fichier lorsque celui-ci ne contenait pas encore d‘éléments liens et il

devait y avoir au moins deux dates différentes pour qu‘il puisse calculer une plage.

Cet exportateur nous a pris environ 2 semaines à développer. Nous avons dû nous

familiariser avec les méthodes pour construire un document XML. Nous avons choisi

l‘extension SimpleXML native de PHP puisqu‘elle était plus simple, en sachant qu‘il

11

http://code.google.com/p/ksv/wiki/GraphMLForKSV (consulté le 2 aout 2011)

48

faudrait éventuellement passer à XMLReader et XMLWriter pour une meilleure gestion de

la mémoire sur de gros ensembles de données. Nous avons inclus une option pour

anonymiser les résultats et les fichiers générés contiennent un code d‘espace sémantique (p.

ex. 7.4) pour pouvoir être facilement associés à d‘autres résultats que nous colligions dans

un document tiers.

Avec ces trois composantes logicielles réalisées, nous étions prêts à avancer avec ce qui est

plus central à notre étude, soit l‘utilisation du KSV et les résultats de l‘analyse sémantique

de données de l‘ÉER. Mais avant, nous présenterons un aspect qui peut avoir un impact

important lors desdites analyses, la dimensionnalité.

La dimensionnalité des espaces sémantiques

La dimensionnalité fait référence au nombre de dimensions (k) de l‘espace sémantique

construit lors de l‘analyse. Comme nous l‘avons expliqué précédemment dans la section

« L‘analyse sémantique latente (LSA) », ces dimensions sémantiques renvoient, dans le

contexte du langage naturel, à des thèmes (ou « concepts »). Un thème n‘est pas un seul

mot ou une expression, comme on peut y faire référence en langage courant, mais un

ensemble, voire une distribution de mots. Le choix du nombre de thèmes dépend du type

d‘analyse que l‘on souhaite réaliser. Par exemple, si on voulait séparer les articles de

Wikipédia entre les « sciences humaines » et les « sciences naturelles », on pourrait tenter

de le faire en analysant ce corpus avec deux thèmes. Utile pour distinguer les documents en

deux grandes familles, ce nombre minimal de thèmes rendrait les possibilités d‘analyses

plus fines de cet espace sémantique très périlleuses. À titre d‘exemple, il ne serait pas avisé

de tenter d‘y repérer et d‘y comparer des articles traitant d‘un sujet pointu, alors que les

documents ont été aussi grossièrement modélisés. Il serait alors plutôt souhaitable de

reprendre l‘analyse avec un nombre plus élevé de thèmes, si bien que ces articles puissent

être mieux modélisés dans l‘espace sémantique. Sachant que le nombre de thèmes choisi

peut avoir une importance critique sur la construction de l‘espace sémantique, cela revient à

se poser la question suivante avant d‘analyser un corpus : avec combien de thèmes doit-on

analyser ce corpus afin qu‘il soit modélisé adéquatement?

Dans les écrits scientifiques, on indique que le nombre de dimensions retenues est un

problème empirique (T. Landauer, Foltz, & Laham, 1998). On mentionne que la

49

dimensionnalité optimale est celle qui donne les meilleurs résultats de recherche et non

celle reproduisant la plus grande variance de la matrice originale (lexicale) comme il est

d‘usage dans d‘autres domaines (Deerwester et al., 1990). Certains auteurs situent cette

tâche dans la logique du principe de longueur de description minimale (minimum

description length) (Zha, Marques, Simon, & Berkeley, 1998), stipulant que « toute

régularité dans les données peut être utilisée pour compresser les données, de façon à les

décrire en utilisant moins de symboles que ceux nécessaires pour décrire les données

littéralement. En associant ―apprentissage‖ et ―recherche de régularité‖, cela signifie que

plus on est capable de compresser les données, plus on a appris au sujet de celles-ci. »

(traduction libre) (Grünwald, 2005).

Les analyses documentées dans les écrits scientifiques sont généralement réalisées sur de

grands corpus, soit des milliers de documents, contenant chacun plusieurs centaines de

mots, comme des encyclopédies médicales ou l‘encyclopédie libre Wikipédia. À cette

échelle, certains suggèrent d‘utiliser une valeur de k entre 100 et 500, ou plus, à la lumière

de résultats empiriques (Deerwester et al., 1990). Il est généralement admis qu‘il n‘y a pas

d‘intérêt à choisir au-delà de 350 thèmes. On soutient alors qu‘il s‘agit du meilleur

compromis entre la pertinence du résultat et le temps de calcul. Outre cette « règle d‘or »,

très peu de propositions existent et nous n‘en avons trouvé aucune qui soit à visée

universelle ou étant susceptible d‘être appliquée à notre contexte. D‘ailleurs, nous n‘avons

pas repéré d‘étude utilisant une méthode d‘analyse sémantique qui traite de l‘enjeu de la

dimensionnalité au-delà de nombres arbitraires de dimensions choisis. Dans notre étude,

nous allions analyser surtout des petits corpus, comportant la plupart du temps une

vingtaine de documents. De plus, ces documents étant des notes écrites par des élèves du

primaire, elles sont typiquement assez courtes, contenant le plus souvent de 1 à 5 phrases,

rendant notre contexte bien différent de la plupart de ceux que l‘on retrouve dans les écrits

scientifiques.

Prévoyant vouloir comparer les résultats de plusieurs de nos analyses sémantiques, nous

allions donc devoir créer notre propre méthode pour choisir le nombre de thèmes. Sans ce

traitement commun, cette cohérence, il allait être très difficile de tirer des conclusions.

Notre méthode allait aussi devoir pouvoir être automatisée par programmation, sinon,

logistiquement, nous risquions d‘être limités à l‘analyse de quelques dizaines de corpus,

50

alors que nous avions la possibilité d‘en analyser quelques milliers. En conséquence, un

nouvel objectif de recherche a émergé, nous allions devoir développer une méthode de

décision du nombre de thèmes afin d‘assurer une cohérence dans nos analyses et de rendre

leur automatisation possible.

Nous présentons ici la démarche que nous avons empruntée pour la développer, c‘est-à-dire

la partie relevant de la méthodologie. Puis, au chapitre suivant, la méthode définitive que

nous avons utilisée, que nous considérons comme un résultat de cette étude.

Puisque les écrits scientifiques suggèrent que la détermination d‘un k optimal est un

problème empirique, nous avons documenté, aussitôt que possible, un maximum de

résultats issus de nos analyses sémantiques. Notons que celles-ci sont autoréférenciées,

c‘est-à-dire que le sens est construit uniquement à partir des documents eux-mêmes; il n‘y a

pas de documents externes, comme des articles d‘encyclopédies, qui entrent en jeu. Nous

avons également décidé de n‘introduire ni listes de mots vides à ignorer (antidictionnaire)

ni limites minimales et maximales de fréquence aux mots pour qu‘ils soient considérés par

l‘analyse. Après en avoir introduit à quelques reprises, nous avons décidé de supprimer ces

paramètres afin de limiter la quantité de variables à considérer dans l‘examen des données

obtenues progressivement.

Nous avons alors porté notre attention sur l‘effet de k sur la distribution de ces similarités

sémantiques. Les degrés de similarité calculés par la LSA s‘étendant de -1 à 1, nous allions

devoir examiner les endroits où se trouvent le ou les pics de cette distribution en fonction

du nombre de thèmes choisi. Par exemple, un pic près de 1 signifierait qu‘une majorité de

documents sont très similaires dans l‘espace sémantique. Dans un tel cas, nous croyions

que cela signifierait que le corpus a été analysé avec un nombre insuffisant de thèmes, ne

permettant probablement pas du coup à la complexité du contenu d‘être représentée dans le

modèle.

Nous avons ainsi entrepris de documenter et d‘étudier la distribution des similarités en

fonction de k, au sein de chaque corpus. Au départ, nous lancions chacune de ces analyses

manuellement, pour ensuite automatiser le tout par programmation. Le KFSA analysait

désormais chaque corpus avec autant de thèmes qu‘il contient de documents. Nous avons

ensuite commencé à observer la distribution des similarités, en faisant une première

51

estimation, à savoir en arrondissant les degrés de similarités aux dixièmes de l‘échelle

allant de -1 à 1. Nous avons remarqué que plus k augmente, plus le pic de similarités se

déplace de 1 vers 0, et qu‘il se stabilise toujours à 0,1 ou 0, selon les corpus. Bien qu‘il y ait

parfois des similarités négatives, elles n‘ont jamais été assez nombreuses pour que le pic de

la courbe soit inférieur à 0, du moins, nous n‘avons pas rencontré cette situation dans nos

données. Voici, à la Figure 6, un graphique illustrant la distribution des similarités en

fonction de k, pour un corpus de 47 notes. La source de données utilisée pour le générer est

disponible à l‘Annexe 1.

Figure 3. Distribution des similarités sémantiques en fonction de k.

Dans ce cas-ci, le corpus a été balayé avec k variant de 1 à 47. On peut voir qu‘avec 1

thème, la vaste majorité (92 %) des notes sont considérées très similaires (1) et 4 % sont

considérées très différentes (0). Les autres valeurs (4 %) sont négatives et il n‘y en a aucune

entre 0,1 et 0,9. Comme dans la majorité des corpus analysés, plus k augmente, plus le pic

de similarités se déplace vers 0, s‘y stabilise et s‘accroit.

Nous avons observé également que les variations dans les courbes des fréquences ne sont

pas régulières, c‘est-à-dire qu‘il n‘y a pas toujours une croissance ou une décroissance

52

continue entre 0 et 1. Dans cet exemple, en observant les courbes représentant 5 thèmes et

plus, on peut voir des maximums locaux, se situant le plus souvent entre les degrés de

similarité 0,5 et 0,8, alors que la tendance générale est une décroissance entre 0 et 1. C‘est

finalement sur cette caractéristique, à savoir l‘allure de ces courbes, que nous avons basé

notre algorithme de décision.

Rappelons qu‘au départ, nous étions pratiquement devant l‘inconnu. Nous lancions alors

manuellement les analyses de façon exploratoire, en variant k de façon aléatoire. Les

valeurs de k étaient choisies de façon arbitraire, en commençant le plus souvent avec une

valeur de k équivalente à 10 % du nombre de documents (n), puis en focalisant

progressivement dans une plage allant de 5 à 30 % de n. Tantôt il y avait des maximums

locaux, comme décrit précédemment, tantôt les variations dans les courbes de similarités

étaient régulières. Le pic de similarité se stabilisait le plus souvent à 0, mais aussi parfois à

0,1. Ce pic pouvait être atteint très rapidement, comme tardivement, c‘est-à-dire alors que k

est près de n. En ce sens, il n‘y avait pas de régularité dans les coefficients de corrélation, à

savoir ceux de Pearson et de Spearman, pour chaque courbe de k ou des parties de celle-ci.

Bref, plus nous faisions d‘analyses, plus nous observions que le portrait de la distribution

des similarités en fonction de k pouvait être très différent d‘un corpus à l‘autre.

Cette diversité nous a amenés à mettre de côté une première méthode de décision, plutôt

simple, sur laquelle nous avions travaillé. Elle consistait à sélectionner le plus petit k

engendrant un pic de similarités à 0 ou 0,1, ceci visant à permettre à un minimum de

complexité de s‘exprimer dans le modèle sémantique. Ensuite, l‘accumulation ces valeurs

de k et de n allaient peut-être permettre de déterminer empiriquement une fonction

d‘estimation de k. Cette fonction alors prenait l‘allure d‘une fonction logarithmique, mais la

diminution progressive de la corrélation dans le nuage de points (c.-à-d. les valeurs de k et

n qui s‘accumulaient) duquel elle était dérivée nous a finalement convaincus que cette

approche n‘était pas prometteuse. Par conséquent, nous avons décidé de poursuivre

l‘exploration de nos données et la recherche d‘approches plus fécondes.

Nous avons alors fait appel à la communauté de développeurs de Gensim pour leur

demander s‘ils avaient des idées à nous proposer, compte tenu de notre contexte et des

premiers résultats obtenus. Le créateur de Gensim nous a répondu « qu‘il existe des

53

méthodes pour estimer le nombre de thèmes, basées sur le spectre des valeurs singulières

du problème, mais que par expérience, ces méthodes ne sont pas robustes du tout ». Il

ajoutait : « le conseil de base dans votre situation est de constituer un nuage de points des

valeurs optimales de k en fonction de la taille des corpus, ces valeurs optimales de k

provenant d‘une mesure indépendante et objective de la qualité du modèle. Avec de la

chance, cela peut permettre de faire émerger une fonction prédictive de k adaptée au

contexte étudié » (traduction libre de l‘anglais). Cette dernière approche proposée était très

similaire à la méthode que nous venions de mettre de côté. Elle différait en ce qu‘elle

requérait une évaluation humaine objective de la qualité des modèles générés. Nous avons

décidé de la mettre de côté également. D‘une part, la mise en place d‘un tel dispositif

d‘évaluation humaine des analyses semblait logistiquement irréalisable dans le cadre de

cette étude. De fait, il aurait fallu constituer une grande banque de jugements humains sur

la qualité de chacune des analyses, celles-ci pouvant se compter par centaines. D‘autre part,

elle ne fournissait aucune garantie que l‘on pourrait généraliser son utilisation dans

l‘ensemble de nos données.

L‘auteur principal de Gensim nous avait également proposé la lecture d‘un article de Zha et

al. (1998), traitant explicitement de la dimensionnalité avec la LSA. Les auteurs y décrivent

de façon très détaillée la démarche mathématique qu‘ils ont utilisée pour la détermination

d‘un k optimal, à l‘aide du principe de longueur de description minimale (MDL, de

l‘anglais Minimum description length). Nous avons travaillé pendant deux semaines à

tenter d‘implémenter leur méthode, sans succès. Nous n‘obtenions pas la même allure de

graphe qu‘eux. Les courbes que nous obtenions étaient toujours décroissantes, donc sans

minimum, et c‘est justement le minimum qui servait à déterminer le k optimal. Nous avons

alors communiqué avec le professeur Zha qui nous a confirmé que leur méthode reposait

sur des hypothèses qui pourraient très probablement ne pas être satisfaites par nos corpus.

Nous ne pouvions donc pas la généraliser à notre contexte. Ce revers allait être un demi-

mal, puisque des éléments de leur approche nous ont beaucoup inspirés pour la suite. Nous

présentons la méthode que nous avons finalement adoptée dans la section « Développement

d‘une méthode de décision du nombre de thèmes » du prochain chapitre.

54

Collecte des données : instruments et procédures

Nous avons commencé nos visites sur le terrain à la mi-avril 2011. Pour les trois sites

visités, nous avons procédé de la même façon. L‘étudiant-chercheur a d‘abord rencontré

chacun des enseignants pour leur présenter quelques exemples de visualisations avec le

KSV et d‘autres mesures dérivées, toutes issues de données représentant le travail de leur(s)

classe(s) dans le KF. Chaque enseignant avait préalablement ciblé quelques perspectives

représentant quelques projets réalisés plus tôt dans l‘année ou en cours de réalisation.

C‘était ce qui avait été convenu quelques semaines auparavant, comme nous l‘avons

présenté dans la section « Le contexte spécifique : les participants ». Il s‘agissait de

données pouvant être particulièrement intéressantes à supposer que nous les présentions

aux élèves.

Nous allions étudier l‘adoption du KSV par les élèves et les enseignants. D‘abord, en

questionnant les enseignants sur les usages possibles qu‘ils voyaient en l‘outil, relativement

à leur contexte pédagogique. L‘idée ici était de ne pas biaiser leur appropriation en leur

proposant d‘emblée une ou plusieurs utilisations à essayer en classe. L‘étudiant-chercheur

s‘est ainsi efforcé à réaliser la même amorce avec chacun des enseignants. Nous avons

également présenté aux enseignants un élément en marge du KSV. Il s‘agissait de

classements des élèves en tenant compte de tout leur travail réalisé dans le KF jusqu‘à ce

jour dans l‘année scolaire en cours, d‘un point de vue principalement sémantique.

L‘étudiant-chercheur voulait vérifier si la longueur vectorielle (LV) des contributions,

représentant le volume d‘idées partagées contenues dans celles-ci, pouvait être prometteuse

dans l‘évaluation de la participation de ces jeunes à la coélaboration de connaissances. Ces

entretiens avec les enseignants ont été documentés par une prise de notes par l‘étudiant-

chercheur.

Ensuite, lorsque l‘enseignant le jugeait pertinent et selon ses disponibilités, l‘étudiant-

chercheur et ce dernier allaient présenter le KSV aux élèves en les questionnant sur leurs

premières impressions et les usages possibles qu‘ils percevaient. Cela viserait à étudier

l‘adoption de l‘outil par les élèves. De plus, selon le ou les usages cernés par les

l‘enseignant et ses élèves et leurs disponibilités, l‘enseignant et l‘étudiant-chercheur a

conduit une activité de mise à l‘essai avec eux. Ces interventions en classe ont été

55

enregistrées sur vidéo. Nous avons ensuite utilisé ces vidéos pour transcrire les verbatims

des échanges, ceux-ci servant de matériau de base pour produire les résultats de la première

phase de notre étude. Grâce à cette méthode de collecte, l‘étudiant–chercheur allait pouvoir

retourner aux propos exacts tenus en classe par les élèves et les enseignants.

Suite aux rencontres avec les enseignants et les élèves, nous avons exploré le potentiel de

l‘analyse sémantique relativement au développement de différentes mesures de la

collaboration et de la créativité. Pour ce faire, nous allions utiliser les données du KF de

l‘ÉER des six dernières années. Nous avons ainsi combiné 126 bases de connaissances du

KF, converties préalablement au format MySQL selon la technique décrite précédemment,

en une grande base de données du même format. Cette BD combinée allait faciliter

l‘exploration des données par notre logiciel KFSA. En plus des méthodes de collecte de

données intégrées au KFSA, nous avons conçu plusieurs requêtes, utilisant des fonctions

intégrées à MySQL, pour réaliser certains regroupements, mesures et statistiques. Les

résultats des analyses menées par le KFSA et des différentes requêtes manuelles ont été

stockés dans une BD MySQL consacrée à la présente étude.

Procédures d’analyse des données

Pour l‘analyse des échanges réalisés en classe avec les élèves, nous avons procédé à une

analyse qualitative des verbatims provenant des enregistrements vidéos et des notes écrites

par l‘étudiant-chercheur. Nous en avons identifié des thèmes émergents. Ceux-ci sont assez

distincts, mais non mutuellement exclusifs. Notre objectif était de rendre bien compte des

échanges avec les enseignants et les élèves. À titre d‘exemple, les « mêmes mots » et les

« mêmes mots-clés » représentent deux thèmes différents. Dans ce cas, des mots-clés sont

également des mots, mais les mots-clés sont des mots pivots pour la compréhension d‘un

texte alors que les mots renvoient simplement à tous les mots.

Pour la deuxième phase de notre étude, nous avons analysé des données provenant à la fois

du travail des élèves de l‘ÉER depuis les 6 dernières années, que de différents traitements

réalisés sur celles-ci par le KFSA et des requêtes manuelles à la base de données. À partir

de l‘ensemble de ces données, nous avons conduit des analyses statistiques et produit

plusieurs graphiques, le tout avec l‘aide des logiciels Microsoft Excel et IBM SPSS. Pour

étudier la relation entre certaines données, nous avons utilisé les coefficients de corrélation

56

de Pearson (r) et de Kendall (τ). Notons que, hormis les valeurs absolues 1 et 0, signifiant

respectivement une corrélation parfaite et nulle, l‘interprétation qualitative de l‘intensité de

ces coefficients de corrélation est relativement arbitraire. Nous utiliserons l‘échelle suivante

pour interpréter leur valeur absolue :

De 0 à 0,29 : faible;

De 0,30 à 0,59 : moyenne;

De 0,60 à 1,00 : forte.

À moins que nous le spécifiions autrement, nous avons priorisé le coefficient τ à r pour

qualifier les corrélations, présupposant le plus souvent que leur relation n‘est pas linéaire.

57

Chapitre 3 — Présentation et analyse des résultats

Ce troisième chapitre présente et analyse les résultats obtenus suivant la méthodologie de

recherche décrite au chapitre 2. Nous verrons d‘abord les résultats de l‘objectif de

recherche portant sur la dimensionnalité des espaces sémantiques et ayant émergé en cours

d‘étude. Ensuite, nous présenterons les résultats de nos deux questions de recherche

principales.

Développement d’une méthode de décision du nombre de thèmes

Comme décrit dans la section « La dimensionnalité des espaces sémantiques » du chapitre

précédent, nous devions créer notre propre méthode pour décider du nombre de thèmes (k)

à retenir lors de la modélisation d‘un corpus avec la LSA. Nous nous sommes inspirés de la

méthode de Zha et al. (1998). De cette approche, nous avons retenu deux éléments

principaux, l‘un étant le balayage du corpus avec k variant de 1 à n (c.-à-d. la taille du

corpus), et l‘autre, l‘utilisation du principe de longueur de description minimale (MDL).

Celui-ci consiste à rechercher de la régularité dans les données de façon à pouvoir en

constituer un nouveau modèle compressé. Nous nous sommes aussi inspirés de l‘analyse en

composantes principales (PCA, de l‘anglais Principal component analysis), une méthode

d‘analyse des données, souvent exploratoire, permettant de ramener de l‘information à un

nombre réduit de composantes par rapport aux variables originales. Ces composantes sont

alors celles qui expliquent le mieux la variance, ou l‘inertie, dans les données initiales. La

diagonalisation de la matrice tf-idf par la LSA est un exemple d‘application, alors que les

composantes principales correspondent à des thèmes.

Pour chaque corpus, notre méthode de décision consiste à sélectionner le plus petit k

associé à l‘intervalle de décroissance le plus typique. D‘abord, l‘algorithme analyse un

corpus avec autant de nombres de thèmes différents que ce corpus contient de documents,

c‘est-à-dire en variant k de 1 à n. Pour chacune de ces n sous-analyses sémantiques, la

similarité de chaque paire de documents est calculée. Les valeurs de ces similarités sont

ensuite arrondies au dixième. De l‘échelle de -1 à 1 initiale, seulement la portion de 0 à 1

est retenue pour la suite, les valeurs négatives étant plutôt rares et la position du pic ne

s‘étant jamais trouvée sous 0 dans nos données. On obtient ainsi des courbes de fréquences

58

de similarités, formant une distribution de similarités sémantiques, comme celle présentée à

la Figure 6. On cherche alors de la régularité parmi ces courbes, en les examinant du point

de vue de leur allure, et non de leurs valeurs absolues. Après avoir essayé différents

scénarios, nous n‘avons retenu qu‘une seule caractéristique à considérer à cette étape : le

principal intervalle de décroissance de chaque courbe. Nous avons choisi cette

caractéristique, car elle est directement affectée par k, le pic de dissemblance se déplaçant

vers 0 et l‘étendue de l‘intervalle de décroissance augmentant typiquement alors que k

s‘accroit. En s‘inspirant de logique de la PCA, l‘algorithme choisit donc l‘intervalle le plus

fréquent dans la distribution, en faisant l‘approximation que c‘est celui qui est le plus

représentatif. On retrouve à l‘Annexe 2 un exemple de tableau de données utilisé à cette

étape. Il représente ce niveau d‘analyse supérieur, provenant du même exemple décrit au

Tableau 3 et à la Figure 6. Pour ce faire, l‘algorithme choisit deux positions en x : celle où

se situent le plus souvent le pic de dissemblance et celle où la décroissance s‘arrête le plus

souvent pour ce pic. Finalement, dans la logique du principe de la MDL, notre méthode

consiste à choisir le plus petit k associé à cet intervalle. Pour l‘exemple présenté au Tableau

4, soit un corpus de 47 documents, l‘algorithme sélectionne d‘abord l‘intervalle de 0,1 à

0,6, pour finalement choisir 10 comme valeur optimale de k.

Nous avons appliqué cette méthode lors de l‘analyse de 6 ans de données de l‘ÉER. Cela

représente 2708 perspectives, chaque perspective étant traitée comme un corpus. La Figure

4 présente le k optimal choisi pour chacun de ceux-ci.

59

Figure 4. k optimal choisi en fonction de la taille du corpus.

On peut voir dans la précédente figure que, pour l‘ensemble, la corrélation est plutôt forte

(n = 2 708; r = 0,658, p < 0,001; τ = 0,669, p < 0,001) entre le nombre de documents

compris dans un corpus et le nombre optimal de thèmes choisi. La courbe de tendance qui

s‘ajuste le mieux à ces données est une fonction puissance ayant un coefficient de

détermination de 0,7101. En outre, la dispersion demeure assez élevée (σ = 30), suggérant

que notre approche présente davantage de potentiel pour saisir et s‘adapter à la complexité

de chaque corpus, par rapport à une méthode plus simple, comme l‘utilisation d‘une courbe

de régression. De fait, nous avons vérifié dans le KSV plusieurs modèles sémantiques

construits avec notre méthode, et ils semblaient pertinents; règle générale, les documents

considérés similaires l‘étaient réellement. Comme nous nous y attendions, plus les corpus

étaient petits, plus il y avait d‘incohérences. Il est difficile de conclure dans ces cas si cette

situation est surtout liée au nombre de thèmes choisi ou aux limites inhérentes de la LSA,

en amont. Ce sont des limites à mieux cerner.

Nous verrons maintenant la partie de nos résultats relative aux visites en classes de

l‘étudiant-chercheur, réalisées pour évaluer la pertinence de nos données et les affordances

du KSV perçues par des élèves et des enseignants.

R² = 0,7101

0

20

40

60

80

100

120

140

1 10 100 1000

k

taille du corpus

60

Affordances du KSV perçues par les élèves et les enseignants

Par les enseignants

Les trois visites sur le terrain ont commencé par une rencontre en face à face avec les

enseignants participants. Elles se sont déroulées en trois temps sur une durée d‘un mois,

soit du début avril au début de mai 2011, et selon cet ordre : le site A, le site B, puis le site

C. Ces trois rencontres se sont déroulées sensiblement selon le même scénario. Comme

prévu, l‘étudiant-chercheur et l‘enseignant rencontré ont d‘abord exploré le KSV

fonctionnant avec les données préalablement ciblées par l‘enseignant rencontré. Ils ont

ensuite discuté de l‘adoption de cet outil par leurs élèves, des usages possibles de celui-ci et

d‘outils dérivés en situation réelle de classe, pour enfin élaborer un scénario de présentation

et d‘exploration du KSV en classe.

En observant les visualisations produites par le KSV, les trois enseignants ont remarqué

qu‘il n‘y avait généralement pas plus de liens sémantiques parmi les notes au sein d‘une

même enfilade qu‘à travers l‘ensemble des notes. Notions que nous examinions surtout les

liens sémantiques dont le cosinus est plus grand ou égal à 0,75 donc nous avions une vue

assez permissive. Nous avons alors discuté du fait qu‘il devrait y avoir le plus souvent des

liens sémantiques forts entre une élaboration et la note sur laquelle elle élabore, et, par

extension, parmi les notes faisant partie de la même enfilade, comparativement à

l‘ensemble des notes. Cela dit, il ne s‘agit pas d‘une règle universelle puisque le processus

d‘investigation peut prendre à tout moment de nouvelles directions. Dans ces cas, il n‘y a

pas nécessairement de liens sémantiques forts entre des notes formant une enfilade.

En examinant cette situation de plus près, nous avons constaté que des liens sémantiques

forts auraient pu vraisemblablement se former si les élèves avaient écrit des notes un peu

plus élaborées. Par exemple, nous avons observé une enfilade de deux notes où la première

énonçait que « le territoire de la Nouvelle-France était énorme » et la deuxième, une

élaboration, énonçait qu‘« il s‘étendait du Québec jusqu‘au Nouveau-Mexique ». On peut

penser que si l‘élève ayant rédigé l‘élaboration avait introduit les termes « territoire » et

« Nouvelle-France », un lien sémantique fort se serait construit entre les deux notes. De

fait, en faisant une simulation avec cet ajout, il s‘est formé.

61

Dans les trois cas, c‘est-à-dire avec chaque enseignant, nous avons pris la même trajectoire

et nous avons centré nos analyses sur le repérage de ces situations. Cela nous a également

permis de détecter des limites de l‘analyse sémantique, surtout liées à l‘orthographe

puisque les élèves de cet âge font naturellement plus de fautes d‘orthographe. L‘analyse

sémantique ne comprend pas directement les mots mal orthographiés, mais peut toutefois

les assimiler lorsque ceux-ci cooccurrent avec des mots communs. Par exemple, si le mot

« bateau » se retrouve à la fois sous sa forme correcte et aussi sous les formes erronées

« batau » et « bato », l‘analyse sémantique a le potentiel de les assimiler si ceux-ci

cooccurrent tous avec le mot « voile ». Conséquemment, plus les corpus sont petits, plus les

fautes d‘orthographe auront un impact important, mais à l‘inverse, plus ce dernier se

développe, plus les imprécisions qu‘elles entrainent s‘estompent. Il demeure toutefois

souhaitable de favoriser une bonne orthographe, et justement, les enseignants ont énoncé

que sachant cela, les élèves pourraient être davantage motivés à écrire dans un français

correct. Les enseignants ont également soulevé que l‘accord des adjectifs et des verbes

pourrait constituer une limite plus importante.

Questionnés sur l‘utilité et les usages possibles qu‘ils imaginaient de cet outil, les trois

enseignants n‘ont pas répondu d‘emblée. Après un moment de réflexion, ils ont repéré,

dans les trois cas, la même utilité principale potentielle : fournir une rétroaction visuelle

aux élèves quant à la qualité des liens qu‘ils font entre les idées, si bien que cela puisse agir

comme appui et élément motivateur dans leurs pratiques de lecture et d‘écriture. Un

enseignant a dit : « Ça fait longtemps que je cherche des moyens d‘inciter mes élèves à

écrire des notes plus élaborées, à faire plus de liens entre celles-ci, et ce visuel est

particulièrement intéressant pour avoir ce rôle ». Rappelons que ces enseignants ne

s‘étaient pas consultés et que l‘étudiant-chercheur ne leur a pas proposé cet usage.

Les enseignants ont également souligné qu‘il pourrait être utile de pouvoir visualiser le

contenu du KF sous différents angles, particulièrement en ce qui a trait à trois éléments.

L‘un était le potentiel d‘établir des liens sémantiques entre des notes provenant de

perspectives différentes. Un autre était la possibilité de pouvoir réorganiser les notes selon

une disposition dirigée par les forces. Un troisième était, pour deux enseignants, la

possibilité d‘afficher les notes en ordre chronologique afin voir l‘influence des notes au fil

du temps. Selon eux, ces options pourraient être particulièrement utiles pour mieux s‘y

62

retrouver dans le contenu du KF, plus spécifiquement pour mieux discriminer des groupes

de notes, et par conséquent, orienter la démarche des élèves.

À la lumière de ces observations initiales très similaires dans les trois cas, nous avons

élaboré un scénario tout aussi similaire pour la présentation du KSV aux élèves de ces

enseignants. Nous avons ciblé une ou plusieurs perspectives à présenter et y avons repéré

des situations où l‘absence de liens sémantiques forts n‘aurait idéalement pas dû se

produire. Nous allions nous en servir dans le but de piquer la curiosité et de stimuler la

réflexion des élèves lors de l‘affichage des liens sémantiques. Notons que dans la

discussion sur la façon de nommer ces liens avec les élèves, dans les trois cas les

enseignants ont convenu avec l‘étudiant-chercheur d‘utiliser l‘expression « liens d‘idées »

plutôt que « liens sémantiques » pour rendre la notion plus accessible à leurs élèves.

Par les élèves

L‘étudiant-chercheur a d‘abord présenté aux élèves deux perspectives qui avaient été

ciblées par leur enseignant, dans le mode Léger du KF, comme ils sont habitués de les voir.

Les voici :

Figure 5. Première perspective présentée selon l‘affichage habituel.

63

Figure 6. Deuxième perspective présentée selon l‘affichage habituel.

Ces perspectives ont été présentées sur un vidéoprojecteur ou un tableau numérique

interactif pour que tous les élèves voient bien puisque ces rencontres se déroulaient en

plénière. L‘enseignant et l‘étudiant-chercheur ont ensuite discuté de ce en quoi consistaient

ces perspectives, pour se rafraichir la mémoire tous ensemble.

Les premières impressions des élèves du KSV

Nous avons ensuite montré aux élèves une vue de ces mêmes perspectives, mais cette fois

dans le KSV, configuré pour reproduire visuellement le plus possible le mode Léger, c‘est-

à-dire en affichant seulement les nœuds (notes) — dans leur position originale — et les

liens explicites (liens d‘élaboration). Par contre, puisque nous combinions deux

perspectives dans la même vue, plusieurs éléments se superposaient, ce qui pouvait

compliquer la compréhension de ce visuel. Voici un exemple de ce qui a été présenté dans

une classe :

64

Figure 7. Affichage de deux perspectives superposées dans le KSV.

Nous leur avons demandé de nous dire ce qu‘ils comprenaient de ce qu‘ils voyaient, de

nous livrer leurs premières observations. À la vue de ces premiers éléments, la plupart des

élèves ont compris sans tarder qu‘il s‘agissait des mêmes notes et liens qu‘ils venaient de

voir, mais présentés différemment. Une élève a dit : « c‘est pareil qu‘on a vu, sauf que les

lignes ne sont pas pareilles. »

Dans les trois classes, des élèves ont remarqué d‘emblée que cette visualisation pouvait

représenter plus d‘une perspective. Par exemple, dans une classe, un élève expliquait :

— Élève : C‘est comme si on avait mis les deux ensemble.

— Enseignant : OK. Qu‘est-ce qui te fait dire cela?

— Élève : C‘est comme genre il y a le gros gros gros motton, et on voit… on voit 2…

il y a plein de petits mottons.

— Étudiant-chercheur : Le motton pour toi est-ce que c‘est à gauche, à droite, au

centre?

— Élève : Au centre.

— Enseignant : Ça, c‘est le gros motton? (oui) OK… Pis tu dis qu‘il y a comme des

petits mottons comme ici, ici, ici, ici?

— Élève : oui.

— Enseignant : OK! OK alors toi […] tu dis que c‘est les deux perspectives mêlées.

Dans cette classe, un élève répond qu‘il ne pense pas que plusieurs perspectives sont

présentées de façon combinée puisqu‘il n‘avait aucun lien entre elles alors que maintenant

il semble y en avoir :

Élève : Moi je dis que non parce qu‘où tu as montré tantôt ben c‘est qu‘il y en avait

un autre qui touchait.

Étudiant-chercheur : Une autre qui touchait?

Enseignant : Qu‘est-ce que tu veux dire? […]

Élève : Ben là il y a des mottons qui se touchent [et ils ne se touchaient pas avant]

65

Enseignant : Bien là il y a un motton ici. Tu vois qu‘il y a des notes qui sont

ensemble. Là, Là.

Élève : C‘est comme, il y en a un qui touchait.

Enseignant : Un qui touchait? Un? C‘est quoi un?

Élève : Une ligne

Élève 2 : Une ligne qui touche au gros je pense.

Étudiant-chercheur : OK ça touche au gros.

Une élève réplique alors qu‘elle croit elle aussi qu‘il s‘agit de deux perspectives :

— Élève : Ben c‘est que, je pense aussi que c‘est les deux qui sont mélangées parce

que les quatre ou cinq tout seuls ils sont juste là.

— [L‘étudiant-chercheur agrandit une section de l‘affichage qu‘il comparera à la

section équivalente en mode Léger]

— Enseignant : Ah... on peut zoomer.

— Étudiant-chercheur : Est-ce qu‘on va voir si ça correspond à…

— Groupe : Ah! Oui c‘est ça.

— Étudiant-chercheur : On va aller voir, on était dans la perspective « retour en travail

d‘équipe »

— Élève 2 : Ahhhhhhh! […]

— Étudiant-chercheur : On peut agrandir ou ne pas agrandir. Dans le fond est-ce que

vous pensez… est-ce que vous êtes d‘accord pour dire que c‘est les deux

perspectives ensemble?

— Groupe : Oui!

— Étudiant-chercheur : Est-ce qu‘il y en a qui ne seraient pas d‘accord?

— Élève 3 : C‘est les deux, mais ils sont tous collés ensemble

— Étudiant-chercheur : Ils sont collés ensemble?

— Élève 3 : Ce n‘est pas les petits groupes, c‘est les petits groupes et les gros groupes,

mais ils sont tous collés.

Dans les trois classes, nous avons ensuite animé le KSV pour que les notes s‘affichent

selon une disposition dirigée par forces si bien que les groupes de notes provenant de

différentes perspectives se regroupent et se distancient et, ce faisant, ne se superposent plus.

En voici une illustration :

66

Figure 8. Affichage de deux perspectives disposées par forces dans le KSV.

Cela nous a permis de convenir de leur provenance pour passer à l‘étape suivante :

— Groupe : ahh.. ils reviennent séparément.

— Enseignant : Alors, qu‘est-ce que tu remarques?

— Élève : Bien ils se sont comme tous distancés.[…]

— Élève 2 : Ça fait le gros groupe et tous les petits séparément.

— Enseignant : OK, alors on retrouve nos groupes pis toutes les petites

— Élève 3 : Les notes sont séparées.

— Enseignant : Les regroupements de notes sont séparés. OK.

— Élève 4 : Il y en a des petites qui ne sont pas collées.

— Enseignant : Il y en a qui ne sont pas collées. OK alors, c‘est excellent. Alors ce

qu‘on a retrouvé, ici ce qu‘on a fait, on a fait comme un ménage, on a fait un

ménage entre toutes nos petites notes qu‘on avait dans la deuxième perspective et la

première perspective qui était dans la perspective de départ.

— Étudiant-chercheur : On va retourner voir, ici on va se prendre un groupe, n‘importe

quel groupe de notes. Peut-être celui ici. On va remarquer les titres de notes

ensemble […]. Si on vient ici [dans le KSV], on le retrouve ici.

— […]

— Étudiant-chercheur : Alors on voit que c‘est le même groupe, mais il est affiché

différemment.

— Enseignant : Alors on comprend bien que tantôt [élève] pensait que les notes étaient

reliées […] avant qu‘on fasse le ménage, elle pensait que les notes qui se

retrouvaient un peu coincées ici étaient reliées, mais on se rend compte qu‘après

avoir fait le ménage, est-ce qu‘elles sont reliées les notes?

— Groupe : Non

— Enseignant : Alors ça, ce que tu vois, c‘est exactement les notes avec les liens des

deux perspectives qu‘on a fait tantôt, OK, qu‘on a regardées. Donc, cette personne-

là a répondu à cette personne-là, qui a répondu à elle, bon, ainsi de suite comme on

est habitués de voir. OK? À date, y a-t-il quelque chose de bien bien nouveau dans

ce que tu vois?

67

— Groupe : Non

Une fois que nous avions convenu que cette visualisation de départ dans le KSV présentait

des notes qu‘ils connaissaient ainsi que leurs liens d‘élaboration, nous avons passé à l‘étape

suivante : afficher les liens sémantiques.

À l’apparition des liens rouges, la plupart des élèves font le lien entre la

représentation visuelle et conceptuelle des liens sémantiques.

Voici une image (similarité cosinus de 0,7) de ce qui a été présenté aux élèves d‘une même

classe :

Figure 9. Affichage de deux perspectives disposées par forces

et leurs liens sémantiques dans le KSV.

Dans les trois classes, les élèves ont été questionnés sur ce qu‘ils croyaient que représentait

la nouveauté qui venait de s‘afficher. Plusieurs ont rapidement levé la main pour dire que

les lignes rouges — les liens sémantiques — représentaient une forme de liens. Par

exemple, un élève a dit d‘emblée : « Les notes qui ont des liens seraient reliées… » Nous

avons poursuivi la réflexion en les questionnant sur la raison de leur présence et ce à quoi

ils pourraient bien servir, autrement dit leur nature et leur fonction, cherchant à connaitre

s‘ils percevaient des affordances. Dans l‘ensemble des trois classes, les élèves ont proposé

des explications autour des groupes de notes, des mêmes thèmes/mots/genres, de l‘ajout

d‘information/complémentarité, de liens intermédiaires, des mêmes mots-clés, des mêmes

68

idées pouvant être exprimées dans des mots différents, et de relations contraires entre des

notes.

Lier des groupes de notes

Un élève a indiqué que les liens rouges pouvaient servir à associer des groupes de notes :

« là, il y a des liens entre les groupes », sans spécifier pourquoi. Un groupe de notes était

entendu comme un groupe d‘enfilades ayant la même note de départ. La vue d‘ensemble

peut avoir donné l‘impression que ce sont les groupes qui sont liés, mais en fait chacune

des lignes rouges relie une note à une autre note. Il est vrai cependant que plus des notes

provenant de groupes différents ont des liens sémantiques, plus ces groupes deviennent liés

sémantiquement, indirectement.

Les mêmes thèmes/mots/genres

Des élèves ont expliqué que ces liens pourraient permettre d‘associer des notes ou des

groupes de notes ayant les mêmes thèmes, les mêmes mots ou étant du même genre. Un

élève a dit :

Euh bien peut-être dans les notes, mettons que ça parle un peu de la population, bien

dans une autre note bien peut-être que ça parle en dedans de la population, peut-être

que c‘est la population. Bien dans le même genre de la population là.

Une autre élève a ajouté :

Moi c‘est comme la même affaire que celle-là, mais, c‘est que ce n‘est peut-être pas

obligé de parler exactement de la population. Il y en a une qui peut parler de la

population, mais l‘autre de l‘agriculture, mais parle aussi un peu de la population.

L’ajout d’informations ou la complémentarité

Un élève a évoqué que les liens rouges pouvaient servir à indiquer une complémentarité

entre des notes. Il disait :

C‘est pas quelque chose pareil, mais des fois, tu peux rajouter de l‘information dans

l‘autre. […] Admettons il écrit quelque chose sur la population et l‘autre écrit sur la

population, mais quelque chose de plus. Ensemble, ça fait une note complète.

Des liens intermédiaires

Des élèves ont expliqué que ces liens pourraient être présents même lorsque des notes ne

traitent pas directement les mêmes thèmes ou ne partagent pas strictement les mêmes mots.

Voici un échange que nous avons eu autour de cela :

— Enseignant : OK. Rappelez-vous tantôt, on a dit que ceux ici parlaient du commerce

et de l‘industrie et ceux parlaient ici admettons du gouvernement. […] Pourquoi

69

cette note-là qui parle peut-être du gouvernement a un lien avec celle qui parle du

commerce et de l‘industrie? Pourquoi il y a un lien entre ces deux-là?

— Élève : Parce que c‘est comme exemple si le roi il choisissait pour ça.

— Enseignant : OK, je comprends qu‘est-ce que tu veux dire. Quelqu‘un peut

expliquer plus ce que tu veux dire? [Élève 2].

— Élève 2 : Bien le commerce, c‘est genre le gouvernement qui va faire du commerce

pis tout là, qu‘est-ce qui fait bien que c‘est relié.

— Étudiant-chercheur : Ça veut dire que même si ça parle de gouvernement ici puis

qu‘ici on parle de commerce, donc, on aurait peut-être un lien parce que commerce

est là dans les deux places.

— Enseignant : OK. [Élève 3].

— Élève 3 : Bien admettons qu‘on parle de la population et que l‘autre note c‘est sur

l‘agriculture admettons, et quand dans la note sur l‘agriculture on dit que la

population a baissé, alors là l‘agriculture est moins forte, alors il y a un lien les deux

ensemble, les notes, alors le gouvernement admettons ils disent que l‘agriculture,

bien ils ne veulent plus vraiment faire de l‘agriculture parce qu‘il y a un problème

financier alors ils ne veulent plus en faire trop pour l‘instant. Alors comme ça les

notes sont reliées.

Une relation contraire

Dans une classe, un élève a soulevé que les liens rouges pouvaient indiquer une relation

contraire entre des notes. Le groupe a ensuite convenu que c‘était une explication probable;

aucun élève ne s‘est opposé à cette idée. Voici cet échange :

— Élève : Admettons, le gouvernement ils disent, comme Alexandre, de ne plus faire

trop trop admettons de plantes, les fermiers, puis là, les autres disent que ça ne fera

pas trop rouler l‘économie. Ils disent que ça ne fera pas trop rouler l‘économie,

admettons le contraire de l‘autre note.

— Enseignant : Admettons le contraire d‘une autre note, mais ils ont employé les

mêmes… […]

— Élève 2 : les mêmes mots.

— Enseignant : Ah les mêmes mots, ah OK!

— Étudiant-chercheur : Si je reformule ce qu‘on vient de dire, peut-être qu‘il peut y

avoir un lien rouge si une note dit le contraire d‘une autre note.

— Groupe : oui.

Les mêmes mots-clés

Dans les trois classes, le partage de mots-clés a été évoqué pour expliquer la présence de

liens rouges. Rappelons que le KF permet d‘énumérer des mots-clés associés à une note et

ceux qui se retrouvent dans le corps de la note y sont colorés pour être mis en évidence. Les

élèves ne faisaient pas nécessairement référence à ceux qui sont formellement énumérés de

la sorte dans le champ « mots-clés », mais ils faisaient surtout référence aux mots qui sont

clés dans le contenu d‘une note. Par exemple, une élève a dit :

70

Ben mettons c‘est comme, ils parlent, ils disent le mot population et dans l‘autre

note il y a le mot population alors ça le relie. Peut-être que c‘est aussi les mots-clés.

Dans deux des trois classes, l‘enseignant et l‘étudiant-chercheur n‘ont pas relancé

immédiatement les élèves lorsque cet élément a été évoqué puisqu‘ils allaient y revenir plus

tard.

Les mêmes idées pouvant être exprimées dans des mots différents

Des élèves ont affirmé que les liens rouges pourraient se former lorsque des notes partagent

des mêmes idées, même si elles sont formulées avec des mots différents. Par exemple, trois

élèves ont expliqué :

— Élève : C‘est comme ils veulent dire la même chose, mais ce n‘est pas les mêmes

mots.

— Enseignant : Ils veulent dire la même chose, mais ce n‘est pas les mêmes mots.

[Élève 2], [Élève 3], après cela on va continuer.

— [Élève 2] : C‘est les mêmes rapports, il y a toujours un petit lien.

— [Élève 3] : bien c‘est comme un peu [Élève], comme il disait, en même temps le

gouvernement il ne veut pas qu‘il fasse de l‘agriculture, le peuple, mais les autres ils

veulent en faire, c‘est comme les mêmes mots, mais, ils veulent faire des plantes, ils

ne sont pas d‘accord avec le gouvernement.

Pas de liens avec le temps

Dans les trois classes, lorsque les propositions d‘explications ont été épuisées, l‘étudiant-

chercheur a demandé aux élèves s‘ils croyaient que les liens rouges pouvaient avoir un lien

avec le temps. Un élève dans trois classes a affirmé que ça pouvait peut-être avoir un lien.

Sinon, dans l‘ensemble des trois groupes l‘absence de lien avec le temps a fait consensus.

Voici un échange à ce sujet à titre d‘exemple :

— Étudiant-chercheur : Je voulais savoir, est-ce qu‘il y en a qui pensent que peut-être

que ça aurait un rapport avec le temps? C‘est-à-dire si quelque les notes qui ont été

écrites il y a deux mois sont ensemble, les notes qui sont plus récentes sont

ensemble? Quand je dis ensemble, c‘est qu‘il y a un lien rouge entre les deux. Est-ce

vous pensez que ça a un rapport avec le temps?

— Groupe : Non.

Les enseignants se servent des liens rouges pour faire réfléchir les élèves à la façon de

générer des liens d’idées.

Une fois que les élèves ont proposé leurs premières explications sur la nature des liens

rouges, nous avons exploré de plus près les endroits où des liens rouges se sont affichés et

ceux où il n‘y en avait pas. Cela nous a permis de convenir avec les élèves que les liens

sont tous entre des notes et que, de façon générale, ils s‘affichent entre des notes qui traitent

71

de mêmes thèmes, de mêmes idées. Cependant, puisque les notes étaient souvent très

courtes, à savoir une seule phrase, il y avait plusieurs endroits où des liens rouges se sont

formés nonobstant des thèmes différents. Ces cas s‘expliquaient le plus souvent parce les

notes avaient un ou plusieurs mots en commun. Cela a été jalon dans l‘échange avec les

élèves; nous avons alors convenu de nommer désormais ces liens rouges des « liens

d‘idées ». Rappelons que l‘enseignant et l‘étudiant-chercheur s‘étaient préalablement

entendus pour utiliser cette appellation plutôt que « lien sémantique » de façon à rendre la

notion plus accessible aux élèves.

Maintenant que nous avions convenu qu‘il s‘agissait de liens d‘idées, les enseignants s‘en

sont servis pour faire réfléchir les élèves à la façon de les générer. Des élèves ont alors

proposé que plus il y avait de mots communs entre des notes, plus le lien d‘idées allait être

fort entre elles, si bien qu‘il faille s‘efforcer à réinvestir des mots pour les engendrer. Par

exemple, alors que l‘enseignant demandait « Et pour nous aider à avoir un lien rouge,

qu‘est-ce qui faudrait faire avec notre note? », un élève a répondu « Bien il faudrait qu‘il y

ait deux mots pareils. » Des élèves ont évoqué l‘enjeu des synonymes. De fait, plusieurs

notes traitaient du même sujet, mais il n‘y avait pas de lien sémantique entre elles, du

moins au seuil de similarité sémantique 0,75. Pour expliquer cette situation, un élève

disait : « Bien ils sont la même idée pareille, mais c‘est juste qu‘ils n‘utilisent pas les

mêmes mots-là. ». Nous avons donc réfléchi à l‘enjeu des synonymes, au sens où ils sont

importants pour l‘apprentissage de la langue, l‘enrichissement du vocabulaire, mais que

dans un contexte où les notes sont très courtes et les notes sont peu nombreuses, l‘analyse

sémantique peut difficilement associer des notes ayant des idées similaires si elles sont

exprimées avec des mots différents.

À la suite de ces échanges, deux des trois enseignants avaient des disponibilités pour aller

plus loin. Dans les deux cas, ils ont souhaité que les élèves aillent travailler à nouveau dans

une perspective existante du KF afin de générer davantage de liens d‘idées. Pour ce faire,

ils ont convenu avec les élèves qu‘il fallait porter attention aux mot-clés des notes, qu‘il

fallait les repérer et s‘efforcer de les réinvestir lorsque l‘on élabore sur ces notes. Il ne

fallait pas arrêter d‘utiliser des synonymes, mais de toujours tenter de réinvestir au moins

un mot-clé de la note d‘origine dans une élaboration. À la lumière de ces consignes, dans

l‘une des deux classes, l‘enseignant a demandé aux élèves de retravailler seulement des

72

notes existantes, alors que dans l‘autre, les élèves pouvaient aller en créer des nouvelles,

dans la mesure où elles étaient des élaborations et non de nouvelles notes de départ.

Les élèves réfléchissent à la pertinence de générer des « liens d’idées » à la lumière de

leur travail de reformulation

Les deux classes ont travaillé environ une période pour cette activité visant à réinvestir les

mots importants lors de la rédaction de notes. Après, nous sommes revenus en classe pour

faire un retour réflexif sur le travail qui venait d‘être réalisé. Dans une classe, il a été

possible de générer une nouvelle visualisation dans le KSV de la perspective qui avait été

retravaillée. La Figure 10 présente ces deux visualisations pour fins de comparaison; la

partie 1 représente deux perspectives avant le travail de reformulation (image équivalente à

la Figure 9) et la partie 2 représente ces perspectives après ledit travail.

On peut y voir que c‘est davantage la distribution des liens sémantiques — affichés

toujours au seuil de 0,7 — qui a changé, plutôt que leur quantité. Après le travail, plus de

liens sémantiques se sont retrouvés au sein de mêmes enfilades qu‘entre des notes

appartenant à de différentes enfilades. C‘est conséquent avec la nature du travail qui avait

été demandé aux élèves. En réinvestissant les mots-clés au sein des notes traitant des

mêmes sujets et en élaborant davantage les notes existantes, l‘analyse sémantique a généré

des thèmes plus spécifiques si bien que davantage de notes appartenant aux mêmes

enfilades ont été considérées similaires. Inversement, plusieurs notes auparavant similaires

ont perdu leurs liens sémantiques, le plus souvent à cause que ces liens tenaient à des

partages de mots moins significatifs s‘étant vu attribué moins d‘importance par l‘analyse

sémantique réalisée après le travail de reformulation. Aussi, plusieurs notes ont été

particulièrement développées, se distinguant davantage des autres et perdant du coup les

liens sémantiques qu‘elles avaient auparavant. Rappelons que nous entendons par la « perte

de liens sémantiques » que ces liens existent toujours, mais qu‘ils se sont vus octroyer une

force moins grande, dans ce cas-ci une force inférieure au seuil d‘affichage alors choisi

dans le KSV, 0,7.

73

Figure 10. Changement des liens sémantiques après un travail de reformulation.

C‘était la première fois que nous mettions à l‘essai le duo KFSA—KSV pour visualiser

l‘évolution des similarités sémantiques au sein d‘un espace de discours élaboré en situation

réelle de classe. Cela a permis aux élèves et l‘enseignant de voir l‘évolution de leur travail

de coélaboration de connaissances sous un nouvel angle. Ils voyaient pour la première fois

une composante visuelle, voire une rétroaction, liée à la façon dont ils rédigent les notes

dans le Knowledge Forum.

Dans les deux classes, ce retour réflexif a été une occasion de questionner les élèves au

sujet de la pertinence de générer des liens d‘idées et, plus largement, de ce qu‘ils retirent de

leur activité de reformulation.

74

D‘abord, des élèves ont dit qu‘ils avaient rédigé de meilleures notes, voire des notes plus

compréhensibles si bien que cela rend la lecture plus facile pour les autres. Par exemple, un

élève expliquait :

— Élève : Bien ça peut aussi nous servir à comprendre mieux la note.

— Étudiant-chercheur : OK. Comment?

— Élève : Il y en a un qui manquait un mot et ça faisait moins comprendre la note.

— Étudiant-chercheur : Quand tu lis la note d‘une autre personne, de comprendre

mieux ce qu‘elle voulait dire?

— Philippe : Oui comme [Élève] hier, il a dit qu‘il y a une note qui ne comprenait pas,

et il y en relut une et il l‘a comprise avec ce qu‘on avait fait, parce qu‘on avait mis

des mots de la note dedans.

Dans cette classe, une élève a renchéri en disant que cela améliorait les phrases :

Ça améliore les phrases […] Bien je ne mettais pas les mots-clés. […] Parce que

tantôt j‘écrivais ma note, sur la langue pis avec le mot « langue » bien ça fait plus un

lien.

Aussi, des élèves ont affirmé que l‘attention accrue portée aux mot-clés des notes du même

thème leur a permis de retenir davantage l‘information importante :

Ben vu que tu utilises des mots-clés, tu les regardes pis tu regardes l‘autre note pour

élaborer, tu retiens plus de l‘information importante.

Dans un même ordre d‘idées, les liens rouges ont été un élément déclencheur dans

l‘utilisation des mots-clés chez certains élèves. Certains ont dit qu‘ils y portaient très peu

d‘attention avant, mais sachant qu‘ils pouvaient maintenant servir à générer des liens

d‘idées, ils étaient plus attentifs à ceux-ci pour les réinvestir. Par exemple, un élève disait :

Avec cela je trouve que je suis plus attentif aux mots-clés pour les liens rouges, des

mots en commun, parce qu‘avant je ne regardais même pas les mots-clés et

j‘écrivais ce que je pensais. Plus attentif aux mots que je réponds, par exemple à la

question « combien il y a de population? », je suis plus attentif aux mots que tu dis

pour les réécrire.

Nous avons également réfléchi à la difficulté de travailler de la sorte. En général, les élèves

étaient d‘accord pour dire qu‘ils n‘avaient pas trouvé l‘expérience difficile, mais cela a été

tout de même le cas pour certains. Un élève a dit au sujet de la difficulté à réinvestir des

mots-clés :

Parce que quand je voulais exprimer mon idée, avec mes mots, bien les mots ne

correspondaient pas toujours avec les mêmes mots.

75

L‘enseignant a alors rappelé que ce n‘était pas obligatoire de toujours réinvestir des mots,

que parfois, lorsqu‘on a une nouvelle idée complètement éclatée, il n‘y a justement pas

nécessairement de lien direct à établir avec la note sur laquelle on élabore.

Questionnés au sujet de l‘utilité des liens d‘idées, les élèves ont principalement répondu

qu‘ils pourraient servir à voir s‘il y a un lien d‘idées assez fort entre des notes. Ils

pourraient servir à fournir une rétroaction visuelle lorsqu‘ils viennent d‘élaborer une note,

selon leur intention d‘écriture, et à repérer les notes les plus importantes, particulièrement

lors de la lecture des enfilades avec lesquelles l‘on est peu ou pas familier. Une élève disait

à ce propos :

C‘est pour qu‘il y aille des liens rouges, pour qu‘il vienne à en avoir les mêmes

mots, les mêmes choses, pour qu‘au moins tu ne sois pas obligé d‘aller lire la

question, mais juste le petit carré qui a répondu.

Dans une classe, nous avons discuté du lien avec les notes Élever le propos. Il n‘y en avait

pas dans les perspectives que les élèves ont retravaillées, mais ils ont été d‘accord pour dire

que normalement, si l‘on pouvait afficher à la fois les notes d‘origine et la note Élever le

propos qui les englobe, on pourrait voir plusieurs liens d‘idées entre celle-ci et ses notes

d‘origine. Cela pourrait servir à visualiser si une telle métanote contient un résumé d‘idées

déjà exprimées dans les notes d‘origine. Cependant, comme le mentionnait un élève, dans

l‘affichage actuel du KF où une note Élever le propos masque les notes d‘origines, nous ne

verrions pas ces liens d‘idées. Par conséquent, si cette métanote était rédigée comme un

résumé, elle pourrait avoir l‘air ponctuellement plutôt esseulée du point de vue des liens

sémantiques lorsqu‘elle viendrait d‘être créée. Cet élève disait à propos de cette éventuelle

diminution de liens sémantiques :

Pas beaucoup [de liens sémantiques] parce que ça va tout parler d‘autres sujets pour

une note.

Dans les deux classes, les élèves n‘ont pas évoqué la possibilité de réorganiser les notes

selon leurs liens sémantiques. Cela pourrait éventuellement faciliter le repérage de notes

plutôt importantes comme des notes orphelines et aider les élèves à cibler des idées sur

lesquelles travailler. Cependant, lorsque les enseignants ont questionné les élèves à ce sujet,

la majorité était d‘accord pour dire que ce pourrait être très utile. Un élève a dit que ce ne

serait pas nécessairement utile, sans toutefois être en mesure de développer son idée.

76

Dans une classe, l‘enseignant a demandé si ce devrait être seulement l‘enseignant qui voit

les liens d‘idées ou les élèves aussi. Le groupe a répondu unanimement que tout le monde

devrait pouvoir les voir :

— Enseignant : Trouvez-vous que ça devrait être juste moi qui vois ça?

— Groupe : Nous autres aussi

— Enseignant : Tout le monde?

— Groupe : oui, oui, oui.

Les élèves réfléchissent aux limites de la méthode d’analyse

Les titres

Toujours lors de ce retour en classe, une élève a demandé si la modification des titres des

notes avait eu un effet sur l‘analyse. L‘étudiant-chercheur lui a répondu que non, que pour

l‘instant le logiciel d‘analyse (sémantique) tient seulement compte du corps des notes, mais

que si c‘était souhaité par les élèves et les enseignants, il serait tout à fait possible de

modifier le logiciel pour qu‘il tienne compte des titres. L‘enseignant a alors dit qu‘il serait

souhaitable de relever le niveau des titres, de les rendre plus significatifs, car encore

souvent ils sont tout simplement « réponse », mais que pour l‘instant il était plus important

de se concentrer sur l‘amélioration du contenu même de la note.

Les nombres

Un élève a demandé que l‘analyse sémantique tienne compte des nombres. Dans son cas, la

perspective sur laquelle il travaillait porte sur l‘histoire et, en ce sens, les dates peuvent être

particulièrement signifiantes. Cet élève disait :

Bien moi c‘est pour que le logiciel prenne les nombres […] comme celle-là qui a

« 1729 » et « 1748 » et que ça ne les prenait pas parce que c‘est un nombre.

De fait, comme il en a été question au chapitre 2, la bibliothèque logicielle Gensim utilisée

par le KFSA ne tient pas compte des nombres par défaut.

L’orthographe

Des élèves sont revenus sur l‘aspect de l‘orthographe des mots. Ils ont rappelé qu‘un lien

rouge ne se formait pas nécessairement lorsqu‘un mot n‘est pas bien orthographié dans

l‘une ou l‘autre des notes, certains précisant qu‘un mot n‘ayant pas le même genre ou le

même nombre pouvait avoir le même effet. Par exemple, une élève a dit :

Mais s‘il n‘est pas bien ortho… admettons il est écrit guerre avec un « s » là, pis lui

il est écrit « guerre » pas de « s » bien il n‘y aura pas de liens rouges.

77

Cela a été une occasion de discuter qu‘ils soulevaient un élément important; la méthode

d‘analyse n‘a pas l‘intelligence d‘un humain. C‘est un logiciel qui essaie de comprendre

notre langage en faisant des estimations et il n‘a pas la capacité de gérer l‘orthographe des

mots aussi bien que nous. C‘est un prototype. L‘étudiant-chercheur a expliqué que moins il

y a de notes et plus elles sont courtes, plus l‘analyse a de la difficulté à « comprendre » les

notes. Il a expliqué aussi qu‘il existe des techniques développées pour tenter de réduire les

problèmes liés à l‘orthographe et que le fait que des classes participent à ce genre d‘étude

permet justement de mieux comprendre l‘importance de ce genre de problème et les

conditions dans lesquelles il faut s‘en préoccuper.

Idées prometteuses

Un élève a fait un lien avec l‘outil Idées prometteuses (IPROM) (Chen et al., 2012) avec

lequel sa classe avait commencé à travailler plus tôt dans l‘année. Cet outil permet

notamment de cibler dans les notes les idées apparaissant les plus prometteuses pour la

compréhension d‘une question investiguée, en les surlignant. On peut ensuite afficher les

idées ayant été les plus sélectionnées, notamment pour orienter le processus de

coélaboration de connaissances. L‘élève faisait un lien entre les idées importantes pouvant

être mises en évidences par le KSV et celles ciblées manuellement avec IPROM. Il

évoquait une limite de l‘analyse sémantique en indiquant que lorsque l‘on souhaite

vraiment mettre en évidence des idées importantes pour la communauté, on peut utiliser

IPROM. Il disait :

Quand que c‘est… quelqu‘un qui a écrit quelque chose, mais que c‘est vraiment

vraiment important qu‘on le lise, mais on pourrait le mettre en jaune.

De fait, dans l‘éventualité où les liens sémantiques tels que nous les étudions étaient utilisés

sur une base régulière, ils ne joueraient visiblement pas le même rôle que l‘outil IPROM, le

premier fonctionnant sur une base automatisée et l‘autre sur une base manuelle et délibérée.

Au demeurant, convoquer IPROM dans la réflexion sur l‘analyse sémantique comme l‘a

fait cet élève n‘est pas anodin. Ces outils pourraient vraisemblablement interagir ou se

combiner pour former un nouvel ensemble d‘outils plus puissants.

78

Usages potentiels en situation réelle de classe du KSV et d’outils

dérivés

Bien que la démarche et les résultats rapportés dans la section précédente visaient d‘abord à

répondre à notre première question de recherche, ils ont également apporté des éléments de

réponse à notre deuxième question. De fait, les discussions tenues avec les élèves et les

enseignants ont permis de repérer des usages potentiels qu‘ils pourraient faire du KSV s‘il

était mis à leur disposition pour une utilisation régulière. Dans cette section, nous traiterons

de ces usages, ainsi qu‘une deuxième phase d‘étude entreprise afin d‘explorer des outils

dérivés du KSV.

Usages repérés

Parmi les usages du KSV repérés à partir des échanges avec les élèves et les enseignants, il

y a notamment l‘incitation à rédiger des contributions plus étayées, plus spécifiquement le

réinvestissement de mots-clés utiles à la compréhension d‘une question ou de concepts

visés par le programme de formation, et le repérage d‘idées orphelines ou moins élaborées.

Les enseignants ont indiqué qu‘ils travaillent constamment à amener leurs élèves à écrire

des notes plus élaborées. Au primaire, les élèves s‘initient à l‘écriture. Ils en sont à leurs

premières armes quant à la structuration de leurs idées, l‘utilisation de mots-clés, de

concepts, de synonymes, etc. Ils ont tendance à écrire des notes courtes, d‘une ou deux

phrases. Par conséquent, comme nous l‘avons vu précédemment, les liens sémantiques sont

souvent ténus entre des notes qui ont pourtant un lien d‘élaboration. Dans ce contexte, ils

ont mentionné que tout outil pouvant étayer la démarche d‘écriture des élèves est bienvenu,

et que le KSV pourrait y contribuer. De fait, les liens sémantiques peuvent être une

affordance au sens où ils pourraient fournir une rétroaction aux élèves quant à l‘intensité

des liens d‘idées entre des notes. Les élèves pourraient vérifier si l‘intensité des liens

sémantiques, telle qu‘affichée, est conforme à leurs intentions d‘écriture, ou si, au contraire,

ils devaient élaborer davantage certaines notes.

De plus, la possibilité de réorganiser l‘affichage des notes en fonction des liens

sémantiques pourrait permettre aux élèves de mieux repérer les regroupements de notes

portant sur des thèmes similaires. Les enseignants croient que cet affichage pourrait

permettre aux élèves de repérer plus facilement des idées ayant été moins élaborées, voire

79

orphelines, si bien que cela les guide à relancer l‘investigation ou simplement faire avancer

le discours. Par exemple, les élèves pourraient se donner des objectifs de travail en fonction

de la présence ou l‘absence des liens sémantiques au sein et entre les regroupements de

notes.

Lors des visites sur le terrain, l‘étudiant-chercheur a présenté aux enseignants trois

classements issus du travail réalisé par leurs élèves depuis le début de l‘année et basés sur :

1. le nombre de mots écrits (mesure a, ou volume lexical);

2. la somme des longueurs vectorielles des notes (mesure b, ou volume sémantique);

3. la somme des longueurs vectorielles des notes multipliées par le logarithme naturel

de leur nombre de mots (mesure c, ou volume lexico-sémantique).

Nous avons alors observé que les classements 2 et 3 présentaient des résultats similaires.

L‘étudiant-chercheur leur a demandé leur avis sur le niveau de représentativité de ces

classements quant à leur évaluation de la collaboration et de la créativité de leurs élèves

dans le KF. Il leur a précisé de les regarder en tiers, soit plus grossièrement, donc en ne se

préoccupant pas de la position précise de chaque élève dans chacun de ces 3

regroupements. Dans les trois cas, les enseignants ont trouvé que les deuxième et troisième

classements étaient plus fidèles à leur évaluation que le premier. Relativement au troisième

classement, le premier enseignant a dit : « je suis étonné de voir comment je reconnais bien

mon groupe ».

Ces échanges suggéraient le caractère prometteur de l‘usage de la longueur vectorielle —

ou, plus largement, de mesures issues de l‘analyse sémantique — dans le développement de

nouvelles mesures du travail des élèves dans le KF. Cela nous a incités à entreprendre une

deuxième phase de cette étude, phase où nous allions approfondir notre étude de l‘analyse

sémantique latente afin de mieux cerner ses limites et son potentiel.

Usages potentiels et développements dérivés

Dans cette section, nous présentons des développements dérivés de notre premier objet de

recherche, le KSV. Nous explorons davantage les données de l‘ÉER avec la LSA, afin de

mieux cerner son potentiel pour fournir des données utiles à l‘évaluation formative de la

collaboration et de la créativité. Nous avons conduit des analyses sur un plus large

ensemble de données, soit les données KF de l‘ÉER de 2006 à 2012. Nous aurions alors

une meilleure idée de son potentiel et de ses limites, vu la diversité des corpus rencontrés.

80

Nous avons cherché à tirer profit au maximum de l‘ensemble de données contenant 6

années de travail dans le KF à notre disposition. Cela signifiait d‘analyser, autant que

possible, un maximum de données de cet ensemble, le poids des conclusions étant lié au

volume des statistiques obtenues. Nous avons donc développé le KFSA pour qu‘il soit

capable d‘analyser tout ce contenu, la base de données comprenant 136 926 contributions

actives (c.-à-d. non supprimées). Nous avons toutefois ignoré les annotations, le plus

souvent utilisées pour des commentaires personnels, et les notes vides. À terme, ce sont

donc 78 723 notes, réparties dans 2 718 perspectives, qui ont été analysées. Il a ainsi fallu

préparer le KFSA à créer et gérer des dizaines de millions de lignes dans sa base de

données. 511 notes ont été modifiées pour enlever toute composante autre que du langage

naturel, comme des balises HTML. Notons que, compte tenu de la préparation des données

et de la mise au point de notre méthode de décision du nombre de thèmes, le KFSA nous a

demandé plusieurs mois de travail pour parvenir à ce stade de développement.

Nous avons réalisé l‘analyse sémantique de toutes les perspectives du KF de 2006 à 2012,

chaque perspective étant modélisée comme un corpus. Les notes associées à plus d‘une

perspective ont été traitées en contexte, donc autant de fois qu‘elles étaient associées à une

perspective. Toutes les notes ont ainsi obtenu une longueur vectorielle pour chaque

contexte (c.-à-d. perspective) auquel elles appartenaient. Cela a donné 82 045 combinaisons

issues des 78 723 notes, nécessitant par ailleurs 160 heures de calculs à un ordinateur

serveur moderne.

Les résultats obtenus montrent qu‘à l‘échelle des notes, la corrélation du nombre de mots

(a) est faible avec la longueur vectorielle (b) et moyenne avec la mesure c. La relation entre

le lexical (c.-à-d. nombre de mots), ou le nombre de notes, et le sémantique, tend toutefois à

s‘intensifier sensiblement lorsque l‘on fait des regroupements à l‘échelle des auteurs et des

groupes-classes. C‘est dire que nous avons observé que le nombre de mots est un faible,

voire moyen, prédicteur de la longueur vectorielle. Contrairement à une situation où ces

mesures auraient été fortement liées, ce caractère distinct suggère la pertinence d‘étudier la

longueur vectorielle et d‘autres mesures sémantiques dérivées. Dans les sections suivantes,

nous aborderons ce résultat plus en détail et explorerons différentes mesures sémantiques

réalisées sur les données de l‘ÉER, et associées aux notes, aux perspectives, aux auteurs et

aux groupes-classes.

81

Relation entre le nombre de mots et la longueur vectorielle

Le nombre de mots contenus dans les notes est une mesure de productivité utilisée depuis

plusieurs années par la communauté d‘utilisateurs du KF. Par exemple, un outil d‘analyse

intégré au KF permet d‘obtenir l‘évolution du nombre de mots écrits par les élèves. Cela

permet d‘obtenir un indicateur simple de productivité et de contribution au discours

collectif, parmi un ou plusieurs groupes, pour une période donnée. Dans la recherche de

nouvelles mesures plus fidèles de la contribution à la coélaboration de connaissances, la

longueur vectorielle (LV) est intéressante, puisqu‘elle est une mesure des connaissances

partagées. À la lumière de nos rencontres avec les enseignants, celle-ci semblait également

une bonne piste à creuser. Nous avons donc voulu étudier la relation entre la LV (b) et le

nombre de mots (a). La figure suivante présente la relation entre a et b, toutes perspectives

confondues.

Figure 11. Relation entre le nombre de mots (a) d‘une note et sa longueur vectorielle (b).

La Figure 11 montre une relation très faible entre la longueur vectorielle et le nombre de

mots (τ=0,032, p<0,001; r=0,079, p<0,001; n=82 045). De fait, celle-ci peut avoir des

valeurs très variées sur l‘échelle de 0 à 1, peu importe le nombre de mots. On peut voir

82

néanmoins un point de bascule autour de 50 mots, à partir duquel la LV minimale a

davantage tendance à croitre avec le nombre de mots. Il s‘agit ici d‘un portrait global,

toutes perspectives confondues.

Nous avons ensuite voulu voir quelle était la relation a—b plus en contexte, c‘est-à-dire au

sein de chacune des perspectives. Nous avons ainsi calculé les coefficients de corrélation r

et τ de ces valeurs pour les 2 718 perspectives. La Figure 12 présente ces coefficients en

fonction du nombre de notes composant chaque perspective, ou la taille de ces perspectives.

Figure 12. Corrélation entre b et a au sein de chaque perspective.

La tendance générale est clairement une diminution de la corrélation avec l‘augmentation

de la taille des perspectives. La valeur moyenne de τ et de r est la même, soit -0,04, et les

valeurs sont assez dispersées (στ=0,40; σr=0,45; n=2689). Il y a légèrement plus de valeurs

négatives (58 %) que de valeurs positives (41 %). Il y a donc un peu plus de cas où la

corrélation est négative, à savoir des perspectives où la LV des notes a tendance à diminuer

alors que leur nombre de mots augmente. Cette tendance négative peut paraitre surprenante,

mais elle peut s‘expliquer en se rappelant que l‘analyse sémantique utilisée fonctionne

83

selon une approche collective. Typiquement, plus une perspective se développe, plus elle se

complexifie, se diversifie et contient du contenu marginal. Dans le cas qui nous occupe, le

contenu de ces notes plus volumineuses est probablement composé de mots ou

d‘explications rares, voire uniques, au sein du corpus. Ce contenu marginal menant à

l‘élaboration de thèmes sémantiques ayant peu de poids, il se voit attribuer en retour une

longueur vectorielle très faible. Quelques notes ayant surtout un contenu marginal et plus

volumineuses que la moyenne peuvent ainsi contribuer à ce que la corrélation soit négative.

Outre cette tendance à négativité, 66 % des valeurs sont corrélations faibles. Alors que ces

valeurs varient largement en deçà d‘une dizaine de notes, elles sont en vaste majorité

d‘intensité faible au-delà de ce nombre. Cette observation corrobore le portrait de la

relation entre b et a présenté à une échelle plus globale ci-dessus; le nombre de mots n‘est

pas un prédicteur de la LV, particulièrement dans les perspectives de plus d‘une dizaine de

notes.

Nous avons également voulu étudier la relation entre la mesure c, utilisée dans le troisième

classement présenté aux enseignants, et le nombre de mots. Comme expliqué

précédemment, la mesure c combine la longueur vectorielle à une « fraction » du nombre

de mots, soit son logarithme naturel. Logiquement, celle-ci est davantage liée au nombre de

mots que b, puisqu‘elle l‘inclut dans son calcul. La figure suivant présente le résultat global

pour l‘ensemble des données.

84

Figure 13. Relation entre le nombre de mots (a) d‘une note

et son volume lexico-sémantique (c).

De fait, on peut observer cette situation à la Figure 13 (τ=0,578, p<0,001; r=0,581,

p<0,001; n=82 046). La corrélation y est beaucoup plus élevée qu‘à la Figure 11, bien

qu‘elle soit de moyenne intensité. Là encore, pour approfondir ce résultat global, nous

avons voulu voir la relation entre ces mesures c et a au sein de chacune des perspectives.

85

Figure 14. Corrélation entre c et a au sein de chaque perspective.

Comme pour la relation entre b et a, on peut voir à la Figure 14 que la corrélation entre c et

a diminue suivant l‘augmentation de la taille d‘une perspective. L‘allure du nuage de points

est similaire, sauf que dans ce cas-ci, les valeurs sont plus élevées. Les valeurs moyennes

de τ et r sont respectivement 0,56 et 0,65 (n=2693). La dispersion des valeurs est aussi

élevée que pour la relation b-a (στ=0,40; σr=0,41). Ici aussi, les valeurs se concentrent au-

delà d‘une dizaine de documents par perspective. Ces données davantage contextualisées

présentent la même tendance que le portrait global illustré à la Figure 13, soit que la

corrélation c-a est beaucoup plus forte que b-a.

Les mesures sémantiques comme mesures des contributions individuelles et collectives

Nous avons voulu étudier comment la somme des LV de toutes les notes, ou volume

sémantique, de chaque auteur évolue par rapport au nombre de notes contribuées et au

nombre de mots qu‘ils ont écrits. Voici une première figure présentant la relation entre le

volume sémantique et le nombre de notes, pour chaque auteur. La courbe verte sert de

repère pour une relation linéaire dont le taux est un.

86

Figure 15. Relation entre le nombre de notes d‘un auteur et son volume sémantique.

On peut voir dans cette figure que la corrélation est forte entre ces deux mesures (τ=0,878,

p<0,001; r=0,989, p<0,001; n=12 396). Nous avons observé d‘ailleurs, au fil de nos

analyses, que chaque note obtient le plus souvent un minimum d‘environ 0,5 comme LV.

Par conséquent c‘est principalement l‘intervalle entre 0,5 et 1 qui semble être le plus

influencé par la quantité d‘idées partagées dans une note, en quelque sorte la zone la plus

« difficile à gagner ». Cette observation semble corroborée par ce résultat illustré à la

Figure 15. De fait, les valeurs se situent très près de la courbe de référence d‘une relation

linéaire ayant un taux de 1. Il semble donc que les auteurs ont, au terme de leur année, une

contribution sémantique assez proportionnelle au nombre de notes qu‘ils ont contribuées.

Nous observons cependant que, pour un même nombre de notes contribuées, les volumes

sémantiques peuvent typiquement varier du simple au double, suggérant des différences

notables entre les contributions des élèves.

Voyons maintenant comment la relation entre le nombre de mots écrits et le volume

sémantique évolue.

87

Figure 16. Relation entre le nombre de mots d‘un auteur son volume sémantique.

On peut voir dans cette figure que la corrélation est beaucoup moins élevée entre le nombre

de mots et le volume sémantique (τ=0,594, p<0,001; r=0,792, p<0,001; n=12 396), qu‘entre

ce dernier et le nombre de notes (cf. Figure 15). De fait, pour un même nombre de mots

contribués au terme de l‘année scolaire, la différence entre les volumes sémantiques des

auteurs est importante. Cela pourrait notamment s‘expliquer par la différence entre les

pratiques d‘écriture des élèves et de leur communauté, et par la diversité des thèmes

abordés par ceux-ci.

Nous avons également voulu examiner la relation entre ce nombre de notes par auteur, puis

deux autres mesures : le volume lexico-sémantique (c) et le volume sémantique

« normalisé » (d). Certains auteurs suggèrent que ce volume sémantique « normalisé »

pourrait être plus adéquat pour représenter la quantité d‘idées partagées dans un document

(Kintsch, 2001; Teplovs, 2010). Il consiste en la longueur vectorielle d‘un document divisé

par le nombre de mots qu‘il contient. Voici ce résultat (n=2 674) :

88

Figure 17. Relation entre le volume sémantique « normalisé » (d), le volume lexico-

sémantique (c) et le nombre de notes (a) d‘un auteur.

Cette figure permet d‘observer que le nombre de notes d‘un auteur corrèle beaucoup plus

avec le volume lexico-sémantique (c) (τ=0,796, p<0,001; r=0,964, p<0,001) qu‘avec le

volume sémantique « normalisé » (d) (τ=0,452, p<0,001; r=0,752, p<0,001). Comme nous

avons discuté précédemment, entre les mesures b et c, c‘est la mesure c qui a été jugée plus

fidèle par un enseignant pour évaluer le travail de ses élèves dans le KF. On peut voir ici

que c et d évoluent assez différemment chez un élève donné. De fait, nous avons calculé

qu‘elles corrèlent peu (τ=0,145, p<0,001; r=0,583, p<0,001).

Nous avons ensuite examiné la contribution sémantique de chaque auteur, par groupe

(collaboration intra ou interclasse). Cela tient compte de toutes les contributions de chaque

élève d‘un groupe-classe dans toutes les perspectives qu‘il a travaillées. Lorsqu‘un groupe

d‘élèves est l‘auteur d‘une note, nous avons associé la paternité12

de cette note à tous les

élèves membres de ce groupe. Nous avons calculé la somme des LV, ou volume

12

Bien que le terme « paternité » puisse être associé au sexisme ordinaire, il est

l‘équivalent français du terme anglais authorship selon l‘OQLF.

89

sémantique, et la somme du nombre de mots, ou volume lexical, des notes de chaque élève,

puis avons calculé la fraction de ces sommes par rapport à la somme de son groupe-classe,

calculant ainsi sa contribution relative sur une échelle de 0 à 1. Nous avons obtenu que

chaque élève contribue en moyenne à 7,8 % à la fois au volume sémantique et au volume

lexical de son groupe-classe. Dans l‘ensemble, puisque chaque groupe est composé en

moyenne de 13 auteurs, cela suggère que la contribution des élèves est, en ces termes, assez

équivalente au sein de leur groupe. Les valeurs étant cependant assez dispersées

(σLV=0,129; σmots=0,134), nous avons approfondi l‘analyse en comparant la fraction de

contribution sémantique de chaque élève à sa part dans le groupe. Nous entendons par

« part », la fraction que représente l‘élève par rapport au nombre d‘élèves dans son groupe.

Par exemple, chaque élève membre d‘un groupe de 20 obtient une part de 0,05. La figure

suivante présente ce résultat pour les 972 groupes analysés (n=12 401).

Figure 18. Contribution sémantique de chaque auteur selon sa part dans son groupe.

Comme la Figure 18 l‘illustre, la plupart des élèves ont une contribution sémantique

proportionnelle à leur part dans leur groupe. On observe néanmoins que plusieurs élèves se

démarquent dans leur groupe, contribuant significativement plus ou moins que leurs

90

collègues. Pour évaluer l‘ordre de grandeur dans lequel cela se manifeste, nous avons fait le

rapport entre ces mesures, obtenant ainsi un ratio entre la contribution sémantique de

l‘élève et sa part dans son groupe-classe (ratio de contribution sémantique). La moyenne de

ces ratios est de 1,00 et l‘écart-type, 0,68. En utilisant des seuils de 1,5 et 0,5, nous

observons que 15 % des élèves contribuent sémantiquement au moins à moitié plus et 19 %

au mieux à moitié moins que leur part dans leur groupe-classe. À titre comparatif, en

termes de nombre de mots, ces valeurs sont respectivement 17 % et 25 %. Ces statistiques

suggèrent une tendance selon laquelle la proportion entre le volume sémantique et le

volume lexical soit plus élevée chez les élèves qui écrivent plutôt moins.

Nous avons voulu examiner de plus près le lien entre ces deux dernières données. Suivant

la même logique que pour le ratio de contribution sémantique précédent, nous avons

calculé celui de contribution lexicale. La Figure 19 présente ce résultat. La ligne bleue sert

comme repère d‘une relation linéaire ayant un taux de 1. La ligne jaune est une courbe de

régression linéaire locale.

91

Figure 19. Comparaison des ratios de contribution sémantique et lexicale de chaque élève,

par rapport à leur groupe.

Cette figure corrobore la tendance évoquée ci-dessus, selon laquelle la proportion entre les

contributions sémantiques et lexicales soit plus élevée chez les élèves qui écrivent moins

dans un groupe. Cela pourrait s‘expliquer par plusieurs facteurs, notamment un style

d‘écriture plus concis, une propension à résumer les contributions des autres, ou encore à

réinvestir ou utiliser plusieurs mots-clés du discours sans trop développer leurs idées. À

l‘inverse, ces données suggèrent que ceux qui écrivent davantage dans un groupe ont

typiquement une contribution sémantique légèrement inférieure, proportionnellement à leur

nombre de mots. Cela pourrait s‘expliquer, entre autres, par un style d‘écriture diffus, un

non-réinvestissement des mots-clés, ou bien l‘exploration ou l‘élaboration plus fréquente

d‘idées demeurant marginales dans le discours. Il est intéressant de remarquer que la courbe

de régression passe aux environs de la position (1,1), indiquant que ceux qui écrivent

proportionnellement à leur part dans le groupe ont typiquement une contribution

sémantique équivalente. Cela dit, il s‘agit d‘une tendance générale. Le nuage de points

plutôt dispersé (σ=0,68) reflète des cas très variés.

92

Nous avons ensuite voulu étudier les données à l‘échelle des groupes-classes. Nous avons

comparé le volume sémantique des groupes à trois autres données :

1. Le nombre d‘auteurs composant le groupe;

2. Le nombre de notes contribuées au sein du groupe;

3. Le volume lexical du groupe;

4. Le volume lexical moyen des auteurs du groupe.

Parmi ces trois données, la corrélation la plus forte est, en ordre croissant, avec le volume

lexical moyen des auteurs (τ=0,504, p<0,001), le nombre d‘auteurs (τ=0,575, p<0,001), le

volume lexical du groupe (τ=0,753, p<0,001) et le nombre de notes contribuées au sein du

groupe (τ=0,931, p<0,001). L‘écart entre les valeurs associées au volume lexical du groupe

et celui individuel moyen laisse entendre une diversité notable dans la dynamique interne

des groupes.

La dynamique des groupes des points de vue sémantique et lexical

Nous nous sommes alors intéressés à la relation entre la dynamique des groupes et leur

volume sémantique. Pour ce faire, nous avons calculé les écarts-types relatifs (ETR) des

volumes lexical et sémantique des auteurs associés à un même groupe. Nous nous servons

de ces mesures comme indicateurs de la diversité des contributions des auteurs; plus ces

écarts-types sont élevés, plus il y a de disparités entre les contributions des auteurs d‘un

même groupe. Nous avons ensuite voulu étudier la relation entre ces mesures et le volume

sémantique relatif (VSR) du groupe. Ce VSR consiste en le volume sémantique du groupe

divisé par sa taille (c.-à-d. nombre d‘auteurs). L‘utilisation de ces mesures relatives permet

de comparer les groupes sur une même base, à savoir en faisant abstraction de

l‘augmentation des volumes et de la diminution des écarts-types, habituellement inhérentes

à l‘accroissement de la taille d‘un groupe. La figure suivante présente ce résultat.

93

Figure 20. Relation entre la dynamique d‘un groupe et son volume sémantique.

Cette figure illustre la variété des dynamiques de groupe (n=972) au sein de l‘ÉER de 2006

à 2012. Plusieurs groupes ont réalisé des volumes sémantiques équivalents tout en ayant

des disparités plus ou moins fortes entre les contributions individuelles. La relation entre

les deux mesures de diversité individuelle (c.-à-d. les ETR) et le VSR du groupe est

semblable. La plupart des groupes se situent dans une fourchette de VSR entre 0 et 15 et

des ETR entre 0,25 et 1,0. Néanmoins, quelques groupes se distinguent en ayant un volume

sémantique relatif beaucoup plus élevé que la majorité. Ceux-ci ont en commun une plus

grande homogénéité. Ceci suggère que les groupes ayant réalisé un volume sémantique plus

élevé étaient composés de membres contribuant de façon plutôt équilibrée. Cette tendance

n‘est pas très forte, mais tout de même présente. On peut toutefois observer que la majorité

des groupes de l‘ÉER a environ ce même degré de diversité. En ce sens, les groupes se

démarquant ont peut-être tout simplement contribué plus de notes au Knowledge Forum.

95

Chapitre 4 — Discussion

Ce chapitre se propose de discuter des résultats obtenus et de proposer de futures pistes de

recherche. Les analyses sémantiques des données de l‘ÉER réalisées ont nécessité des

développements technologiques. Revenons d‘entrée de jeu sur cet aspect de notre démarche

et comment nous avons contribué à l‘avancement de l‘analyse sémantique.

Le potentiel d’une méthode d’analyse sémantique

À la base des mesures explorées et des fonctionnalités du KSV étudiées, il y a l‘analyse

sémantique. Au final, notre étude s‘est centrée sur une méthode spécifique, l‘analyse

sémantique latente (LSA), afin de nous situer le moins possible en terrain inconnu par

rapport aux travaux de Teplovs (2010) que nous visions à poursuivre. Nous ne prétendons

pas avoir exploré toutes ses subtilités. Nous avons plutôt travaillé avec elle en la réglant de

la façon la plus permissive possible, par exemple en n‘utilisant pas de restrictions quant au

nombre d‘occurrences nécessaires afin qu‘un mot soit considéré ni de listes de mots vides à

ignorer. De cette façon, il allait être plus facile d‘étudier éventuellement l‘impact de

certains réglages en les ajoutant progressivement à l‘équation.

Là où nous pouvons prétendre avoir contribué à l‘avancement de l‘analyse sémantique,

c‘est en ce qui concerne la dimensionnalité des espaces de connaissances. Vu la rareté,

voire l‘absence, de méthodes de décision dimensionnelles éprouvées que nous aurions pu

mettre à profit dans cette étude, nous en avons développé une. Nous avons tenté de la

décrire autant suffisamment, si bien qu‘elle puisse être discutée et améliorée.

Tout au long de l‘étude, les résultats de nos analyses sémantiques nous ont paru faire sens.

Bien que nous n‘ayons pas examiné manuellement les milliers de notes analysées et leurs

relations, les occasions que nous avons eues de scruter des groupes, comme lors des

nombreux tests réalisés pour développer notre méthode de décision, ne nous ont pas

conduit à observer d‘aberrations susceptibles de discréditer nos résultats. De plus, notre

méthode a tenu le coup lorsqu‘elle a été utilisée pour analyser automatiquement quelque

3000 perspectives. Nous avons ainsi gagné progressivement confiance en ce que la LSA et

notre méthode de décision dimensionnelle peuvent bel et bien être utiles pour modéliser le

langage naturel contenu dans les notes analysées.

96

Cet avancement de l‘analyse sémantique, au départ imprévu, a été une condition sine qua

non à l‘étude des deux principales questions qui ont ancré notre démarche de recherche :

1. Quelles affordances du KSV sont perceptibles par les enseignants et les élèves de

classe primaire ayant une expérience d‘utilisation du Knowledge Forum?

2. Quels seraient les usages potentiels en situation réelle de classe du KSV et d‘outils

dérivés pour l‘évaluation formative de la collaboration et de la créativité?

Dans la première phase de notre étude, nous avons réalisé des visites en classes visant à

investiguer les affordances du KSV perçues par des élèves et des enseignants. Ces échanges

ont d‘ailleurs permis de valider que les liens sémantiques étaient plutôt intuitifs chez ces

élèves du primaire.

L’accueil fait aux liens sémantiques par les élèves

Puisque l‘adoption du KSV n‘avait pas été étudiée, nous nous questionnions sur la façon

dont les jeunes élèves allaient accueillir les liens sémantiques. Les trois enseignants étaient,

eux aussi, plutôt incertains quant à la façon dont leurs élèves allaient réagir vis-à-vis de

ceux-ci. Toutefois, à la vue de ces liens dans les trois classes, des élèves proposaient

rapidement des explications relatives à des associations entre des contenus de notes

similaires, que ce soit en termes d‘idées, de mots, de thèmes, etc. Cela ne faisait pas

nécessairement l‘unanimité, mais cette situation nous mène à conclure que l‘association

entre la représentation visuelle et conceptuelle des liens sémantiques est bel et bien à la

portée des élèves les plus jeunes. Soulignons que, dans l‘ensemble, les élèves appréciaient

avoir travaillé avec ce nouvel élément. La classe qui avait eu l‘occasion de s‘exprimer

explicitement sur la question avait notamment affirmé que les liens sémantiques ne

devraient pas être réservés qu‘aux enseignants, mais devraient être accessibles aussi aux

élèves.

La pertinence d’intégrer de nouveaux types de visualisation au

KF ou à d’autres environnements similaires

L‘accueil par les enseignants et les élèves réservé aux liens sémantiques suggère qu‘ils

peuvent constituer une composante intéressante à intégrer à des environnements comme le

KF, et ce, dès l‘âge du primaire. Au-delà de comprendre la nature fonctionnelle des liens

sémantiques, il faut que les élèves et les enseignants leur reconnaissent à tout le moins

certaines affordances afin qu‘ils puissent être utiles sur le plan pédagogique.

97

Des affordances perceptibles et leur usage potentiel

Parmi les affordances du KSV perçues, les trois enseignants ont énoncé que les liens

sémantiques pouvaient fournir une rétroaction visuelle incitant les élèves à rédiger des

notes plus complètes et plus cohérentes, en s‘efforçant de faire davantage de liens entre

leurs idées. Si nous avions anticipé que cette affordance soit perçue, nous ne nous

attendions pas à ce qu‘elle ressorte avec autant d‘importance et qu‘elle soit unanimement

reconnue parmi les enseignants. Chez les élèves, cette affordance a été perçue par plusieurs,

mais exprimée surtout en termes d‘actions : l‘élaboration de meilleures phrases et de

meilleures notes, une meilleure compréhension et rétention de l’information importante,

une attention accrue aux mots-clés [et leur] réutilisation. Ces résultats nous permettent

d‘avancer que le KSV a du potentiel pour soutenir, par ses affordances et de différentes

façons, la collaboration et la créativité, dans un contexte de coélaboration de connaissances.

Des affordances en support à la collaboration et à la créativité

Les liens sémantiques fournissaient une rétroaction visuelle

Les liens sémantiques ont fourni une rétroaction aux élèves quant au degré de proximité

entre les idées contenues dans leurs notes. Dans deux classes sur trois, les élèves s‘en sont

servis comme repères pour vérifier l‘adéquation entre leur intention d‘écriture initiale et

une contribution produite. Parallèlement, les liens sémantiques ont étayé la démarche de

plusieurs élèves en les incitant à réinvestir certaines idées dans de nouvelles notes. Des

élèves se sont notamment exprimés sur cette démarche en termes d’utilisation des mots-

clés.

Bien souvent, dans les corpus des classes rencontrées, les élèves remettaient peu ou pas en

contexte les nouveaux questionnements ou les nouvelles explications qu‘ils avaient

contribués lors de l‘écriture d‘une note. Les trois enseignants ont d‘ailleurs indiqué que

c‘est un aspect qu‘ils souhaitaient vivement travailler avec leurs élèves. Nous avons pu

observer ses effets, comme des cas où le lien sémantique entre deux notes est très faible

alors que celles-ci sont explicitement liées. Il y avait aussi des cas où des notes abordaient

des idées discutées dans d‘autres notes situées à d‘autres niveaux de l‘enfilade ou dans

d‘autres enfilades, mais entre lesquelles la relation sémantique était très faible. Dans ces

98

situations, les élèves n‘étant pas satisfaits de la quantité ou de l‘intensité des liens

sémantiques associés à une contribution ont alors été incités à l‘améliorer.

Plusieurs élèves ont ainsi été amenés à bonifier le volume et la qualité des associations

faites entre différentes idées. Ce faisant, les liens sémantiques ont contribué à cultiver leur

créativité et leur collaboration. De fait, en développant des associations entre différentes

idées, ces élèves exerçaient leur créativité. En faisant avancer le discours collectif de la

sorte, notamment en développant les idées des autres, ces élèves collaboraient. De plus, des

élèves ont dit qu‘une meilleure formulation des idées concourait à ce qu‘une note soit

mieux comprise par les autres, incitant ceux-ci, à leur tour, à collaborer à faire avancer ces

idées.

Nous en déduisons que cette affordance des liens sémantiques peut contribuer positivement

à la spirale de collaboration et de créativité qui est au cœur de la démarche de coélaboration

de connaissances.

La réorganisation des notes aide à décider du prochain geste

La possibilité de réorganiser les notes, notamment selon une disposition dirigée par les

forces, est aussi une affordance perçue par les enseignants par plusieurs élèves. Parmi les

élèves, aucun ne s‘est exprimé sur la réorganisation des notes avant que leur enseignant ne

leur pose une question à ce sujet. Soulignons que les questions posées aux élèves étaient

surtout liées directement aux liens sémantiques. Lorsque l‘enseignant leur a demandé leur

avis sur l‘usage potentiel de la réorganisation des notes selon les liens sémantiques, comme

aide pour choisir des idées sur lesquelles travailler, la majorité des élèves était d‘avis que ce

pourrait être très utile. Ils n‘ont toutefois pas eu l‘occasion de manipuler directement le

KSV. Pour juger ainsi de leur utilité potentielle, les élèves se basaient sur les

réorganisations dont ils ont été témoins, sur la suggestion d‘usages comprise dans la

question, sur leur expérience d‘utilisation du KF et sur l‘ensemble des échanges tenus

autour du KSV.

Par ailleurs, les enseignants ont souligné qu‘il serait utile de pouvoir non seulement

visualiser plusieurs perspectives au sein d‘une même vue, mais de pouvoir aussi voir les

liens sémantiques qui les transcendent, permettant ainsi de briser leurs frontières et

d‘effectuer des associations entre les notes de celles-ci. Soulignons que plusieurs élèves ont

99

compris rapidement que le KSV pouvait afficher plus d‘une perspective, à la vue de ses

premières images présentées en classe. Par la suite, certains observaient que des liens

sémantiques connectaient des notes provenant de perspectives distinctes. Certains élèves

ont probablement réfléchi aux usages possibles de ces liens inter-perspectives. Toutefois,

n‘ayant pas été amenés à s‘exprimer davantage sur la question, nous ne savons pas s‘ils ont

tenu compte des liens inter-perspectives lorsqu‘ils jugeaient de l‘utilité de la réorganisation

de notes.

En somme, nous en déduisons que les élèves pourraient utiliser la réorganisation ponctuelle

des notes pour repérer plus facilement, d‘une part, les thèmes importants, inférés à partir

des groupes de notes très liés sémantiquement et, d‘autre part, les idées orphelines, inférées

à partir des notes ayant peu, pas, ou de très faibles liens sémantiques. Ce repérage pourrait

ensuite les aider à décider du prochain geste à faire pour faire avancer le discours. Ils

pourraient par exemple décider s‘ils vont démarrer une nouvelle enfilade, contribuer une

note dans une enfilade existante, élaborer une note orpheline ou améliorer une note

existante.

Les visites en classe ont également été le point de départ d‘un autre volet de cette étude.

Les analyses sémantiques réalisées en amont du KSV nous avaient inspiré d‘explorer le

potentiel de l‘analyse sémantique pour concevoir de nouvelles mesures de la collaboration

et de la créativité. Les échanges que nous avions eus avec les enseignants autour de nos

premières explorations en la matière nous avaient convaincus de creuser cette piste.

Des analyses sémantiques des données de l’ÉER informant la

conception de mesures de la collaboration et de la créativité

Pour rappel, la méthode d‘analyse sémantique utilisée dans cette étude, la LSA, produit

principalement deux mesures : la similarité de chaque paire de documents et la longueur

vectorielle de chaque document, cette dernière représentant la quantité d‘idées partagées.

Nous voulions étudier le potentiel de la longueur vectorielle pour la conception de

nouvelles mesures de la collaboration et de la créativité. Pour ce faire, nous avons

développé notre logiciel KFSA afin qu‘il puisse réaliser, de façon automatisée, des analyses

sémantiques sur toutes les données du KF de l‘ÉER de 2006 à 2012. C‘est ainsi que

100

chacune des 2718 perspectives, comprenant ensemble 78 723 notes, a été modélisée comme

un corpus.

À partir de ces nouvelles données sémantiques, nous avons notamment étudié, sous

différents angles, comment la longueur vectorielle et des mesures associées, évoluent en

fonction de mesures simples, comme le nombre de notes et le nombre de mots. Nous avons

aussi exploré comment la participation ou la contribution des auteurs, de même que les

dynamiques de groupe, se traduisaient d‘un point de vue sémantique.

Les mesures sémantiques décrivant les notes et les contributions

individuelles et collectives se distinguaient des mesures simples

À l‘échelle des notes, nos résultats suggéraient qu‘une mesure sémantique fondamentale, la

longueur vectorielle, se distinguait du nombre de mots. Toutes perspectives confondues, le

coefficient de corrélation de Kendall (τ) entre le nombre de mots compris dans une note et

la longueur vectorielle de cette note était de 0,032 (n=82 045) (cf. Figure 11). Cependant,

cette statistique était dérivée de données étant considérées hors de leur contexte initial, soit

celui de la perspective à laquelle elles sont associées. Cette statistique constituait donc une

première vue d‘ensemble.

Nous avons ensuite calculé leur corrélation en contexte, c‘est-à-dire au sein de chacune des

perspectives (cf. Figure 12). Ceci permettait d‘observer, d‘une part, que leur corrélation

était principalement faible, le τ moyen étant -0,04. D‘autre part, cette corrélation avait

clairement tendance alors que la taille des perspectives augmentait. Nous observions aussi

que la corrélation était négative pour environ une perspective sur deux. Ces deux

statistiques nous amènent à conclure que le nombre de mots contenus dans une note prédit

très peu la contribution sémantique de cette note. Cela ne nous parait pas illogique, car

d‘une part, il y a une grande diversité de sujets abordés dans les six années de données

analysées et, d‘autre part, les pratiques d‘investigation et d‘écriture au sein et entre les

communautés d‘élaboration de connaissances peuvent varier grandement. Par conséquent,

il est tout à fait cohérent que la quantité d‘idées partagées par une note ne soit pas très liée

au nombre de mots qu‘elle contient. En outre, ce résultat nous suggère que nos analyses

sémantiques se sont effectivement adaptées, dans une certaine mesure, au contexte des

perspectives.

101

Les corrélations entre les mesures sémantiques et les mesures simples s‘intensifiaient

toutefois lorsque nous les examinions à l‘échelle individuelle et collective. Nous avons

réalisé des regroupements comme la somme des mots écrits (volume lexical), la somme des

longueurs vectorielles des notes contribuées (volume sémantique) et la quantité de notes

contribuées, à la fois par auteur et par groupe. À l‘échelle individuelle, le volume

sémantique était lié plus fortement avec le nombre de notes (τ=0,878; cf. Figure 15)

qu‘avec le nombre de mots écrits (τ=0,594; cf. Figure 16). À l‘échelle des groupes, ces

valeurs augmentaient passablement, la corrélation du volume sémantique demeurant là

aussi plus forte avec le nombre de notes contribuées par le groupe (τ=0,931) qu‘avec le

volume lexical du groupe (τ=0,753).

Chez les auteurs, nous observions aussi que la relation entre le nombre de notes (a) et le

volume lexico-sémantique (c) est passablement différente de celle avec le volume

sémantique « normalisé » (d) (cf. Figure 17). Alors que c était une mesure jugée fidèle par

un enseignant et que les écrits scientifiques suggèrent que d soit représentative de la

quantité d‘idées partagées (Kintsch, 2001), nous nous questionnons sur leur pertinence et

leur utilité relative.

À la lumière des résultats précédents, nous observons qu‘entre l‘échelle individuelle et

collective, c‘est la relation entre les volumes sémantique et lexical qui s‘intensifiait le plus.

C‘est dire qu‘à l‘échelle collective, la quantité d‘idées partagées est particulièrement plus

liée au nombre de mots écrits qu‘à l‘échelle individuelle. Nous en déduisons que le point de

vue sémantique collectif semble davantage aplanir les différences individuelles quant au

nombre de mots qu‘au nombre de notes utilisés pour exprimer des idées.

En somme, les corrélations entre les mesures sémantiques et les mesures simples oscillaient

entre des valeurs faibles, moyennes et fortes. De plus, pour la plupart des relations, la

dispersion des données était assez élevée. Cette complexité observée chez ces différentes

relations statistiques nous porte à conclure que les mesures sémantiques se distinguent des

mesures simples. Contrairement à une situation où ces mesures avaient été très liées, et où

aucune n‘avait été reçue positivement par les enseignants, nos résultats nous portent à

croire que les mesures sémantiques ont un potentiel intéressant pour le développement de

nouvelles mesures de la collaboration et de la créativité.

102

Implications pédagogiques

Cette section proposera quelques implications pédagogiques découlant de nos résultats.

Nous discuterons d‘abord de celles plus proximales, liées au modèle pédagogique qui est au

cœur de l‘École en réseau. Par la suite, nous aborderons des implications pédagogiques plus

larges, autour des méthodologies d‘évaluation de la résolution collaborative de problèmes

et du pouvoir transformatif et émancipatoire des technologies dans l‘apprentissage.

L’avancement du modèle pédagogique au cœur de l’ÉER

Usages potentiels et développements envisagés du KSV ou d’outils similaires

Les résultats des visites en classe montrent que les élèves et les enseignants ont perçu des

affordances du KSV. Nous croyons que ces affordances perçues par ceux-ci pourraient se

traduire en usages réels par les classes de l‘École en réseau, certains usages ayant été

discutés précédemment dans ce chapitre. Puisque le KSV est un prototype d‘interface, il ne

peut pas être utilisé dans un avenir immédiat par ceux-ci. Ses différentes fonctionnalités

pourraient toutefois être implémentées dans une prochaine version du Knowledge Forum ou

dans d‘autres environnements de coélaboration de connaissances. Dans cette éventualité, et

à la lumière de ses affordances perçues, nous envisageons certains usages que les

collaborateurs pourraient en faire, et leurs implications pédagogiques.

Mise à l’échelle des notes selon leur volume d’idées partagées

Nous avons discuté que les enseignants et les élèves ont perçu qu‘ils pourraient utiliser les

liens sémantiques entre notes comme rétroaction de l‘adéquation entre leurs intentions et

leur contribution « réelle » au discours collectif. Nous croyons que la mise à l‘échelle des

notes, suivant leur longueur vectorielle, pourrait se traduire en une affordance similaire. De

fait, le KSV permet d‘attribuer une taille visuelle différente aux notes en fonction de leur

nombre de mots ou de leur longueur vectorielle (cf. Figure 2). Considérons une situation où

un collaborateur vient d‘écrire une note se voulant une mise en commun, voire un résumé,

de notes existantes. Cette nouvelle note devrait alors avoir non seulement des liens

sémantiques forts avec ces notes ayant des idées communes, mais avoir aussi une taille

relativement grande par rapport à celles-ci.

Cette mise à l‘échelle pourrait aussi être particulièrement utile relativement aux notes de

type Élever le propos. Dans la version actuelle du KF, lorsque ces notes sont créées, les

103

notes qu‘elles englobent se masquent. Puisqu‘elles visent typiquement à en résumer

d‘autres, on peut s‘attendre à ce qu‘elles n‘aient pas beaucoup de liens sémantiques, du

moins au moment de leur création. La mise à l‘échelle des notes pourrait alors s‘avérer utile

en indiquant qu‘une note Élever le propos contient plusieurs idées partagées malgré une

situation où peu de liens sémantiques s‘y connectent. Nous notons que les liens

sémantiques pourraient être utiles en amont de la création de ces notes Élever le propos, en

aidant à repérer les notes partageant des idées similaires, et en facilitant du coup la sélection

des idées à intégrer.

Rappelons aussi que le KSV permet de colorer les notes par auteur. En ce sens, nous

croyons que les collaborateurs pourraient effectivement se servir d‘une telle mise à

l‘échelle des notes et cette coloration pour leur fournir des repères et des rétroactions

supplémentaires afin d‘orienter leur démarche. Cela pourrait notamment alimenter la

réflexion des élèves quant à leur collaboration et leur créativité lorsqu‘ils réfléchissent à des

questions comme :

- Est-ce que je réinvestis suffisamment les idées de mes collègues?

- Est-ce que j‘apporte suffisamment de nouvelles idées?

- Est-ce que les idées que j‘apporte influencent suffisamment le discours collectif?

Sinon, comment puis-je les promouvoir et les développer davantage?

Notons que ces questions peuvent également être formulées « au nous ». En ce sens, les

classes pourraient également se servir de ces repères et rétroactions supplémentaires pour

formuler des objectifs lorsqu‘elles font des retours réflexifs en plénière.

Éroder les frontières des perspectives et connecter les communautés

Habituellement, les différents thèmes investigués par les communautés d‘élaboration de

connaissances de l‘ÉER sont structurés dans différentes perspectives du KF. Ces

communautés vont souvent créer des sous-perspectives pour investiguer des sous-thèmes

plus spécifiques ou pour diviser le travail entre équipes expertes. Ces « sous-perspectives »

peuvent aussi servir à diviser un thème dans le temps, comme dans le scénario pédagogique

sur lequel nous sommes revenus dans la classe de l‘enseignant A, alors que deux

perspectives servaient à distinguer ce qui a précédé et succédé un évènement historique.

Comme nous avons discuté, les enseignants ont souligné que les liens sémantiques

transcendant les perspectives pourraient être utiles. Ces dernières ne sont cependant pas

104

complètement étanches dans la version actuelle du KF. De fait, il est possible de copier-

coller des notes entre perspectives et de référer, au sein d‘une note, d‘autres notes

provenant de n‘importe quelle perspective de la même base de connaissances. Par contre,

lorsqu‘on élabore une note ayant été copiée de la sorte, il n‘y a pas de lien vers l‘enfilade

d‘origine visible dans la perspective de destination. Les liens sémantiques inter-

perspectives présentent alors le potentiel de pouvoir briser l‘hermétisme relatif des

perspectives. Ce faisant, il serait plus facile pour les collaborateurs de naviguer entre les

perspectives, en suivant les liens sémantiques les menant vers d‘autres notes portant sur des

thèmes ou des idées similaires.

D‘ailleurs, considérant la grande quantité de notes pouvant être contenues dans une base de

connaissances, il faudrait alors vraisemblablement concevoir une interface plus

sophistiquée que celle actuellement offerte par le KSV. Puisqu‘elle présente toutes les

perspectives à la même échelle, elle serait susceptible d‘être rapidement saturée. Pour que

la navigation soit conviviale, il faudrait probablement introduire une troisième dimension.

On pourrait par exemple utiliser un effet de profondeur pour disposer les différentes

perspectives de façon plus ou moins distantes de la perspective sur laquelle la vue active

serait focalisée. De façon analogue à la disposition dirigée par les forces du KSV, la

proximité visuelle des perspectives serait basée sur l‘analyse sémantique. Dans cette

optique, on pourrait même penser que la notion de perspective pourrait s‘effacer, laissant la

disposition des notes se construire uniquement à partir des liens sémantiques et explicites

unissant les différents éléments de l‘espace de connaissances.

En atténuant, voire en éliminant, les frontières entre les perspectives, et même les bases de

connaissances, les collaborateurs seraient incités à interagir avec davantage d‘idées, étayant

du coup leur démarche collaborative et créative. Dans un réseau de communautés

d‘apprentissages comme l‘ÉER, cela pourrait mener à une augmentation des interactions

entre communautés. Bien que les classes de l‘ÉER fassent officiellement toutes partie du

même réseau, elles ne se connaissent pas toutes et plusieurs n‘ont pas d‘interactions avec

d‘autres classes provenant d‘une autre commission scolaire. Une connexion sémantique

entre leurs espaces de connaissances et un environnement permettant d‘y naviguer de façon

conviviale pourraient leur permettre d‘entrer en contact et de collaborer. Sans

nécessairement collaborer, cela pourrait à tout le moins leur permettre d‘accéder aux

105

artéfacts d‘autres communautés ayant travaillé sur le ou les mêmes thèmes. C‘est dire que

les liens sémantiques pourraient mener à activer la collaboration entre des élèves et des

classes travaillant autour d‘un même thème, sans lesquelles elles continueraient à ignorer

tout l‘une de l‘autre.

Visualiser l’évolution d’une perspective et la trajectoire des idées

Comme l‘illustre la figure suivante, le KSV permet d‘afficher le contenu d‘une perspective

de façon chronologique. Dans cette figure, les notes sont colorées selon leur auteur et ce

sont seulement leurs liens sémantiques qui sont affichés.

Figure 21. Affichage chronologique et coloration par auteur dans le KSV.

Le KSV offre une glissière permettant de se déplacer dans le temps pour revoir le fil des

évènements en faisant apparaitre ou disparaitre progressivement les objets et les liens qui

les unissent. Si elle était intégrée au KF, cette vue pourrait notamment permettre aux élèves

de voir, à travers le temps, comment les idées contenues dans leurs notes ont influencé et

intégré le discours collectif. En conséquence, nous croyons que la visualisation des notes

dans un ordre chronologique pourrait constituer un outil de navigation et de métacognition

supplémentaire pour les collaborateurs.

Rappelons également que lors des visites en classe, un élève a évoqué l‘outil Idées

prometteuses (IPROM) (Chen et al., 2012). Il expliquait alors une limite du KSV selon

laquelle on ne peut pas manuellement mettre en évidence des idées importantes pour la

communauté. Pour ce faire, il mentionnait que l‘on peut utiliser l‘outil IPROM. Cet outil

comprend un ensemble de nouvelles fonctionnalités, intégrées au KF mais toujours en

106

développement, dont l‘adoption et le potentiel pédagogique font actuellement l‘objet de

recherches. Il permet aux collaborateurs de sélectionner des idées prometteuses au sein des

notes. La communauté peut ensuite les lister de façon à orienter sa démarche. On peut

notamment créer de nouvelles perspectives à partir de certaines idées prometteuses, et ainsi,

aller creuser certaines pistes et ouvrir de nouveaux horizons.

Nous croyons qu‘une certaine combinaison de fonctionnalités d‘IPROM et du KSV

pourrait être féconde; l‘analyse sémantique pourrait tenir compte des idées prometteuses

sélectionnées par les élèves. De façon analogue à la vue chronologique présentée à la

Figure 21, les idées prometteuses pourraient devenir des objets visibles dans l‘espace de

connaissances, au même titre que les notes. On pourrait alors, entre autres, visualiser à

postériori si une idée jugée prometteuse à un temps donné a effectivement influencé et

intégré le discours collectif. Nous croyons que cet élément pourrait, lui aussi, nourrir la

métacognition des collaborateurs quant au prochain geste à poser.

Usages des mesures sémantiques

Nous croyons que plusieurs usages, en situation réelle de classe, pourraient découler des

différentes mesures sémantiques explorées dans cette étude. N‘étant pas accessibles aux

élèves et aux enseignants dans l‘immédiat, elles pourraient néanmoins être rendues

accessibles par un éventuel outil intégré au KF ou par un dispositif externe à ce dernier. Les

élèves et les enseignants pourraient utiliser ces mesures pour informer l‘évaluation

formative de leur collaboration et leur créativité, et ce, à l‘échelle individuelle et collective.

Les résultats concernant les mesures des contributions individuelles et collectives, et les

dynamiques de groupe ont permis de faire quelques observations.

D‘abord, règle générale, la plupart des élèves avaient, au terme d‘une année scolaire, une

contribution sémantique proportionnelle à leur part dans leur groupe. Cependant, nous

avons observé que, peu importe le nombre d‘élèves qui constituaient un groupe-classe, il y

avait typiquement plusieurs élèves ayant eu une contribution sémantique particulièrement

plus élevée ou moins élevée que la moyenne (cf. Figure 18). En ce sens, tous groupes

confondus, nous avons observé que 15 % des élèves contribuaient sémantiquement au

moins à moitié plus et 19 % au mieux à moitié moins que leur part dans leur groupe-classe.

Nous observions également une tendance selon laquelle la proportion entre le volume

107

sémantique et le volume lexical était plus élevée chez les élèves qui avaient écrit plutôt

moins (cf. Figure 19). De plus, nous avons observé une grande diversité dans les

dynamiques de groupe, où il y avait une légère tendance selon laquelle les groupes ayant

réalisé un volume sémantique plus élevé étaient composés de membres contribuant de

façon plutôt équilibrée, et ce, des points de vue lexical et sémantique (cf. Figure 20).

Toutefois, dans l‘ÉER, les élèves d‘une classe ne travaillent pas uniquement entre eux. Il y

a de la collaboration interclasse et de nombreuses classes multiâges dans lesquelles les

élèves d‘un même niveau collaborent surtout avec d‘autres élèves du même niveau

provenant d‘autres classes. Aussi, les élèves ont des styles d‘apprentissage différents et

n‘ont pas le même degré de motivation vis-à-vis de certains thèmes, ces éléments pouvant

d‘ailleurs évoluer en cours d‘année. Cela nous mène alors à nous questionner sur les

portions de ces résultats pouvant s‘expliquer, d‘une part, par des facteurs humains et

associés à l‘apprentissage, comme le style d‘écriture (c.-à-d. diffus ou concis), le style

d‘investigation (c.-à-d. propension à amener de nouvelles idées ou à associer celles des

autres) et les thèmes investigués (c.-à-d. la quantité de thèmes investigués et le nombre plus

ou moins élevé de mots nécessaires pour exprimer des idées associées à certaines notions)

et, d‘autre part, par des facteurs technologiques liés à la méthode d‘analyse sémantique

utilisée (c.-à-d. limites de la méthode).

Cependant, comme toute mesure, celles abordées dans cette étude pourront être raffinées.

Nous croyons qu‘elles constituent un bon point de départ pour enrichir l‘évaluation

formative de la collaboration et de la créativité en l‘abordant sous un nouvel angle, celui de

l‘analyse sémantique. Considérant la complexité des facteurs évoqués ci-dessus, il faudra

vraisemblablement tenter d‘établir des profils individuels et collectifs pour raffiner la

modéliser du travail des apprenants et de leur(s) communauté(s).

Néanmoins, puisque nous croyons que les mesures explorées font sens, nous croyons

qu‘elles pourraient être utilisées dans un avenir rapproché par les élèves et les enseignants

en les invitant à les juger en contexte, notamment en les relativisant en fonction de leur

style d‘apprentissage, des thèmes investigués et de leur dynamique communautaire. Par

exemple, les élèves pourraient se servir de leur ratio de volume sémantique (par rapport au

nombre de mots ou de notes qu‘ils ont contribués) et leur ratio de contribution sémantique

108

(au sein de leur groupe ou communauté) pour évaluer si ils ont effectivement contribué

suffisamment de nouvelles idées et développé suffisamment d‘idées de leurs collaborateurs,

et ce, en fonction de leurs intentions initiales. Aussi, les enseignants pourraient se servir de

ces mesures comme base pour faire des bilans collectifs et individuels, à différents

moments, comme plusieurs le font déjà d‘ailleurs dans l‘ÉER avec des mesures

actuellement disponibles. Plus il y a de traces, d‘indicateurs, de mesures, plus on peut

raffiner le suivi et informer le jugement de la progression des élèves. En somme, nous

croyons que les nouvelles mesures sémantiques étudiées pourraient permettre aux élèves et

aux enseignants de mieux comprendre et évaluer leur dynamique de coélaboration de

connaissances et du coup, étayer leur démarche.

L’avancement des méthodologies d’évaluation de la résolution

collaborative de problèmes

Comme nous l‘avons présenté au premier chapitre, l‘édition 2015 du programme PISA

inclura une nouvelle compétence : l‘évaluation de la résolution collaborative de problèmes.

Le collectif ATC21S en est d‘ailleurs à travailler à en développer des méthodologies

d‘évaluation, supportées par les technologies de l‘information et de la communication

(TIC). Ce collectif appelait également la communauté scientifique à creuser cette piste de

recherche.

Nos résultats suggèrent que les visualisations offertes par le KSV peuvent être utiles pour

orienter la démarche collaborative et créative des élèves, et sont à la portée des élèves du

primaire. Nous concluons également que les mesures sémantiques étudiées peuvent fournir

des indicateurs prometteurs pour comprendre et suivre la démarche de coélaboration de

connaissances. D‘ailleurs, consistant à chercher collectivement des réponses à des

problèmes authentiques, cette démarche de coélaboration de connaissances est bien souvent

de l‘ordre de la résolution collaborative de problèmes. Dans cette optique, nous croyons

que cette étude constitue un pas de plus vers l‘élaboration de ses méthodologies

d‘évaluation et pourrait contribuer à mieux préparer des élèves au programme d‘évaluation

PISA 2015.

109

La valorisation du pouvoir transformatif et émancipatoire des

technologies dans l’apprentissage

L‘apprentissage transformatif considère les apprenants comme des constructeurs de

connaissances actifs plutôt que des récepteurs d‘information. Ce processus implique « la

transformation des cadres de références d‘un apprenant par la réflexion critique sur ses

présuppositions, la validation de la remise en cause de ses croyances par le discours et la

considération des apports réflexifs des autres, en les évaluant de façon critique » (Mezirow,

1997). L‘émancipation consiste à l‘augmentation du pouvoir d‘agir (empowerment) des

individus.

En ce sens, la coélaboration de connaissances vise vivement à favoriser la transformation et

l‘émancipation des apprenants. Cependant, comme nous avons discuté au premier chapitre,

cette approche pédagogique a tendance à entrer en friction avec celles actuellement

dominantes en milieu scolaire. Nous croyons ainsi que les résultats de cette étude peuvent

contribuer à renforcir son potentiel de mise en œuvre en milieu scolaire, en fournissant

notamment davantage d‘outils et de mesures pour le suivi de la progression des élèves

quant à leur développement de compétences du 21e siècle. Tout en visant à venir appuyer le

jugement humain, les outils et mesures étudiées étaient fondamentalement technologiques.

Nous croyons donc qu‘ils contribuent à valoriser le pouvoir transformatif et émancipatoire

des technologies dans l‘apprentissage (Engeström & Middleton, 1998).

Futures pistes de recherche

Cette étude ne fait pas exception à la règle : elle apporte des pistes de solutions, mais elle

suggère également des pistes de recherche découlant des questions étudiées et des résultats

obtenus.

Pour l’avancement des méthodes d’analyse sémantique

Tel que discuté, les mesures subséquentes réalisées dans un corpus, comme les similarités

sémantiques et les longueurs vectorielles sont tributaires du nombre de thèmes choisis. Si

les corpus avaient été très volumineux, nous aurions pu travailler avec un nombre de

thèmes optimal documenté dans les écrits scientifiques. Cependant, les corpus à analyser

étaient relativement petits, soit un contexte très peu documenté.

110

Il serait donc pertinent de poursuivre la recherche si bien que des conventions relatives à

l‘analyse sémantique de petits corpus et la dimensionnalité des espaces connaissances

puissent être élaborées. De telles conventions pourraient faciliter la comparaison des

résultats d‘études similaires à celle-ci et, parallèlement, mener à l‘élaboration de repères et

de trajectoires quant à la progression des compétences de créativité et de collaboration.

Aussi, puisque nous n‘avons exploré qu‘une seule méthode d‘analyse sémantique, il serait

profitable d‘analyser le même ensemble de données, comme d‘autres, avec différentes

méthodes (p. ex. LDA) et de comparer les résultats. D‘ailleurs, le développement de ces

méthodes s‘est accéléré, notamment chez celles destinées à la modélisation de l‘anglais. Il

serait aussi intéressant de comparer des résultats d‘analyses en mode autoréférencié,

comme nous l‘avons fait, à ceux d‘analyses utilisant des corpus de référence externes (p.

ex., discours d‘experts, encyclopédies). De telles comparaisons entre analyses sémantiques,

combinées à des jugements humains de mesures sémantiques, pourraient également

contribuer à établir la validité des mesures sémantiques étudiées.

Pour des mesures de « progression »

Les élèves et les enseignants pourraient bénéficier de l‘utilisation de portraits évolutifs pour

évaluer, à certains moments clés, l‘évolution de leur démarche collaborative et créative.

Cela pourrait leur permettre de mieux évaluer comment et si les idées qu‘ils ont contribuées

ont fait avancer le discours collectif et, au besoin, de modifier leur démarche. Lors de nos

visites en classes, nous avons pu visualiser la modification des liens sémantiques dans le

KSV suite à un travail de reformulation de notes existantes ou de contributions de

nouvelles notes. Cependant, les mesures sémantiques étudiées subséquemment se sont

centrées sur l‘état final des données. De fait, nous avons analysé les perspectives

uniquement à leur état final et nous avons considéré l‘ensemble du travail des élèves au

terme de leur année scolaire. Par conséquent, il serait intéressant d‘étudier la progression,

dans le temps, du discours collectif par différentes mesures sémantiques.

D‘ailleurs, dans l‘ensemble de données utilisées pour nos analyses, il pourrait être possible

d‘associer des données d‘un même élève étant actuellement disséminées dans des bases de

connaissances différentes, sur plusieurs années scolaires. Cette considération de la

temporalité des données pourrait contribuer à identifier des profils et des trajectoires de

111

collaboration et de créativité typiques d‘élèves et de communautés, et ce, selon certaines

années scolaires et selon certaines modalités de collaboration (p. ex. intra ou inter-

commission scolaire, international, langue de travail).

En outre, l‘étude des trajectoires collaboratives et créatives pourrait permettre de mieux

comprendre les dynamiques des communautés lorsqu‘elles sont en situation de résolution

collaborative de problèmes et par conséquent, d‘en informer la conception de

méthodologies d‘évaluation.

112

Conclusion

Cette étude a cherché à identifier des affordances du KSV perçues par les participants de

cette étude et, d‘autre part, en des usages potentiels qu‘on pourrait en faire, de même que

ceux d‘outils de mesures dérivés, dans une optique de soutien au développement de deux

des compétences dites du 21e siècle. Elle contribue également au développement de la

discipline de l‘analyse de l‘apprentissage, notamment dans son volet de données destinées

aux apprenants.

L‘analyse des traces numériques associées à la progression des apprentissages deviendra

dans le futur sans doute très riche, voire indispensable, pour étayer la démarche des

apprenants, dans un contexte où l‘évaluation des apprentissages se complexifiera par le

besoin croissant de différenciation pédagogique découlant notamment de l‘explosion des

possibilités d‘apprentissage informel offertes par l‘Internet. En analyse de l‘apprentissage,

les enjeux deviennent plus axés sur les finalités éducatives visées que la faisabilité

technologique, les outils informatiques s‘étant beaucoup développés (p. ex. méthodes

d‘analyse et outils de visualisation de données).

De plus, les avancées technologiques, relatives aux conventions sur les formats et les

techniques de partage de données, facilitent la mise en commun de différentes sources de

données, favorisant du coup l‘essor de la multivocalité (multivocality). Cette dernière

consiste à la mise en commun de différents regards théoriques et méthodologiques portés

sur de mêmes objets si bien qu‘une compréhension mutuelle puisse être élaborée.

L‘analyse sémantique pourra sans doute fournir un regard intéressant pour examiner les

traces écrites par les apprenants en communautés d‘apprentissage ou d‘élaboration de

connaissances ou, encore, en communauté de pratique. Qui plus est, le développement

logiciel s‘accélère grâce aux plateformes numériques facilitant la collaboration. La

combinaison de ces plateformes et des principes de la liberté logicielle permet notamment

d‘attirer des collaborateurs venant d‘horizons de plus en plus variés, favorisant en retour la

multivocalité. Bien que les méthodes d‘analyse sémantique soient loin d‘être

irréprochables, il semble que ce ne soit qu‘une question de temps avant qu‘il n‘y ait une

meilleure proximité entre la compréhension d‘un contenu par l‘humain et par l‘ordinateur.

113

Bien entendu, il ne s‘agit pas de remplacer le jugement d‘un humain, mais de lui fournir

des outils lui venant en appui.

En conclusion, cette étude visait plus largement à explorer et contribuer au développement

d‘outils supplémentaires à la métacognition et à l‘autoévaluation des apprenants, de façon à

étayer leur démarche de développement de compétences dites nécessaires au succès et au

bienêtre à la vie moderne.

115

Références

Bereiter, C. (1994). Implications of postmodernism for science, or, science as progressive

discourse. Educational Psychologist, 29(1), 3–12. doi:10.1207/s15326985ep2901_1

Bereiter, C., & Scardamalia, M. (1993). Surpassing Ourselves: An Inquiry Into the Nature

and Implications of Expertise (p. 296). La Salle, IL: Open Court.

Bestgen, Y. (2004). Analyse sémantique latente et segmentation automatique des textes.

Communication acceptée aux JADT. http://lexicometrica.univ-

paris3.fr/jadt/jadt2004/pdf/JADT_015.pdf

Binkley, M., Erstad, O., Herman, J., Raizen, S., Ripley, M., Miller-ricci, M., & Rumble, M.

(2012). Defining Twenty-First Century Skills. In P. Griffin, B. McGaw, & E. Care

(Eds.), Assessment and Teaching of 21st Century Skills (pp. 17–66). Dordrecht:

Springer Netherlands. doi:10.1007/978-94-007-2324-5

Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. (J. Lafferty,

Ed.)Journal of Machine Learning Research, 3(4-5), 993–1022.

doi:10.1162/jmlr.2003.3.4-5.993

Bransford, J. D., Brown, A. L., & Cocking, R. R. (Eds.). (2000). How People Learn: Brain,

Mind, Experience, and School (p. 384). Washington, D.C.: National Academy Press.

Brants, T. (2005). Test Data Likelihood for PLSA Models. Information Retrieval, 8(2),

181–196. doi:10.1007/s10791-005-5658-8

Breuleux, A., Erickson, G., Laferrière, T., & Lamon, M. (2002). Devis sociotechniques

pour l‘établissement de communautés d‘apprentissage en réseau pour l‘intégration

pédagogique des TIC en formation des maîtres. Revue des sciences de léducation,

28(2), 411–434. http://id.erudit.org/iderudit/007361ar

C21 Canada. (2012). Transformer les Esprits: L‘enseignement public du Canada, une

vision pour le XXIe siècle. http://www.c21canada.org/wp-

content/uploads/2012/11/C21-Shifting-Minds3.0-FRENCH-Version.pdf

Chen, B., Resendes, M., Chuy, M., Tarchi, C., Bereiter, C., & Scardamalia, M. (2012).

Identifying promising ideas in a knowledge-building discourse. QWERTY-

Interdisciplinary Journal of Technology, Culture and Education, 6(2), 224–241.

http://www.ckbg.org/qwerty/index.php/qwerty/article/viewArticle/112

Collins, A., & Halverson, R. (2009). Rethinking education in the age of technology : the

digital revolution and schooling in America (p. 175). New York: Teachers College

Press.

116

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990).

Indexing by latent semantic analysis. Journal of the American Society for Information

Science, 41(6), 391–407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-

ASI1>3.0.CO;2-9

Deschênes, M. (2006). Savoir communautaire et responsabilité collective : proposition

d’un outil d'observation de l'activité d'une communauté en réseau. Essai de maitrise,

Université Laval.

Desgagné, S. (2001). La recherche collaborative: nouvelle dynamique de recherche en

éducation. M. Anadon (dir.) : Des nouvelles dynamiques de recherche en éducation

(pp. 51–76). Québec: Presses de l‘Université Laval.

Dewey, J. (1916). Democracy and education: an introduction to the philosophy of

education (p. 434). New York: Macmillan.

Engeström, Y., & Middleton, D. (1998). Cognition and communication at work (p. 360).

Cambridge University Press.

Fallery, B. (2004). Les trois visions de la formation ouverte et leurs propositions de

normes: Standardiser les contenus, les activités ou les interfaces? Systèmes

d’Information et Management, 9(4), 11–31. http://hal.archives-ouvertes.fr/hal-

00775873

Ferguson, R. (2012). The State of Learning Analytics in 2012: A Review and Future

Challenges. http://kmi.open.ac.uk/publications/techreport/kmi-12-01

Gaver, W. W. (1991). Technology affordances. Proceedings of the SIGCHI conference on

Human factors in computing systems Reaching through technology - CHI ’91 (pp.

79–84). New York, New York, USA: ACM Press. doi:10.1145/108844.108856

Gong, Y., & Liu, X. (2001). Generic text summarization using relevance measure and

latent semantic analysis. Proceedings of the 24th annual international ACM SIGIR

conference on Research and development in information retrieval - SIGIR ’01, 19–25.

doi:10.1145/383952.383955

Greenbaum, J. (1993). A design of one‘s own: Towards participatory design in the United

States. In D. Schuler & A. Namioka (Eds.), Participatory design: Principles and

practices (pp. 27–37). Hillsdale, NJ: Lawrence Erlbaum Associates.

Grégoire, R., & Laferrière, T. (1998). Communauté d‘apprentissage, une définition.

http://www.tact.fse.ulaval.ca/fr/html/prj-7.1/commune2.html

Griffin, P., McGaw, B., & Care, E. (Eds.). (2012). Assessment and Teaching of 21st

Century Skills. Assessment (p. 345). Dordrecht: Springer Netherlands.

doi:10.1007/978-94-007-2324-5

117

Griffiths, T. L., Steyvers, M., & Tenenbaum, J. B. (2007). Topics in semantic

representation. Psychological review, 114(2), 211–44. doi:10.1037/0033-

295X.114.2.211

Grünwald, P. D. (2005). Introducing the Minimum Description Length Principle. In P. D.

Grünwald, J. I. Myung, & M. A. Pitt (Eds.), Advances in Minimum Description

Length: Theory and Applications. MIT Press. http://mitpress.mit.edu/books/advances-

minimum-description-length

Hawkins, J., & Collins, A. (1992). Design experiments for infusing technology into

learning. Educational Technology, 32(9), 63–67.

Johnson, L., Adams, S., & Haywood, K. (2011). The NMC Horizon Report: 2011 K-12

Edition. Austin, Texas: The New Media Consortium.

Kakkonen, T., Myller, N., & Sutinen, E. (2006). Applying Latent Dirichlet Allocation to

Automatic Essay Grading. In T. Salakoski, F. Ginter, S. Pyysalo, & T. Pahikkala

(Eds.), Advances in Natural Language Processing (Vol. 4139, pp. 110–120). Springer

Berlin / Heidelberg. doi:10.1007/11816508_13

Kintsch, W. (2001). Predication. Cognitive Science, 25(2), 173–202.

doi:10.1207/s15516709cog2502_1

Laferrière, T., Allaire, S., Hamel, C., Gervais, F., Boutin, P.-A., Perreault, C., Walters, K.,

et al. (2011). Communautés d‘apprentissage et d‘élaboration de connaissances

interreliées à l‘échelle internationale : perspectives socioculturelles appliquées en

classes primaires et secondaires.

Laferrière, T., Allaire, S., Hamel, C., Turcotte, S., Gaudreault-Perron, J., Beaudoin, J., &

Inchauspé, P. (2008). L‘École éloignée en réseau : L'apprentissage des élèves. Rapport

de recherche, phase III. http://www.eer.qc.ca/doc/2009/EER_rapport-synthese_phase-

3.pdf

Laferrière, T., Perreault, C., Boutin, P.-A., Law, N., Yuen, J., Montané, M., Hernandez

Lopez, O., et al. (2011). Knowledge Building International Project : Designs for Deep

Understanding. In H. Spada, G. Stahl, N. Miyake, & N. Law (Eds.), Connecting

Computer-Supported Collaborative Learning to Policy and Practice: CSCL2011

Conference Proceedings. Volume III — Community Events Proceedings (Vol. III, pp.

1178–1182). International Society of the Learning Sciences.

Landauer, T., Foltz, P., & Laham, D. (1998). An introduction to latent semantic analysis.

Discourse Processes, 25(2), 259–284. doi:10.1080/01638539809545028

Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato‘s problem: The latent

semantic analysis theory of acquisition, induction, and representation of knowledge.

Psychological Review, 104(2), 211–240. doi:10.1037//0033-295X.104.2.211

118

Lave, J., & Wenger, E. (1991). Situated learning: Legitimate peripheral participation (p.

138). Cambridge, UK: Cambridge University Press.

Loveless, A., DeVoogd, G. L., & Bohlin, R. M. (2002). Something old, something new…

Is pedagogy affected by ICT? ICT, Pedagogy and the Curriculum: Subject to Change

(pp. 63–83). Routledge. http://www.routledge.com/books/details/9780203468258/

Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical

co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2), 203–

208. doi:10.3758/BF03204766

Mehler, A., Köhler, R., & Leopold, E. (2007). Models of Semantic Spaces. Aspects of

Automatic Text Analysis (Vol. 209, pp. 117–137). Springer Berlin / Heidelberg.

doi:10.1007/978-3-540-37522-7_6

Mezirow, J. (1997). Transformative Learning: Theory to Practice. New Directions for Adult

and Continuing Education, 1997(74), 5–12. doi:10.1002/ace.7401

National Research Council. (2012). Education for Life and Work: Developing Transferable

Knowledge and Skills in the 21st Century. (J. W. Pellegrino & M. L. Hilton, Eds.) (p.

242). Washington, D.C.: The National Academies Press.

http://www.nap.edu/catalog.php?record_id=13398

Paavola, S., Lipponen, L., & Hakkarainen, K. (2002). Epistemological foundations for

CSCL : A comparison of three models of innovative knowledge community. In G.

Stahl (Ed.), Computer Supported for Collaborative Learning: Foundations for a CSCL

community (pp. 24–32). Hilldale, New Jersey, USA: Lawrence Earlbaum Associates.

http://www.helsinki.fi/science/networkedlearning/texts/paavola_et_al_2002.pdf

Québec (Province). Ministère de l‘Éducation. (2001). Programme de formation de l’école

québécoise pour l'éducation préscolaire et l'enseignement primaire.

Québec (Province). Ministère de l‘Éducation. (2004). Programme de formation de l’école

québécoise : enseignement secondaire, 1er cycle.

Řehůřek, R., & Sojka, P. (2010). Software Framework for Topic Modelling with Large

Corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP

Frameworks (pp. 45–50). Valletta, Malta: ELRA.

http://nlp.fi.muni.cz/projekty/gensim/lrec2010_final.pdf

Scallon, G. (2004). L’évaluation des apprentissages dans une approche par compétences

(p. 342). Éditions Du Renouveau Pédagogique (ERPI).

Scardamalia, M., & Bereiter, C. (2003a). Knowledge building. In M. Reference (Ed.),

Encyclopedia of Education (2nd editio., pp. 1370–1373). New York.

http://ikit.org/fulltext/2003_knowledge_building.pdf

119

Scardamalia, M., & Bereiter, C. (2003b). Beyond brainstorming: Sustained creative work

with ideas. Education Canada, 43(4), 4–7,44.

Scardamalia, M., Bransford, J., Kozma, B., & Quellmalz, E. (2012). New Assessments and

Environments for Knowledge Building. In P. Griffin, B. McGaw, & E. Care (Eds.),

Assessment and Teaching of 21st Century Skills (pp. 231–300). Dordrecht: Springer

Netherlands. doi:10.1007/978-94-007-2324-5

Sfard, A. (1998). On Two Metaphors for Learning and the Dangers of Choosing Just One.

Educational Researcher, 27(2), 4–13. doi:10.3102/0013189X027002004

Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education.

Educause Review, 46(5).

http://www.eric.ed.gov/ERICWebPortal/recordDetail?accno=EJ950794

Silva, M., & Breuleux, A. (1994). The Use of Participatory Design in the Implementation

of Internet-Based Collaborative Learning Activities in K-12 Classrooms.

Interpersonal Computing and Technology: An Electronic Journal for the 21st Century,

2(3), 99–128. http://www.helsinki.fi/science/optek/1994/n3/silva.txt

Spinuzzi, C. (2005). The methodology of participatory design. Technical Communication,

52(2), 163–174.

http://www.ingentaconnect.com/content/stc/tc/2005/00000052/00000002/art00005

Teplovs, C. (2008). The Knowledge Space Visualizer: A tool for visualizing online

discourse. Paper presented at the common framework for CSCL interaction analysis

workshop at the International conference of the learning sciences 2008. Utrech, NL.

http://chris.ikit.org/ksv2.pdf

Teplovs, C. (2010). Visualization of knowledge spaces to enable concurrent, embedded and

transformative input to knowledge building processes. University of Toronto.

http://hdl.handle.net/1807/24893

Teplovs, C., Green, A., & Scardamalia, M. (2008). The ZooLib tuplebase: an open-source,

scalable database architecture for learning sciences research. In G. Kanselaar, V.

Jjonker, P. Kirschner, & F. Prins (Eds.), Proceedings International conference of the

learning sciences 2008 (pp. 138–139). International Society of the Learning Sciences.

http://dl.acm.org/citation.cfm?id=1600001

Teplovs, C., & Scardamalia, M. (2007). Visualizations for knowledge building assessment.

Assessment of Group and Individual Learning through Intelligent Visualization

Workshop (AGILeViz), CSCL 2007. http://chris.ikit.org/agilevizcscl-teplovs-

scardamalia.pdf

UNESCO. (1996). UNESCO and an Information Society for All: a position paper. Society.

Paris: UNESCO. http://unesdoc.unesco.org/images/0010/001085/108540eo.pdf

120

Zha, H., Marques, O., Simon, H. D., & Berkeley, L. (1998). Large-Scale SVD and

Subspace-Based Methods for Information Retrieval. In A. Ferreira, J. Rolim, H.

Simon, & S.-H. Teng (Eds.), IRREGULAR ’98 (pp. 29–42). Berkeley, California,

USA: Springer Berlin / Heidelberg. doi:10.1007/BFb0018525

121

Annexe 1

Ce document présente la distribution des similarités sémantiques, allant de 0 à 1, en

fonction du nombre de thèmes (k), pour un corpus de 47 notes. Les similarités négatives,

moins nombreuses, ne sont pas présentées. C‘est la source de données utilisée pour générer

le graphique présenté à la Figure 3.

Tableau 3. Distribution des similarités sémantiques en fonction de k

Degré de similarité sémantique

k 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

1 45 0 0 0 0 0 0 0 0 0 990

2 70 27 39 37 41 62 65 89 111 178 266

3 108 66 59 66 61 67 77 82 91 156 148

4 102 78 67 79 81 87 92 110 85 121 34

5 120 110 101 98 69 88 85 86 93 68 18

6 150 135 106 101 90 69 76 74 66 37 14

7 164 143 120 109 89 71 75 56 44 25 9

8 180 150 131 111 86 69 62 48 34 21 6

9 213 160 150 113 82 56 39 36 31 17 5

10 235 176 143 108 84 55 31 32 24 16 4

11 262 165 157 110 78 49 29 28 21 12 3

12 276 187 144 116 71 37 27 28 17 7 2

13 285 218 148 94 66 35 26 28 13 8 1

14 291 224 150 95 57 37 25 21 11 7 1

15 291 241 149 84 61 33 23 17 10 6 0

16 302 244 147 84 59 30 19 13 11 6 0

17 310 248 142 87 56 29 20 9 10 6 0

18 337 236 159 81 46 25 18 11 7 6 0

19 337 236 159 81 46 25 18 11 7 6 0

20 354 248 145 87 37 27 13 14 4 6 0

21 381 255 130 82 37 29 11 12 5 6 0

22 390 247 137 78 39 26 10 9 6 5 0

23 412 258 134 68 35 30 10 8 4 5 0

24 423 266 121 62 36 30 8 7 4 5 0

25 425 275 119 60 38 27 7 7 4 4 0

26 436 282 117 62 26 26 12 5 5 2 0

27 458 276 121 57 27 23 10 5 6 1 0

28 471 276 124 53 24 21 8 6 5 1 0

29 473 294 118 45 28 20 5 7 4 1 0

30 503 289 113 44 24 17 5 7 4 1 0

31 507 292 118 37 26 12 6 6 4 1 0

122

32 509 306 115 28 29 9 6 7 3 1 0

33 524 311 109 24 26 9 7 7 2 1 0

34 537 306 106 26 24 12 6 5 1 1 0

35 555 301 101 26 21 12 6 4 2 0 0

36 558 300 104 25 20 10 5 3 2 0 0

37 555 310 94 26 20 10 3 3 2 0 0

38 560 316 94 25 18 8 3 3 2 0 0

39 555 324 94 23 17 7 5 1 2 0 0

40 566 322 92 20 16 6 4 1 2 0 0

41 572 334 78 23 13 6 4 1 1 0 0

42 576 335 80 19 13 5 3 1 1 0 0

43 572 345 76 20 12 4 3 0 1 0 0

44 573 354 71 17 10 5 2 0 1 0 0

45 566 362 73 15 11 4 1 1 0 0 0

46 565 364 74 19 7 4 1 0 0 0 0

47 570 362 72 21 8 2 0 0 0 0 0

123

Annexe 2

Tableau 4. Allure des courbes de similarités en fonction de k

k pic_x pic_diss pic_ress dec_limite_x r_diss r_ress r somme_vl

1 1 1 1,00 12,31

2 1 0 1 0,1 0,97 0,84 15,45

3 0,9 0 0,9 0,2 -0,94 0,87 0,61 17,46

4 0,9 0 0,9 0,2 -0,99 0,77 -0,20 19,21

5 0 0 0,8 0,4 -0,92 0,57 -0,68 20,71

6 0 0 0,6 0,5 -0,98 -0,88 22,32

7 0 0 0,6 0,5 -0,99 -0,92 23,67

8 0 0 1 -0,93 -0,93 24,91

9 0 0 1 -0,96 -0,96 26,11

10 0 0 0,7 0,6 -0,98 -0,97 27,07

11 0 0 1 -0,97 -0,97 27,91

12 0 0 0,7 0,6 -0,99 -0,97 28,87

13 0 0 0,7 0,6 -1,00 -0,95 29,74

14 0 0 1 -0,97 -0,97 30,41

15 0 0 0,9 -1,00 -1,00 31,17

16 0 0 0,9 -1,00 -1,00 31,88

17 0 0 0,8 0,7 -0,99 -0,99 32,44

18 0 0 0,9 -0,99 -0,99 33,13

19 0 0 0,9 -0,99 -0,99 34,13

20 0 0 0,9 0,6 -0,99 -0,66 -0,98 34,74

21 0 0 0,9 0,6 -0,99 -0,75 -0,99 35,32

22 0 0 0,9 -0,99 -0,99 35,89

23 0 0 0,9 0,8 -1,00 -0,99 36,38

24 0 0 0,9 0,8 -0,99 -0,98 36,86

25 0 0 0,6 -0,99 -0,99 37,33

26 0 0 0,4 -1,00 -0,99 37,82

27 0 0 0,8 0,7 -1,00 -0,99 38,27

28 0 0 0,9 -0,99 -0,99 38,72

29 0 0 0,7 0,6 -0,99 -0,99 39,14

30 0 0 0,7 0,6 -0,99 -0,98 39,55

31 0 0 0,6 -0,99 -0,99 39,95

32 0 0 0,7 0,3 -0,98 -0,84 -0,98 40,34

33 0 0 0,4 0,3 -0,98 -0,98 40,71

34 0 0 0,8 -0,98 -0,99 41,08

35 0 0 0,8 -0,99 -0,99 41,43

36 0 0 0,8 -0,99 -0,99 41,80

124

37 0 0 0,6 -0,99 -0,98 42,13

38 0 0 0,6 -0,99 -0,98 42,46

39 0 0 0,8 0,7 -0,99 -0,98 42,76

40 0 0 0,8 0,7 -0,99 -0,97 43,05

41 0 0 0,7 -0,99 -0,99 43,32

42 0 0 0,7 -0,99 -0,98 43,60

43 0 0 0,8 -0,98 -0,98 43,83

44 0 0 0,8 -0,98 -0,98 44,04

45 0 0 0,6 -0,99 -0,99 44,26

46 0 0 0,6 -0,99 -0,99 44,47

47 0 0 0,5 -0,99 -0,99 44,66

Où, si applicable :

k = nombre de thèmes

pic_x = pic de similarités en x

pic_diss = pic de dissemblance en x

pic_ress = pic de ressemblance en x

dec_limite_x = position en x où la partie de la courbe représentant la dissemblance

arrête de décroitre

r_diss = coefficient de corrélation de Pearson pour la partie de la courbe

représentant la dissemblance (c.-à-d. de pic_diss à dec_limite_x)

r_ress = coefficient de corrélation de Pearson pour la partie de la courbe

représentant la ressemblance (c.-à-d. de dec_limite_x à pic_ress)

r = coefficient de corrélation de Pearson pour l‘ensemble de la courbe

somme_vl = somme des longueurs vectorielles des notes