L’évaluation formative de la collaboration et de la
créativité éclairée par des mesures sémantiques dans un
contexte de coélaboration de connaissances
Mémoire
Christian Perreault
Maitrise en technologie éducative
Maitre ès arts (M. A.)
Québec, Canada
© Christian Perreault, 2013
iii
Résumé
Pour réussir dans les sociétés dites du savoir au 21e siècle, ses citoyens sont appelés à
développer un nouvel ensemble de compétences, appelé « compétences du 21e siècle ». De
ces 10 compétences ciblées par le collectif ATC21S, notre étude focalise sur la
collaboration et la créativité. Dans une démarche de design participatif, nous avons étudié
les affordances du Knowledge Space Visualizer (KSV) perçues par des élèves et des
enseignants ayant une certaine expérience d‘utilisation d‘un environnement numérique de
coélaboration de connaissances. Nous avons réalisé des analyses sémantiques sur des
données représentant six années de collaboration parmi les classes de l‘École en réseau. Les
résultats suggèrent que le KSV et différentes mesures sémantiques pourraient contribuer à
soutenir le développement et les méthodologies d‘évaluation de la collaboration et de la
créativité, notamment en fournissant plus d‘indicateurs aux élèves et aux enseignants et en
permettant de connecter davantage les idées dans et entre des classes se transformant, par
moment, en communautés d‘élaboration de connaissances.
v
Abstract
To succeed in developed societies of the 21st century, its citizens are called upon to develop
―21st century skills‖. Our study focuses on collaboration and creativity, two of the 10
competencies targeted by the ATC21S collective. Borrowing a participatory design
methodology, we studied Knowledge Space Visualizer‘s (KSV) affordances as perceived
by students and teachers with some experience in using Knowledge Forum. We performed
different semantic analyzes of the data gathered throughout six years of collaboration
among all the classes participating in the Quebec Remote networked schools initiative. The
results suggest that the KSV and different semantic measures could potentially support the
development and the assessment methodologies of collaboration and creativity, particularly
by providing more indicators to students and teachers and by strengthening the connection
between ideas in and between the knowledge building communities that generate them.
vii
Table des matières
Résumé .................................................................................................................................. iii
Abstract ................................................................................................................................... v
Liste des tableaux ................................................................................................................... ix
Liste des figures ..................................................................................................................... xi
Remerciements .................................................................................................................... xiii
Chapitre 1 — Problématique de recherche ............................................................................. 1
Développement socioéconomique et ses enjeux en éducation ........................................... 1
Habilitation aux compétences du 21e siècle ........................................................................ 2
Intégration de nouvelles technologies ................................................................................. 8
Application des avancées des sciences de l‘apprentissage ................................................. 9
Quatre piliers : l‘apprenant, le contenu, l‘évaluation et la communauté ...................... 10
Trois métaphores : l‘acquisition, la participation et la création de connaissances ....... 11
L‘évaluation par compétences ...................................................................................... 12
La coélaboration de connaissances ............................................................................... 14
L‘analyse de l‘apprentissage ......................................................................................... 16
Le Knowledge Space Visualizer (KSV) ........................................................................... 17
Questions de recherche ..................................................................................................... 21
Pertinence sociale et scientifique de l‘étude ..................................................................... 22
Limites de l‘étude ............................................................................................................. 22
Chapitre 2 — Méthodologie d‘intervention et de recherche ................................................ 25
Le design participatif ........................................................................................................ 25
Éléments conceptuels .................................................................................................... 25
Le contexte élargi : l‘École en réseau ........................................................................... 27
Le contexte spécifique : les participants ....................................................................... 29
Définitions opérationnelles ............................................................................................... 30
Design d‘outils sémantiques ............................................................................................. 31
L‘analyse sémantique ................................................................................................... 31
Du KF au KSV : développement technologique .......................................................... 38
La dimensionnalité des espaces sémantiques ............................................................... 48
Collecte des données : instruments et procédures ............................................................ 54
Procédures d‘analyse des données .................................................................................... 55
Chapitre 3 — Présentation et analyse des résultats .............................................................. 57
Développement d‘une méthode de décision du nombre de thèmes .................................. 57
Affordances du KSV perçues par les élèves et les enseignants ........................................ 60
Par les enseignants ........................................................................................................ 60
Par les élèves ................................................................................................................. 62
Usages potentiels en situation réelle de classe du KSV et d‘outils dérivés ...................... 78
Usages repérés .............................................................................................................. 78
Usages potentiels et développements dérivés ............................................................... 79
Chapitre 4 — Discussion ...................................................................................................... 95
Le potentiel d‘une méthode d‘analyse sémantique ........................................................... 95
L‘accueil fait aux liens sémantiques par les élèves .......................................................... 96
La pertinence d‘intégrer de nouveaux types de visualisation au KF ou à d‘autres
environnements similaires ................................................................................................ 96
viii
Des affordances perceptibles et leur usage potentiel ................................................... 97
Des affordances en support à la collaboration et à la créativité ................................... 97
Des analyses sémantiques des données de l‘ÉER informant la conception de mesures de
la collaboration et de la créativité .................................................................................... 99
Les mesures sémantiques décrivant les notes et les contributions individuelles et
collectives se distinguaient des mesures simples ....................................................... 100
Implications pédagogiques ............................................................................................. 102
L‘avancement du modèle pédagogique au cœur de l‘ÉER ........................................ 102
L‘avancement des méthodologies d‘évaluation de la résolution collaborative de
problèmes ................................................................................................................... 108
La valorisation du pouvoir transformatif et émancipatoire des technologies dans
l‘apprentissage ............................................................................................................ 109
Futures pistes de recherche............................................................................................. 109
Pour l‘avancement des méthodes d‘analyse sémantique............................................ 109
Pour des mesures de « progression » ......................................................................... 110
Conclusion .......................................................................................................................... 112
Références .......................................................................................................................... 115
Annexe 1 ............................................................................................................................ 121
Annexe 2 ............................................................................................................................ 123
Note : Ce document est rédigé selon l‘orthographe rectifiée.
ix
Liste des tableaux
Tableau 1. Les 10 compétences du 21e siècle de l‘ATC21S .................................................. 4
Tableau 2. Caractéristiques des enseignants et des classes participants ............................... 29
Tableau 3. Distribution des similarités sémantiques en fonction de k ................................ 121
Tableau 4. Allure des courbes de similarités en fonction de k ........................................... 123
xi
Liste des figures
Figure 1. Aperçu du Knowledge Space Visualizer (KSV). .................................................. 19
Figure 2. Affichage de notes par similarité sémantique dans le KSV. ................................. 20
Figure 3. Distribution des similarités sémantiques en fonction de k. ................................... 51
Figure 4. k optimal choisi en fonction de la taille du corpus. ............................................... 59
Figure 5. Première perspective présentée selon l‘affichage habituel. .................................. 62
Figure 6. Deuxième perspective présentée selon l‘affichage habituel. ................................ 63
Figure 7. Affichage de deux perspectives superposées dans le KSV. .................................. 64
Figure 8. Affichage de deux perspectives disposées par forces dans le KSV. ..................... 66
Figure 9. Affichage de deux perspectives disposées par forces et leurs liens sémantiques
dans le KSV. ......................................................................................................................... 67
Figure 10. Changement des liens sémantiques après un travail de reformulation. .............. 73
Figure 11. Relation entre le nombre de mots (a) d‘une note et sa longueur vectorielle (b). 81
Figure 12. Corrélation entre b et a au sein de chaque perspective. ...................................... 82
Figure 13. Relation entre le nombre de mots (a) d‘une note et son volume lexico-
sémantique (c). ...................................................................................................................... 84
Figure 14. Corrélation entre c et a au sein de chaque perspective. ...................................... 85
Figure 15. Relation entre le nombre de notes d‘un auteur et son volume sémantique. ........ 86
Figure 16. Relation entre le nombre de mots d‘un auteur son volume sémantique. ............ 87
Figure 17. Relation entre le volume sémantique « normalisé » (d), le volume lexico-
sémantique (c) et le nombre de notes (a) d‘un auteur. .......................................................... 88
Figure 18. Contribution sémantique de chaque auteur selon sa part dans son groupe. ........ 89
Figure 19. Comparaison des ratios de contribution sémantique et lexicale de chaque élève,
par rapport à leur groupe. ...................................................................................................... 91
Figure 20. Relation entre la dynamique d‘un groupe et son volume sémantique. ............... 93
Figure 21. Affichage chronologique et coloration par auteur dans le KSV. ...................... 105
xiii
Remerciements
Ce projet de mémoire de maitrise s‘est étendu sur quelque trois années. Je tiens à actualiser
la coutume selon laquelle on remercie formellement en début d‘ouvrage ceux et celles qui y
ont collaboré.
Merci d‘abord à ma directrice, la professeure Thérèse Laferrière. Sa guidance a donné un
tout nouveau sens à mes études en éducation. Elle m‘a permis de démystifier les études
supérieures, et de vivre une maitrise stimulante, transformative et émancipatoire!
Merci beaucoup aux enseignants et aux élèves ayant accepté de participer à cette étude.
Merci à mes collègues, Christine, Édith, Émilie, Jean-Philippe, Julia, Kesi, Maria Isabel,
Ndiamé, Pier-Ann, Stéphane & Vincent, pour ne nommer que ceux-là, pour leur aide, le
plaisir de travailler et les discussions enrichissantes.
Merci à Isabelle de m‘avoir encouragé à plonger à la maitrise, sa patience, son soutien et
son amour.
Merci à ma famille, ma mère Diane, mon frère Nicolas et mon père Rodrigue pour leurs
encouragements et leur appui indéfectible.
Merci à ma tante Diane pour ses encouragements constants.
Côté musique, un merci spécial à Pink Floyd et aux compilations Saint-Germain-des-Prés
Café pour m‘avoir accompagné dans les centaines d‘heures de travail investies dans ce
projet.
Merci à Pierre-Yves pour sa collaboration exceptionnelle et son aide précieuse.
Merci aux amis pour leurs encouragements et avec qui j'ai eu l‘occasion de discuter et de
nourrir ce projet, dont, entre autres, Alexandre, Can, Christine, Jonathan, Marc-André,
Marie-Ève, Marie-Pier, Marie-Renée, Pierre, Rémi, Steve, Vincent...
Bref, merci à tous ceux et celles qui ne sont pas nommés expressément ici et qui ont
contribué à ce projet : « si le chapeau vous fait, mettez-le, sinon passez-le à Kevin ».
Bonne lecture!
Christian
1
Chapitre 1 — Problématique de recherche
Le présent chapitre présentera d‘abord un portrait sommaire de la relation entre les
systèmes éducatifs et les développements socioéconomiques, de façon à présenter la
situation actuelle en la mettant en perspective avec celle du siècle dernier. Nous discuterons
des changements socioéconomiques produits et des récentes innovations technologiques,
puis de leurs effets actuels et envisagés dans le domaine de l‘éducation, plus
spécifiquement en ce qui a trait aux compétences du 21e siècle. Nous poursuivrons la mise
en contexte de cette étude en discutant de l‘application des avancées des sciences de
l‘apprentissage, notamment la coélaboration de connaissances, l‘évaluation par
compétences et l‘analyse de l‘apprentissage. Nous poserons ensuite les questions de
recherche autour desquelles la présente étude s‘articule, sa pertinence et ses limites.
Développement socioéconomique et ses enjeux en éducation
Selon Collins & Halverson (2009), la présente époque représente une révolution numérique
(Digital Revolution) qui aura un impact d‘une amplitude comparable à celle de la
révolution industrielle (Industrial Revolution) du 19e siècle. Des sociétés passèrent alors
d‘une prépondérance de l‘agriculture et de l‘artisanat à celle du commerce et de l‘industrie,
celle-ci étant marquée par le développement de la production de masse. Le monde du
travail se transformait rapidement, si bien que les dispositifs éducatifs de l‘époque ne
convenaient plus. Ceux-ci consistaient principalement en l‘apprentissage ― entendu au
sens d‘une relation apprenti-mentor ― et ont cédé radicalement leur place à des systèmes
éducatifs de masse pour, entre autres, fournir à une demande accrue de main-d‘œuvre
commerciale et industrielle. En même temps, le contexte économique le permettant, les
aspirations augmentaient en matière de démocratisation de l‘éducation (Dewey, 1916;
UNESCO, 1996). Dans de nombreux pays, un système scolaire dit universel s‘est ainsi
progressivement développé à l‘intention d‘un nombre grandissant de familles non agricoles.
On visait alors à standardiser et à accroitre le débit des connaissances transmises.
There is a general agreement that the much heralded ‗knowledge society‘ (Drucker,
1994, 1968; Bell, 1973; Toffler, 1990) will have profound effects on our health,
educational, cultural, and financial institutions, and create an ever-increasing need
for robust lifelong learning, innovation, and the knowledge and skills to solve
problems of the future. This need for innovation is emphasized by the shift from
2
manufacturing-based to knowledge-based economies, with the health and wealth of
nations tied to the innovative capacity of its citizen. (Scardamalia, Bransford,
Kozma, & Quellmalz, 2012, p. 232)
Aujourd‘hui, dans la perspective de ces derniers auteurs, les sociétés développées
deviennent des sociétés de la connaissance, impliquant des changements profonds au sein
de leurs institutions. Les économies passent d‘une dominante manufacturière à une
dominante basée sur la connaissance. C‘est dire que la santé et le bienêtre des nations
dépendront de la capacité d‘innovation de leurs citoyens. Ceux-ci sont donc appelés à
développer un nouvel ensemble de connaissances et de compétences.
Pour en revenir à ce qu‘écrivent Collins & Halverson (2009), le même patron se répète de
nos jours; les sociétés connaissent un si fort changement dans leurs modes de
fonctionnement que cela exige ― et dans nos termes exigerait ― de repenser les systèmes
éducatifs actuels en profondeur pour les rendre plus congruents avec les exigences du
monde moderne1. Nous pensons ici à des aspects comme la planification et l‘évaluation des
apprentissages en fonction de compétences à développer, l‘éducation permanente et la
différenciation pédagogique.
C‘est dans ce contexte que la présente étude s‘intéresse à l‘aspect de l‘évaluation des
apprentissages, plus spécifiquement à l‘évaluation des compétences dites du 21e siècle.
Habilitation aux compétences du 21e siècle
Fondé en 2009 et formé par des experts en sciences de l‘éducation et en sciences cognitives
appliquées2, le collectif Assessment and teaching for the 21st century skills (ATC21S) cible
les compétences du 21e siècle, voulant ainsi les préciser de manière à les évaluer afin de
refléter les exigences actuelles et envisagées de la société du présent siècle. Il s‘organise en
cinq équipes, chacune travaillant sur un aspect du sujet :
1. La définition des compétences du 21e siècle;
2. Les perspectives sur les enjeux méthodologiques;
3. Les enjeux méthodologiques associés à l‘évaluation assistée par l‘ordinateur;
4. Les nouveaux environnements et les nouvelles formes d‘évaluation pour la
coélaboration de connaissances;
1 Ceci n‘est toutefois pas notre ambition dans cette recherche, bien qu‘elle vise à faire une
contribution allant dans le sens de ce changement envisagé. 2 John Bransford, Marlene Scardamalia, Senta Raizen, Mark Wilson, Beno Csapo, Linda
Darling-Hammond, etc.
3
5. Les politiques-cadres pour les nouvelles formes d‘évaluation.
En plus de tenter de les définir, ce groupe vise à établir leurs priorités, leurs enjeux
méthodologiques et technologiques. Dans une volonté d‘arrimage avec les niveaux des
systèmes éducatifs (c.-à-d. classe, école [micro], commission scolaire [méso],
ministère/gouverne [macro]), l‘ATC21S s‘intéresse aussi à la conception d‘environnements
d‘apprentissage supportés par les TI favorisant ces compétences et à l‘établissement de
politiques pour les nouvelles formes d‘évaluation développées. Le projet ATC21S vise
dans sa plus large mesure à concevoir un modèle de programme éducatif systémique où les
TI occupent une place centrale, et ce, incluant à des fins d‘évaluation des apprentissages. Il
s‘agit de tirer parti de la complexité des outils informatiques pour supporter des
environnements d‘apprentissage plus complexes.
Dans son travail de clarification des définitions données aux compétences, l‘ATC21S a
étudié plusieurs ressources comme des documents produits par différents pays ou initiatives
similaires — par exemple l‘organisation étatsunienne Partnership for 21st century skills —
et les curriculums de plusieurs nations ou régions (p. ex. Union Européenne, OCDE, États-
Unis, Japon, Australie, Angleterre, Irlande du Nord, ISTE). Il a étudié les documents de ces
sources afin d‘analyser jusqu‘où leurs définitions de compétences en fournissaient une
description mesurable en termes de connaissances, d‘habiletés, d‘attitudes, de valeurs et
d‘éthique; ils les ont analysées selon le modèle KSAVE (de l‘anglais knowledge, skills,
attitutes/values/ethics). Les auteurs remarquent que dans l‘ensemble des références
analysées, de nombreuses compétences sont récurrentes, tout en précisant que leur degré de
définition générique ou spécifique varie grandement. C‘est dire que plusieurs documents en
présentent une définition uniquement générique (de l‘ordre d‘une compétence transversale),
alors que d‘autres en présentent une définition spécifique à une discipline ou un cours (de
l‘ordre d‘une compétence disciplinaire).
Le collectif a ainsi repéré 10 compétences à la portée suffisamment large pour épouser
l‘ensemble des documents analysés. Il les a groupées en quatre catégories selon la
proximité de leur nature (Binkley et al., 2012). En voici la liste, et puisqu‘il travaille dans la
langue anglaise, nous proposons une traduction libre en français à laquelle ce mémoire
puisera.
4
Tableau 1. Les 10 compétences du 21e siècle de l‘ATC21S
Libellés anglais Libellés français (traduction libre)
Ways of Thinking Modes de pensée
1. Creativity and innovation 1. Créativité et innovation
2. Critical thinking, problem solving,
decision making
2. Pensée critique, résolution de problèmes,
prise de décision
3. Learning to learn, metacognition 3. Apprendre à apprendre, métacognition
Ways of Working Modes de travail
4. Communication 4. Communication
5. Collaboration (teamwork) 5. Collaboration (travail en équipe)
Tools for Working Outils de travail
6. Information literacy (includes
research on sources, evidences, biases,
etc.)
6. Littéracie informationnelle (inclut la
recherche sur les sources, les données
probantes, les biais, etc.)
7. ICT literacy 7. Littéracie numérique
Living in the World Vivre en société
8. Citizenship — local and global 8. Citoyenneté — locale et globale
9. Life and career 9. Vie et carrière
10. Personal & social responsibility –
including cultural awareness and
competence
10. Responsabilité personnelle et sociale –
incluant la conscience et la compétence
culturelles
Les auteurs présentent ensuite un portrait détaillé de chacune de ces dix compétences. Ils
organisent leur définition en utilisant là encore ledit modèle d‘analyse KSAVE. Plusieurs
exemples d‘initiatives de dispositifs d‘évaluation à travers le monde sont exposés. Voici
une présentation sommaire de ces 10 compétences.
1. Créativité et innovation
La créativité et l‘innovation proviennent de deux écoles de pensée. La première est plus
souvent associée aux sciences cognitives alors que la deuxième relève davantage du
domaine de l‘économie où « l‘objectif est d‘améliorer, de créer et d‘implanter de nouveaux
produits et de nouvelles idées ». Le collectif cite les travaux de Loveless, DeVoogd &
Bohlin (2002) ayant étudié les interconnexions entre la technologie, l‘apprentissage et la
5
créativité. Ce dernier souligne que les éducateurs doivent créer une atmosphère sociale où
les apprenants se sentent confortables de prendre des risques et de jouer avec les idées afin
de favoriser leur créativité. Binkley et al. (2012) soulignent que leur mesure peut être très
difficile. Elles ne peuvent être mesurées par des évaluations à grande échelle qui sont
généralement de courte durée et requièrent, au contraire, un environnement interactif.
2. Pensée critique, résolution de problèmes et prise de décision
Les auteurs d‘ATC21S notent que la pensée critique, la résolution de problème et la prise
de décision sont des éléments d‘une importance grandissante dans les curriculums à travers
le monde. Ils sont plus associés aux programmes de mathématique et de science et les
auteurs mentionnent qu‘au contraire de la compétence créativité et innovation, ceux-ci
peuvent être mesurés par le truchement d‘évaluations à grande échelle. Les auteurs donnent
les exemples du Programme international pour le suivi des acquis des élèves (PISA) de
l‘Organisation de coopération et de développement économiques (OCDE) et du
Programme national étatsunien d‘évaluation du progrès éducationnel (U.S. National
Assessment of Educational Progress) visant spécifiquement leur mesure à l‘échelle
nationale ou internationale. Le PISA est triennal et s‘est respectivement focalisé sur la
lecture (édition 2000), les mathématiques (édition de 2003) et les sciences (édition de
2006). Dans chacune d‘elles, la résolution de problèmes a occupé une place majeure. On
mentionne aussi les possibilités qu‘offre l‘ordinateur quant à la mise en œuvre de
problèmes complexes et interactifs, voire de questions ouvertes évaluables par l‘ordinateur.
L‘édition de 2012 du PISA prévoit à ce sujet inclure des éléments dynamiques où la
résolution de problème s‘opèrera en contexte technologique riche.
3. Apprendre à apprendre, métacognition
Les auteurs d‘ATC21S soulignent que les compétences apprendre à apprendre et
métacognition sont le plus souvent mesurées dans des contextes individuels ou impliquant
quelques individus, par exemple par des réflexions à voix haute, rendant ces méthodologies
difficilement extensibles pour des évaluations à grand déploiement. La technologie présente
néanmoins un potentiel d‘assistance intéressant et permet d‘évaluer l‘apprendre à
apprendre, notamment en ce qui concerne l‘apprentissage autonome, l‘autoévaluation et
l‘évaluation par les pairs. Les auteurs présentent deux initiatives technologiques
6
prometteuses à ce chapitre : eVIVA (Royaume-Uni) et Cascade (Luxembourg). Dans le cas
de l‘exemple du site Web eVIVA, les apprenants se construisent un profil, répondent à
quelques questions d‘autoévaluation et sélectionnent des questions auxquelles ils devront
répondre à la fin de leur cours. Cette plateforme leur permet de se construire un portfolio où
ils peuvent marquer les jalons importants de leur apprentissage, jalons auxquels ils peuvent
joindre des fichiers comme appuis et joindre une description (p. ex. détails, difficultés,
fiertés). Un système de messagerie intégré permet ensuite aux éducateurs et aux pairs
d‘utiliser ces jalons comme éléments de référence pour s‘engager dans un dialogue autour
des apprentissages.
4. Communication
La communication est au cœur des dispositifs d‘évaluation par le truchement de la lecture,
de l‘écriture, de l‘écoute et de l‘expression orale. Il s‘agit essentiellement de la
compréhension et de la production de messages par l‘utilisation de différents langages (p.
ex. mathématique, scientifique, poétique), de différentes représentations (p. ex. graphiques,
tableaux) et de différents médias (p. ex. texte sur papier, texte numérique, audio, vidéo). À
une époque où les moyens de communication fusent ― pensons notamment au courriel, au
clavardage, aux appareils mobiles (p. ex. téléphonie, messages textes), aux forums
électroniques et à la visioconférence ―, les auteurs d‘ATC21S mettent l‘accent sur le
besoin de mettre à jour les méthodes d‘évaluation pour qu‘elles soient plus actuelles et
authentiques. Ils donnent l‘exemple de l‘introduction d‘une simulation de lecture de pages
Web dans une évaluation de lecture numérique (Electronic Reading Assessment) du PISA
en 2009. Ils soulignent aussi le grand potentiel de la vidéo en éducation.
5. Collaboration (travail en équipe)
Le travail en équipe n‘est pas nouveau en éducation. Toutefois, comme les auteurs
d‘ATC21S le soulignent, la plupart des systèmes scolaires focalisent l‘évaluation presque
uniquement sur les performances individuelles. Lorsque les apprenants sont mis en
situation de tâches collaboratives, la question de l‘évaluation tient le plus souvent à trouver
comment distribuer la reconnaissance à travers les membres du groupe et comment tenir
compte des biais possibles des performances individuelles à cause des différences entre les
groupes. D‘ailleurs, à l‘échelle internationale, les auteurs précisent que la prise en compte
7
des différences culturelles constitue un obstacle majeur dans la conception de dispositifs
visant à évaluer la collaboration. Il demeure que le développement des technologies a
favorisé l‘essor de dynamiques de collaboration à l‘extérieur de l‘école, particulièrement
dans le monde du travail, si bien qu‘elle est désormais une compétence particulièrement
importante à développer. En conséquence, les systèmes d‘éducation devront trouver des
solutions pour lui accorder une plus grande importance.
6. Littéracie informationnelle
Cette compétence inclut tout ce qui fait référence à l‘accès, l‘évaluation, l‘usage et à la
gestion de l‘information. Les auteurs d‘ATC21S présentent une statistique éloquente :
l‘information contenue dans le New York Times au cours d‘une semaine, excède celle à
laquelle une personne moyenne au 18e siècle avait accès au cours de sa vie. De fait,
l‘Internet démocratise la production de l‘information et ce rythme n‘est pas de nature à
ralentir. Les gens devront être en mesure de chercher dans plusieurs médias, d‘être critiques
et d‘utiliser cette masse d‘informations.
7. Littéracie numérique
Cette compétence concerne l‘accès, l‘évaluation et l‘usage des TIC. Les auteurs d‘ATC21S
mentionnent dans leur définition opérationnelle l‘usage adéquat (efficacité et efficience) de
différents outils technologiques, comme les texteurs, les feuilles de calculs et les bases de
données, mais sans s‘y limiter et en incluant les outils de télécollaboration. Les outils
publiquement accessibles sur le Web (p. ex. les réseaux sociaux) comportent des enjeux
éthiques/légaux et leur usage adéquat inclut leur compréhension.
8. Citoyenneté — locale et globale
La définition opérationnelle que présentent les auteurs de la citoyenneté inclut la
connaissance des droits civils, des pouvoirs du gouvernement, des personnages clés de
l‘histoire, etc., alors que les habiletés incluent la participation dans la communauté, la
capacité à la solidarité, la capacité à interagir avec les institutions gouvernementales, etc.
Les auteurs d‘ATC21S mentionnent que la citoyenneté n‘est pas nouvelle comme objectif
éducatif puisqu‘elle fait partie des curriculums depuis un bon moment, mais son évaluation
comme compétence représente un défi en terme de mesure.
8
9. Vie et carrière
Dans un monde où la diversité et la mobilité des emplois s‘accentuent, la gestion de la vie
et de la carrière est une compétence pertinente. Les auteurs d‘ATC21S mentionnent qu‘il y
a une longue tradition de mesure des préférences professionnelles pour guider les choix de
carrière, mais qu‘il y a une absence de référentiels solides pour concevoir des dispositifs de
mesure de cette compétence. Ils proposent une définition opérationnelle incluant des
habiletés comme l‘adaptation au changement, la flexibilité, la gestion des échéanciers, le
travail autonome, l‘interaction, la gestion de projets, le leadership, etc.
10. Responsabilité personnelle et sociale
Enfin, les auteurs d‘ATC21S ont ciblé la responsabilité personnelle et sociale. Leur
définition opérationnelle inclut des éléments comme la capacité à communiquer de manière
constructive dans différentes situations sociales, la capacité à générer la confiance et
l‘empathie des autres, la capacité à maintenir un degré de séparation entre la vie
personnelle et professionnelle, etc. Ils mentionnent que certains aspects de cette
compétence se retrouvent également dans la compétence de collaboration (travail en
équipe) et qu‘il n‘existe à peu près pas de littérature concernant sa mesure.
Intégration de nouvelles technologies
Le développement prodigieux qu‘ont connu les TIC dans les dernières décennies a
bouleversé les modes de communication des sociétés dites développées. La puissance des
nouvelles technologies a tôt fait de transformer les entreprises à l‘échelle mondiale, leur
permettant d‘améliorer l‘efficience de leurs opérations. Bien que ces nouvelles technologies
aient progressivement émergé dans le monde de l‘éducation, elles ne s‘y sont pas pour
autant intégrées.
Les TIC ont d‘abord gagné principalement le secteur universitaire et la formation à
distance. On a vu apparaitre au tournant des années 2000 des plateformes d‘apprentissage
en ligne (Learning Management System) permettant entre autres de rendre accessibles des
documents associés à des cours, de faire passer des questionnaires aux apprenants et de leur
offrir un forum de discussion. De nombreux cours à distance comme en face à face ont vu
leur contenu partiellement transféré sur ce média plutôt que sur papier. Ce type de
plateforme a surtout le mérite d‘améliorer l‘efficience et la commodité de certains
9
processus tout en diminuant des frais de fonctionnement, sans vraiment fournir
d‘innovations sur le plan pédagogique.
À l‘école primaire et secondaire, les TIC ont gardé jusqu‘à maintenant un rôle plutôt
périphérique. Les écoles se sont généralement dotées de laboratoires informatiques. Parfois,
il y a quelques ordinateurs dans les classes du secondaire, mais un plus grand nombre de
ces appareils sont présents dans les classes du primaire. Plusieurs programmes existent
aussi où chaque étudiant a son propre ordinateur. Dans ces cas, les ordinateurs servent
surtout à la recherche d‘information au moyen de l‘Internet et à la production de contenu
avec des logiciels de productivité. Là où l‘innovation pédagogique se trouve davantage,
c‘est lorsque l‘on utilise ces environnements technologiques dans le cadre d‘une pédagogie
socioconstructiviste. On tire alors profit du réseau technologique pour supporter et catalyser
le réseau social des apprenants, les connexions aux plans de la pensée et de l‘action. On
parle ici d‘un environnement d‘apprentissage en réseau.
Dans ce type d‘environnement d‘apprentissage, la communauté d‘apprenants est le modèle
de gestion de classe typiquement dominant. L‘information accessible aux apprenants ne se
limite pas à celle préparée par l‘enseignant et à la documentation disponible dans la salle de
classe, comme il est d‘usage dans les environnements d‘apprentissage plus traditionnels.
Cette plus grande souplesse vis-à-vis du contenu laisse plus de place pour la diversification
pédagogique, favorisant ainsi la motivation et l‘engagement des élèves. Mais avant tout, la
technologie sert de levier pour soutenir les interactions entre apprenants et, par conséquent,
déployer une pédagogie socioconstructiviste de façon inédite. De fait, l‘ordinateur facilite
l‘accessibilité, la production et le partage de l‘information. Le rapport à la connaissance
change; les apprenants jouent un rôle plus actif dans leur apprentissage.
Application des avancées des sciences de l’apprentissage
Les progrès dans le domaine de la psychologie cognitive suggèrent que l‘apprentissage est
un processus fondamentalement social. C‘est ce que soutient le socioconstructivisme qui
s‘est taillé une place majeure dans les théories de l‘enseignement-apprentissage, si bien
qu‘il est devenu un élément pilier de nombreux curriculums. À titre d‘exemple, ce fut le cas
dans le contexte québécois au tournant des années 2000, où les nouveaux programmes de
10
formation des écoles primaire et secondaire réaffirmaient un certain positionnement
socioconstructiviste (Québec (Province). Ministère de l‘Éducation, 2001, 2004).
Quatre piliers : l’apprenant, le contenu, l’évaluation et la communauté
En traitant de conception et d‘évaluation d‘environnements d‘apprentissage au regard des
récents développements en sciences de l‘apprentissage, Bransford, Brown et Cocking
(2000) expliquent qu‘il faut tenir compte de quatre centrations : 1) l‘apprenant, 2) le
contenu-matière, 3) l‘évaluation et 4) la communauté.
Au sujet de ce dernier élément, les auteurs écrivent que les enseignants doivent concevoir
des activités d‘apprentissage de façon à promouvoir la camaraderie intellectuelle et des
attitudes à l‘endroit de l‘apprentissage qui forge un sens de la communauté (p. 25). Cette
centration sur la communauté souligne l‘importance des interactions dans l‘apprentissage.
Par ailleurs, les auteurs expliquent que cet aspect de communauté réfère non seulement à un
mode de gestion de la classe communautaire, mais aussi à la représentation de toute l‘école
comme une communauté. Cela sous-tend la connexion des élèves et des enseignants avec la
communauté extérieure à l‘école (c.-à-d. les domiciles, les entreprises, les nations et le
monde). Les nouvelles technologies présentent à ce titre un nouvel univers de possibilités
pour faciliter et concrétiser ce modèle, pour les interactions à l‘intérieur de la classe comme
pour celles avec l‘extérieur.
La centration sur l‘apprenant met en évidence le besoin d‘être particulièrement sensible aux
connaissances, habiletés, attitudes et croyances des élèves. Il s‘agit de reconnaitre
l‘importance des connaissances conceptuelles et culturelles qu‘ils apportent dans
l‘environnement d‘apprentissage.
La centration sur le contenu-matière met l‘accent sur la compréhension approfondie plutôt
que la mémorisation, sans nier son importance, ni celle des connaissances procédurales.
Elle consiste à se préoccuper d‘aider les apprenants à devenir métacognitifs, si bien qu‘ils
puissent anticiper ou mieux cibler les informations desquelles construire du sens, à défaut
de quoi poser les questions de clarification appropriées.
La centration sur l‘évaluation rappelle deux principes clés de l‘évaluation, l‘un étant qu‘elle
doit fournir des occasions de rétroaction et de révision, l‘autre étant qu‘elle doit être
11
congruente avec les objectifs d‘apprentissage de chacun. Bransford et ses collègues écrivent
qu‘il est important de distinguer ses deux usages principaux : formatif et sommatif.
L‘évaluation sommative sert à mesurer le résultat des apprentissages réalisés après une
certaine séquence d‘apprentissage. Les évaluations de fins d‘unités ou d‘étapes, conçues
par les enseignants, de même que les évaluations nationales ministérielles en sont des
exemples phares. Concernant l‘évaluation formative, les auteurs soulignent que les études
sur l‘expertise adaptative, l‘apprentissage, le transfert et le développement initial montrent
que la rétroaction est extrêmement importante. En conséquence, les occasions de
rétroactions devraient être constantes, sans toutefois être intrusives, si bien que les
apprenants puissent les mettre à profit en cours d‘apprentissage. Dans l‘optique
d‘apprentissages axés sur la compréhension, la pensée des apprenants devrait être rendue
visible, notamment par des discussions. L‘auteur soutient que le travail collaboratif peut
accroitre la qualité des rétroactions fournies aux apprenants. Enfin, il ajoute que les
nouvelles technologies ont le potentiel d‘augmenter la qualité des rétroactions, en
permettant aux apprenants, aux enseignants et aux experts d‘interagir de manière synchrone
et asynchrone.
Trois métaphores : l’acquisition, la participation et la création de
connaissances
Sfard (1998) a proposé une dichotomie pour conceptualiser l‘apprentissage : la métaphore
d‘acquisition et la métaphore de participation. La première décrit les concepts comme étant
« des unités de base des connaissances pouvant être accumulés, graduellement raffinés, et
combinés pour former des structures cognitives plus riches », menant à « considérer la
pensée humaine comme une contenant pouvant être rempli de certains matériaux, et
l‘apprenant comme devenant un possesseur de ces matériaux » (p. 5). En ce sens,
l‘enseignement est centré sur la médiation et la transmission des concepts ou
connaissances.
La deuxième, la participation, s‘éloigne des esprits individuels pour focaliser sur les liens
évolutifs qui se construisent entre les individus. L‘apprentissage est conçu comme « le
processus par lequel on devient membre d‘une communauté » et renvoie au concept de
participation périphérique légitime (Lave & Wenger, 1991). L‘apprenant développe
progressivement « sa capacité à communiquer dans le langage d‘une communauté et à agir
12
selon les normes de celle-ci », ces normes étant « négociées dans le processus de
consolidation de la communauté ». Cette métaphore met l‘accent davantage sur le faire que
sur l‘avoir, à savoir les activités d‘apprentissage et les interactions entre les individus,
membres de communautés.
Sfard explique que, si l‘on enseigne traditionnellement surtout selon la métaphore
d‘acquisition, celle de la participation, nouvelle, n‘est pas proposée comme une panacée.
Elle propose ces métaphores comme des outils supplémentaires pour conceptualiser
l‘apprentissage, n‘étant pas mutuellement exclusives. Elle soutient qu‘il serait impossible
de « libérer le discours sur l‘apprentissage de l‘une ou l‘autre » de celles-ci.
En réaction à cette dichotomie acquisition-participation, Paavola, Lipponen et Hakkarainen
(2002) ont proposé une troisième métaphore se voulant complémentaire, celle de la création
de connaissances. Dans cette métaphore, l‘apprentissage est considéré analogue aux
processus d‘investigation, alors que quelque chose de nouveau est créé, où la connaissance
de départ des membres d‘une communauté d‘apprenants est substantiellement enrichie ou
transformée de façon significative à travers le processus. Elle se centre sur les « artéfacts
médiateurs » ou la médiation, en contraste avec le processus d‘échange (participation) et
l‘acquisition individuelle (acquisition). Ces artéfacts médiateurs renvoient à des pratiques et
des objets réels ou symboliques qui sont développés en collaboration durant un processus
de long terme (Fallery, 2004).
L’évaluation par compétences
Ces dernières années, le domaine de la mesure et de l‘évaluation a été à l‘avant-scène avec
le développement de l‘évaluation des apprentissages dans une approche par compétences,
ou en termes plus simples : l‘évaluation par compétences. Scallon (2004) souligne que
l‘évaluation par compétences a été retenue comme un élément de solution prometteur
permettant de contrer des taux d‘abandon scolaire inquiétants :
Ce regard critique jeté sur notre système éducatif et sur son efficacité met en
lumière un certain nombre de préoccupations qui justifient une réforme en
profondeur : les exigences du monde moderne, le peu de motivation à étudier ou à
apprendre et la difficulté des individus à utiliser leurs connaissances et leurs savoir-
faire. L‘une des solutions privilégiées dans plusieurs pays et dans plusieurs
établissements de formation consiste à refondre les programmes en adoptant une
approche par compétences. (p. 10)
13
Selon le Ministère de l‘Éducation du Québec (2004), une compétence est un « savoir-agir
résultant de la mobilisation et de l‘utilisation efficaces d‘un ensemble de ressources
internes ou externes dans des situations authentiques d‘apprentissage ou dans un contexte
professionnel ». L‘évaluation par compétence se centre donc sur l‘action. Elle vise, entre
autres, à évaluer la capacité à mobiliser des connaissances, en contraste avec une
vérification simple de leur possession, typiquement associée à l‘évaluation des
connaissances, à tort ou à raison. L‘approche par compétences n‘exclut donc pas cette
dernière. Au contraire, elle englobe l‘évaluation des connaissances — ressource interne —
au sens où pour en mobiliser, il faut à priori en avoir.
Au Québec, dans la foulée du renouveau pédagogique du début des années 2000, la refonte
des programmes de formation au primaire et secondaire s‘est accompagnée de l‘élaboration
de compétences disciplinaires et transversales. On allait désormais évaluer les
apprentissages à la fois en termes de compétences spécifiques à une discipline qu‘en termes
de compétences génériques, c‘est-à-dire transversales, dépassant les frontières des savoirs
disciplinaires. Les référentiels de compétences transversales ont varié légèrement entre le
primaire et le secondaire. Ils ont en commun « mettre en œuvre sa pensée créatrice » et
« coopérer » que nous assimilons respectivement aux compétences du 21e siècle
« créativité » et « collaborer ».
Depuis la mise en œuvre de ces programmes, les politiques ont été modifiées, distinguant
formellement l‘évaluation des connaissances et des compétences en deux segments.
Actuellement, les éléments de ces deux segments sont pondérés, puis combinés dans un
calcul mathématique produisant les résultats, une démarche semblant par ailleurs contraire
à la vision initiale de l‘évaluation par compétences. Plusieurs acteurs du milieu éducatif ont
réclamé ce changement, évoquant le manque de balises claires concernant l‘approche par
compétences. Cette évolution des pratiques évaluatives peut-elle s‘expliquer par un manque
de moyens déployés pour opérationnaliser cette approche? A-t-on manqué d‘imagination?
A-t-on suffisamment tenté de convaincre la population, les parents au premier chef, du
bienfondé de ce changement? Ou, au contraire, la politique initiale relevait-elle de l‘utopie?
Enfin, le nouveau modèle hybride représente-t-il un meilleur compromis théorie-pratique
au regard des avancées en sciences de l‘apprentissage?
14
À l‘échelle nationale et mondiale, l‘approche par compétences n‘a cessé d‘être mise de
l‘avant dans les recommandations et les politiques de plusieurs autorités et organismes
éducatifs, principalement en termes de compétences du 21e siècle. À ce titre, le collectif
C21 Canada a publié en 2012 une vision et une politique-cadre pour l‘enseignement public
au 21e siècle (C21 Canada, 2012). Ce document, ciblant sept compétences du 21
e siècle, a
été formellement endossé par l‘Association des commissions scolaires canadiennes. Aux
États-Unis, le Conseil national de la recherche a récemment recommandé que davantage de
recherche soit réalisée sur la relation entre les compétences du 21e siècle et le succès à la
vie adulte (National Research Council, 2012). Dans ce même rapport, on ajoute que l‘on
devrait soutenir la recherche pour définir plus clairement et développer des méthodologies
d‘évaluation de ces compétences. À l‘international, le Programme international pour le
suivi des acquis des élèves (PISA) de l‘OCDE, ayant pour objet de mesurer la performance
des systèmes éducatifs à l‘international, a annoncé3 que sa mouture de 2015 allait contenir
une nouvelle composante : l‘évaluation de la résolution collaborative de problèmes. Le
collectif ATC21S travaille d‘ailleurs actuellement au développement de méthodologies
d‘évaluation et prépare un rapport d‘experts au sujet de cette compétence.
La coélaboration de connaissances
La coélaboration de connaissances (knowledge building) (Bereiter & Scardamalia, 1993)
est une théorie décrivant ce qu‘une communauté d‘apprentissage doit réaliser pour
travailler de façon créative avec les idées, ou, dit autrement, pour créer des connaissances.
Elle met l‘accent sur le travail soutenu de création de connaissances ayant de la valeur pour
une communauté, soit au-delà des connaissances et de l‘amélioration des connaissances
individuelles. On parle alors d‘une communauté d‘élaboration de connaissances.
Par le truchement de leurs interactions, les membres d‘une telle communauté, entendre les
collaborateurs, améliorent sans cesse les idées du discours collectif. Il s‘agit donc d‘un
processus itératif, où les idées sont développées progressivement.
D‘ailleurs, précisons que le vocable « idée » utilisé dans cette étude se situe dans une
perspective socioculturelle et non pas à une conception ontologique platonicienne où les
3 Voir http://blogs.cisco.com/education/57226/ (consulté le 11 janvier 2013)
15
idées seraient immuables et universelles, à savoir indépendantes de l‘expérience humaine.
Au contraire, une idée est entendue ici tant comme une construction collective qu‘un outil
de médiation de l‘activité humaine.
À l‘ère du savoir, c‘est « la population en général, et non seulement une élite spécialisée,
qui doit travailler de façon créative avec les idées » (Scardamalia & Bereiter, 2003a). Bien
que sa portée dépasse le milieu scolaire, la coélaboration de connaissances vise à inspirer
une pédagogie qui prépare les jeunes au monde dans lequel l‘innovation et la création sont
omniprésentes. D‘ailleurs, deux décennies d‘expérience et de recherche avec les enfants
d‘un peu partout à travers le monde ont montré que le travail créatif soutenu avec les idées
est à la portée des élèves les plus jeunes et les moins préparés (Scardamalia & Bereiter,
2003b).
Travaillant autour de problèmes authentiques, la communauté d‘élaboration de
connaissances négocie ses objectifs. Puisque ces objectifs sont émergents, ils sont
susceptibles de dépasser, voire de transformer, les objectifs d‘apprentissage prévus dans les
curriculums. Cette dynamique peut donc entrer en friction avec la dynamique scolaire
conventionnelle, où les objectifs, les séquences et le rythme d‘apprentissage sont plutôt
fermes et orchestrés en amont. Par conséquent, « développer une capacité pour le travail
créatif soutenu avec les idées est un nouveau défi pour l‘éducation » (Scardamalia &
Bereiter, 2003b).
Le Knowledge Forum
Le Knowledge Forum (KF) est le premier environnement technologique ayant été conçu
pour soutenir la coélaboration de connaissances. Le collectif ATC21S (2012) l‘a d‘ailleurs
désigné comme un logiciel exemplaire et prometteur pour la conception d‘environnements
et de méthodologies d‘évaluation pour la coélaboration de connaissances. Dans celui-ci, les
collaborateurs peuvent créer des notes, des annotations, des illustrations et des perspectives,
avec lesquels ils élaborent leurs idées.
Une perspective est typiquement utilisée comme un espace désigné pour travailler sur un
problème. Dans sa version actuelle (4.8.1), on peut visualiser les notes de façon linéaire
dans le mode Par Arborescence, et de façon non linéaire par le mode Neuronal ou Léger, où
les notes sont présentées de façon analogue à un réseau de neurones. On peut voir un
16
aperçu du mode Léger à la Figure 5 (p. 62) et à la Figure 6 (p. 63) présentées au
chapitre 3.Figure 5
Le KF présente une affordance singulière : les échafaudages. Ceux-ci soutiennent la
dimension métacognitive de la démarche en permettant de marquer le discours, et du coup,
de préciser les intentions d‘écriture. Ils peuvent être, par exemple, « mettons notre savoir en
commun », « j‘ai besoin de comprendre » et « nouvelle information ».
De plus, à la différence des forums de discussions classiques, le KF permet d‘élaborer des
notes de type Élever le propos. Avec celles-ci, on peut rassembler des notes existantes pour
les combiner dans une nouvelle note visant à constituer une métaorganisation des idées.
Une note de ce type peut, à son tour, faire éventuellement partie d‘une note Élever le
propos, et ainsi de suite.
Le KF fournit et permet d‘ajouter des outils soutenant l‘évaluation concurrente, intégrée et
transformative du processus de coélaboration de connaissances. Ceux-ci permettent
d‘analyser la progression du discours par différentes mesures et visualisations, comme le
nombre de notes écrites, lues et élaborées, le nombre de mots, l‘usage d‘un lexique et le
réseau social, celui-ci basé sur les liens de lecture et d‘élaboration entre les contributions.
La plupart de ces outils sont destinés à être utilisés par tous les acteurs de la démarche. Ils
visent notamment à fournir des rétroactions pouvant être directement réinvesties dans le
processus.
L’analyse de l’apprentissage
Depuis quelques années, le champ de recherche de l‘analyse de l‘apprentissage (learning
analytics) est nouveau et particulièrement effervescent. Dans une revue de l‘historique de
l‘émergence de ce champ, on dit qu‘il existe plusieurs définitions, mais l‘auteure retient
celle choisie pour une première conférence internationale, LAK 2011 : « l‘analyse de
l‘apprentissage est la mesure, la collecte, l‘analyse et la présentation des données sur les
apprenants et leurs contextes, à des fins de compréhension et d‘optimisation de
l‘apprentissage et des environnements dans lesquels il se réalise » (Ferguson, 2012).
L‘auteure souligne qu‘au fil du temps, l‘analyse de l‘apprentissage se centre davantage sur
l‘éducation que sur la technologie. De fait, le défi premier est souvent de nature
technologique : il s‘agit de collecter et d‘explorer des données (data mining) provenant
17
d‘ensembles de plus en plus volumineux. Les outils informatiques s‘étant beaucoup
développés, les enjeux deviennent plus axés sur les finalités éducatives visées que la
faisabilité technologique.
Pour décrire la situation actuelle, l‘auteure cite le rapport NMC Horizon Report : 2011 K-12
Edition (Johnson, Adams, & Haywood, 2011) portant sur les technologies émergentes et
leur impact potentiel sur l‘apprentissage, l‘enseignement et l‘investigation créative
(creative inquiry). Celui-ci cible l‘analyse de l‘apprentissage et ses technologies associées
comme étant à surveiller. Ce rapport affirme également que la discipline pourrait être
particulièrement pertinente pour le primaire et le secondaire (K-12), alors qu‘elle a été
jusqu‘à maintenant surtout liée à l‘enseignement supérieur.
En outre, elle a davantage été orientée vers les enseignants et les administrateurs de
systèmes, mais aujourd‘hui, il semble pertinent que ses apports soient tout autant dirigés
vers l‘intérieur de la classe, directement aux apprenants. De fait, avec l‘utilisation
grandissante des nouvelles technologies en classe, le potentiel de cumulation et d‘analyse
des traces des élèves explose. Parallèlement, plus y a de traces, d‘indicateurs, de mesures,
plus on peut raffiner le suivi et informer le jugement de la progression des élèves.
L‘analyse des données des apprenants pourrait fournir des indices importants au sujet de
ceux qui sont en difficulté et qui auraient besoin d‘un soutien additionnel pour améliorer
leur succès et leur confiance dans le processus d‘apprentissage (Siemens & Long, 2011).
Le Knowledge Space Visualizer (KSV)
Comme son nom l‘indique, en anglais, le Knowledge Space Visualizer4 (KSV) (Teplovs &
Scardamalia, 2007; Teplovs, 2008, 2010) est outil logiciel de visualisation d‘espaces de
connaissances. Il est conçu pour appuyer l‘analyse visuelle des relations sémantiques et
sociales au sein d‘un espace de discours. Dans le contexte de la coélaboration de
connaissances, son usage vise à bonifier l‘évaluation formative en fournissant des données
plus sophistiquées aux utilisateurs et en leur fournissant davantage de pouvoir d‘action dans
la génération de visualisations d‘espaces de connaissances. Dans le KF, les notes sont
actuellement organisées selon leurs liens d‘élaboration, dits des liens explicites (explicit
semantic links) puisque les utilisateurs choisissent délibérément de créer ces liens. En mode
4 Christopher Teplovs a distribué son logiciel sous la licence libre GPL v3.
18
neuronal, leur position dans l‘espace à deux dimensions est déterminée par défaut par le
logiciel, mais les utilisateurs peuvent déplacer ces notes à souhait. Ce faisant, ils peuvent
créer une nouvelle organisation, où les notes demeurent connectées par leurs liens
explicites. Le KSV vise à bonifier la vue neuronale, en proposant d‘afficher des objets
supplémentaires de l‘espace de discours, comme les auteurs, les perspectives, les
échafaudages et des éléments de schémas de codification. Bref, il permet de représenter
graphiquement de façon inédite le contenu d‘une ou plusieurs perspectives du KF.
Une nouveauté saillante du KSV est la possibilité d‘afficher des liens sémantiques, dits des
liens implicites (implicit semantic links), entre différents objets, comme des notes ou des
auteurs. L‘intensité de ces liens est calculée selon une méthode d‘analyse sémantique,
présentée plus en détail dans la section « L‘analyse sémantique latente (LSA) » au
chapitre 2. Pour afficher ces liens, il faut s‘abord choisir un seuil d‘intensité sur une échelle
allant de 0 à 1. Les liens sémantiques ayant une intensité en deçà de ce seuil sont alors
ignorés par le KSV. On peut ainsi afficher, simultanément ou séparément, des liens
explicites et implicites, les uns représentés par des flèches bleues et les autres par des
flèches rouges, tel que l‘illustre la Figure 1. On y voit des notes, représentées par des carrés
bleus, ainsi que leurs liens explicites et implicites. Le seuil d‘intensité minimal des liens
sémantiques y est défini à 0,7.
19
Figure 1. Aperçu du Knowledge Space Visualizer (KSV).
La création du KSV s‘inscrit dans un modèle de systèmes plus large conceptualisant une
version plus évoluée du KF où l‘utilisation des visualisations pour l‘évaluation formative
des processus de coélaboration de connaissances est facilitée. Ce modèle comporte trois
couches : 1) l‘infrastructure, 2) le discours et 3) la visualisation. Le KSV se situe dans cette
troisième. Il veut permettre un plus grand pouvoir d‘action (agency) aux utilisateurs pour la
visualisation de leurs espaces de connaissances. Dans la version actuelle du KF, les notes
sont organisées dans des perspectives. Teplovs (2010) soutient que la création de
perspectives représente une activité cognitive importante en coélaboration de
connaissances; c‘est le moyen principal avec lequel les participants travaillent avec des
idées multiples. Bien que les perspectives soient construites de façon collaborative au fur et
à mesure que la compréhension des participants évolue, le KF actuel n‘offre pas la
possibilité de générer différentes vues de son contenu. Teplovs soutient que la création de
perspectives ou visualisations peut aussi être considérée comme une technique d‘évaluation
formative. C‘est pourquoi il propose un modèle visant à soutenir une plus grande
intentionnalité chez les utilisateurs dans la création de représentations de plus en plus
20
sophistiquées ou abstraites de leur travail, si bien qu‘ils soient davantage en mesure
d‘évaluer comment leur travail se situe par rapport à celui des autres et aux objectifs de leur
communauté. Le KSV marque un changement d‘une évaluation conduite à côté du KF
(typiquement par un plugiciel d‘analyse) vers une évaluation plus intégrée à l‘interface.
Lorsqu‘il présente les notes contenues dans une perspective du KF, le KSV peut les afficher
selon leur position originale, donc de façon très similaire à celle du mode neuronal. Une
innovation qu‘il propose est de réorganiser les différents objets selon une disposition
dirigée par forces (force-directed layout). Cet affichage se construit à partir de l‘existence
et de l‘intensité des liens entre les objets. Par exemple, on peut ainsi ignorer les liens
d‘élaboration (explicites) entre les notes pour n‘afficher que les liens sémantiques
implicites. En les réorganisant ensuite de cette façon, on obtient des amas de notes dont la
proximité visuelle se veut représentative de leur similarité sémantique. Dit autrement, on
peut positionner automatiquement les notes selon la proximité des idées qu‘elles
contiennent, en faisant abstraction de leurs liens d‘élaboration, comme illustré à la Figure
2.
Figure 2. Affichage de notes par similarité sémantique dans le KSV.
Le KSV permet aussi de colorer les notes en fonction de leur auteur (comme illustré à la
Figure 2) ou d‘un mot-clé recherché, et de moduler la taille des notes en fonction du
nombre de mots qu‘elles contiennent ou de leur longueur vectorielle (comme illustré à la
21
Figure 2). De plus, on peut zoomer et se déplacer parmi les éléments si bien que l‘on peut
autant visualiser le portrait global que focaliser sur un groupe d‘éléments pour étudier leurs
relations plus finement.
Cet outil a également été conçu dans un effort de mesure du chevauchement sémantique
d‘un discours avec celui d‘un curriculum scolaire ou d‘un discours d‘experts, voire de
sources d‘autorité. Dans ce cas, au lieu d‘analyser les notes entre elles, elles sont comparées
à un corpus externe. Cela aiderait à évaluer dans quelle mesure le discours des élèves
rejoint celui attendu par leur programme de formation ou celui d‘experts en la matière. En
outre, on peut visualiser non seulement la relation sémantique des notes, mais aussi de leurs
auteurs, et ce, à partir de l‘ensemble des notes qu‘ils ont écrites, pendant une période
donnée. Cela pourrait indiquer la relation de partage et d‘influence des idées de chacun
dans le discours collectif.
Questions de recherche
Par les données qu‘il collige et les interactions personne-communauté qu‘il supporte, nous
croyons que le Knowledge Forum est un environnement particulièrement propice au
développement et à l‘évaluation des compétences de créativité et de collaboration. Ces
compétences nous paraissent intimement liées au processus de coélaboration de
connaissances. Dans cette démarche, il nous semble périlleux de tenter de dissocier ces
deux compétences. Suivant cette logique, cette étude se propose de focaliser sur
l‘évaluation formative de la créativité et la collaboration, en les abordant de manière
conjuguée.
Nous avons cherché à poursuivre les travaux relatifs à la visualisation d‘espaces de
connaissances, du genre offert par le KSV, et à l‘utilisation d‘outils d‘analyse sémantique
associés, le tout à des fins d‘évaluation dans un contexte de coélaboration de connaissances.
Puisque les affordances (Gaver, 1991) du KSV n‘ont pas été étudiées, nous avons voulu en
faire un objet d‘étude, notamment pour explorer la pertinence d‘intégrer ses nouveautés à
une éventuelle version du KF ou à d‘autres environnements similaires. Concernant
l‘analyse sémantique, nous avons choisi d‘explorer ses possibilités quant au développement
de nouvelles mesures de la collaboration et de la créativité et d‘étudier comment ces
22
mesures pourraient être utilisées en situation réelle de classe. En conséquence, nos deux
principales questions de recherche s‘articulent comme suit :
1. Quelles affordances du KSV sont perceptibles par les enseignants et les élèves de classe
primaire ayant une expérience d‘utilisation du Knowledge Forum?
2. Quels seraient les usages potentiels en situation réelle de classe du KSV et d‘outils
dérivés pour l‘évaluation formative de la collaboration et de la créativité?
Pertinence sociale et scientifique de l’étude
Bien que le collectif ATC21S ait repéré la collaboration et la créativité comme des
compétences du 21e siècle faisant l‘objet d‘un consensus, il affirme que le travail de
conception de méthodologies d‘évaluation associées et supportées par les TI demeure un
problème vaste, voire entier. Cette étude vise à contribuer à ce besoin de développement de
tels dispositifs d‘évaluation. Dans une plus large mesure, elle vise aussi à contribuer à la
conception d‘un modèle éducatif systémique aux TI intégrées, et où la coélaboration de
connaissances pourrait avoir une plus large part de l‘agenda. De plus, en explorant de
nouvelles mesures et de nouveaux indicateurs de développement de compétences, cette
étude participe au développement de la discipline de l‘analyse de l‘apprentissage,
notamment dans son volet de données destinées aux apprenants.
En contexte québécois, ces différentes contributions signifient faire avancer le modèle
pédagogique au cœur de l‘initiative École en réseau, présentée au chapitre 2. Cette étude
vise également à l‘avancement des méthodologies d‘évaluation de la résolution
collaborative de problèmes, qui fera l‘objet de l‘enquête internationale PISA 2015, à
laquelle le Québec participera. En outre, les résultats permettront de contribuer à valoriser
le pouvoir transformatif et émancipatoire (Engeström & Middleton, 1998) des technologies
dans l‘apprentissage. Pour ces raisons, cette étude est pertinente autant des points de vue de
la recherche que de la pratique en éducation.
Limites de l’étude
Comme nous le verrons plus en détail dans le chapitre suivant, les données recueillies et
utilisées dans cette étude ont deux volets, l‘un étant des échanges en face à face avec des
enseignants et des élèves ayant une expérience d‘utilisation du KF et l‘autre, les bases de
connaissances du KF de 2006 à 2012 de l‘École en réseau.
23
Concernant ce dernier volet, nous avons mené des analyses sémantiques sur celles-ci en ne
considérant d‘autre matériau que ce qui est enregistré comme information, dont notamment
le contenu des notes, leurs auteurs et les perspectives auxquelles elles sont associées. Nous
n‘avons donc pas eu accès ou considéré des données supplémentaires ou ne laissant
pratiquement aucune trace dans le KF, comme le temps consacré à l‘élaboration des notes,
le niveau scolaire des élèves, la nature du travail et tout autre échange ayant pu avoir lieu
autour du travail dans le KF.
De fait, les classes de l‘ÉER ont souvent des discussions de vive voix en grande classe et en
équipe d‘élèves autour des connaissances élaborées dans le KF. En conséquence, les idées
proposées dans le KF ne viennent parfois pas d‘un seul élève, ni même directement de lui,
alors qu‘il en est reconnu le seul auteur dans le KF. De plus, le temps et la nature du travail
dans le KF peuvent largement varier entre les élèves d‘une même classe. Il y a par exemple
plusieurs classes multiâges dans lesquelles certains élèves vont collaborer davantage avec
des collègues provenant d‘une autre classe, alors que d‘autres vont concentrer leur
collaboration avec des collègues du même groupe qu‘eux.
Aussi, la nature du travail dans le KF peut varier largement, les perspectives pouvant
contenir des échanges autour de disciplines variées comme la science et technologie,
l‘univers social, la mathématique, le français, l‘anglais langue seconde, etc. En ce sens, des
données supplémentaires caractérisant ces derniers aspects auraient pu permettre de
relativiser, puis de raffiner, nos résultats liés aux contributions individuelles et collectives.
De plus, les analyses sémantiques réalisées l‘ont été en mode autoréférencié et non en
utilisant des corpus de référence externe comme il est l‘habitude de faire dans ce domaine.
De surcroit, il y a des limites inhérentes à la méthode d‘analyse sémantique utilisée que
nous aborderons plus en détail au chapitre suivant.
25
Chapitre 2 — Méthodologie d’intervention et de
recherche
Comme présenté au chapitre précédent, notre étude s‘inscrit dans la suite des travaux de
Teplovs (2010) relatifs au Knowledge Space Visualizer. Ce chapitre présente les aspects
méthodologiques de l‘étude. Nous présenterons d‘abord le design participatif, soit la
méthodologie de recherche choisie pour guider l‘ensemble de notre démarche. Nous
présenterons ensuite le contexte élargi et les participants, d‘où ils proviennent et avec qui
nous avons produit nos résultats. Une démarche de développement technologique sera aussi
décrite, de même qu‘un objectif de recherche ayant émergé de celle-ci. Enfin, nous verrons
à quoi tiennent la collecte et les procédures d‘analyse de données réalisées.
Le design participatif
Éléments conceptuels
Le design participatif (Silva & Breuleux, 1994) a comme objectif l‘inclusion des acteurs ou
utilisateurs dans le développement d‘une nouvelle technologie. Silva & Breuleux (1994)
expliquent que le design participatif est né du constat que le design de systèmes traditionnel
était incapable de réaliser efficacement l‘implantation de nouvelles technologies dans les
milieux de travail et les usines. Visant à y remédier, le design participatif place les besoins
des utilisateurs au cœur des préoccupations, au même titre que les autres besoins de
l‘organisation; c‘est un design axé sur l‘utilisateur. Les auteurs citent Greenbaum (1993)
qui a observé que, depuis une trentaine d‘années, les articles de journaux portant sur la
gestion et les systèmes étaient truffés de mentions déplorant le fait que plusieurs systèmes
ne fonctionnent pas ou ne réussissent pas à répondre aux attentes des gestionnaires ou des
utilisateurs.
S‘intéressant au milieu de l‘éducation, Silva & Breuleux présentent cinq raisons de
considérer le design participatif pour le développement d‘une technologie dans ce milieu
(traduction inspirée de celle de Deschênes (2006)) :
1. L‘introduction d‘une nouvelle technologie dans une salle de classe est difficile,
particulièrement à la lumière des expériences passées;
2. Comme plusieurs nouveaux projets dépendent des activités d‘apprentissage
collaboratives, la décision du professeur de combiner les tâches à l‘utilisation
26
d‘Internet requiert une approche qui maximise la participation et la coopération des
élèves;
3. Une approche de design participatif a le potentiel de créer des occasions pour le
chercheur de comprendre et de partager les préoccupations et les perspectives des
participants;
4. Le design participatif est adapté au courant actuel en éducation où l‘attention est
portée sur l‘apprenant et l‘enseignant;
5. La participation à un projet par des intervenants connaissant peu le réseau (Internet)
leur permet de mieux comprendre les enjeux de sécurité y étant associés et s‘assurer
de leur coopération.
Comme le rappelle le troisième élément, le design participatif a une affinité avec les
méthodologies de recherche mettant l‘accent sur l‘interaction entre les chercheurs et les
participants.
Dans son étude du design participatif associé au champ de la communication technique,
Spinuzzi (2005) affirme que les termes « design participatif » (participatory design) et
« conception centrée sur l‘utilisateur » (user-centered design) y sont largement utilisés pour
définir des méthodes et que cette diversité d‘applications est souvent venue au prix de
l‘imprécision. Il conclut ainsi qu‘il est difficile de trouver une bonne explication
méthodologique du design participatif, tout en précisant que ce n‘est pas seulement un
problème pour la communication technique; le design participatif est souvent discuté dans
les domaines de l‘interaction humain-ordinateur, dans le travail coopératif assisté par
l‘ordinateur et il est aussi considéré comme une orientation de recherche ou encore comme
un champ plutôt qu‘une méthodologie de recherche. Spinuzzi (2005) soutient toutefois qu‘à
la lumière des précédents établis, le design participatif peut bel et bien être défini comme
une méthodologie de recherche, bien que cette méthodologie soit souple.
En outre, il y a eu une évolution de la terminologie; « participatory design » a évolué vers
« participatory research » et « design-based research » (expérimentation de devis). Ces
deux dernières méthodologies ayant typiquement une portée plus large, c‘est pourquoi nous
considérons nous inscrire plus directement dans la première puisque nous nous intéressons
spécifiquement au développement d‘une famille de technologies. Toutefois, notre projet
s‘est réalisé à l‘intérieur d‘un contexte plus large, celui de l‘initiative l‘École en réseau, qui
est une expérimentation de devis (Breuleux, Erickson, Laferrière, & Lamon, 2002). Voyons
plus en détail de quoi il s‘agit.
27
Le contexte élargi : l’École en réseau
Notre étude a été menée en collaboration avec des enseignants et des élèves participant à
l‘École éloignée en réseau, ayant été renommée l‘École en réseau (ÉER) à l‘automne 2012.
L‘ÉER est une initiative québécoise lancée en 2002 par le CEFRIO, un centre facilitant, à
l‘aide des TIC, la recherche et l‘innovation dans les organisations. Le CEFRIO a alors fait
appel à différentes universités québécoises pour mettre en place un dispositif de recherche-
intervention visant à trouver des solutions nouvelles aux défis posés par les changements
démographiques et les nouveaux programmes de formation aux niveaux primaire et
secondaire, dont le déploiement a commencé au Québec en 1999. On cherchait alors ainsi à
« enrichir l‘environnement d‘apprentissage d‘élèves de petites écoles rurales du Québec
afin de faire en sorte que ce ne soit pas une question de qualité d‘éducation qui entraine leur
fermeture » (Laferrière, Allaire, et al., soumis).
Le modèle ÉER s‘est développé depuis 2002 par un partenariat entre des commissions
scolaires, des universités, le CEFRIO et le MELS. Il a évolué comme un sous-système à
l‘intérieur du système éducatif québécois. Le dispositif de recherche-intervention ainsi
déployé s‘est opérationnalisé selon une approche d‘expérimentation de devis (design-based
research) (Breuleux et al., 2002; Hawkins & Collins, 1992). Dans le troisième rapport de
recherche de l‘ÉÉR (Laferrière et al., 2008), on la décrit comme une méthodologie « qui
débute par la conception (design) du meilleur modèle apparaissant réalisable. Les acteurs
l‘implantent en cherchant à l‘améliorer, d‘itération en itération, par une intervention
informée par les résultats des cycles d‘analyses précédents ». Cette intervention se réalise à
la fois par les membres de l‘équipe de recherche-intervention (ÉRI) et les acteurs
locaux, ceux-ci étant bien entendu les élèves et les enseignants, mais également les
conseillers pédagogiques, les animateurs RÉCIT, les services informatiques, les directions
d‘établissement et les porteurs de dossiers à la commission scolaire. Pour l‘année scolaire
2011-2012, ce sont 21 commissions scolaires et près d‘une centaine d‘écoles qui sont
engagées dans l‘ÉER. Ce nombre de commissions scolaires représente environ le tiers de
toutes celles du territoire québécois. Les classes participantes proviennent des niveaux
primaire et secondaire, celles du primaire étant beaucoup plus nombreuses.
Les solutions déployées par le modèle ÉER consistent en des outils de télécollaboration
permettant aux acteurs de s‘affranchir des murs physiques et de leur position géographique.
28
Du coup, ceux-ci offrent de nouveaux possibles relatifs en ce qui a trait à l‘enseignement et
à l‘apprentissage. Les outils de base au centre du modèle ÉER sont un forum électronique,
le Knowledge Forum, et un système de visioconférence. Ils sont utilisés directement en
classe; il n‘y a pas de rupture occasionnée par un déplacement du lieu d‘enseignement et
d‘apprentissage habituel à un local – ou laboratoire – d‘informatique. Des classes pour qui
il était pratiquement impossible de collaborer auparavant peuvent désormais le faire grâce à
ces outils, que ce soit des classes de la même école, de la même commission scolaire ou de
commissions scolaires différentes. Cette collaboration s‘est même étendue progressivement
à l‘international. Depuis 2007, les classes de l‘ÉER sont invitées à participer au Knowledge
Building International Project (KBIP), coordonné par le réseau de chercheurs et
d‘étudiants gradués, où elles peuvent collaborer de façon plus ou moins étroite avec des
classes du Canada et d‘autres pays comme le Burkina Faso, la Chine (Hong Kong), la
Colombie, l‘Espagne (Catalogne), les États-Unis et le Mexique (Laferrière, Perreault, et al.,
2011).
Dans le modèle ÉER, la classe est conçue comme une communauté d‘apprentissage, se
définissant comme étant « un groupe d‘élèves et au moins un éducateur ou une éducatrice
qui, durant un certain temps et animés par une vision et une volonté communes,
poursuivent la maitrise de connaissances, d‘habiletés ou d‘attitudes » (Grégoire &
Laferrière, 1998). Les classes réseautées collaborent pour investiguer des phénomènes et
réaliser des tâches. Les outils de base leur permettent de travailler de façon synchrone et
asynchrone, offrant de nouvelles possibilités de différenciation pédagogique, par exemple
lorsque des élèves du même âge ou ayant des objectifs d‘apprentissage communs travaillent
ensemble alors qu‘ils proviennent de classes différentes, souvent des classes multiâges. Ces
communautés d‘apprentissage se transforment régulièrement en communautés
d‘élaboration de connaissances (CoÉco) lorsqu‘elles s‘engagent dans le partage, la
proposition et la production d‘idées et de connaissances pour faire avancer leur
communauté. Elles font ainsi avancer les idées relatives à la compréhension de problèmes
authentiques qu‘elles ont ciblés. C‘est alors le Knowledge Forum qui est tout désigné pour
soutenir cette activité.
29
Le contexte spécifique : les participants
L‘étudiant-chercheur s‘est engagé dans un dialogue avec des enseignants de l‘ÉER dès le
début de son programme de maitrise à l‘automne 2009, dans une logique de cosituation
d‘un objet de recherche (Desgagné, 2001). Cette démarche et cet accès à ces praticiens ont
été facilités par le fait qu‘il était membre de l‘équipe de recherche-intervention l‘ÉER, plus
spécifiquement au sein du « collaboratoire » TACT rattaché à la Faculté des sciences de
l‘éducation de l‘Université Laval. Cela l‘a amené à avoir des échanges réguliers avec
différents praticiens, notamment dans le cadre d‘une veille dans une salle virtuelle d‘un
système de visioconférence où différents acteurs de l‘ÉER, principalement des enseignants,
viennent chercher du soutien ou de l‘accompagnement pédagogique et technologique. Au
départ, l‘étudiant-chercheur s‘intéressait de façon générale à l‘évaluation en lien avec la
pédagogie de la coélaboration de connaissances. Au fil du temps, nous avons spécifié notre
étude autour de l‘évaluation des compétences du 21e siècle, en focalisant sur les
compétences de collaboration et de créativité.
À l‘hiver 2011, une collaboration plus étroite a pris forme avec trois enseignants
expérimentés de l‘ÉER pour la réalisation de cette étude; chacun possédant plusieurs
années d‘expérience dans la pratique de la coélaboration de connaissances et dans l‘usage
du Knowledge Forum avec leurs élèves. Voici un tableau présentant sommairement ces
trois enseignants5 :
Tableau 2. Caractéristiques des enseignants et des classes participants
Enseignant Niveaux scolaires (primaire) Nombre d’élèves
A 4, 5 20
B 3, 4, 5, 6 9
C 5, 6 17
Ils sont devenus ainsi formellement les trois enseignants qui allaient participer à cette
étude. Au début de cette nouvelle phase, l‘étudiant-chercheur leur a présenté à tour de rôle
son projet de recherche en discutant des technologies qu‘il avait ciblées pour la présente
étude, à la lumière des besoins identifiés pour la pratique et pour la recherche et de ses
5 Ces renseignements ne sont pas nominatifs, car cette étude s‘inscrit dans la recherche de
l‘ÉÉR et celle-ci s‘engage à garder les résultats anonymes.
30
intérêts de recherche. L‘étudiant-chercheur leur a notamment présenté le KSV et son
contexte de développement, en référant de manière vulgarisée aux travaux de Teplovs
(2010). À cette étape, ces technologies n‘étaient toutefois pas encore développées et
adaptées à leur contexte, ou de façon plus large au contexte de l‘ÉER. Les trois enseignants
ont alors convenu avec l‘étudiant-chercheur que la prochaine étape majeure à franchir était
de faire fonctionner le KSV et l‘outil d‘analyse sémantique avec des données du KF issues
du travail de leurs classes respectives depuis le début de l‘année. Cela allait leur permettre
de mieux se représenter le fonctionnement de ces technologies de façon à être en mesure de
se positionner sur leurs usages possibles et sur les possibilités d‘éventuels entretiens et
mises à l‘essai avec leurs élèves. L‘étudiant-chercheur a tenu compte des commentaires et
des suggestions formulés par ces enseignants lors de cette vague de rencontres pour
informer cette première étape majeure de développement, de même que les prochaines
pistes d‘intervention avec les enseignants et leurs élèves.
Cette section visait à présenter la méthodologie de recherche dans laquelle cette étude
s‘inscrit – le design participatif – et à présenter la dynamique avec laquelle ce projet a pris
forme. Les prochaines sections présenteront plus en détail la suite de la démarche de cette
étude. Voyons maintenant comment s‘articulent les définitions opérationnelles de la
collaboration et de la créativité informant notre recherche.
Définitions opérationnelles
Dans un contexte de coélaboration de connaissances, la collaboration et la créativité se
traduisent en un avancement du discours collectif (Bereiter, 1994). Au départ, la
collaboration s‘installe typiquement autour de questionnements authentiques pour la
communauté, soit des questions ou problèmes sur lesquels elle convient de se pencher. Les
individus formant cette communauté proposent et améliorent alors progressivement des
idées jusqu‘à ce qu‘une compréhension ou une réponse satisfaisante aux questionnements
initiaux soit négociée et formulée. Dans un environnement de coélaboration de
connaissances comme le KF, ce processus se concrétise notamment par l‘écriture de
contributions (entendre aussi notes) dans lesquelles les idées sont formulées.
Lorsqu‘ils contribuent à l‘avancement du discours collectif, notamment par la soumission
de questionnements, le partage de leur opinion, d‘un fait ou d‘une explication, le partage de
31
documents de référence ou l‘encouragement de leurs collègues, les individus exercent et
font preuve de collaboration. Lorsqu‘ils proposent de nouvelles idées ou contribuent à faire
des liens entre différentes idées existantes, les collaborateurs exercent et font preuve non
seulement de collaboration, mais aussi de créativité. En ce sens, nous définissons une idée
comme un mot ou un ensemble de mots dont le sens est susceptible d‘enrichir le discours
collectif.
L‘analyse du discours collectif, sous l‘angle des idées contenues dans les notes et du
partage de ces idées entre collaborateurs, peut fournir des indicateurs de collaboration et de
créativité. Dans le cadre de cette étude, ces indicateurs prennent la forme de différentes
mesures obtenues par des analyses sémantiques, comme le volume d‘idées partagées et la
similarité sémantique des notes. Ce volume d‘idées ou de connaissances partagées (shared
knowledge content) (Kintsch, 2001) d‘une note, que nous appelons également son volume
sémantique, correspond à son degré de couverture des thèmes constituant le corpus de notes
auquel elle appartient. La similarité sémantique des notes correspond à un degré de
similarité entre les thèmes traités dans leur contenu.
En connaissant les auteurs des notes et leur groupe, on peut alors se servir de ces mesures
pour en dériver d‘autres à l‘échelle individuelle et collective, comme le volume sémantique
d‘un individu ou d‘un groupe, de même que le volume sémantique d‘une perspective du
KF.
Design d’outils sémantiques
Pour injecter des données de l‘ÉER dans le KSV, nous avons entrepris une démarche de
développement technologique. Ce traitement des données du KF de l‘ÉER allait du coup
ouvrir la voie à un développement d‘outils dérivés. Cette démarche technologique sera
présentée un peu plus loin dans cette section. Voyons maintenant à quoi tiennent le concept
de l‘analyse sémantique et ses concepts associés, étant au cœur des nouveautés du KSV et
des développements réalisés dans cette étude.
L’analyse sémantique
« Si, en linguistique, la sémantique porte sur l‘étude du sens à partir de la combinaison des
mots, en intelligence artificielle, elle porte sur la capacité d‘un réseau à représenter de la
32
manière la plus humaine possible des relations entre des objets, des idées ou des
situations. » (Office québécois de la langue française [OQLF]). Quant à l‘analyse
sémantique, l‘OQLF la définit de la façon suivante : « partie de l‘analyse syntaxique dans
laquelle l‘ordinateur tente de déterminer le sens d‘une phrase à partir d‘un ensemble de
règles. » Dans l‘usage, l‘analyse sémantique a toutefois une portée un peu plus large, c‘est-
à-dire allant au-delà de l‘échelle de la phrase, mais plutôt à l‘échelle des documents. La
présente étude en propose donc une définition visant à en rendre compte et à laquelle elle
puisera, à savoir un ensemble de méthodes automatisées tentant de déterminer le sens de
documents écrits en langage naturel. Elles évaluent les thèmes contenus dans les
documents, permettant du coup d‘évaluer la diversité des thèmes et la similarité de ces
documents. Ces méthodes automatisées sont des procédés de traitement du langage naturel
(ex. anglais, cantonais, catalan, français) s‘inscrivant dans l‘ingénierie linguistique, une
discipline puisant à l‘informatique, à l‘intelligence artificielle, à la linguistique et à la
mathématique. Pour mieux l‘introduire, nous nous proposons de faire un parallèle avec la
notion de sémantique de plus en plus populaire dans l‘évolution du Web.
Nous sommes actuellement à une ère technologique généralement désignée par l‘expression
« Web 2.0 ». Il s‘agit typiquement d‘une façon de décrire un Web où les applications Web
permettent facilement aux utilisateurs de collaborer, de produire et de partager de
l‘information, en contraste avec la première génération qui exigeait des compétences
techniques pour produire du contenu sur le Web. On entend maintenant de plus en plus
parler ces dernières années du « Web 3.0 » ou encore du « Web 4.0 ». Il n‘y a pas de
véritable consensus sur la définition de ces expressions, mais le synonyme le plus répandu
de Web 3.0 est le « Web sémantique ». Quant à lui, le Web 4.0 serait le Web des objets,
c‘est-à-dire un système de systèmes reliant l‘univers physique à l‘univers numérique.
Nous présentons ce portrait sommaire pour nous attarder au Web sémantique. Bien qu‘il
soit souvent désigné comme étant toujours à venir, il est en fait très avancé sur le plan
technique et il est déjà en application. Son déploiement est amorcé, mais ses retombées
n‘étant par contre pas encore évidentes ou répandues pour l‘utilisateur moyen, cela pourrait
expliquer le fait que l‘on ne considère pas être encore à cette ère, ou cette « version du
Web ». Le Web sémantique est un ensemble de technologies visant à rendre le contenu des
ressources du Web accessibles et utilisables par les programmes et agents logiciels, grâce à
33
un système de métadonnées formelles. Il utilise surtout la famille de langages développés
par le World Wide Web Consortium (W3C), le consortium chargé de promouvoir la
compatibilité des technologies du Web. Ces nouveaux protocoles de communication et
langages standards permettent le développement de nouveaux usages qui concrétisent la
notion d‘intelligence collective. En bref, il s‘agit d‘associer des métadonnées aux objets (p.
ex. textes, images, vidéos) contenus dans des ressources du Web pour les organiser et ainsi
construire du sens, voire des relations entre ceux-ci, par exemple à des fins de classification
ou d‘organisation hiérarchique. Ces métadonnées peuvent ensuite être interprétées ou
« comprises » et révélées par différents agents logiciels comme des moteurs de recherche.
Dans cette approche, ce sont les informations formalisées, à savoir les métadonnées, qui
sont traitées automatiquement et non le langage naturel contenu dans ces ressources. Ces
métadonnées peuvent être normalisées, selon si elles appartiennent à un schéma ou non, un
schéma étant une « structure de données permettant de décrire les connaissances relatives à
une entité, sous forme d‘un ensemble d‘attributs et de procédures liées à ces attributs »
(OQLF). Un exemple d‘une application rudimentaire serait un lien sémantique établi par un
moteur de recherche entre cinq documents – ou des parties de ceux-ci – marqués comme
traitant de « la fin du pétrole » par leurs auteurs, mais n‘ayant originalement aucun lien
explicite (ex. hyperlien) entre eux. Dans ce cas, ce moteur pourrait quand même établir des
associations si ces documents partagent des mots communs sans avoir métadonnées, à
savoir en traitant seulement leur texte en langage naturel. Toutefois, si ces documents sont
rédigés en différentes langues, la présence de métadonnées – appartenant à un même
schéma ou à des schémas compatibles – peut jouer un rôle crucial dans l‘association de ces
différentes ressources. Par exemple, pensons à deux images de la Lune présentes dans deux
pages distinctes. Si ces images possèdent une métadonnée informant qu‘elles représentent
la Lune, un programme peut alors les « comprendre » et les associer.
Les moteurs de recherche modernes utilisent sans doute à la fois le langage naturel et le
langage formel des différentes ressources pour les indexer et les organiser. Pour les
utilisateurs, ces applications promettent d‘améliorer la recherche et le partage
d‘informations, facilitant du coup la collaboration et la coconstruction de connaissances.
D‘ailleurs, les applications du Web sémantique se développent particulièrement rapidement
chez les plateformes de types wiki et blogue. Ce tour d‘horizon de la notion de sémantique
34
dans l‘univers technologique permettra, nous l‘espérons, de mieux situer le concept de
l‘analyse sémantique central aux technologies que nous avons développées et étudiées.
Rappelons qu‘en contraste avec le langage formel utilisé par le Web sémantique, les
méthodes d‘analyse sémantique utilisées dans cette étude tentent de déterminer le sens du
langage naturel contenu dans différents documents.
Lorsqu‘est venu le temps de choisir une ou plusieurs de ces méthodes, nous nous sommes
alignés sur les travaux doctoraux de Teplovs (2010) en visant à les étendre à notre contexte.
Sa thèse de doctorat en traite deux : l‘analyse sémantique latente (LSA, de l‘anglais latent
semantic analysis) (Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990; T. K.
Landauer & Dumais, 1997) et l‘allocation de Dirichlet latente (LDA, de l‘anglais latent
Dirichlet allocation) (Griffiths, Steyvers, & Tenenbaum, 2007). L‘une, la LSA, y est
centrale, alors que l‘autre, la LDA, y est explorée en conclusion comme une piste
prometteuse pour la suite de la recherche puisqu‘elle lève des limites de la LSA.
Pour évaluer la faisabilité de leur usage et de l‘utilisation du KSV dans le cadre de la
présente étude, l‘étudiant-chercheur s‘est familiarisé avec leurs aspects technologiques tout
en entreprenant un dialogue avec Christopher Teplovs. Ses échanges avec ce dernier lui ont
permis de déterminer une piste de travail viable, consistant en l‘utilisation d‘un récent
logiciel libre implémentant différentes méthodes d‘analyse sémantique, dont notamment
l‘analyse sémantique latente.
L’analyse sémantique latente (LSA)
L‘analyse sémantique latente (LSA) est une théorie et une méthode pour extraire et
représenter la signification des mots selon leur contexte d‘utilisation. L‘idée sous-jacente
est que l‘accumulation de contextes où des mots apparaissent ou n‘apparaissent pas dans un
corpus donné fournit un ensemble de contraintes qui déterminent largement la similarité du
sens de ces mots et de groupes de ces mots. La LSA a été créée au début des années 1990
pour améliorer l‘indexation et la recherche d‘informations (Deerwester et al., 1990). Elle
visait à surmonter un problème fondamental dans ce domaine : la correspondance entre les
mots contenus dans les requêtes de recherche et les mots contenus dans les documents
indexés. D‘ailleurs, on la retrouve également parfois sous le nom d‘indexation sémantique
latente (LSI, de l‘anglais latent semantic indexing) dans le contexte de son application dans
35
la recherche d‘information. Comme ses auteurs l‘indiquent, les utilisateurs recherchent des
documents sur la base de leur contenu conceptuel, mais les mots individuels ne représentent
pas de façon fiable à eux seuls ce contenu conceptuel ou la signification d‘un document
(Deerwester et al., 1990). Qui plus est, il y a généralement plusieurs façons d‘exprimer un
concept, alors donc les termes d‘une requête peuvent ne pas se retrouver parmi ceux
contenus dans un document pourtant pertinent. Ajoutons aussi les problèmes ou défis liés à
la synonymie et à la polysémie, l‘une désignant le fait que plusieurs mots peuvent avoir un
sens semblable ou identique, l‘autre qu‘un même mot peut avoir plusieurs significations.
L‘approche proposée par la LSA tente de surmonter les déficiences de la recherche par
correspondance des termes en traitant le manque de fiabilité des données d‘association
terme-document comme un problème statistique. Elle suppose qu‘il existe une certaine
structure sémantique latente sous-jacente dans les données indexées, cette structure étant
partiellement embrouillée par le caractère aléatoire du choix des mots lors de la recherche.
Elle utilise alors des méthodes algébriques pour estimer cette structure latente et réduire cet
embrouillement. Pour ce faire, la méthode LSA consiste d‘abord à construire une matrice
décrivant l‘association entre les termes et les documents d‘un corpus donné. À cette étape,
ce sont typiquement des corpus très volumineux qui sont indexés, afin que la méthode
« apprenne » (training) le plus possible. Il s‘agit donc d‘une matrice lexicale (ou matrice
terme-document ou matrice des fréquences) à partir de laquelle la méthode construit un
espace de concepts. Les colonnes de cette matrice correspondent aux documents du corpus
analysés alors que les lignes correspondent aux termes uniques contenus dans ce corpus. À
noter que le document est un contexte arbitraire; il peut être un document à proprement
parler, un passage de texte, un paragraphe, une phrase, etc. Les valeurs de chaque couple de
cette matrice lexicale sont le nombre d‘occurrences de chaque terme dans chaque document
et elles sont ensuite habituellement normalisées suivant la méthode TF-IDF (de l‘anglais
Term Frequency-Inverse Document Frequency), pondérant chacune de ses valeurs selon la
fréquence du terme dans le document (pondération locale) et dans l‘ensemble des
documents du corpus analysé (pondération globale), cette dernière valeur étant sur une
échelle logarithmique. Cette pondération tente d‘imiter le processus de compréhension du
langage humain. Elle permet notamment, et d‘abord, d‘élaguer les mots non significatifs
(ex. à, de ou, et) puisqu‘ils sont généralement présents de façon constante dans l‘ensemble
36
des documents. Nonobstant, elle ignore l‘ordre et la position des mots, faisant fi notamment
des marqueurs de relation, servant à établir les relations logiques entre les idées.
Les relations sémantiques entre les mots sont ensuite dérivées de la matrice lexicale en
décomposant cette dernière en valeurs singulières tout en comprimant l‘information en
sélectionnant les k valeurs orthogonales les plus importantes; la nouvelle matrice
recomposée contient une fraction de l‘information de la matrice lexicale initiale tout en
préservant la structure de similarité entre les lignes. Les mots caractérisant les documents y
sont remplacés par des combinaisons linéaires, ces combinaisons formant désormais k
dimensions d‘un espace sémantique. Ces dimensions représentent des composantes de
signification commune extraites de plusieurs mots et documents différents (Deerwester et
al., 1990, p. 395). Elles sont dites « non interprétables », pouvant « toutefois être vues
comme analogues aux traits sémantiques fréquemment postulés pour décrire le sens des
mots » (Landauer & Dumais, 1997 cité dans Bestgen, 2004) . Dans les écrits scientifiques,
elles sont nommées de différentes façons : « concepts artificiels » (artificial concepts),
« concepts » (concepts) (Deerwester et al., 1990; Gong & Liu, 2001), « dimensions
sémantiques » (Bestgen, 2004) ou encore à la fois des thèmes et des concepts
(topic/concept) (Gong & Liu, 2001). Les auteurs sont prudents sur leur appellation, utilisant
souvent les guillemets lorsqu‘ils n‘utilisent pas le terme « dimension ». Dans cette étude,
nous y réfèrerons soit en utilisant les termes « dimension », « dimension sémantique » ou
« thème ». Nous préférons « thème » à « concept », d‘une part puisque nous estimons que
son usage est plus prudent et englobant, d‘autre part puisque c‘est ce terme qui a été adopté
par Gensim (Řehůřek & Sojka, 2010), une bibliothèque logicielle utilisée dans cette étude
(présentée plus loin).
L‘espace vectoriel ainsi construit s‘appelle espace conceptuel (conceptual space)
(Deerwester et al., 1990) ou espace sémantique (Bestgen, 2004) (semantic space) (T. K.
Landauer & Dumais, 1997; Lund & Burgess, 1996; Mehler, Köhler, & Leopold, 2007). Le
sens de chaque mot y est représenté par un vecteur (à k dimensions). On peut alors mesurer
la proximité sémantique entre des mots en calculant le cosinus de l‘angle entre les vecteurs
(ou le produit scalaire des vecteurs) représentant ces mots. C‘est la similarité cosinus. On
peut faire le même calcul pour des groupes de mots (comme des phrases) et des documents,
pourvu que les mots qui les constituent fassent partie du corpus initial, mais il n‘est pas
37
nécessaire qu‘ils forment une séquence présente dans le corpus de départ. Puisqu‘il s‘agit
d‘un cosinus, les valeurs possibles s‘étendent de -1 à 1, -1 représentant un sens très
différent, voire aucune relation, et 1 un sens très similaire, voire identique.
L’analyse sémantique latente probabiliste (PLSA) et l’allocation de Dirichlet latente
(LDA)
L‘analyse sémantique latente probabiliste (PLSA, de l‘anglais Probabilistic latent semantic
analysis) découle directement de la LSA. Sa différence principale est qu‘elle s‘appuie sur
des méthodes statistiques plutôt que sur l‘algèbre linéaire pour élaguer les informations
moins importantes et ainsi faire émerger une structure sémantique latente. Plus
spécifiquement, la LSA décompose la matrice des cooccurrences en valeurs singulières
alors que la PLSA utilise une combinaison de décompositions découlant de l‘analyse des
classes latentes. On dit la PLSA plus souple. L‘allocation de Dirichlet latente (LDA) est
souvent vue comme une réponse à la PLSA. Celles-ci sont similaires puisqu‘elles
modélisent toutes deux chaque document comme un mélange — au sens statistique (c.-à-d.
une densité mélange) — de plusieurs thèmes. Elles sont des modèles thématiques (topic
model).
La LDA modélise les documents selon deux distributions : une distribution de thèmes par
document et une distribution de mots par thème. Autrement dit, elle pose que chaque
document est un mélange d‘un petit nombre de thèmes et que la création de chaque mot est
liée à l‘un des thèmes dudit document. La différence principale entre la PLSA et la LDA est
que chez cette dernière, la distribution de thèmes suppose une probabilité a priori de
Dirichlet. En pratique, cela permet d‘obtenir des mélanges de thèmes représentant chacun
des documents dits plus raisonnables. La recherche indique que le modèle thématique de la
LDA fournit de meilleures performances en termes de mesures quantitatives d‘associations
entre les mots que les mesures basées sur la LSA depuis plus longtemps et plus
couramment utilisées, particulièrement en ce qui concerne la polysémie (Griffiths et al.,
2007, cité dans Teplovs, 2010).
Cette différence dans sa méthode de calcul permet en fait de pallier une faiblesse de la
PLSA, à savoir qu‘elle souffre parfois de « surapprentissage » (overfitting) (Blei, Ng, &
Jordan, 2003) puisque son nombre de paramètres croît proportionnellement au nombre de
38
documents. En outre, on critique surtout la PLSA sur le fait qu‘elle ne soit pas un vrai
modèle génératif (Brants, 2005). Elle en est un pour les documents d‘un corpus donné, mais
pas pour de nouveaux documents (c.-à-d. hors corpus initial). C‘est dire que la PLSA ne
peut assigner une probabilité à un document jusque-là inconnu. La LDA lève cette limite.
En pratique, cela ne consiste pas à générer de nouveaux documents au hasard à partir de
distributions, mais plutôt d‘inférer des distributions à partir des documents analysés.
Quoique la LDA présente des avantages théoriques sur la LSA et la PLSA, la recherche
indique qu‘elle n‘est pas automatiquement plus précise. Dans une recherche sur
l‘évaluation automatisée d‘ensembles de 100 à 150 essais, la LDA a moins bien performé
que les deux autres (Kakkonen, Myller, & Sutinen, 2006). Les auteurs indiquent toutefois
qu‘il faut poursuivre la recherche sur l‘application de la LDA pour savoir mieux la régler et
conséquemment, la rendre plus performante. La LDA est réputée moins précise sur de
petits corpus et cela pourrait se reproduire dans notre contexte puisque généralement, les
documents que nous analyserons contiennent quelques phrases, voire quelques mots, et les
corpus contiennent quelques dizaines de documents. Nous allions donc avoir à développer
des outils logiciels pour faire le pont entre des données du KF et le KSV. Nous présentons
ici notre démarche technologique, revêtant une couleur plutôt technique.
Du KF au KSV : développement technologique
Le développement technologique dans lequel nous nous sommes engagés consistait d‘abord
à injecter des données du KF issues des activités de l‘ÉER dans le KSV. Teplovs a
développé deux méthodes d‘entrée des données dans le KSV. L‘une se connecte
directement à un service KF pour y lire toutes les données, l‘autre passe par la lecture d‘un
fichier GraphML. La première nécessite que les données sémantiques soient inscrites
directement dans la BD du KF. Puisque les droits d‘utilisation du logiciel d‘analyse
sémantique capable de les y inscrire directement étaient restreints et qu‘il était susceptible
de devenir un obstacle à l‘étude d‘autres méthodes que la LSA, nous avons entrepris, à la
lumière de discussions avec Teplovs, d‘utiliser la deuxième méthode, plus générique, c‘est-
à-dire l‘utilisation de fichiers GraphML. Le GraphML se base sur le XML, un langage de
balisage extensible largement utilisé aujourd‘hui dans une optique d‘interopérabilité, c‘est-
à-dire pour faciliter l‘échange entre des systèmes d‘informations hétérogènes. Le GraphML
39
a été conçu par une communauté du domaine du traçage de graphes dans le but de définir
un format d‘échange commun pour les données de structures de graphes.
Nos échanges avec Teplovs nous ont conduits à choisir assez tôt dans le processus de
conception la bibliothèque logicielle Gensim (Řehůřek & Sojka, 2010) — écrite en langage
Python — pour réaliser la portion de l‘analyse sémantique. Par contre, les méthodes que
nous allions emprunter pour obtenir les données du KF et pour les injecter dans le KSV
n‘étaient pas aussi évidentes. Nous n‘avions qu‘une mince idée du temps nécessaire pour
réaliser les différentes étapes de notre chantier. Il y avait beaucoup d‘inconnu; nous devions
nous familiariser avec plusieurs technologies impliquées, comme les langages de
programmation C++, Java et Python, de même que des environnements de développement
intégrés comme les logiciels Eclipse et NetBeans. D‘un point de vue logistique, nous
devions réussir assez vite, car l‘année scolaire filait et nous devions nous assurer d‘avoir le
temps de réaliser notre éventuelle collecte de données.
Lire les données du KF
Nous devions donc trouver d‘emblée un moyen de communiquer avec la BD du KF. Depuis
sa version 4.6, le KF utilise une BD de type tuplebase, appartenant au cadre d‘applications
(application framework) ZooLib6. Nous devions décider si nous allions 1) communiquer
directement avec cette BD ou 2) travailler à partir d‘une réplique de celle-ci dans un autre
format. Nous avions fait quelques essais pour évaluer la faisabilité de la première option.
Nous avons exploré pendant environ deux jours l‘utilisation d‘un servlet Java exécuté avec
le logiciel serveur Apache Tomcat pour interagir par le Web avec la BD du KF. Ce servlet
simple était fourni sur une page du wiki des développeurs du KF. Nous avons rapidement
rencontré un problème lors de sa mise à l‘essai; lorsque les résultats d‘une requête
contenaient un caractère accentué, le servlet s‘arrêtait inopinément. Étant donné que nous
ne prévoyions pas avoir besoin d‘un accès en écriture à cette BD et que l‘usage de ZooLib
est très peu répandu – limitant ainsi les outils et la documentation pour travailler avec celui-
ci –, nous avons dirigé nos efforts sur la deuxième option.
6 Description disponible à : http://zoolib.sourceforge.net/ (consulté le 2 aout 2011).
40
Nous avons alors travaillé à partir d‘une réplique de la BD originale dans le système de
gestion de bases de données (SGBD) MySQL, distribué sous licence libre7. Il allait être fort
probablement plus facile de faire communiquer l‘analyse sémantique avec un serveur
MySQL puisqu‘il y a de très nombreux outils développés dans plusieurs langages de
programmation pour interagir avec ce dernier. De plus, sa robustesse et sa rapidité sont
éprouvées alors nous étions plus rassurés que le programme d‘analyse sémantique que nous
allions utiliser ou développer allait s‘exécuter rapidement tout en s‘adressant à un SGBD
reconnu très stable. C‘est alors que nous avons planché sur deux moyens pour générer la
réplique MySQL de la BD au format tuplebase : 1) programmer un logiciel de conversion
qui lit directement le fichier texte portant une tuplebase et 2) lire les données de la
tuplebase par l‘intermédiaire de son interface de programmation (API) prévue dans ZooLib.
Nous avons exploré ces deux moyens simultanément, jusqu‘à ce que nous statuions sur le
choix de l‘un des deux pour la suite, ce qui nous a pris environ deux semaines. Le
deuxième moyen était certainement plus souhaitable puisque l‘API est conçue justement à
cette fin, mais nous ignorions le temps nécessaire pour sa maitrise alors que le premier
avait le potentiel d‘être réalisé rapidement, à la lumière de notre expérience de
programmation. Dis autrement, le choix de mener les deux moyens simultanément était
motivé par le scénario nous paraissant le plus probable selon lequel nous réussirions à
réaliser le premier plus rapidement, du moins pour satisfaire les besoins de cette phase de
développement, mais que nous allions devoir tôt ou tard utiliser l‘API fournie par ZooLib
(c.-à-d. le deuxième moyen), par souci de stabilité, notamment. En ce sens, notre
familiarisation avec cette API n‘allait pas être vaine.
Pour réaliser la première option, nous avons tout d‘abord examiné la syntaxe du fichier
texte portant une tuplebase, à savoir un fichier tuplestore, pour être en mesure de concevoir
un logiciel qui allait l‘interpréter. Nous avons choisi de réaliser ce logiciel en PHP puisque
ce langage de programmation nous était familier. Il allait convertir une tuplebase en une
BD MySQL, et ce, à partir d‘une version XML qu‘il génèrerait dans une étape
intermédiaire. Considérant son caractère universel, ce fichier XML aurait aussi le potentiel
d‘être réutilisé par d‘autres applications que nous allions peut-être avoir à développer ou
utiliser, ou encore par d‘autres applets du KF. Il n‘allait probablement pas être difficile de
7 Licence publique générale GNU version 2 (GPL v2)
41
trouver ensuite un programme convertissant un schéma XML en un schéma MySQL,
minimisant l‘effort à déployer pour cette étape. Ce sont les principaux facteurs qui nous
motivaient à inclure le XML dans ce processus de conversion, tout en gardant en tête que
nous pourrions l‘abandonner en cours de route s‘il devenait trop encombrant. C‘est ainsi
que nous avons commencé à programmer ce logiciel de conversion lisant directement le
texte contenu dans le fichier tuplestore. Nous le raffinions au fur et à mesure que nous
rencontrions des cas posant problème. Cela pouvait être par exemple la rencontre d‘une
donnée d‘un type jusque-là non prévu ou encore la présence d‘un caractère compliquant la
bonne reconnaissance d‘une donnée, comme la présence d‘un point-virgule dans une chaine
de caractères, alors que le point-virgule est utilisé pour délimiter les données. À ce stade,
nous travaillions essentiellement avec des expressions régulières pour détecter les patrons
et fragmenter les données. En cours de route, nous avons constaté par nos recherches que la
syntaxe du texte du tuplestore est très similaire à celle du YAML8. Nous avons alors
entrepris de lire les fichiers tuplestore en les interprétant comme du YAML, à l‘aide de
l‘extension LibYAML pour PHP. Celle-ci n‘étant distribuée que dans une version compilée
pour Linux et ne voulant pas nous aventurer dans sa compilation pour Windows, nous
avons dû alors déménager une partie de notre environnement de développement de
Windows 7 à Linux, engendrant quelques jours d‘adaptation. Bien que nous progressions
de façon intéressante à l‘aide de cette technique, nous avons fait une percée intéressante
entretemps avec la deuxième option, grâce à l‘aide de Teplovs. Ceci nous a conduits à
mettre la première de côté pour concentrer nos efforts sur celle-ci.
Nous avons développé cet autre logiciel de conversion en langage C++ et seulement pour
Linux. Nous l‘avons développé et compilé sur Debian 5. Il a utilisé comme prévu l‘API de
ZooLib pour lire la tuplebase. Cette version a fait l‘économie de générer une version XML;
nous avons concentré nos efforts sur la réplication en MySQL. Ce convertisseur lit la
tuplebase, génère un fichier d‘exportation (dump) de MySQL (contenant toutes les requêtes
nécessaires à la création d‘un schéma), puis exécute son importation pour concrétiser la
création d‘une BD MySQL. Il faut savoir qu‘une tuplebase est une base de données
orientée objet, sans schéma (Teplovs, Green, & Scardamalia, 2008), contrairement à une
8Le YAML est un langage de sérialisation s‘inspirant des idées et concepts d‘autres
langages comme le C, le Perl, le Python et le XML.
42
base de données MySQL qui est relationnelle, avec schéma. Ce sont deux paradigmes,
posant un défi de conversion bien singulier. Le convertisseur doit parcourir l‘ensemble des
attributs d‘un même objet côté tuplebase pour construire la structure de la ou des tables
correspondantes dans sa réplique MySQL. Nous l‘avons mis à l‘essai sur Ubuntu (versions
10.10 et 11.04) en l‘exécutant sur de nombreuses bases de connaissances de l‘ÉER.
Il s‘agissait de mettre ce convertisseur le plus possible à l‘épreuve en lui faisant traiter une
grande variété de BD. Nous l‘avons testé en deux semaines sur une centaine de bases. Cela
nous a permis de le raffiner et de déterminer les conditions dans lesquelles il s‘exécute bien.
Par exemple, nous nous sommes aperçus qu‘un même attribut pouvait être orthographié
tantôt avec tantôt sans lettre majuscule dans la tuplebase (p. ex. « Cleared » et « cleared »).
Dans ces cas, nous nous sommes assurés qu‘il s‘agissait bel et bien du même attribut
malgré cette variation de casse, et non d‘attributs distincts. Cela aurait pu poser problème
puisque MySQL ne permet typiquement pas de sensibilité à la casse pour les éléments de
structure des schémas. Puisque la vaste majorité des noms d‘attributs étudiés étaient
complètement en minuscules, nous avons programmé notre convertisseur pour qu‘il
retienne la version minusculisée comme nom de champ MySQL correspondant lorsque ces
variations se présentent. Nous avons aussi rencontré un problème avec l‘échappement des
guillemets simples dans les chaines de caractères. Nous l‘avons résolu en faisant une
modification dans un fichier de ZooLib9 qui a permis de placer des barres obliques
inversées aux endroits appropriés. Voilà des exemples notables de problèmes rencontrés à
cette étape de développement d‘un exportateur de tuplebase.
Au moment de savoir que nous pourrions générer des répliques fiables en MySQL, nous
avons entrepris le développement d‘une autre composante majeure : l‘analyseur
sémantique.
Création du KFSA : un analyseur sémantique basé sur Gensim
Comme nous l‘avons mentionné déjà, nous avons choisi d‘utiliser la bibliothèque logicielle
libre Gensim10
à cette fin. Elle a été créée en aout 2009 et elle a connu un essor important
9 ZStrimW_Escapify.cpp
10 Gensim est distribuée sous licence publique générale limitée GNU version 2.1 (LGPL
v2.1).
43
au début de l‘année 2011 alors que son code a été déménagé sur la plateforme de
développement collaborative GitHub. Ses développeurs se sont alors rapidement multipliés.
Cette vivacité est d‘ailleurs toujours présente au moment de rédiger ce mémoire, plusieurs
mois plus tard. Ses créateurs affirment que Gensim vise à combler certaines lacunes
présentes chez les programmes de ce type existants. Ils mentionnent leur manque de
modélisation thématique, la non-extensibilité de leurs modèles, leurs domaines cibles
n‘étant pas le traitement du langage naturel ou la recherche d‘informations et surtout leur
manque d‘unification (Řehůřek & Sojka, 2010). Ses auteurs écrivent que la courbe
d‘apprentissage des programmes existants est souvent très abrupte, ce qui en décourage
plus d‘un à les utiliser. Les gens vont souvent préférer écrire leur propre logiciel plutôt que
de plonger dans l‘étude laborieuse des subtilités de ceux existants. Au contraire, Gensim se
veut rassembleur. Il intègre, ou unifie, de nombreuses fonctionnalités en un seul logiciel,
tout en étant extensible. Son langage, le Python, est bien établi. Sa syntaxe claire fait de lui
un langage simple à apprendre, souvent utilisé par les pédagogues. Gensim est bien
documenté et sa licence libre permet justement de le modifier librement, apportant une
flexibilité étant bienvenue. De plus, il intègre les deux méthodes d‘analyse sémantique que
nous envisagions d‘utiliser dans la présente étude : la LSA et la LDA. Voilà tant de facteurs
qui nous ont convaincus d‘utiliser Gensim dans notre projet.
Nous avons commencé à travailler avec Gensim 0.7.7 (13 février 2011). Pendant nos
développements de l‘hiver 2011, la version 0.7.8 est sortie (26 mars 2011), mais nous
l‘avons d‘abord ignorée pour nous assurer de poursuivre nos essais et calculs dans les
mêmes conditions, c‘est-à-dire que nous ne voulions pas risquer alors d‘introduire la
variabilité qu‘aurait pu apporter cette nouvelle version par ses méthodes de calcul, aussi
mince qu‘elle soit. Par contre, nous avons mis à niveau notre analyseur sémantique pour
qu‘il soit compatible avec Gensim 0.8.0, une importante mise à jour sortie le 28 juin 2011
améliorant les performances et instaurant plus de rigueur et de cohérence dans la
nomenclature de ses composantes. Son API n‘était pas rétrocompatible avec les versions
antérieures. Une fois notre programme mis à niveau pour interagir avec Gensim 0.8.0 (p.
ex. renommage de variables, de fonctions et de classes appelées), nous avons reproduit de
nombreux calculs d‘analyse sémantique effectués jusque-là avec la version 0.7.7. Les
résultats étaient exactement les mêmes. Ceci a permis de renforcer la confiance en nos
44
résultats obtenus de mars à juin avec cette version 0.7.7. Notons enfin que Gensim s‘appuie
sur les bibliothèques de calcul scientifique NumPy et SciPy.
Une fois nos bases de données du KF obtenues en MySQL, nous pouvions commencer à
programmer notre logiciel d‘analyse sémantique. C‘était notre première expérience de
programmation en Python; nous devions en apprendre les rudiments. En analysant le code
de Gensim et en consultant quelques tutoriels, nous avons pu commencer à nous mettre à la
tâche en quelques jours. Le premier défi principal a été de faire communiquer Gensim avec
MySQL. Comme sources de données, Gensim est capable de lire nativement un fichier
texte, un dump de l‘encyclopédie Wikipédia, puis les formats qu‘il gère pour sérialiser les
données vectorielles, à savoir : GibbsLDA++, LDA-C de Blei, Matrix Market et SVMlight.
Nous n‘allions utiliser aucun de ces formats. Il fallait non seulement pouvoir injecter nos
données MySQL dans Gensim, mais pouvoir aussi ajouter les résultats de ses calculs dans
les BD MySQL analysées, et non les enregistrer dans des fichiers détachés (e.g. Matrix
Market). En les centralisant, cela allait maximiser notre aisance à étudier et à utiliser, voire
croiser, ces données à d‘autres fins, comme l‘étape de préparation d‘un fichier GraphML
pour le KSV. En ce sens, nous avons décidé que nous allions utiliser MySQL pour stocker
non seulement les résultats, mais aussi pour les données que Gensim génère au travers de
ses processus de calcul (p. ex. termes retenus, matrices d‘occurrences). Nous allions
modifier Gensim pour qu‘il utilise MySQL plutôt qu‘un de ses formats de sérialisation
natifs. Pour ce faire, nous avons d‘abord cherché un connecteur MySQL pour Python, et ce,
pour Linux et Windows, puisque nous développions et testions sur ces plateformes. Nous
avons trouvé rapidement MySQLdb. Il s‘agit du paquet natif mysql-python sur Ubuntu et
Debian et quelques heures de recherches et d‘essais nous ont permis de trouver et d‘adopter
une version compilée pour Windows. Nous avons ensuite entrepris d‘adapter Gensim pour
MySQL. Nous avons écrit une classe mysqlcorpus en remplacement de la classe native
mmcorpus de Gensim.
Cette classe mysqlcorpus devait donc avoir toutes les mêmes fonctionnalités que
mmcorpus, pour s‘interfacer parfaitement entre les différentes composantes de Gensim. En
mettant à l‘essai notre première version, nous trouvions que l‘insertion des données de
similarité sémantique était quelque peu lente. À cette étape, il n‘est pas rare qu‘il y ait
plusieurs milliers de données à insérer; il s‘agit de la similarité sémantique entre chacun des
45
documents formant le corpus analysé. On peut représenter ce nombre de résultats par la
formule suivante :
))
où n = nombre de résultats (comparaison) et d = nombre de documents analysés. Par
exemple, pour 100 documents analysés, il y a 4950 résultats. Nous avons alors commencé à
utiliser pour cette tâche la méthode executemany() de MySQLdb plutôt que execute().
Ainsi, au lieu que chaque insertion se réalise en boucle par des requêtes indépendantes,
MySQLdb combine toutes les insertions en une seule requête au serveur MySQL. Cela a
nettement amélioré la performance, ce qui était souhaitable autant par pure optimisation du
code que par souci de rapidité pour un éventuel traitement de données en lot.
Essentiellement, notre analyseur sémantique consiste à lire des données du KF au format
MySQL, réaliser leur analyse sémantique avec Gensim et retourner les données ou résultats
produits dans cette même BD MySQL. Nous l‘avons baptisé le KFSA, un sigle dérivé de
son nom dans la langue de Shakespeare : Knowledge Forum Semantic Analyzer.
Mise à l’essai du KFSA
Pour les premiers essais, nous avons utilisé les données provenant d‘un projet de la classe
de l‘enseignant A. Nous avons décidé de mettre la LDA de côté pour le moment, préférant
nous centrer sur la LSA ayant été largement plus étudiée par Teplovs. La toute première
analyse conduite avec le KFSA était de bon augure. Il réussissait bien à lire les données du
KF et les thèmes générés étaient pertinents. Ce projet portait sur la Nouvelle-France et deux
termes ayant les plus grands poids parmi plusieurs thèmes étaient « nouvelle » et
« France ». Cela a mis à l‘avant-scène, d‘emblée, l‘enjeu de la construction des unités
lexicales (tokenization) lors de l‘analyse lexicale réalisée au début du processus d‘analyse
sémantique. La phase de l‘analyse lexicale décompose le texte contenu dans les documents
(c.-à-d. les chaines de caractères) en unités lexicales, appelées aussi mots ou jetons
(tokens), formant ainsi le dictionnaire utilisé dans la suite de l‘analyse. Ce dictionnaire est
d‘une grande importance, car l‘analyseur sémantique ignorera les mots qui n‘y figurent pas
pour la suite du processus. Rappelons que l‘analyse sémantique considère d‘emblée tous les
46
mots rencontrés, quels qu‘ils soient, bien orthographiés ou non; il s‘agit d‘une approche
émergente.
Lorsque ce dictionnaire est formé, c‘est souvent l‘occasion de lui appliquer un
antidictionnaire si l‘on souhaite absolument ignorer certains mots. Un antidictionnaire (ou
liste de mots vides) est souvent formé de conjonctions de coordination (p. ex. et, ou, ni,
mais, car, or) et de prépositions (p. ex. avec, sans, selon, de, à). Comme nous l‘avons déjà
mentionné, la méthode tf-idf pondère les mots selon leur fréquence locale et globale, ce qui
élague normalement ce type de mots ayant une présence constante dans l‘ensemble d‘un
corpus. C‘est pourquoi nous avons d‘abord choisi de ne pas utiliser d‘antidictionnaire et de
faire fond uniquement sur la pondération tf-idf. Nous allions voir si nous devrions y avoir
recours ultérieurement.
Ce premier essai nous a permis de constater que Gensim scindait nativement les termes
ayant des traits d‘union. Dans ce cas, le terme « Nouvelle-France » a été éclaté en deux
termes : « nouvelle » et « France ». Ce n‘est pas nécessairement problématique, car les
termes scindés (c.-à-d. les termes « enfants ») cooccurrent autant que la fréquence du terme
ayant été scindé (c.-à-d. le terme « parent »), conduisant normalement l‘analyse sémantique
à établir un lien fort entre ceux-ci. Par principe, nous avons préféré le traiter comme un
terme propre puisque nous croyons que c‘est plus fidèle à l‘usage réel. Nous avons ainsi
décidé de modifier l‘algorithme de Gensim pour qu‘il ne scinde plus sur les traits d‘union et
les guillemets anglais simples (c.-à-d. le caractère « ‗ », comme dans le terme
« aujourd‘hui »), supposant qu‘il était davantage conçu pour l‘anglais et que notre
modification allait être plus appropriée pour l‘analyse du français. Nous avons pris
l‘initiative de faire ce réglage en gardant en tête que nous pourrions éventuellement
l‘annuler selon les discussions et les résultats obtenus avec les classes.
Le KFSA fonctionnait bien dès cette première mise à l‘essai. Les différentes données
produites par Gensim se retrouvaient bien dans la BD MySQL. Nous avons alors
commencé à étudier l‘effet de la dimensionnalité de l‘espace de connaissances, c‘est-à-dire
le nombre de thèmes retenus pour l‘analyse d‘un corpus. Croyant que cette variable pouvait
avoir un effet critique dans l‘analyse de nos corpus, nous avons alors entrepris de
47
documenter un maximum de résultats d‘analyses que nous allions réaliser. Nous aborderons
cet aspect plus en détail dans la section « La dimensionnalité des espaces sémantiques ».
Production des fichiers GraphML destinés au KSV
La dernière pièce logicielle à développer était celle pour faire le pont entre la base de
données MySQL et le KSV; ce logiciel allait exporter des données de celle-ci dans un
fichier GraphML. Nous étions familiers avec la manipulation de bases de données MySQL
par le langage PHP. Nous savions aussi qu‘ils existait des méthodes faciles en PHP pour
générer un fichier en XML, le langage du format GraphML destiné à être lu par le KSV.
C‘est pourquoi nous avons décidé de concevoir ce troisième logiciel en PHP.
Nous avons ensuite commencé à étudier les spécifications du format GraphML et les
exigences du KSV relativement à celui-ci11
. Le GraphML se compose d‘un noyau de
langage définissant les propriétés structurelles d‘un graphe tout en étant extensible, c‘est-à-
dire qu‘il fournit un mécanisme flexible permettant d‘ajouter des données spécifiques aux
applications. Le KSV n‘utilise actuellement que ses éléments de base, à savoir le graphe
(graph), le nœud (node) et le lien (edge). Toutes nos données devaient donc être traduites
en terme de nœuds et de liens. Dans ce schéma, la plupart des objets du KF (p. ex. notes,
auteurs, échafaudages, perspectives) y sont représentés par un nœud alors que leurs liaisons
(p. ex. lien de paternité, lien d‘élaboration) par un lien, comme son nom le suggère. Nous
avons beaucoup appris par l‘exemple, en étudiant justement le fichier exemple fourni dans
la documentation du KSV. S‘en est suivi une valse d‘essais et d‘erreurs pour réussir à
ouvrir un fichier issu de notre programme et contenant nos données. Ce sont surtout les
dates qui nous ont donné du fil à retordre. Au début, nous utilisions certaines valeurs bidon
pour les dates et nous avons découvert que le KSV construisait sa plage de dates à partir
des valeurs contenues à la fois dans les nœuds et dans les liens. En conséquence, il
n‘ouvrait pas notre fichier lorsque celui-ci ne contenait pas encore d‘éléments liens et il
devait y avoir au moins deux dates différentes pour qu‘il puisse calculer une plage.
Cet exportateur nous a pris environ 2 semaines à développer. Nous avons dû nous
familiariser avec les méthodes pour construire un document XML. Nous avons choisi
l‘extension SimpleXML native de PHP puisqu‘elle était plus simple, en sachant qu‘il
11
http://code.google.com/p/ksv/wiki/GraphMLForKSV (consulté le 2 aout 2011)
48
faudrait éventuellement passer à XMLReader et XMLWriter pour une meilleure gestion de
la mémoire sur de gros ensembles de données. Nous avons inclus une option pour
anonymiser les résultats et les fichiers générés contiennent un code d‘espace sémantique (p.
ex. 7.4) pour pouvoir être facilement associés à d‘autres résultats que nous colligions dans
un document tiers.
Avec ces trois composantes logicielles réalisées, nous étions prêts à avancer avec ce qui est
plus central à notre étude, soit l‘utilisation du KSV et les résultats de l‘analyse sémantique
de données de l‘ÉER. Mais avant, nous présenterons un aspect qui peut avoir un impact
important lors desdites analyses, la dimensionnalité.
La dimensionnalité des espaces sémantiques
La dimensionnalité fait référence au nombre de dimensions (k) de l‘espace sémantique
construit lors de l‘analyse. Comme nous l‘avons expliqué précédemment dans la section
« L‘analyse sémantique latente (LSA) », ces dimensions sémantiques renvoient, dans le
contexte du langage naturel, à des thèmes (ou « concepts »). Un thème n‘est pas un seul
mot ou une expression, comme on peut y faire référence en langage courant, mais un
ensemble, voire une distribution de mots. Le choix du nombre de thèmes dépend du type
d‘analyse que l‘on souhaite réaliser. Par exemple, si on voulait séparer les articles de
Wikipédia entre les « sciences humaines » et les « sciences naturelles », on pourrait tenter
de le faire en analysant ce corpus avec deux thèmes. Utile pour distinguer les documents en
deux grandes familles, ce nombre minimal de thèmes rendrait les possibilités d‘analyses
plus fines de cet espace sémantique très périlleuses. À titre d‘exemple, il ne serait pas avisé
de tenter d‘y repérer et d‘y comparer des articles traitant d‘un sujet pointu, alors que les
documents ont été aussi grossièrement modélisés. Il serait alors plutôt souhaitable de
reprendre l‘analyse avec un nombre plus élevé de thèmes, si bien que ces articles puissent
être mieux modélisés dans l‘espace sémantique. Sachant que le nombre de thèmes choisi
peut avoir une importance critique sur la construction de l‘espace sémantique, cela revient à
se poser la question suivante avant d‘analyser un corpus : avec combien de thèmes doit-on
analyser ce corpus afin qu‘il soit modélisé adéquatement?
Dans les écrits scientifiques, on indique que le nombre de dimensions retenues est un
problème empirique (T. Landauer, Foltz, & Laham, 1998). On mentionne que la
49
dimensionnalité optimale est celle qui donne les meilleurs résultats de recherche et non
celle reproduisant la plus grande variance de la matrice originale (lexicale) comme il est
d‘usage dans d‘autres domaines (Deerwester et al., 1990). Certains auteurs situent cette
tâche dans la logique du principe de longueur de description minimale (minimum
description length) (Zha, Marques, Simon, & Berkeley, 1998), stipulant que « toute
régularité dans les données peut être utilisée pour compresser les données, de façon à les
décrire en utilisant moins de symboles que ceux nécessaires pour décrire les données
littéralement. En associant ―apprentissage‖ et ―recherche de régularité‖, cela signifie que
plus on est capable de compresser les données, plus on a appris au sujet de celles-ci. »
(traduction libre) (Grünwald, 2005).
Les analyses documentées dans les écrits scientifiques sont généralement réalisées sur de
grands corpus, soit des milliers de documents, contenant chacun plusieurs centaines de
mots, comme des encyclopédies médicales ou l‘encyclopédie libre Wikipédia. À cette
échelle, certains suggèrent d‘utiliser une valeur de k entre 100 et 500, ou plus, à la lumière
de résultats empiriques (Deerwester et al., 1990). Il est généralement admis qu‘il n‘y a pas
d‘intérêt à choisir au-delà de 350 thèmes. On soutient alors qu‘il s‘agit du meilleur
compromis entre la pertinence du résultat et le temps de calcul. Outre cette « règle d‘or »,
très peu de propositions existent et nous n‘en avons trouvé aucune qui soit à visée
universelle ou étant susceptible d‘être appliquée à notre contexte. D‘ailleurs, nous n‘avons
pas repéré d‘étude utilisant une méthode d‘analyse sémantique qui traite de l‘enjeu de la
dimensionnalité au-delà de nombres arbitraires de dimensions choisis. Dans notre étude,
nous allions analyser surtout des petits corpus, comportant la plupart du temps une
vingtaine de documents. De plus, ces documents étant des notes écrites par des élèves du
primaire, elles sont typiquement assez courtes, contenant le plus souvent de 1 à 5 phrases,
rendant notre contexte bien différent de la plupart de ceux que l‘on retrouve dans les écrits
scientifiques.
Prévoyant vouloir comparer les résultats de plusieurs de nos analyses sémantiques, nous
allions donc devoir créer notre propre méthode pour choisir le nombre de thèmes. Sans ce
traitement commun, cette cohérence, il allait être très difficile de tirer des conclusions.
Notre méthode allait aussi devoir pouvoir être automatisée par programmation, sinon,
logistiquement, nous risquions d‘être limités à l‘analyse de quelques dizaines de corpus,
50
alors que nous avions la possibilité d‘en analyser quelques milliers. En conséquence, un
nouvel objectif de recherche a émergé, nous allions devoir développer une méthode de
décision du nombre de thèmes afin d‘assurer une cohérence dans nos analyses et de rendre
leur automatisation possible.
Nous présentons ici la démarche que nous avons empruntée pour la développer, c‘est-à-dire
la partie relevant de la méthodologie. Puis, au chapitre suivant, la méthode définitive que
nous avons utilisée, que nous considérons comme un résultat de cette étude.
Puisque les écrits scientifiques suggèrent que la détermination d‘un k optimal est un
problème empirique, nous avons documenté, aussitôt que possible, un maximum de
résultats issus de nos analyses sémantiques. Notons que celles-ci sont autoréférenciées,
c‘est-à-dire que le sens est construit uniquement à partir des documents eux-mêmes; il n‘y a
pas de documents externes, comme des articles d‘encyclopédies, qui entrent en jeu. Nous
avons également décidé de n‘introduire ni listes de mots vides à ignorer (antidictionnaire)
ni limites minimales et maximales de fréquence aux mots pour qu‘ils soient considérés par
l‘analyse. Après en avoir introduit à quelques reprises, nous avons décidé de supprimer ces
paramètres afin de limiter la quantité de variables à considérer dans l‘examen des données
obtenues progressivement.
Nous avons alors porté notre attention sur l‘effet de k sur la distribution de ces similarités
sémantiques. Les degrés de similarité calculés par la LSA s‘étendant de -1 à 1, nous allions
devoir examiner les endroits où se trouvent le ou les pics de cette distribution en fonction
du nombre de thèmes choisi. Par exemple, un pic près de 1 signifierait qu‘une majorité de
documents sont très similaires dans l‘espace sémantique. Dans un tel cas, nous croyions
que cela signifierait que le corpus a été analysé avec un nombre insuffisant de thèmes, ne
permettant probablement pas du coup à la complexité du contenu d‘être représentée dans le
modèle.
Nous avons ainsi entrepris de documenter et d‘étudier la distribution des similarités en
fonction de k, au sein de chaque corpus. Au départ, nous lancions chacune de ces analyses
manuellement, pour ensuite automatiser le tout par programmation. Le KFSA analysait
désormais chaque corpus avec autant de thèmes qu‘il contient de documents. Nous avons
ensuite commencé à observer la distribution des similarités, en faisant une première
51
estimation, à savoir en arrondissant les degrés de similarités aux dixièmes de l‘échelle
allant de -1 à 1. Nous avons remarqué que plus k augmente, plus le pic de similarités se
déplace de 1 vers 0, et qu‘il se stabilise toujours à 0,1 ou 0, selon les corpus. Bien qu‘il y ait
parfois des similarités négatives, elles n‘ont jamais été assez nombreuses pour que le pic de
la courbe soit inférieur à 0, du moins, nous n‘avons pas rencontré cette situation dans nos
données. Voici, à la Figure 6, un graphique illustrant la distribution des similarités en
fonction de k, pour un corpus de 47 notes. La source de données utilisée pour le générer est
disponible à l‘Annexe 1.
Figure 3. Distribution des similarités sémantiques en fonction de k.
Dans ce cas-ci, le corpus a été balayé avec k variant de 1 à 47. On peut voir qu‘avec 1
thème, la vaste majorité (92 %) des notes sont considérées très similaires (1) et 4 % sont
considérées très différentes (0). Les autres valeurs (4 %) sont négatives et il n‘y en a aucune
entre 0,1 et 0,9. Comme dans la majorité des corpus analysés, plus k augmente, plus le pic
de similarités se déplace vers 0, s‘y stabilise et s‘accroit.
Nous avons observé également que les variations dans les courbes des fréquences ne sont
pas régulières, c‘est-à-dire qu‘il n‘y a pas toujours une croissance ou une décroissance
52
continue entre 0 et 1. Dans cet exemple, en observant les courbes représentant 5 thèmes et
plus, on peut voir des maximums locaux, se situant le plus souvent entre les degrés de
similarité 0,5 et 0,8, alors que la tendance générale est une décroissance entre 0 et 1. C‘est
finalement sur cette caractéristique, à savoir l‘allure de ces courbes, que nous avons basé
notre algorithme de décision.
Rappelons qu‘au départ, nous étions pratiquement devant l‘inconnu. Nous lancions alors
manuellement les analyses de façon exploratoire, en variant k de façon aléatoire. Les
valeurs de k étaient choisies de façon arbitraire, en commençant le plus souvent avec une
valeur de k équivalente à 10 % du nombre de documents (n), puis en focalisant
progressivement dans une plage allant de 5 à 30 % de n. Tantôt il y avait des maximums
locaux, comme décrit précédemment, tantôt les variations dans les courbes de similarités
étaient régulières. Le pic de similarité se stabilisait le plus souvent à 0, mais aussi parfois à
0,1. Ce pic pouvait être atteint très rapidement, comme tardivement, c‘est-à-dire alors que k
est près de n. En ce sens, il n‘y avait pas de régularité dans les coefficients de corrélation, à
savoir ceux de Pearson et de Spearman, pour chaque courbe de k ou des parties de celle-ci.
Bref, plus nous faisions d‘analyses, plus nous observions que le portrait de la distribution
des similarités en fonction de k pouvait être très différent d‘un corpus à l‘autre.
Cette diversité nous a amenés à mettre de côté une première méthode de décision, plutôt
simple, sur laquelle nous avions travaillé. Elle consistait à sélectionner le plus petit k
engendrant un pic de similarités à 0 ou 0,1, ceci visant à permettre à un minimum de
complexité de s‘exprimer dans le modèle sémantique. Ensuite, l‘accumulation ces valeurs
de k et de n allaient peut-être permettre de déterminer empiriquement une fonction
d‘estimation de k. Cette fonction alors prenait l‘allure d‘une fonction logarithmique, mais la
diminution progressive de la corrélation dans le nuage de points (c.-à-d. les valeurs de k et
n qui s‘accumulaient) duquel elle était dérivée nous a finalement convaincus que cette
approche n‘était pas prometteuse. Par conséquent, nous avons décidé de poursuivre
l‘exploration de nos données et la recherche d‘approches plus fécondes.
Nous avons alors fait appel à la communauté de développeurs de Gensim pour leur
demander s‘ils avaient des idées à nous proposer, compte tenu de notre contexte et des
premiers résultats obtenus. Le créateur de Gensim nous a répondu « qu‘il existe des
53
méthodes pour estimer le nombre de thèmes, basées sur le spectre des valeurs singulières
du problème, mais que par expérience, ces méthodes ne sont pas robustes du tout ». Il
ajoutait : « le conseil de base dans votre situation est de constituer un nuage de points des
valeurs optimales de k en fonction de la taille des corpus, ces valeurs optimales de k
provenant d‘une mesure indépendante et objective de la qualité du modèle. Avec de la
chance, cela peut permettre de faire émerger une fonction prédictive de k adaptée au
contexte étudié » (traduction libre de l‘anglais). Cette dernière approche proposée était très
similaire à la méthode que nous venions de mettre de côté. Elle différait en ce qu‘elle
requérait une évaluation humaine objective de la qualité des modèles générés. Nous avons
décidé de la mettre de côté également. D‘une part, la mise en place d‘un tel dispositif
d‘évaluation humaine des analyses semblait logistiquement irréalisable dans le cadre de
cette étude. De fait, il aurait fallu constituer une grande banque de jugements humains sur
la qualité de chacune des analyses, celles-ci pouvant se compter par centaines. D‘autre part,
elle ne fournissait aucune garantie que l‘on pourrait généraliser son utilisation dans
l‘ensemble de nos données.
L‘auteur principal de Gensim nous avait également proposé la lecture d‘un article de Zha et
al. (1998), traitant explicitement de la dimensionnalité avec la LSA. Les auteurs y décrivent
de façon très détaillée la démarche mathématique qu‘ils ont utilisée pour la détermination
d‘un k optimal, à l‘aide du principe de longueur de description minimale (MDL, de
l‘anglais Minimum description length). Nous avons travaillé pendant deux semaines à
tenter d‘implémenter leur méthode, sans succès. Nous n‘obtenions pas la même allure de
graphe qu‘eux. Les courbes que nous obtenions étaient toujours décroissantes, donc sans
minimum, et c‘est justement le minimum qui servait à déterminer le k optimal. Nous avons
alors communiqué avec le professeur Zha qui nous a confirmé que leur méthode reposait
sur des hypothèses qui pourraient très probablement ne pas être satisfaites par nos corpus.
Nous ne pouvions donc pas la généraliser à notre contexte. Ce revers allait être un demi-
mal, puisque des éléments de leur approche nous ont beaucoup inspirés pour la suite. Nous
présentons la méthode que nous avons finalement adoptée dans la section « Développement
d‘une méthode de décision du nombre de thèmes » du prochain chapitre.
54
Collecte des données : instruments et procédures
Nous avons commencé nos visites sur le terrain à la mi-avril 2011. Pour les trois sites
visités, nous avons procédé de la même façon. L‘étudiant-chercheur a d‘abord rencontré
chacun des enseignants pour leur présenter quelques exemples de visualisations avec le
KSV et d‘autres mesures dérivées, toutes issues de données représentant le travail de leur(s)
classe(s) dans le KF. Chaque enseignant avait préalablement ciblé quelques perspectives
représentant quelques projets réalisés plus tôt dans l‘année ou en cours de réalisation.
C‘était ce qui avait été convenu quelques semaines auparavant, comme nous l‘avons
présenté dans la section « Le contexte spécifique : les participants ». Il s‘agissait de
données pouvant être particulièrement intéressantes à supposer que nous les présentions
aux élèves.
Nous allions étudier l‘adoption du KSV par les élèves et les enseignants. D‘abord, en
questionnant les enseignants sur les usages possibles qu‘ils voyaient en l‘outil, relativement
à leur contexte pédagogique. L‘idée ici était de ne pas biaiser leur appropriation en leur
proposant d‘emblée une ou plusieurs utilisations à essayer en classe. L‘étudiant-chercheur
s‘est ainsi efforcé à réaliser la même amorce avec chacun des enseignants. Nous avons
également présenté aux enseignants un élément en marge du KSV. Il s‘agissait de
classements des élèves en tenant compte de tout leur travail réalisé dans le KF jusqu‘à ce
jour dans l‘année scolaire en cours, d‘un point de vue principalement sémantique.
L‘étudiant-chercheur voulait vérifier si la longueur vectorielle (LV) des contributions,
représentant le volume d‘idées partagées contenues dans celles-ci, pouvait être prometteuse
dans l‘évaluation de la participation de ces jeunes à la coélaboration de connaissances. Ces
entretiens avec les enseignants ont été documentés par une prise de notes par l‘étudiant-
chercheur.
Ensuite, lorsque l‘enseignant le jugeait pertinent et selon ses disponibilités, l‘étudiant-
chercheur et ce dernier allaient présenter le KSV aux élèves en les questionnant sur leurs
premières impressions et les usages possibles qu‘ils percevaient. Cela viserait à étudier
l‘adoption de l‘outil par les élèves. De plus, selon le ou les usages cernés par les
l‘enseignant et ses élèves et leurs disponibilités, l‘enseignant et l‘étudiant-chercheur a
conduit une activité de mise à l‘essai avec eux. Ces interventions en classe ont été
55
enregistrées sur vidéo. Nous avons ensuite utilisé ces vidéos pour transcrire les verbatims
des échanges, ceux-ci servant de matériau de base pour produire les résultats de la première
phase de notre étude. Grâce à cette méthode de collecte, l‘étudiant–chercheur allait pouvoir
retourner aux propos exacts tenus en classe par les élèves et les enseignants.
Suite aux rencontres avec les enseignants et les élèves, nous avons exploré le potentiel de
l‘analyse sémantique relativement au développement de différentes mesures de la
collaboration et de la créativité. Pour ce faire, nous allions utiliser les données du KF de
l‘ÉER des six dernières années. Nous avons ainsi combiné 126 bases de connaissances du
KF, converties préalablement au format MySQL selon la technique décrite précédemment,
en une grande base de données du même format. Cette BD combinée allait faciliter
l‘exploration des données par notre logiciel KFSA. En plus des méthodes de collecte de
données intégrées au KFSA, nous avons conçu plusieurs requêtes, utilisant des fonctions
intégrées à MySQL, pour réaliser certains regroupements, mesures et statistiques. Les
résultats des analyses menées par le KFSA et des différentes requêtes manuelles ont été
stockés dans une BD MySQL consacrée à la présente étude.
Procédures d’analyse des données
Pour l‘analyse des échanges réalisés en classe avec les élèves, nous avons procédé à une
analyse qualitative des verbatims provenant des enregistrements vidéos et des notes écrites
par l‘étudiant-chercheur. Nous en avons identifié des thèmes émergents. Ceux-ci sont assez
distincts, mais non mutuellement exclusifs. Notre objectif était de rendre bien compte des
échanges avec les enseignants et les élèves. À titre d‘exemple, les « mêmes mots » et les
« mêmes mots-clés » représentent deux thèmes différents. Dans ce cas, des mots-clés sont
également des mots, mais les mots-clés sont des mots pivots pour la compréhension d‘un
texte alors que les mots renvoient simplement à tous les mots.
Pour la deuxième phase de notre étude, nous avons analysé des données provenant à la fois
du travail des élèves de l‘ÉER depuis les 6 dernières années, que de différents traitements
réalisés sur celles-ci par le KFSA et des requêtes manuelles à la base de données. À partir
de l‘ensemble de ces données, nous avons conduit des analyses statistiques et produit
plusieurs graphiques, le tout avec l‘aide des logiciels Microsoft Excel et IBM SPSS. Pour
étudier la relation entre certaines données, nous avons utilisé les coefficients de corrélation
56
de Pearson (r) et de Kendall (τ). Notons que, hormis les valeurs absolues 1 et 0, signifiant
respectivement une corrélation parfaite et nulle, l‘interprétation qualitative de l‘intensité de
ces coefficients de corrélation est relativement arbitraire. Nous utiliserons l‘échelle suivante
pour interpréter leur valeur absolue :
De 0 à 0,29 : faible;
De 0,30 à 0,59 : moyenne;
De 0,60 à 1,00 : forte.
À moins que nous le spécifiions autrement, nous avons priorisé le coefficient τ à r pour
qualifier les corrélations, présupposant le plus souvent que leur relation n‘est pas linéaire.
57
Chapitre 3 — Présentation et analyse des résultats
Ce troisième chapitre présente et analyse les résultats obtenus suivant la méthodologie de
recherche décrite au chapitre 2. Nous verrons d‘abord les résultats de l‘objectif de
recherche portant sur la dimensionnalité des espaces sémantiques et ayant émergé en cours
d‘étude. Ensuite, nous présenterons les résultats de nos deux questions de recherche
principales.
Développement d’une méthode de décision du nombre de thèmes
Comme décrit dans la section « La dimensionnalité des espaces sémantiques » du chapitre
précédent, nous devions créer notre propre méthode pour décider du nombre de thèmes (k)
à retenir lors de la modélisation d‘un corpus avec la LSA. Nous nous sommes inspirés de la
méthode de Zha et al. (1998). De cette approche, nous avons retenu deux éléments
principaux, l‘un étant le balayage du corpus avec k variant de 1 à n (c.-à-d. la taille du
corpus), et l‘autre, l‘utilisation du principe de longueur de description minimale (MDL).
Celui-ci consiste à rechercher de la régularité dans les données de façon à pouvoir en
constituer un nouveau modèle compressé. Nous nous sommes aussi inspirés de l‘analyse en
composantes principales (PCA, de l‘anglais Principal component analysis), une méthode
d‘analyse des données, souvent exploratoire, permettant de ramener de l‘information à un
nombre réduit de composantes par rapport aux variables originales. Ces composantes sont
alors celles qui expliquent le mieux la variance, ou l‘inertie, dans les données initiales. La
diagonalisation de la matrice tf-idf par la LSA est un exemple d‘application, alors que les
composantes principales correspondent à des thèmes.
Pour chaque corpus, notre méthode de décision consiste à sélectionner le plus petit k
associé à l‘intervalle de décroissance le plus typique. D‘abord, l‘algorithme analyse un
corpus avec autant de nombres de thèmes différents que ce corpus contient de documents,
c‘est-à-dire en variant k de 1 à n. Pour chacune de ces n sous-analyses sémantiques, la
similarité de chaque paire de documents est calculée. Les valeurs de ces similarités sont
ensuite arrondies au dixième. De l‘échelle de -1 à 1 initiale, seulement la portion de 0 à 1
est retenue pour la suite, les valeurs négatives étant plutôt rares et la position du pic ne
s‘étant jamais trouvée sous 0 dans nos données. On obtient ainsi des courbes de fréquences
58
de similarités, formant une distribution de similarités sémantiques, comme celle présentée à
la Figure 6. On cherche alors de la régularité parmi ces courbes, en les examinant du point
de vue de leur allure, et non de leurs valeurs absolues. Après avoir essayé différents
scénarios, nous n‘avons retenu qu‘une seule caractéristique à considérer à cette étape : le
principal intervalle de décroissance de chaque courbe. Nous avons choisi cette
caractéristique, car elle est directement affectée par k, le pic de dissemblance se déplaçant
vers 0 et l‘étendue de l‘intervalle de décroissance augmentant typiquement alors que k
s‘accroit. En s‘inspirant de logique de la PCA, l‘algorithme choisit donc l‘intervalle le plus
fréquent dans la distribution, en faisant l‘approximation que c‘est celui qui est le plus
représentatif. On retrouve à l‘Annexe 2 un exemple de tableau de données utilisé à cette
étape. Il représente ce niveau d‘analyse supérieur, provenant du même exemple décrit au
Tableau 3 et à la Figure 6. Pour ce faire, l‘algorithme choisit deux positions en x : celle où
se situent le plus souvent le pic de dissemblance et celle où la décroissance s‘arrête le plus
souvent pour ce pic. Finalement, dans la logique du principe de la MDL, notre méthode
consiste à choisir le plus petit k associé à cet intervalle. Pour l‘exemple présenté au Tableau
4, soit un corpus de 47 documents, l‘algorithme sélectionne d‘abord l‘intervalle de 0,1 à
0,6, pour finalement choisir 10 comme valeur optimale de k.
Nous avons appliqué cette méthode lors de l‘analyse de 6 ans de données de l‘ÉER. Cela
représente 2708 perspectives, chaque perspective étant traitée comme un corpus. La Figure
4 présente le k optimal choisi pour chacun de ceux-ci.
59
Figure 4. k optimal choisi en fonction de la taille du corpus.
On peut voir dans la précédente figure que, pour l‘ensemble, la corrélation est plutôt forte
(n = 2 708; r = 0,658, p < 0,001; τ = 0,669, p < 0,001) entre le nombre de documents
compris dans un corpus et le nombre optimal de thèmes choisi. La courbe de tendance qui
s‘ajuste le mieux à ces données est une fonction puissance ayant un coefficient de
détermination de 0,7101. En outre, la dispersion demeure assez élevée (σ = 30), suggérant
que notre approche présente davantage de potentiel pour saisir et s‘adapter à la complexité
de chaque corpus, par rapport à une méthode plus simple, comme l‘utilisation d‘une courbe
de régression. De fait, nous avons vérifié dans le KSV plusieurs modèles sémantiques
construits avec notre méthode, et ils semblaient pertinents; règle générale, les documents
considérés similaires l‘étaient réellement. Comme nous nous y attendions, plus les corpus
étaient petits, plus il y avait d‘incohérences. Il est difficile de conclure dans ces cas si cette
situation est surtout liée au nombre de thèmes choisi ou aux limites inhérentes de la LSA,
en amont. Ce sont des limites à mieux cerner.
Nous verrons maintenant la partie de nos résultats relative aux visites en classes de
l‘étudiant-chercheur, réalisées pour évaluer la pertinence de nos données et les affordances
du KSV perçues par des élèves et des enseignants.
R² = 0,7101
0
20
40
60
80
100
120
140
1 10 100 1000
k
taille du corpus
60
Affordances du KSV perçues par les élèves et les enseignants
Par les enseignants
Les trois visites sur le terrain ont commencé par une rencontre en face à face avec les
enseignants participants. Elles se sont déroulées en trois temps sur une durée d‘un mois,
soit du début avril au début de mai 2011, et selon cet ordre : le site A, le site B, puis le site
C. Ces trois rencontres se sont déroulées sensiblement selon le même scénario. Comme
prévu, l‘étudiant-chercheur et l‘enseignant rencontré ont d‘abord exploré le KSV
fonctionnant avec les données préalablement ciblées par l‘enseignant rencontré. Ils ont
ensuite discuté de l‘adoption de cet outil par leurs élèves, des usages possibles de celui-ci et
d‘outils dérivés en situation réelle de classe, pour enfin élaborer un scénario de présentation
et d‘exploration du KSV en classe.
En observant les visualisations produites par le KSV, les trois enseignants ont remarqué
qu‘il n‘y avait généralement pas plus de liens sémantiques parmi les notes au sein d‘une
même enfilade qu‘à travers l‘ensemble des notes. Notions que nous examinions surtout les
liens sémantiques dont le cosinus est plus grand ou égal à 0,75 donc nous avions une vue
assez permissive. Nous avons alors discuté du fait qu‘il devrait y avoir le plus souvent des
liens sémantiques forts entre une élaboration et la note sur laquelle elle élabore, et, par
extension, parmi les notes faisant partie de la même enfilade, comparativement à
l‘ensemble des notes. Cela dit, il ne s‘agit pas d‘une règle universelle puisque le processus
d‘investigation peut prendre à tout moment de nouvelles directions. Dans ces cas, il n‘y a
pas nécessairement de liens sémantiques forts entre des notes formant une enfilade.
En examinant cette situation de plus près, nous avons constaté que des liens sémantiques
forts auraient pu vraisemblablement se former si les élèves avaient écrit des notes un peu
plus élaborées. Par exemple, nous avons observé une enfilade de deux notes où la première
énonçait que « le territoire de la Nouvelle-France était énorme » et la deuxième, une
élaboration, énonçait qu‘« il s‘étendait du Québec jusqu‘au Nouveau-Mexique ». On peut
penser que si l‘élève ayant rédigé l‘élaboration avait introduit les termes « territoire » et
« Nouvelle-France », un lien sémantique fort se serait construit entre les deux notes. De
fait, en faisant une simulation avec cet ajout, il s‘est formé.
61
Dans les trois cas, c‘est-à-dire avec chaque enseignant, nous avons pris la même trajectoire
et nous avons centré nos analyses sur le repérage de ces situations. Cela nous a également
permis de détecter des limites de l‘analyse sémantique, surtout liées à l‘orthographe
puisque les élèves de cet âge font naturellement plus de fautes d‘orthographe. L‘analyse
sémantique ne comprend pas directement les mots mal orthographiés, mais peut toutefois
les assimiler lorsque ceux-ci cooccurrent avec des mots communs. Par exemple, si le mot
« bateau » se retrouve à la fois sous sa forme correcte et aussi sous les formes erronées
« batau » et « bato », l‘analyse sémantique a le potentiel de les assimiler si ceux-ci
cooccurrent tous avec le mot « voile ». Conséquemment, plus les corpus sont petits, plus les
fautes d‘orthographe auront un impact important, mais à l‘inverse, plus ce dernier se
développe, plus les imprécisions qu‘elles entrainent s‘estompent. Il demeure toutefois
souhaitable de favoriser une bonne orthographe, et justement, les enseignants ont énoncé
que sachant cela, les élèves pourraient être davantage motivés à écrire dans un français
correct. Les enseignants ont également soulevé que l‘accord des adjectifs et des verbes
pourrait constituer une limite plus importante.
Questionnés sur l‘utilité et les usages possibles qu‘ils imaginaient de cet outil, les trois
enseignants n‘ont pas répondu d‘emblée. Après un moment de réflexion, ils ont repéré,
dans les trois cas, la même utilité principale potentielle : fournir une rétroaction visuelle
aux élèves quant à la qualité des liens qu‘ils font entre les idées, si bien que cela puisse agir
comme appui et élément motivateur dans leurs pratiques de lecture et d‘écriture. Un
enseignant a dit : « Ça fait longtemps que je cherche des moyens d‘inciter mes élèves à
écrire des notes plus élaborées, à faire plus de liens entre celles-ci, et ce visuel est
particulièrement intéressant pour avoir ce rôle ». Rappelons que ces enseignants ne
s‘étaient pas consultés et que l‘étudiant-chercheur ne leur a pas proposé cet usage.
Les enseignants ont également souligné qu‘il pourrait être utile de pouvoir visualiser le
contenu du KF sous différents angles, particulièrement en ce qui a trait à trois éléments.
L‘un était le potentiel d‘établir des liens sémantiques entre des notes provenant de
perspectives différentes. Un autre était la possibilité de pouvoir réorganiser les notes selon
une disposition dirigée par les forces. Un troisième était, pour deux enseignants, la
possibilité d‘afficher les notes en ordre chronologique afin voir l‘influence des notes au fil
du temps. Selon eux, ces options pourraient être particulièrement utiles pour mieux s‘y
62
retrouver dans le contenu du KF, plus spécifiquement pour mieux discriminer des groupes
de notes, et par conséquent, orienter la démarche des élèves.
À la lumière de ces observations initiales très similaires dans les trois cas, nous avons
élaboré un scénario tout aussi similaire pour la présentation du KSV aux élèves de ces
enseignants. Nous avons ciblé une ou plusieurs perspectives à présenter et y avons repéré
des situations où l‘absence de liens sémantiques forts n‘aurait idéalement pas dû se
produire. Nous allions nous en servir dans le but de piquer la curiosité et de stimuler la
réflexion des élèves lors de l‘affichage des liens sémantiques. Notons que dans la
discussion sur la façon de nommer ces liens avec les élèves, dans les trois cas les
enseignants ont convenu avec l‘étudiant-chercheur d‘utiliser l‘expression « liens d‘idées »
plutôt que « liens sémantiques » pour rendre la notion plus accessible à leurs élèves.
Par les élèves
L‘étudiant-chercheur a d‘abord présenté aux élèves deux perspectives qui avaient été
ciblées par leur enseignant, dans le mode Léger du KF, comme ils sont habitués de les voir.
Les voici :
Figure 5. Première perspective présentée selon l‘affichage habituel.
63
Figure 6. Deuxième perspective présentée selon l‘affichage habituel.
Ces perspectives ont été présentées sur un vidéoprojecteur ou un tableau numérique
interactif pour que tous les élèves voient bien puisque ces rencontres se déroulaient en
plénière. L‘enseignant et l‘étudiant-chercheur ont ensuite discuté de ce en quoi consistaient
ces perspectives, pour se rafraichir la mémoire tous ensemble.
Les premières impressions des élèves du KSV
Nous avons ensuite montré aux élèves une vue de ces mêmes perspectives, mais cette fois
dans le KSV, configuré pour reproduire visuellement le plus possible le mode Léger, c‘est-
à-dire en affichant seulement les nœuds (notes) — dans leur position originale — et les
liens explicites (liens d‘élaboration). Par contre, puisque nous combinions deux
perspectives dans la même vue, plusieurs éléments se superposaient, ce qui pouvait
compliquer la compréhension de ce visuel. Voici un exemple de ce qui a été présenté dans
une classe :
64
Figure 7. Affichage de deux perspectives superposées dans le KSV.
Nous leur avons demandé de nous dire ce qu‘ils comprenaient de ce qu‘ils voyaient, de
nous livrer leurs premières observations. À la vue de ces premiers éléments, la plupart des
élèves ont compris sans tarder qu‘il s‘agissait des mêmes notes et liens qu‘ils venaient de
voir, mais présentés différemment. Une élève a dit : « c‘est pareil qu‘on a vu, sauf que les
lignes ne sont pas pareilles. »
Dans les trois classes, des élèves ont remarqué d‘emblée que cette visualisation pouvait
représenter plus d‘une perspective. Par exemple, dans une classe, un élève expliquait :
— Élève : C‘est comme si on avait mis les deux ensemble.
— Enseignant : OK. Qu‘est-ce qui te fait dire cela?
— Élève : C‘est comme genre il y a le gros gros gros motton, et on voit… on voit 2…
il y a plein de petits mottons.
— Étudiant-chercheur : Le motton pour toi est-ce que c‘est à gauche, à droite, au
centre?
— Élève : Au centre.
— Enseignant : Ça, c‘est le gros motton? (oui) OK… Pis tu dis qu‘il y a comme des
petits mottons comme ici, ici, ici, ici?
— Élève : oui.
— Enseignant : OK! OK alors toi […] tu dis que c‘est les deux perspectives mêlées.
Dans cette classe, un élève répond qu‘il ne pense pas que plusieurs perspectives sont
présentées de façon combinée puisqu‘il n‘avait aucun lien entre elles alors que maintenant
il semble y en avoir :
Élève : Moi je dis que non parce qu‘où tu as montré tantôt ben c‘est qu‘il y en avait
un autre qui touchait.
Étudiant-chercheur : Une autre qui touchait?
Enseignant : Qu‘est-ce que tu veux dire? […]
Élève : Ben là il y a des mottons qui se touchent [et ils ne se touchaient pas avant]
65
Enseignant : Bien là il y a un motton ici. Tu vois qu‘il y a des notes qui sont
ensemble. Là, Là.
Élève : C‘est comme, il y en a un qui touchait.
Enseignant : Un qui touchait? Un? C‘est quoi un?
Élève : Une ligne
Élève 2 : Une ligne qui touche au gros je pense.
Étudiant-chercheur : OK ça touche au gros.
Une élève réplique alors qu‘elle croit elle aussi qu‘il s‘agit de deux perspectives :
— Élève : Ben c‘est que, je pense aussi que c‘est les deux qui sont mélangées parce
que les quatre ou cinq tout seuls ils sont juste là.
— [L‘étudiant-chercheur agrandit une section de l‘affichage qu‘il comparera à la
section équivalente en mode Léger]
— Enseignant : Ah... on peut zoomer.
— Étudiant-chercheur : Est-ce qu‘on va voir si ça correspond à…
— Groupe : Ah! Oui c‘est ça.
— Étudiant-chercheur : On va aller voir, on était dans la perspective « retour en travail
d‘équipe »
— Élève 2 : Ahhhhhhh! […]
— Étudiant-chercheur : On peut agrandir ou ne pas agrandir. Dans le fond est-ce que
vous pensez… est-ce que vous êtes d‘accord pour dire que c‘est les deux
perspectives ensemble?
— Groupe : Oui!
— Étudiant-chercheur : Est-ce qu‘il y en a qui ne seraient pas d‘accord?
— Élève 3 : C‘est les deux, mais ils sont tous collés ensemble
— Étudiant-chercheur : Ils sont collés ensemble?
— Élève 3 : Ce n‘est pas les petits groupes, c‘est les petits groupes et les gros groupes,
mais ils sont tous collés.
Dans les trois classes, nous avons ensuite animé le KSV pour que les notes s‘affichent
selon une disposition dirigée par forces si bien que les groupes de notes provenant de
différentes perspectives se regroupent et se distancient et, ce faisant, ne se superposent plus.
En voici une illustration :
66
Figure 8. Affichage de deux perspectives disposées par forces dans le KSV.
Cela nous a permis de convenir de leur provenance pour passer à l‘étape suivante :
— Groupe : ahh.. ils reviennent séparément.
— Enseignant : Alors, qu‘est-ce que tu remarques?
— Élève : Bien ils se sont comme tous distancés.[…]
— Élève 2 : Ça fait le gros groupe et tous les petits séparément.
— Enseignant : OK, alors on retrouve nos groupes pis toutes les petites
— Élève 3 : Les notes sont séparées.
— Enseignant : Les regroupements de notes sont séparés. OK.
— Élève 4 : Il y en a des petites qui ne sont pas collées.
— Enseignant : Il y en a qui ne sont pas collées. OK alors, c‘est excellent. Alors ce
qu‘on a retrouvé, ici ce qu‘on a fait, on a fait comme un ménage, on a fait un
ménage entre toutes nos petites notes qu‘on avait dans la deuxième perspective et la
première perspective qui était dans la perspective de départ.
— Étudiant-chercheur : On va retourner voir, ici on va se prendre un groupe, n‘importe
quel groupe de notes. Peut-être celui ici. On va remarquer les titres de notes
ensemble […]. Si on vient ici [dans le KSV], on le retrouve ici.
— […]
— Étudiant-chercheur : Alors on voit que c‘est le même groupe, mais il est affiché
différemment.
— Enseignant : Alors on comprend bien que tantôt [élève] pensait que les notes étaient
reliées […] avant qu‘on fasse le ménage, elle pensait que les notes qui se
retrouvaient un peu coincées ici étaient reliées, mais on se rend compte qu‘après
avoir fait le ménage, est-ce qu‘elles sont reliées les notes?
— Groupe : Non
— Enseignant : Alors ça, ce que tu vois, c‘est exactement les notes avec les liens des
deux perspectives qu‘on a fait tantôt, OK, qu‘on a regardées. Donc, cette personne-
là a répondu à cette personne-là, qui a répondu à elle, bon, ainsi de suite comme on
est habitués de voir. OK? À date, y a-t-il quelque chose de bien bien nouveau dans
ce que tu vois?
67
— Groupe : Non
Une fois que nous avions convenu que cette visualisation de départ dans le KSV présentait
des notes qu‘ils connaissaient ainsi que leurs liens d‘élaboration, nous avons passé à l‘étape
suivante : afficher les liens sémantiques.
À l’apparition des liens rouges, la plupart des élèves font le lien entre la
représentation visuelle et conceptuelle des liens sémantiques.
Voici une image (similarité cosinus de 0,7) de ce qui a été présenté aux élèves d‘une même
classe :
Figure 9. Affichage de deux perspectives disposées par forces
et leurs liens sémantiques dans le KSV.
Dans les trois classes, les élèves ont été questionnés sur ce qu‘ils croyaient que représentait
la nouveauté qui venait de s‘afficher. Plusieurs ont rapidement levé la main pour dire que
les lignes rouges — les liens sémantiques — représentaient une forme de liens. Par
exemple, un élève a dit d‘emblée : « Les notes qui ont des liens seraient reliées… » Nous
avons poursuivi la réflexion en les questionnant sur la raison de leur présence et ce à quoi
ils pourraient bien servir, autrement dit leur nature et leur fonction, cherchant à connaitre
s‘ils percevaient des affordances. Dans l‘ensemble des trois classes, les élèves ont proposé
des explications autour des groupes de notes, des mêmes thèmes/mots/genres, de l‘ajout
d‘information/complémentarité, de liens intermédiaires, des mêmes mots-clés, des mêmes
68
idées pouvant être exprimées dans des mots différents, et de relations contraires entre des
notes.
Lier des groupes de notes
Un élève a indiqué que les liens rouges pouvaient servir à associer des groupes de notes :
« là, il y a des liens entre les groupes », sans spécifier pourquoi. Un groupe de notes était
entendu comme un groupe d‘enfilades ayant la même note de départ. La vue d‘ensemble
peut avoir donné l‘impression que ce sont les groupes qui sont liés, mais en fait chacune
des lignes rouges relie une note à une autre note. Il est vrai cependant que plus des notes
provenant de groupes différents ont des liens sémantiques, plus ces groupes deviennent liés
sémantiquement, indirectement.
Les mêmes thèmes/mots/genres
Des élèves ont expliqué que ces liens pourraient permettre d‘associer des notes ou des
groupes de notes ayant les mêmes thèmes, les mêmes mots ou étant du même genre. Un
élève a dit :
Euh bien peut-être dans les notes, mettons que ça parle un peu de la population, bien
dans une autre note bien peut-être que ça parle en dedans de la population, peut-être
que c‘est la population. Bien dans le même genre de la population là.
Une autre élève a ajouté :
Moi c‘est comme la même affaire que celle-là, mais, c‘est que ce n‘est peut-être pas
obligé de parler exactement de la population. Il y en a une qui peut parler de la
population, mais l‘autre de l‘agriculture, mais parle aussi un peu de la population.
L’ajout d’informations ou la complémentarité
Un élève a évoqué que les liens rouges pouvaient servir à indiquer une complémentarité
entre des notes. Il disait :
C‘est pas quelque chose pareil, mais des fois, tu peux rajouter de l‘information dans
l‘autre. […] Admettons il écrit quelque chose sur la population et l‘autre écrit sur la
population, mais quelque chose de plus. Ensemble, ça fait une note complète.
Des liens intermédiaires
Des élèves ont expliqué que ces liens pourraient être présents même lorsque des notes ne
traitent pas directement les mêmes thèmes ou ne partagent pas strictement les mêmes mots.
Voici un échange que nous avons eu autour de cela :
— Enseignant : OK. Rappelez-vous tantôt, on a dit que ceux ici parlaient du commerce
et de l‘industrie et ceux parlaient ici admettons du gouvernement. […] Pourquoi
69
cette note-là qui parle peut-être du gouvernement a un lien avec celle qui parle du
commerce et de l‘industrie? Pourquoi il y a un lien entre ces deux-là?
— Élève : Parce que c‘est comme exemple si le roi il choisissait pour ça.
— Enseignant : OK, je comprends qu‘est-ce que tu veux dire. Quelqu‘un peut
expliquer plus ce que tu veux dire? [Élève 2].
— Élève 2 : Bien le commerce, c‘est genre le gouvernement qui va faire du commerce
pis tout là, qu‘est-ce qui fait bien que c‘est relié.
— Étudiant-chercheur : Ça veut dire que même si ça parle de gouvernement ici puis
qu‘ici on parle de commerce, donc, on aurait peut-être un lien parce que commerce
est là dans les deux places.
— Enseignant : OK. [Élève 3].
— Élève 3 : Bien admettons qu‘on parle de la population et que l‘autre note c‘est sur
l‘agriculture admettons, et quand dans la note sur l‘agriculture on dit que la
population a baissé, alors là l‘agriculture est moins forte, alors il y a un lien les deux
ensemble, les notes, alors le gouvernement admettons ils disent que l‘agriculture,
bien ils ne veulent plus vraiment faire de l‘agriculture parce qu‘il y a un problème
financier alors ils ne veulent plus en faire trop pour l‘instant. Alors comme ça les
notes sont reliées.
Une relation contraire
Dans une classe, un élève a soulevé que les liens rouges pouvaient indiquer une relation
contraire entre des notes. Le groupe a ensuite convenu que c‘était une explication probable;
aucun élève ne s‘est opposé à cette idée. Voici cet échange :
— Élève : Admettons, le gouvernement ils disent, comme Alexandre, de ne plus faire
trop trop admettons de plantes, les fermiers, puis là, les autres disent que ça ne fera
pas trop rouler l‘économie. Ils disent que ça ne fera pas trop rouler l‘économie,
admettons le contraire de l‘autre note.
— Enseignant : Admettons le contraire d‘une autre note, mais ils ont employé les
mêmes… […]
— Élève 2 : les mêmes mots.
— Enseignant : Ah les mêmes mots, ah OK!
— Étudiant-chercheur : Si je reformule ce qu‘on vient de dire, peut-être qu‘il peut y
avoir un lien rouge si une note dit le contraire d‘une autre note.
— Groupe : oui.
Les mêmes mots-clés
Dans les trois classes, le partage de mots-clés a été évoqué pour expliquer la présence de
liens rouges. Rappelons que le KF permet d‘énumérer des mots-clés associés à une note et
ceux qui se retrouvent dans le corps de la note y sont colorés pour être mis en évidence. Les
élèves ne faisaient pas nécessairement référence à ceux qui sont formellement énumérés de
la sorte dans le champ « mots-clés », mais ils faisaient surtout référence aux mots qui sont
clés dans le contenu d‘une note. Par exemple, une élève a dit :
70
Ben mettons c‘est comme, ils parlent, ils disent le mot population et dans l‘autre
note il y a le mot population alors ça le relie. Peut-être que c‘est aussi les mots-clés.
Dans deux des trois classes, l‘enseignant et l‘étudiant-chercheur n‘ont pas relancé
immédiatement les élèves lorsque cet élément a été évoqué puisqu‘ils allaient y revenir plus
tard.
Les mêmes idées pouvant être exprimées dans des mots différents
Des élèves ont affirmé que les liens rouges pourraient se former lorsque des notes partagent
des mêmes idées, même si elles sont formulées avec des mots différents. Par exemple, trois
élèves ont expliqué :
— Élève : C‘est comme ils veulent dire la même chose, mais ce n‘est pas les mêmes
mots.
— Enseignant : Ils veulent dire la même chose, mais ce n‘est pas les mêmes mots.
[Élève 2], [Élève 3], après cela on va continuer.
— [Élève 2] : C‘est les mêmes rapports, il y a toujours un petit lien.
— [Élève 3] : bien c‘est comme un peu [Élève], comme il disait, en même temps le
gouvernement il ne veut pas qu‘il fasse de l‘agriculture, le peuple, mais les autres ils
veulent en faire, c‘est comme les mêmes mots, mais, ils veulent faire des plantes, ils
ne sont pas d‘accord avec le gouvernement.
Pas de liens avec le temps
Dans les trois classes, lorsque les propositions d‘explications ont été épuisées, l‘étudiant-
chercheur a demandé aux élèves s‘ils croyaient que les liens rouges pouvaient avoir un lien
avec le temps. Un élève dans trois classes a affirmé que ça pouvait peut-être avoir un lien.
Sinon, dans l‘ensemble des trois groupes l‘absence de lien avec le temps a fait consensus.
Voici un échange à ce sujet à titre d‘exemple :
— Étudiant-chercheur : Je voulais savoir, est-ce qu‘il y en a qui pensent que peut-être
que ça aurait un rapport avec le temps? C‘est-à-dire si quelque les notes qui ont été
écrites il y a deux mois sont ensemble, les notes qui sont plus récentes sont
ensemble? Quand je dis ensemble, c‘est qu‘il y a un lien rouge entre les deux. Est-ce
vous pensez que ça a un rapport avec le temps?
— Groupe : Non.
Les enseignants se servent des liens rouges pour faire réfléchir les élèves à la façon de
générer des liens d’idées.
Une fois que les élèves ont proposé leurs premières explications sur la nature des liens
rouges, nous avons exploré de plus près les endroits où des liens rouges se sont affichés et
ceux où il n‘y en avait pas. Cela nous a permis de convenir avec les élèves que les liens
sont tous entre des notes et que, de façon générale, ils s‘affichent entre des notes qui traitent
71
de mêmes thèmes, de mêmes idées. Cependant, puisque les notes étaient souvent très
courtes, à savoir une seule phrase, il y avait plusieurs endroits où des liens rouges se sont
formés nonobstant des thèmes différents. Ces cas s‘expliquaient le plus souvent parce les
notes avaient un ou plusieurs mots en commun. Cela a été jalon dans l‘échange avec les
élèves; nous avons alors convenu de nommer désormais ces liens rouges des « liens
d‘idées ». Rappelons que l‘enseignant et l‘étudiant-chercheur s‘étaient préalablement
entendus pour utiliser cette appellation plutôt que « lien sémantique » de façon à rendre la
notion plus accessible aux élèves.
Maintenant que nous avions convenu qu‘il s‘agissait de liens d‘idées, les enseignants s‘en
sont servis pour faire réfléchir les élèves à la façon de les générer. Des élèves ont alors
proposé que plus il y avait de mots communs entre des notes, plus le lien d‘idées allait être
fort entre elles, si bien qu‘il faille s‘efforcer à réinvestir des mots pour les engendrer. Par
exemple, alors que l‘enseignant demandait « Et pour nous aider à avoir un lien rouge,
qu‘est-ce qui faudrait faire avec notre note? », un élève a répondu « Bien il faudrait qu‘il y
ait deux mots pareils. » Des élèves ont évoqué l‘enjeu des synonymes. De fait, plusieurs
notes traitaient du même sujet, mais il n‘y avait pas de lien sémantique entre elles, du
moins au seuil de similarité sémantique 0,75. Pour expliquer cette situation, un élève
disait : « Bien ils sont la même idée pareille, mais c‘est juste qu‘ils n‘utilisent pas les
mêmes mots-là. ». Nous avons donc réfléchi à l‘enjeu des synonymes, au sens où ils sont
importants pour l‘apprentissage de la langue, l‘enrichissement du vocabulaire, mais que
dans un contexte où les notes sont très courtes et les notes sont peu nombreuses, l‘analyse
sémantique peut difficilement associer des notes ayant des idées similaires si elles sont
exprimées avec des mots différents.
À la suite de ces échanges, deux des trois enseignants avaient des disponibilités pour aller
plus loin. Dans les deux cas, ils ont souhaité que les élèves aillent travailler à nouveau dans
une perspective existante du KF afin de générer davantage de liens d‘idées. Pour ce faire,
ils ont convenu avec les élèves qu‘il fallait porter attention aux mot-clés des notes, qu‘il
fallait les repérer et s‘efforcer de les réinvestir lorsque l‘on élabore sur ces notes. Il ne
fallait pas arrêter d‘utiliser des synonymes, mais de toujours tenter de réinvestir au moins
un mot-clé de la note d‘origine dans une élaboration. À la lumière de ces consignes, dans
l‘une des deux classes, l‘enseignant a demandé aux élèves de retravailler seulement des
72
notes existantes, alors que dans l‘autre, les élèves pouvaient aller en créer des nouvelles,
dans la mesure où elles étaient des élaborations et non de nouvelles notes de départ.
Les élèves réfléchissent à la pertinence de générer des « liens d’idées » à la lumière de
leur travail de reformulation
Les deux classes ont travaillé environ une période pour cette activité visant à réinvestir les
mots importants lors de la rédaction de notes. Après, nous sommes revenus en classe pour
faire un retour réflexif sur le travail qui venait d‘être réalisé. Dans une classe, il a été
possible de générer une nouvelle visualisation dans le KSV de la perspective qui avait été
retravaillée. La Figure 10 présente ces deux visualisations pour fins de comparaison; la
partie 1 représente deux perspectives avant le travail de reformulation (image équivalente à
la Figure 9) et la partie 2 représente ces perspectives après ledit travail.
On peut y voir que c‘est davantage la distribution des liens sémantiques — affichés
toujours au seuil de 0,7 — qui a changé, plutôt que leur quantité. Après le travail, plus de
liens sémantiques se sont retrouvés au sein de mêmes enfilades qu‘entre des notes
appartenant à de différentes enfilades. C‘est conséquent avec la nature du travail qui avait
été demandé aux élèves. En réinvestissant les mots-clés au sein des notes traitant des
mêmes sujets et en élaborant davantage les notes existantes, l‘analyse sémantique a généré
des thèmes plus spécifiques si bien que davantage de notes appartenant aux mêmes
enfilades ont été considérées similaires. Inversement, plusieurs notes auparavant similaires
ont perdu leurs liens sémantiques, le plus souvent à cause que ces liens tenaient à des
partages de mots moins significatifs s‘étant vu attribué moins d‘importance par l‘analyse
sémantique réalisée après le travail de reformulation. Aussi, plusieurs notes ont été
particulièrement développées, se distinguant davantage des autres et perdant du coup les
liens sémantiques qu‘elles avaient auparavant. Rappelons que nous entendons par la « perte
de liens sémantiques » que ces liens existent toujours, mais qu‘ils se sont vus octroyer une
force moins grande, dans ce cas-ci une force inférieure au seuil d‘affichage alors choisi
dans le KSV, 0,7.
73
Figure 10. Changement des liens sémantiques après un travail de reformulation.
C‘était la première fois que nous mettions à l‘essai le duo KFSA—KSV pour visualiser
l‘évolution des similarités sémantiques au sein d‘un espace de discours élaboré en situation
réelle de classe. Cela a permis aux élèves et l‘enseignant de voir l‘évolution de leur travail
de coélaboration de connaissances sous un nouvel angle. Ils voyaient pour la première fois
une composante visuelle, voire une rétroaction, liée à la façon dont ils rédigent les notes
dans le Knowledge Forum.
Dans les deux classes, ce retour réflexif a été une occasion de questionner les élèves au
sujet de la pertinence de générer des liens d‘idées et, plus largement, de ce qu‘ils retirent de
leur activité de reformulation.
74
D‘abord, des élèves ont dit qu‘ils avaient rédigé de meilleures notes, voire des notes plus
compréhensibles si bien que cela rend la lecture plus facile pour les autres. Par exemple, un
élève expliquait :
— Élève : Bien ça peut aussi nous servir à comprendre mieux la note.
— Étudiant-chercheur : OK. Comment?
— Élève : Il y en a un qui manquait un mot et ça faisait moins comprendre la note.
— Étudiant-chercheur : Quand tu lis la note d‘une autre personne, de comprendre
mieux ce qu‘elle voulait dire?
— Philippe : Oui comme [Élève] hier, il a dit qu‘il y a une note qui ne comprenait pas,
et il y en relut une et il l‘a comprise avec ce qu‘on avait fait, parce qu‘on avait mis
des mots de la note dedans.
Dans cette classe, une élève a renchéri en disant que cela améliorait les phrases :
Ça améliore les phrases […] Bien je ne mettais pas les mots-clés. […] Parce que
tantôt j‘écrivais ma note, sur la langue pis avec le mot « langue » bien ça fait plus un
lien.
Aussi, des élèves ont affirmé que l‘attention accrue portée aux mot-clés des notes du même
thème leur a permis de retenir davantage l‘information importante :
Ben vu que tu utilises des mots-clés, tu les regardes pis tu regardes l‘autre note pour
élaborer, tu retiens plus de l‘information importante.
Dans un même ordre d‘idées, les liens rouges ont été un élément déclencheur dans
l‘utilisation des mots-clés chez certains élèves. Certains ont dit qu‘ils y portaient très peu
d‘attention avant, mais sachant qu‘ils pouvaient maintenant servir à générer des liens
d‘idées, ils étaient plus attentifs à ceux-ci pour les réinvestir. Par exemple, un élève disait :
Avec cela je trouve que je suis plus attentif aux mots-clés pour les liens rouges, des
mots en commun, parce qu‘avant je ne regardais même pas les mots-clés et
j‘écrivais ce que je pensais. Plus attentif aux mots que je réponds, par exemple à la
question « combien il y a de population? », je suis plus attentif aux mots que tu dis
pour les réécrire.
Nous avons également réfléchi à la difficulté de travailler de la sorte. En général, les élèves
étaient d‘accord pour dire qu‘ils n‘avaient pas trouvé l‘expérience difficile, mais cela a été
tout de même le cas pour certains. Un élève a dit au sujet de la difficulté à réinvestir des
mots-clés :
Parce que quand je voulais exprimer mon idée, avec mes mots, bien les mots ne
correspondaient pas toujours avec les mêmes mots.
75
L‘enseignant a alors rappelé que ce n‘était pas obligatoire de toujours réinvestir des mots,
que parfois, lorsqu‘on a une nouvelle idée complètement éclatée, il n‘y a justement pas
nécessairement de lien direct à établir avec la note sur laquelle on élabore.
Questionnés au sujet de l‘utilité des liens d‘idées, les élèves ont principalement répondu
qu‘ils pourraient servir à voir s‘il y a un lien d‘idées assez fort entre des notes. Ils
pourraient servir à fournir une rétroaction visuelle lorsqu‘ils viennent d‘élaborer une note,
selon leur intention d‘écriture, et à repérer les notes les plus importantes, particulièrement
lors de la lecture des enfilades avec lesquelles l‘on est peu ou pas familier. Une élève disait
à ce propos :
C‘est pour qu‘il y aille des liens rouges, pour qu‘il vienne à en avoir les mêmes
mots, les mêmes choses, pour qu‘au moins tu ne sois pas obligé d‘aller lire la
question, mais juste le petit carré qui a répondu.
Dans une classe, nous avons discuté du lien avec les notes Élever le propos. Il n‘y en avait
pas dans les perspectives que les élèves ont retravaillées, mais ils ont été d‘accord pour dire
que normalement, si l‘on pouvait afficher à la fois les notes d‘origine et la note Élever le
propos qui les englobe, on pourrait voir plusieurs liens d‘idées entre celle-ci et ses notes
d‘origine. Cela pourrait servir à visualiser si une telle métanote contient un résumé d‘idées
déjà exprimées dans les notes d‘origine. Cependant, comme le mentionnait un élève, dans
l‘affichage actuel du KF où une note Élever le propos masque les notes d‘origines, nous ne
verrions pas ces liens d‘idées. Par conséquent, si cette métanote était rédigée comme un
résumé, elle pourrait avoir l‘air ponctuellement plutôt esseulée du point de vue des liens
sémantiques lorsqu‘elle viendrait d‘être créée. Cet élève disait à propos de cette éventuelle
diminution de liens sémantiques :
Pas beaucoup [de liens sémantiques] parce que ça va tout parler d‘autres sujets pour
une note.
Dans les deux classes, les élèves n‘ont pas évoqué la possibilité de réorganiser les notes
selon leurs liens sémantiques. Cela pourrait éventuellement faciliter le repérage de notes
plutôt importantes comme des notes orphelines et aider les élèves à cibler des idées sur
lesquelles travailler. Cependant, lorsque les enseignants ont questionné les élèves à ce sujet,
la majorité était d‘accord pour dire que ce pourrait être très utile. Un élève a dit que ce ne
serait pas nécessairement utile, sans toutefois être en mesure de développer son idée.
76
Dans une classe, l‘enseignant a demandé si ce devrait être seulement l‘enseignant qui voit
les liens d‘idées ou les élèves aussi. Le groupe a répondu unanimement que tout le monde
devrait pouvoir les voir :
— Enseignant : Trouvez-vous que ça devrait être juste moi qui vois ça?
— Groupe : Nous autres aussi
— Enseignant : Tout le monde?
— Groupe : oui, oui, oui.
Les élèves réfléchissent aux limites de la méthode d’analyse
Les titres
Toujours lors de ce retour en classe, une élève a demandé si la modification des titres des
notes avait eu un effet sur l‘analyse. L‘étudiant-chercheur lui a répondu que non, que pour
l‘instant le logiciel d‘analyse (sémantique) tient seulement compte du corps des notes, mais
que si c‘était souhaité par les élèves et les enseignants, il serait tout à fait possible de
modifier le logiciel pour qu‘il tienne compte des titres. L‘enseignant a alors dit qu‘il serait
souhaitable de relever le niveau des titres, de les rendre plus significatifs, car encore
souvent ils sont tout simplement « réponse », mais que pour l‘instant il était plus important
de se concentrer sur l‘amélioration du contenu même de la note.
Les nombres
Un élève a demandé que l‘analyse sémantique tienne compte des nombres. Dans son cas, la
perspective sur laquelle il travaillait porte sur l‘histoire et, en ce sens, les dates peuvent être
particulièrement signifiantes. Cet élève disait :
Bien moi c‘est pour que le logiciel prenne les nombres […] comme celle-là qui a
« 1729 » et « 1748 » et que ça ne les prenait pas parce que c‘est un nombre.
De fait, comme il en a été question au chapitre 2, la bibliothèque logicielle Gensim utilisée
par le KFSA ne tient pas compte des nombres par défaut.
L’orthographe
Des élèves sont revenus sur l‘aspect de l‘orthographe des mots. Ils ont rappelé qu‘un lien
rouge ne se formait pas nécessairement lorsqu‘un mot n‘est pas bien orthographié dans
l‘une ou l‘autre des notes, certains précisant qu‘un mot n‘ayant pas le même genre ou le
même nombre pouvait avoir le même effet. Par exemple, une élève a dit :
Mais s‘il n‘est pas bien ortho… admettons il est écrit guerre avec un « s » là, pis lui
il est écrit « guerre » pas de « s » bien il n‘y aura pas de liens rouges.
77
Cela a été une occasion de discuter qu‘ils soulevaient un élément important; la méthode
d‘analyse n‘a pas l‘intelligence d‘un humain. C‘est un logiciel qui essaie de comprendre
notre langage en faisant des estimations et il n‘a pas la capacité de gérer l‘orthographe des
mots aussi bien que nous. C‘est un prototype. L‘étudiant-chercheur a expliqué que moins il
y a de notes et plus elles sont courtes, plus l‘analyse a de la difficulté à « comprendre » les
notes. Il a expliqué aussi qu‘il existe des techniques développées pour tenter de réduire les
problèmes liés à l‘orthographe et que le fait que des classes participent à ce genre d‘étude
permet justement de mieux comprendre l‘importance de ce genre de problème et les
conditions dans lesquelles il faut s‘en préoccuper.
Idées prometteuses
Un élève a fait un lien avec l‘outil Idées prometteuses (IPROM) (Chen et al., 2012) avec
lequel sa classe avait commencé à travailler plus tôt dans l‘année. Cet outil permet
notamment de cibler dans les notes les idées apparaissant les plus prometteuses pour la
compréhension d‘une question investiguée, en les surlignant. On peut ensuite afficher les
idées ayant été les plus sélectionnées, notamment pour orienter le processus de
coélaboration de connaissances. L‘élève faisait un lien entre les idées importantes pouvant
être mises en évidences par le KSV et celles ciblées manuellement avec IPROM. Il
évoquait une limite de l‘analyse sémantique en indiquant que lorsque l‘on souhaite
vraiment mettre en évidence des idées importantes pour la communauté, on peut utiliser
IPROM. Il disait :
Quand que c‘est… quelqu‘un qui a écrit quelque chose, mais que c‘est vraiment
vraiment important qu‘on le lise, mais on pourrait le mettre en jaune.
De fait, dans l‘éventualité où les liens sémantiques tels que nous les étudions étaient utilisés
sur une base régulière, ils ne joueraient visiblement pas le même rôle que l‘outil IPROM, le
premier fonctionnant sur une base automatisée et l‘autre sur une base manuelle et délibérée.
Au demeurant, convoquer IPROM dans la réflexion sur l‘analyse sémantique comme l‘a
fait cet élève n‘est pas anodin. Ces outils pourraient vraisemblablement interagir ou se
combiner pour former un nouvel ensemble d‘outils plus puissants.
78
Usages potentiels en situation réelle de classe du KSV et d’outils
dérivés
Bien que la démarche et les résultats rapportés dans la section précédente visaient d‘abord à
répondre à notre première question de recherche, ils ont également apporté des éléments de
réponse à notre deuxième question. De fait, les discussions tenues avec les élèves et les
enseignants ont permis de repérer des usages potentiels qu‘ils pourraient faire du KSV s‘il
était mis à leur disposition pour une utilisation régulière. Dans cette section, nous traiterons
de ces usages, ainsi qu‘une deuxième phase d‘étude entreprise afin d‘explorer des outils
dérivés du KSV.
Usages repérés
Parmi les usages du KSV repérés à partir des échanges avec les élèves et les enseignants, il
y a notamment l‘incitation à rédiger des contributions plus étayées, plus spécifiquement le
réinvestissement de mots-clés utiles à la compréhension d‘une question ou de concepts
visés par le programme de formation, et le repérage d‘idées orphelines ou moins élaborées.
Les enseignants ont indiqué qu‘ils travaillent constamment à amener leurs élèves à écrire
des notes plus élaborées. Au primaire, les élèves s‘initient à l‘écriture. Ils en sont à leurs
premières armes quant à la structuration de leurs idées, l‘utilisation de mots-clés, de
concepts, de synonymes, etc. Ils ont tendance à écrire des notes courtes, d‘une ou deux
phrases. Par conséquent, comme nous l‘avons vu précédemment, les liens sémantiques sont
souvent ténus entre des notes qui ont pourtant un lien d‘élaboration. Dans ce contexte, ils
ont mentionné que tout outil pouvant étayer la démarche d‘écriture des élèves est bienvenu,
et que le KSV pourrait y contribuer. De fait, les liens sémantiques peuvent être une
affordance au sens où ils pourraient fournir une rétroaction aux élèves quant à l‘intensité
des liens d‘idées entre des notes. Les élèves pourraient vérifier si l‘intensité des liens
sémantiques, telle qu‘affichée, est conforme à leurs intentions d‘écriture, ou si, au contraire,
ils devaient élaborer davantage certaines notes.
De plus, la possibilité de réorganiser l‘affichage des notes en fonction des liens
sémantiques pourrait permettre aux élèves de mieux repérer les regroupements de notes
portant sur des thèmes similaires. Les enseignants croient que cet affichage pourrait
permettre aux élèves de repérer plus facilement des idées ayant été moins élaborées, voire
79
orphelines, si bien que cela les guide à relancer l‘investigation ou simplement faire avancer
le discours. Par exemple, les élèves pourraient se donner des objectifs de travail en fonction
de la présence ou l‘absence des liens sémantiques au sein et entre les regroupements de
notes.
Lors des visites sur le terrain, l‘étudiant-chercheur a présenté aux enseignants trois
classements issus du travail réalisé par leurs élèves depuis le début de l‘année et basés sur :
1. le nombre de mots écrits (mesure a, ou volume lexical);
2. la somme des longueurs vectorielles des notes (mesure b, ou volume sémantique);
3. la somme des longueurs vectorielles des notes multipliées par le logarithme naturel
de leur nombre de mots (mesure c, ou volume lexico-sémantique).
Nous avons alors observé que les classements 2 et 3 présentaient des résultats similaires.
L‘étudiant-chercheur leur a demandé leur avis sur le niveau de représentativité de ces
classements quant à leur évaluation de la collaboration et de la créativité de leurs élèves
dans le KF. Il leur a précisé de les regarder en tiers, soit plus grossièrement, donc en ne se
préoccupant pas de la position précise de chaque élève dans chacun de ces 3
regroupements. Dans les trois cas, les enseignants ont trouvé que les deuxième et troisième
classements étaient plus fidèles à leur évaluation que le premier. Relativement au troisième
classement, le premier enseignant a dit : « je suis étonné de voir comment je reconnais bien
mon groupe ».
Ces échanges suggéraient le caractère prometteur de l‘usage de la longueur vectorielle —
ou, plus largement, de mesures issues de l‘analyse sémantique — dans le développement de
nouvelles mesures du travail des élèves dans le KF. Cela nous a incités à entreprendre une
deuxième phase de cette étude, phase où nous allions approfondir notre étude de l‘analyse
sémantique latente afin de mieux cerner ses limites et son potentiel.
Usages potentiels et développements dérivés
Dans cette section, nous présentons des développements dérivés de notre premier objet de
recherche, le KSV. Nous explorons davantage les données de l‘ÉER avec la LSA, afin de
mieux cerner son potentiel pour fournir des données utiles à l‘évaluation formative de la
collaboration et de la créativité. Nous avons conduit des analyses sur un plus large
ensemble de données, soit les données KF de l‘ÉER de 2006 à 2012. Nous aurions alors
une meilleure idée de son potentiel et de ses limites, vu la diversité des corpus rencontrés.
80
Nous avons cherché à tirer profit au maximum de l‘ensemble de données contenant 6
années de travail dans le KF à notre disposition. Cela signifiait d‘analyser, autant que
possible, un maximum de données de cet ensemble, le poids des conclusions étant lié au
volume des statistiques obtenues. Nous avons donc développé le KFSA pour qu‘il soit
capable d‘analyser tout ce contenu, la base de données comprenant 136 926 contributions
actives (c.-à-d. non supprimées). Nous avons toutefois ignoré les annotations, le plus
souvent utilisées pour des commentaires personnels, et les notes vides. À terme, ce sont
donc 78 723 notes, réparties dans 2 718 perspectives, qui ont été analysées. Il a ainsi fallu
préparer le KFSA à créer et gérer des dizaines de millions de lignes dans sa base de
données. 511 notes ont été modifiées pour enlever toute composante autre que du langage
naturel, comme des balises HTML. Notons que, compte tenu de la préparation des données
et de la mise au point de notre méthode de décision du nombre de thèmes, le KFSA nous a
demandé plusieurs mois de travail pour parvenir à ce stade de développement.
Nous avons réalisé l‘analyse sémantique de toutes les perspectives du KF de 2006 à 2012,
chaque perspective étant modélisée comme un corpus. Les notes associées à plus d‘une
perspective ont été traitées en contexte, donc autant de fois qu‘elles étaient associées à une
perspective. Toutes les notes ont ainsi obtenu une longueur vectorielle pour chaque
contexte (c.-à-d. perspective) auquel elles appartenaient. Cela a donné 82 045 combinaisons
issues des 78 723 notes, nécessitant par ailleurs 160 heures de calculs à un ordinateur
serveur moderne.
Les résultats obtenus montrent qu‘à l‘échelle des notes, la corrélation du nombre de mots
(a) est faible avec la longueur vectorielle (b) et moyenne avec la mesure c. La relation entre
le lexical (c.-à-d. nombre de mots), ou le nombre de notes, et le sémantique, tend toutefois à
s‘intensifier sensiblement lorsque l‘on fait des regroupements à l‘échelle des auteurs et des
groupes-classes. C‘est dire que nous avons observé que le nombre de mots est un faible,
voire moyen, prédicteur de la longueur vectorielle. Contrairement à une situation où ces
mesures auraient été fortement liées, ce caractère distinct suggère la pertinence d‘étudier la
longueur vectorielle et d‘autres mesures sémantiques dérivées. Dans les sections suivantes,
nous aborderons ce résultat plus en détail et explorerons différentes mesures sémantiques
réalisées sur les données de l‘ÉER, et associées aux notes, aux perspectives, aux auteurs et
aux groupes-classes.
81
Relation entre le nombre de mots et la longueur vectorielle
Le nombre de mots contenus dans les notes est une mesure de productivité utilisée depuis
plusieurs années par la communauté d‘utilisateurs du KF. Par exemple, un outil d‘analyse
intégré au KF permet d‘obtenir l‘évolution du nombre de mots écrits par les élèves. Cela
permet d‘obtenir un indicateur simple de productivité et de contribution au discours
collectif, parmi un ou plusieurs groupes, pour une période donnée. Dans la recherche de
nouvelles mesures plus fidèles de la contribution à la coélaboration de connaissances, la
longueur vectorielle (LV) est intéressante, puisqu‘elle est une mesure des connaissances
partagées. À la lumière de nos rencontres avec les enseignants, celle-ci semblait également
une bonne piste à creuser. Nous avons donc voulu étudier la relation entre la LV (b) et le
nombre de mots (a). La figure suivante présente la relation entre a et b, toutes perspectives
confondues.
Figure 11. Relation entre le nombre de mots (a) d‘une note et sa longueur vectorielle (b).
La Figure 11 montre une relation très faible entre la longueur vectorielle et le nombre de
mots (τ=0,032, p<0,001; r=0,079, p<0,001; n=82 045). De fait, celle-ci peut avoir des
valeurs très variées sur l‘échelle de 0 à 1, peu importe le nombre de mots. On peut voir
82
néanmoins un point de bascule autour de 50 mots, à partir duquel la LV minimale a
davantage tendance à croitre avec le nombre de mots. Il s‘agit ici d‘un portrait global,
toutes perspectives confondues.
Nous avons ensuite voulu voir quelle était la relation a—b plus en contexte, c‘est-à-dire au
sein de chacune des perspectives. Nous avons ainsi calculé les coefficients de corrélation r
et τ de ces valeurs pour les 2 718 perspectives. La Figure 12 présente ces coefficients en
fonction du nombre de notes composant chaque perspective, ou la taille de ces perspectives.
Figure 12. Corrélation entre b et a au sein de chaque perspective.
La tendance générale est clairement une diminution de la corrélation avec l‘augmentation
de la taille des perspectives. La valeur moyenne de τ et de r est la même, soit -0,04, et les
valeurs sont assez dispersées (στ=0,40; σr=0,45; n=2689). Il y a légèrement plus de valeurs
négatives (58 %) que de valeurs positives (41 %). Il y a donc un peu plus de cas où la
corrélation est négative, à savoir des perspectives où la LV des notes a tendance à diminuer
alors que leur nombre de mots augmente. Cette tendance négative peut paraitre surprenante,
mais elle peut s‘expliquer en se rappelant que l‘analyse sémantique utilisée fonctionne
83
selon une approche collective. Typiquement, plus une perspective se développe, plus elle se
complexifie, se diversifie et contient du contenu marginal. Dans le cas qui nous occupe, le
contenu de ces notes plus volumineuses est probablement composé de mots ou
d‘explications rares, voire uniques, au sein du corpus. Ce contenu marginal menant à
l‘élaboration de thèmes sémantiques ayant peu de poids, il se voit attribuer en retour une
longueur vectorielle très faible. Quelques notes ayant surtout un contenu marginal et plus
volumineuses que la moyenne peuvent ainsi contribuer à ce que la corrélation soit négative.
Outre cette tendance à négativité, 66 % des valeurs sont corrélations faibles. Alors que ces
valeurs varient largement en deçà d‘une dizaine de notes, elles sont en vaste majorité
d‘intensité faible au-delà de ce nombre. Cette observation corrobore le portrait de la
relation entre b et a présenté à une échelle plus globale ci-dessus; le nombre de mots n‘est
pas un prédicteur de la LV, particulièrement dans les perspectives de plus d‘une dizaine de
notes.
Nous avons également voulu étudier la relation entre la mesure c, utilisée dans le troisième
classement présenté aux enseignants, et le nombre de mots. Comme expliqué
précédemment, la mesure c combine la longueur vectorielle à une « fraction » du nombre
de mots, soit son logarithme naturel. Logiquement, celle-ci est davantage liée au nombre de
mots que b, puisqu‘elle l‘inclut dans son calcul. La figure suivant présente le résultat global
pour l‘ensemble des données.
84
Figure 13. Relation entre le nombre de mots (a) d‘une note
et son volume lexico-sémantique (c).
De fait, on peut observer cette situation à la Figure 13 (τ=0,578, p<0,001; r=0,581,
p<0,001; n=82 046). La corrélation y est beaucoup plus élevée qu‘à la Figure 11, bien
qu‘elle soit de moyenne intensité. Là encore, pour approfondir ce résultat global, nous
avons voulu voir la relation entre ces mesures c et a au sein de chacune des perspectives.
85
Figure 14. Corrélation entre c et a au sein de chaque perspective.
Comme pour la relation entre b et a, on peut voir à la Figure 14 que la corrélation entre c et
a diminue suivant l‘augmentation de la taille d‘une perspective. L‘allure du nuage de points
est similaire, sauf que dans ce cas-ci, les valeurs sont plus élevées. Les valeurs moyennes
de τ et r sont respectivement 0,56 et 0,65 (n=2693). La dispersion des valeurs est aussi
élevée que pour la relation b-a (στ=0,40; σr=0,41). Ici aussi, les valeurs se concentrent au-
delà d‘une dizaine de documents par perspective. Ces données davantage contextualisées
présentent la même tendance que le portrait global illustré à la Figure 13, soit que la
corrélation c-a est beaucoup plus forte que b-a.
Les mesures sémantiques comme mesures des contributions individuelles et collectives
Nous avons voulu étudier comment la somme des LV de toutes les notes, ou volume
sémantique, de chaque auteur évolue par rapport au nombre de notes contribuées et au
nombre de mots qu‘ils ont écrits. Voici une première figure présentant la relation entre le
volume sémantique et le nombre de notes, pour chaque auteur. La courbe verte sert de
repère pour une relation linéaire dont le taux est un.
86
Figure 15. Relation entre le nombre de notes d‘un auteur et son volume sémantique.
On peut voir dans cette figure que la corrélation est forte entre ces deux mesures (τ=0,878,
p<0,001; r=0,989, p<0,001; n=12 396). Nous avons observé d‘ailleurs, au fil de nos
analyses, que chaque note obtient le plus souvent un minimum d‘environ 0,5 comme LV.
Par conséquent c‘est principalement l‘intervalle entre 0,5 et 1 qui semble être le plus
influencé par la quantité d‘idées partagées dans une note, en quelque sorte la zone la plus
« difficile à gagner ». Cette observation semble corroborée par ce résultat illustré à la
Figure 15. De fait, les valeurs se situent très près de la courbe de référence d‘une relation
linéaire ayant un taux de 1. Il semble donc que les auteurs ont, au terme de leur année, une
contribution sémantique assez proportionnelle au nombre de notes qu‘ils ont contribuées.
Nous observons cependant que, pour un même nombre de notes contribuées, les volumes
sémantiques peuvent typiquement varier du simple au double, suggérant des différences
notables entre les contributions des élèves.
Voyons maintenant comment la relation entre le nombre de mots écrits et le volume
sémantique évolue.
87
Figure 16. Relation entre le nombre de mots d‘un auteur son volume sémantique.
On peut voir dans cette figure que la corrélation est beaucoup moins élevée entre le nombre
de mots et le volume sémantique (τ=0,594, p<0,001; r=0,792, p<0,001; n=12 396), qu‘entre
ce dernier et le nombre de notes (cf. Figure 15). De fait, pour un même nombre de mots
contribués au terme de l‘année scolaire, la différence entre les volumes sémantiques des
auteurs est importante. Cela pourrait notamment s‘expliquer par la différence entre les
pratiques d‘écriture des élèves et de leur communauté, et par la diversité des thèmes
abordés par ceux-ci.
Nous avons également voulu examiner la relation entre ce nombre de notes par auteur, puis
deux autres mesures : le volume lexico-sémantique (c) et le volume sémantique
« normalisé » (d). Certains auteurs suggèrent que ce volume sémantique « normalisé »
pourrait être plus adéquat pour représenter la quantité d‘idées partagées dans un document
(Kintsch, 2001; Teplovs, 2010). Il consiste en la longueur vectorielle d‘un document divisé
par le nombre de mots qu‘il contient. Voici ce résultat (n=2 674) :
88
Figure 17. Relation entre le volume sémantique « normalisé » (d), le volume lexico-
sémantique (c) et le nombre de notes (a) d‘un auteur.
Cette figure permet d‘observer que le nombre de notes d‘un auteur corrèle beaucoup plus
avec le volume lexico-sémantique (c) (τ=0,796, p<0,001; r=0,964, p<0,001) qu‘avec le
volume sémantique « normalisé » (d) (τ=0,452, p<0,001; r=0,752, p<0,001). Comme nous
avons discuté précédemment, entre les mesures b et c, c‘est la mesure c qui a été jugée plus
fidèle par un enseignant pour évaluer le travail de ses élèves dans le KF. On peut voir ici
que c et d évoluent assez différemment chez un élève donné. De fait, nous avons calculé
qu‘elles corrèlent peu (τ=0,145, p<0,001; r=0,583, p<0,001).
Nous avons ensuite examiné la contribution sémantique de chaque auteur, par groupe
(collaboration intra ou interclasse). Cela tient compte de toutes les contributions de chaque
élève d‘un groupe-classe dans toutes les perspectives qu‘il a travaillées. Lorsqu‘un groupe
d‘élèves est l‘auteur d‘une note, nous avons associé la paternité12
de cette note à tous les
élèves membres de ce groupe. Nous avons calculé la somme des LV, ou volume
12
Bien que le terme « paternité » puisse être associé au sexisme ordinaire, il est
l‘équivalent français du terme anglais authorship selon l‘OQLF.
89
sémantique, et la somme du nombre de mots, ou volume lexical, des notes de chaque élève,
puis avons calculé la fraction de ces sommes par rapport à la somme de son groupe-classe,
calculant ainsi sa contribution relative sur une échelle de 0 à 1. Nous avons obtenu que
chaque élève contribue en moyenne à 7,8 % à la fois au volume sémantique et au volume
lexical de son groupe-classe. Dans l‘ensemble, puisque chaque groupe est composé en
moyenne de 13 auteurs, cela suggère que la contribution des élèves est, en ces termes, assez
équivalente au sein de leur groupe. Les valeurs étant cependant assez dispersées
(σLV=0,129; σmots=0,134), nous avons approfondi l‘analyse en comparant la fraction de
contribution sémantique de chaque élève à sa part dans le groupe. Nous entendons par
« part », la fraction que représente l‘élève par rapport au nombre d‘élèves dans son groupe.
Par exemple, chaque élève membre d‘un groupe de 20 obtient une part de 0,05. La figure
suivante présente ce résultat pour les 972 groupes analysés (n=12 401).
Figure 18. Contribution sémantique de chaque auteur selon sa part dans son groupe.
Comme la Figure 18 l‘illustre, la plupart des élèves ont une contribution sémantique
proportionnelle à leur part dans leur groupe. On observe néanmoins que plusieurs élèves se
démarquent dans leur groupe, contribuant significativement plus ou moins que leurs
90
collègues. Pour évaluer l‘ordre de grandeur dans lequel cela se manifeste, nous avons fait le
rapport entre ces mesures, obtenant ainsi un ratio entre la contribution sémantique de
l‘élève et sa part dans son groupe-classe (ratio de contribution sémantique). La moyenne de
ces ratios est de 1,00 et l‘écart-type, 0,68. En utilisant des seuils de 1,5 et 0,5, nous
observons que 15 % des élèves contribuent sémantiquement au moins à moitié plus et 19 %
au mieux à moitié moins que leur part dans leur groupe-classe. À titre comparatif, en
termes de nombre de mots, ces valeurs sont respectivement 17 % et 25 %. Ces statistiques
suggèrent une tendance selon laquelle la proportion entre le volume sémantique et le
volume lexical soit plus élevée chez les élèves qui écrivent plutôt moins.
Nous avons voulu examiner de plus près le lien entre ces deux dernières données. Suivant
la même logique que pour le ratio de contribution sémantique précédent, nous avons
calculé celui de contribution lexicale. La Figure 19 présente ce résultat. La ligne bleue sert
comme repère d‘une relation linéaire ayant un taux de 1. La ligne jaune est une courbe de
régression linéaire locale.
91
Figure 19. Comparaison des ratios de contribution sémantique et lexicale de chaque élève,
par rapport à leur groupe.
Cette figure corrobore la tendance évoquée ci-dessus, selon laquelle la proportion entre les
contributions sémantiques et lexicales soit plus élevée chez les élèves qui écrivent moins
dans un groupe. Cela pourrait s‘expliquer par plusieurs facteurs, notamment un style
d‘écriture plus concis, une propension à résumer les contributions des autres, ou encore à
réinvestir ou utiliser plusieurs mots-clés du discours sans trop développer leurs idées. À
l‘inverse, ces données suggèrent que ceux qui écrivent davantage dans un groupe ont
typiquement une contribution sémantique légèrement inférieure, proportionnellement à leur
nombre de mots. Cela pourrait s‘expliquer, entre autres, par un style d‘écriture diffus, un
non-réinvestissement des mots-clés, ou bien l‘exploration ou l‘élaboration plus fréquente
d‘idées demeurant marginales dans le discours. Il est intéressant de remarquer que la courbe
de régression passe aux environs de la position (1,1), indiquant que ceux qui écrivent
proportionnellement à leur part dans le groupe ont typiquement une contribution
sémantique équivalente. Cela dit, il s‘agit d‘une tendance générale. Le nuage de points
plutôt dispersé (σ=0,68) reflète des cas très variés.
92
Nous avons ensuite voulu étudier les données à l‘échelle des groupes-classes. Nous avons
comparé le volume sémantique des groupes à trois autres données :
1. Le nombre d‘auteurs composant le groupe;
2. Le nombre de notes contribuées au sein du groupe;
3. Le volume lexical du groupe;
4. Le volume lexical moyen des auteurs du groupe.
Parmi ces trois données, la corrélation la plus forte est, en ordre croissant, avec le volume
lexical moyen des auteurs (τ=0,504, p<0,001), le nombre d‘auteurs (τ=0,575, p<0,001), le
volume lexical du groupe (τ=0,753, p<0,001) et le nombre de notes contribuées au sein du
groupe (τ=0,931, p<0,001). L‘écart entre les valeurs associées au volume lexical du groupe
et celui individuel moyen laisse entendre une diversité notable dans la dynamique interne
des groupes.
La dynamique des groupes des points de vue sémantique et lexical
Nous nous sommes alors intéressés à la relation entre la dynamique des groupes et leur
volume sémantique. Pour ce faire, nous avons calculé les écarts-types relatifs (ETR) des
volumes lexical et sémantique des auteurs associés à un même groupe. Nous nous servons
de ces mesures comme indicateurs de la diversité des contributions des auteurs; plus ces
écarts-types sont élevés, plus il y a de disparités entre les contributions des auteurs d‘un
même groupe. Nous avons ensuite voulu étudier la relation entre ces mesures et le volume
sémantique relatif (VSR) du groupe. Ce VSR consiste en le volume sémantique du groupe
divisé par sa taille (c.-à-d. nombre d‘auteurs). L‘utilisation de ces mesures relatives permet
de comparer les groupes sur une même base, à savoir en faisant abstraction de
l‘augmentation des volumes et de la diminution des écarts-types, habituellement inhérentes
à l‘accroissement de la taille d‘un groupe. La figure suivante présente ce résultat.
93
Figure 20. Relation entre la dynamique d‘un groupe et son volume sémantique.
Cette figure illustre la variété des dynamiques de groupe (n=972) au sein de l‘ÉER de 2006
à 2012. Plusieurs groupes ont réalisé des volumes sémantiques équivalents tout en ayant
des disparités plus ou moins fortes entre les contributions individuelles. La relation entre
les deux mesures de diversité individuelle (c.-à-d. les ETR) et le VSR du groupe est
semblable. La plupart des groupes se situent dans une fourchette de VSR entre 0 et 15 et
des ETR entre 0,25 et 1,0. Néanmoins, quelques groupes se distinguent en ayant un volume
sémantique relatif beaucoup plus élevé que la majorité. Ceux-ci ont en commun une plus
grande homogénéité. Ceci suggère que les groupes ayant réalisé un volume sémantique plus
élevé étaient composés de membres contribuant de façon plutôt équilibrée. Cette tendance
n‘est pas très forte, mais tout de même présente. On peut toutefois observer que la majorité
des groupes de l‘ÉER a environ ce même degré de diversité. En ce sens, les groupes se
démarquant ont peut-être tout simplement contribué plus de notes au Knowledge Forum.
95
Chapitre 4 — Discussion
Ce chapitre se propose de discuter des résultats obtenus et de proposer de futures pistes de
recherche. Les analyses sémantiques des données de l‘ÉER réalisées ont nécessité des
développements technologiques. Revenons d‘entrée de jeu sur cet aspect de notre démarche
et comment nous avons contribué à l‘avancement de l‘analyse sémantique.
Le potentiel d’une méthode d’analyse sémantique
À la base des mesures explorées et des fonctionnalités du KSV étudiées, il y a l‘analyse
sémantique. Au final, notre étude s‘est centrée sur une méthode spécifique, l‘analyse
sémantique latente (LSA), afin de nous situer le moins possible en terrain inconnu par
rapport aux travaux de Teplovs (2010) que nous visions à poursuivre. Nous ne prétendons
pas avoir exploré toutes ses subtilités. Nous avons plutôt travaillé avec elle en la réglant de
la façon la plus permissive possible, par exemple en n‘utilisant pas de restrictions quant au
nombre d‘occurrences nécessaires afin qu‘un mot soit considéré ni de listes de mots vides à
ignorer. De cette façon, il allait être plus facile d‘étudier éventuellement l‘impact de
certains réglages en les ajoutant progressivement à l‘équation.
Là où nous pouvons prétendre avoir contribué à l‘avancement de l‘analyse sémantique,
c‘est en ce qui concerne la dimensionnalité des espaces de connaissances. Vu la rareté,
voire l‘absence, de méthodes de décision dimensionnelles éprouvées que nous aurions pu
mettre à profit dans cette étude, nous en avons développé une. Nous avons tenté de la
décrire autant suffisamment, si bien qu‘elle puisse être discutée et améliorée.
Tout au long de l‘étude, les résultats de nos analyses sémantiques nous ont paru faire sens.
Bien que nous n‘ayons pas examiné manuellement les milliers de notes analysées et leurs
relations, les occasions que nous avons eues de scruter des groupes, comme lors des
nombreux tests réalisés pour développer notre méthode de décision, ne nous ont pas
conduit à observer d‘aberrations susceptibles de discréditer nos résultats. De plus, notre
méthode a tenu le coup lorsqu‘elle a été utilisée pour analyser automatiquement quelque
3000 perspectives. Nous avons ainsi gagné progressivement confiance en ce que la LSA et
notre méthode de décision dimensionnelle peuvent bel et bien être utiles pour modéliser le
langage naturel contenu dans les notes analysées.
96
Cet avancement de l‘analyse sémantique, au départ imprévu, a été une condition sine qua
non à l‘étude des deux principales questions qui ont ancré notre démarche de recherche :
1. Quelles affordances du KSV sont perceptibles par les enseignants et les élèves de
classe primaire ayant une expérience d‘utilisation du Knowledge Forum?
2. Quels seraient les usages potentiels en situation réelle de classe du KSV et d‘outils
dérivés pour l‘évaluation formative de la collaboration et de la créativité?
Dans la première phase de notre étude, nous avons réalisé des visites en classes visant à
investiguer les affordances du KSV perçues par des élèves et des enseignants. Ces échanges
ont d‘ailleurs permis de valider que les liens sémantiques étaient plutôt intuitifs chez ces
élèves du primaire.
L’accueil fait aux liens sémantiques par les élèves
Puisque l‘adoption du KSV n‘avait pas été étudiée, nous nous questionnions sur la façon
dont les jeunes élèves allaient accueillir les liens sémantiques. Les trois enseignants étaient,
eux aussi, plutôt incertains quant à la façon dont leurs élèves allaient réagir vis-à-vis de
ceux-ci. Toutefois, à la vue de ces liens dans les trois classes, des élèves proposaient
rapidement des explications relatives à des associations entre des contenus de notes
similaires, que ce soit en termes d‘idées, de mots, de thèmes, etc. Cela ne faisait pas
nécessairement l‘unanimité, mais cette situation nous mène à conclure que l‘association
entre la représentation visuelle et conceptuelle des liens sémantiques est bel et bien à la
portée des élèves les plus jeunes. Soulignons que, dans l‘ensemble, les élèves appréciaient
avoir travaillé avec ce nouvel élément. La classe qui avait eu l‘occasion de s‘exprimer
explicitement sur la question avait notamment affirmé que les liens sémantiques ne
devraient pas être réservés qu‘aux enseignants, mais devraient être accessibles aussi aux
élèves.
La pertinence d’intégrer de nouveaux types de visualisation au
KF ou à d’autres environnements similaires
L‘accueil par les enseignants et les élèves réservé aux liens sémantiques suggère qu‘ils
peuvent constituer une composante intéressante à intégrer à des environnements comme le
KF, et ce, dès l‘âge du primaire. Au-delà de comprendre la nature fonctionnelle des liens
sémantiques, il faut que les élèves et les enseignants leur reconnaissent à tout le moins
certaines affordances afin qu‘ils puissent être utiles sur le plan pédagogique.
97
Des affordances perceptibles et leur usage potentiel
Parmi les affordances du KSV perçues, les trois enseignants ont énoncé que les liens
sémantiques pouvaient fournir une rétroaction visuelle incitant les élèves à rédiger des
notes plus complètes et plus cohérentes, en s‘efforçant de faire davantage de liens entre
leurs idées. Si nous avions anticipé que cette affordance soit perçue, nous ne nous
attendions pas à ce qu‘elle ressorte avec autant d‘importance et qu‘elle soit unanimement
reconnue parmi les enseignants. Chez les élèves, cette affordance a été perçue par plusieurs,
mais exprimée surtout en termes d‘actions : l‘élaboration de meilleures phrases et de
meilleures notes, une meilleure compréhension et rétention de l’information importante,
une attention accrue aux mots-clés [et leur] réutilisation. Ces résultats nous permettent
d‘avancer que le KSV a du potentiel pour soutenir, par ses affordances et de différentes
façons, la collaboration et la créativité, dans un contexte de coélaboration de connaissances.
Des affordances en support à la collaboration et à la créativité
Les liens sémantiques fournissaient une rétroaction visuelle
Les liens sémantiques ont fourni une rétroaction aux élèves quant au degré de proximité
entre les idées contenues dans leurs notes. Dans deux classes sur trois, les élèves s‘en sont
servis comme repères pour vérifier l‘adéquation entre leur intention d‘écriture initiale et
une contribution produite. Parallèlement, les liens sémantiques ont étayé la démarche de
plusieurs élèves en les incitant à réinvestir certaines idées dans de nouvelles notes. Des
élèves se sont notamment exprimés sur cette démarche en termes d’utilisation des mots-
clés.
Bien souvent, dans les corpus des classes rencontrées, les élèves remettaient peu ou pas en
contexte les nouveaux questionnements ou les nouvelles explications qu‘ils avaient
contribués lors de l‘écriture d‘une note. Les trois enseignants ont d‘ailleurs indiqué que
c‘est un aspect qu‘ils souhaitaient vivement travailler avec leurs élèves. Nous avons pu
observer ses effets, comme des cas où le lien sémantique entre deux notes est très faible
alors que celles-ci sont explicitement liées. Il y avait aussi des cas où des notes abordaient
des idées discutées dans d‘autres notes situées à d‘autres niveaux de l‘enfilade ou dans
d‘autres enfilades, mais entre lesquelles la relation sémantique était très faible. Dans ces
98
situations, les élèves n‘étant pas satisfaits de la quantité ou de l‘intensité des liens
sémantiques associés à une contribution ont alors été incités à l‘améliorer.
Plusieurs élèves ont ainsi été amenés à bonifier le volume et la qualité des associations
faites entre différentes idées. Ce faisant, les liens sémantiques ont contribué à cultiver leur
créativité et leur collaboration. De fait, en développant des associations entre différentes
idées, ces élèves exerçaient leur créativité. En faisant avancer le discours collectif de la
sorte, notamment en développant les idées des autres, ces élèves collaboraient. De plus, des
élèves ont dit qu‘une meilleure formulation des idées concourait à ce qu‘une note soit
mieux comprise par les autres, incitant ceux-ci, à leur tour, à collaborer à faire avancer ces
idées.
Nous en déduisons que cette affordance des liens sémantiques peut contribuer positivement
à la spirale de collaboration et de créativité qui est au cœur de la démarche de coélaboration
de connaissances.
La réorganisation des notes aide à décider du prochain geste
La possibilité de réorganiser les notes, notamment selon une disposition dirigée par les
forces, est aussi une affordance perçue par les enseignants par plusieurs élèves. Parmi les
élèves, aucun ne s‘est exprimé sur la réorganisation des notes avant que leur enseignant ne
leur pose une question à ce sujet. Soulignons que les questions posées aux élèves étaient
surtout liées directement aux liens sémantiques. Lorsque l‘enseignant leur a demandé leur
avis sur l‘usage potentiel de la réorganisation des notes selon les liens sémantiques, comme
aide pour choisir des idées sur lesquelles travailler, la majorité des élèves était d‘avis que ce
pourrait être très utile. Ils n‘ont toutefois pas eu l‘occasion de manipuler directement le
KSV. Pour juger ainsi de leur utilité potentielle, les élèves se basaient sur les
réorganisations dont ils ont été témoins, sur la suggestion d‘usages comprise dans la
question, sur leur expérience d‘utilisation du KF et sur l‘ensemble des échanges tenus
autour du KSV.
Par ailleurs, les enseignants ont souligné qu‘il serait utile de pouvoir non seulement
visualiser plusieurs perspectives au sein d‘une même vue, mais de pouvoir aussi voir les
liens sémantiques qui les transcendent, permettant ainsi de briser leurs frontières et
d‘effectuer des associations entre les notes de celles-ci. Soulignons que plusieurs élèves ont
99
compris rapidement que le KSV pouvait afficher plus d‘une perspective, à la vue de ses
premières images présentées en classe. Par la suite, certains observaient que des liens
sémantiques connectaient des notes provenant de perspectives distinctes. Certains élèves
ont probablement réfléchi aux usages possibles de ces liens inter-perspectives. Toutefois,
n‘ayant pas été amenés à s‘exprimer davantage sur la question, nous ne savons pas s‘ils ont
tenu compte des liens inter-perspectives lorsqu‘ils jugeaient de l‘utilité de la réorganisation
de notes.
En somme, nous en déduisons que les élèves pourraient utiliser la réorganisation ponctuelle
des notes pour repérer plus facilement, d‘une part, les thèmes importants, inférés à partir
des groupes de notes très liés sémantiquement et, d‘autre part, les idées orphelines, inférées
à partir des notes ayant peu, pas, ou de très faibles liens sémantiques. Ce repérage pourrait
ensuite les aider à décider du prochain geste à faire pour faire avancer le discours. Ils
pourraient par exemple décider s‘ils vont démarrer une nouvelle enfilade, contribuer une
note dans une enfilade existante, élaborer une note orpheline ou améliorer une note
existante.
Les visites en classe ont également été le point de départ d‘un autre volet de cette étude.
Les analyses sémantiques réalisées en amont du KSV nous avaient inspiré d‘explorer le
potentiel de l‘analyse sémantique pour concevoir de nouvelles mesures de la collaboration
et de la créativité. Les échanges que nous avions eus avec les enseignants autour de nos
premières explorations en la matière nous avaient convaincus de creuser cette piste.
Des analyses sémantiques des données de l’ÉER informant la
conception de mesures de la collaboration et de la créativité
Pour rappel, la méthode d‘analyse sémantique utilisée dans cette étude, la LSA, produit
principalement deux mesures : la similarité de chaque paire de documents et la longueur
vectorielle de chaque document, cette dernière représentant la quantité d‘idées partagées.
Nous voulions étudier le potentiel de la longueur vectorielle pour la conception de
nouvelles mesures de la collaboration et de la créativité. Pour ce faire, nous avons
développé notre logiciel KFSA afin qu‘il puisse réaliser, de façon automatisée, des analyses
sémantiques sur toutes les données du KF de l‘ÉER de 2006 à 2012. C‘est ainsi que
100
chacune des 2718 perspectives, comprenant ensemble 78 723 notes, a été modélisée comme
un corpus.
À partir de ces nouvelles données sémantiques, nous avons notamment étudié, sous
différents angles, comment la longueur vectorielle et des mesures associées, évoluent en
fonction de mesures simples, comme le nombre de notes et le nombre de mots. Nous avons
aussi exploré comment la participation ou la contribution des auteurs, de même que les
dynamiques de groupe, se traduisaient d‘un point de vue sémantique.
Les mesures sémantiques décrivant les notes et les contributions
individuelles et collectives se distinguaient des mesures simples
À l‘échelle des notes, nos résultats suggéraient qu‘une mesure sémantique fondamentale, la
longueur vectorielle, se distinguait du nombre de mots. Toutes perspectives confondues, le
coefficient de corrélation de Kendall (τ) entre le nombre de mots compris dans une note et
la longueur vectorielle de cette note était de 0,032 (n=82 045) (cf. Figure 11). Cependant,
cette statistique était dérivée de données étant considérées hors de leur contexte initial, soit
celui de la perspective à laquelle elles sont associées. Cette statistique constituait donc une
première vue d‘ensemble.
Nous avons ensuite calculé leur corrélation en contexte, c‘est-à-dire au sein de chacune des
perspectives (cf. Figure 12). Ceci permettait d‘observer, d‘une part, que leur corrélation
était principalement faible, le τ moyen étant -0,04. D‘autre part, cette corrélation avait
clairement tendance alors que la taille des perspectives augmentait. Nous observions aussi
que la corrélation était négative pour environ une perspective sur deux. Ces deux
statistiques nous amènent à conclure que le nombre de mots contenus dans une note prédit
très peu la contribution sémantique de cette note. Cela ne nous parait pas illogique, car
d‘une part, il y a une grande diversité de sujets abordés dans les six années de données
analysées et, d‘autre part, les pratiques d‘investigation et d‘écriture au sein et entre les
communautés d‘élaboration de connaissances peuvent varier grandement. Par conséquent,
il est tout à fait cohérent que la quantité d‘idées partagées par une note ne soit pas très liée
au nombre de mots qu‘elle contient. En outre, ce résultat nous suggère que nos analyses
sémantiques se sont effectivement adaptées, dans une certaine mesure, au contexte des
perspectives.
101
Les corrélations entre les mesures sémantiques et les mesures simples s‘intensifiaient
toutefois lorsque nous les examinions à l‘échelle individuelle et collective. Nous avons
réalisé des regroupements comme la somme des mots écrits (volume lexical), la somme des
longueurs vectorielles des notes contribuées (volume sémantique) et la quantité de notes
contribuées, à la fois par auteur et par groupe. À l‘échelle individuelle, le volume
sémantique était lié plus fortement avec le nombre de notes (τ=0,878; cf. Figure 15)
qu‘avec le nombre de mots écrits (τ=0,594; cf. Figure 16). À l‘échelle des groupes, ces
valeurs augmentaient passablement, la corrélation du volume sémantique demeurant là
aussi plus forte avec le nombre de notes contribuées par le groupe (τ=0,931) qu‘avec le
volume lexical du groupe (τ=0,753).
Chez les auteurs, nous observions aussi que la relation entre le nombre de notes (a) et le
volume lexico-sémantique (c) est passablement différente de celle avec le volume
sémantique « normalisé » (d) (cf. Figure 17). Alors que c était une mesure jugée fidèle par
un enseignant et que les écrits scientifiques suggèrent que d soit représentative de la
quantité d‘idées partagées (Kintsch, 2001), nous nous questionnons sur leur pertinence et
leur utilité relative.
À la lumière des résultats précédents, nous observons qu‘entre l‘échelle individuelle et
collective, c‘est la relation entre les volumes sémantique et lexical qui s‘intensifiait le plus.
C‘est dire qu‘à l‘échelle collective, la quantité d‘idées partagées est particulièrement plus
liée au nombre de mots écrits qu‘à l‘échelle individuelle. Nous en déduisons que le point de
vue sémantique collectif semble davantage aplanir les différences individuelles quant au
nombre de mots qu‘au nombre de notes utilisés pour exprimer des idées.
En somme, les corrélations entre les mesures sémantiques et les mesures simples oscillaient
entre des valeurs faibles, moyennes et fortes. De plus, pour la plupart des relations, la
dispersion des données était assez élevée. Cette complexité observée chez ces différentes
relations statistiques nous porte à conclure que les mesures sémantiques se distinguent des
mesures simples. Contrairement à une situation où ces mesures avaient été très liées, et où
aucune n‘avait été reçue positivement par les enseignants, nos résultats nous portent à
croire que les mesures sémantiques ont un potentiel intéressant pour le développement de
nouvelles mesures de la collaboration et de la créativité.
102
Implications pédagogiques
Cette section proposera quelques implications pédagogiques découlant de nos résultats.
Nous discuterons d‘abord de celles plus proximales, liées au modèle pédagogique qui est au
cœur de l‘École en réseau. Par la suite, nous aborderons des implications pédagogiques plus
larges, autour des méthodologies d‘évaluation de la résolution collaborative de problèmes
et du pouvoir transformatif et émancipatoire des technologies dans l‘apprentissage.
L’avancement du modèle pédagogique au cœur de l’ÉER
Usages potentiels et développements envisagés du KSV ou d’outils similaires
Les résultats des visites en classe montrent que les élèves et les enseignants ont perçu des
affordances du KSV. Nous croyons que ces affordances perçues par ceux-ci pourraient se
traduire en usages réels par les classes de l‘École en réseau, certains usages ayant été
discutés précédemment dans ce chapitre. Puisque le KSV est un prototype d‘interface, il ne
peut pas être utilisé dans un avenir immédiat par ceux-ci. Ses différentes fonctionnalités
pourraient toutefois être implémentées dans une prochaine version du Knowledge Forum ou
dans d‘autres environnements de coélaboration de connaissances. Dans cette éventualité, et
à la lumière de ses affordances perçues, nous envisageons certains usages que les
collaborateurs pourraient en faire, et leurs implications pédagogiques.
Mise à l’échelle des notes selon leur volume d’idées partagées
Nous avons discuté que les enseignants et les élèves ont perçu qu‘ils pourraient utiliser les
liens sémantiques entre notes comme rétroaction de l‘adéquation entre leurs intentions et
leur contribution « réelle » au discours collectif. Nous croyons que la mise à l‘échelle des
notes, suivant leur longueur vectorielle, pourrait se traduire en une affordance similaire. De
fait, le KSV permet d‘attribuer une taille visuelle différente aux notes en fonction de leur
nombre de mots ou de leur longueur vectorielle (cf. Figure 2). Considérons une situation où
un collaborateur vient d‘écrire une note se voulant une mise en commun, voire un résumé,
de notes existantes. Cette nouvelle note devrait alors avoir non seulement des liens
sémantiques forts avec ces notes ayant des idées communes, mais avoir aussi une taille
relativement grande par rapport à celles-ci.
Cette mise à l‘échelle pourrait aussi être particulièrement utile relativement aux notes de
type Élever le propos. Dans la version actuelle du KF, lorsque ces notes sont créées, les
103
notes qu‘elles englobent se masquent. Puisqu‘elles visent typiquement à en résumer
d‘autres, on peut s‘attendre à ce qu‘elles n‘aient pas beaucoup de liens sémantiques, du
moins au moment de leur création. La mise à l‘échelle des notes pourrait alors s‘avérer utile
en indiquant qu‘une note Élever le propos contient plusieurs idées partagées malgré une
situation où peu de liens sémantiques s‘y connectent. Nous notons que les liens
sémantiques pourraient être utiles en amont de la création de ces notes Élever le propos, en
aidant à repérer les notes partageant des idées similaires, et en facilitant du coup la sélection
des idées à intégrer.
Rappelons aussi que le KSV permet de colorer les notes par auteur. En ce sens, nous
croyons que les collaborateurs pourraient effectivement se servir d‘une telle mise à
l‘échelle des notes et cette coloration pour leur fournir des repères et des rétroactions
supplémentaires afin d‘orienter leur démarche. Cela pourrait notamment alimenter la
réflexion des élèves quant à leur collaboration et leur créativité lorsqu‘ils réfléchissent à des
questions comme :
- Est-ce que je réinvestis suffisamment les idées de mes collègues?
- Est-ce que j‘apporte suffisamment de nouvelles idées?
- Est-ce que les idées que j‘apporte influencent suffisamment le discours collectif?
Sinon, comment puis-je les promouvoir et les développer davantage?
Notons que ces questions peuvent également être formulées « au nous ». En ce sens, les
classes pourraient également se servir de ces repères et rétroactions supplémentaires pour
formuler des objectifs lorsqu‘elles font des retours réflexifs en plénière.
Éroder les frontières des perspectives et connecter les communautés
Habituellement, les différents thèmes investigués par les communautés d‘élaboration de
connaissances de l‘ÉER sont structurés dans différentes perspectives du KF. Ces
communautés vont souvent créer des sous-perspectives pour investiguer des sous-thèmes
plus spécifiques ou pour diviser le travail entre équipes expertes. Ces « sous-perspectives »
peuvent aussi servir à diviser un thème dans le temps, comme dans le scénario pédagogique
sur lequel nous sommes revenus dans la classe de l‘enseignant A, alors que deux
perspectives servaient à distinguer ce qui a précédé et succédé un évènement historique.
Comme nous avons discuté, les enseignants ont souligné que les liens sémantiques
transcendant les perspectives pourraient être utiles. Ces dernières ne sont cependant pas
104
complètement étanches dans la version actuelle du KF. De fait, il est possible de copier-
coller des notes entre perspectives et de référer, au sein d‘une note, d‘autres notes
provenant de n‘importe quelle perspective de la même base de connaissances. Par contre,
lorsqu‘on élabore une note ayant été copiée de la sorte, il n‘y a pas de lien vers l‘enfilade
d‘origine visible dans la perspective de destination. Les liens sémantiques inter-
perspectives présentent alors le potentiel de pouvoir briser l‘hermétisme relatif des
perspectives. Ce faisant, il serait plus facile pour les collaborateurs de naviguer entre les
perspectives, en suivant les liens sémantiques les menant vers d‘autres notes portant sur des
thèmes ou des idées similaires.
D‘ailleurs, considérant la grande quantité de notes pouvant être contenues dans une base de
connaissances, il faudrait alors vraisemblablement concevoir une interface plus
sophistiquée que celle actuellement offerte par le KSV. Puisqu‘elle présente toutes les
perspectives à la même échelle, elle serait susceptible d‘être rapidement saturée. Pour que
la navigation soit conviviale, il faudrait probablement introduire une troisième dimension.
On pourrait par exemple utiliser un effet de profondeur pour disposer les différentes
perspectives de façon plus ou moins distantes de la perspective sur laquelle la vue active
serait focalisée. De façon analogue à la disposition dirigée par les forces du KSV, la
proximité visuelle des perspectives serait basée sur l‘analyse sémantique. Dans cette
optique, on pourrait même penser que la notion de perspective pourrait s‘effacer, laissant la
disposition des notes se construire uniquement à partir des liens sémantiques et explicites
unissant les différents éléments de l‘espace de connaissances.
En atténuant, voire en éliminant, les frontières entre les perspectives, et même les bases de
connaissances, les collaborateurs seraient incités à interagir avec davantage d‘idées, étayant
du coup leur démarche collaborative et créative. Dans un réseau de communautés
d‘apprentissages comme l‘ÉER, cela pourrait mener à une augmentation des interactions
entre communautés. Bien que les classes de l‘ÉER fassent officiellement toutes partie du
même réseau, elles ne se connaissent pas toutes et plusieurs n‘ont pas d‘interactions avec
d‘autres classes provenant d‘une autre commission scolaire. Une connexion sémantique
entre leurs espaces de connaissances et un environnement permettant d‘y naviguer de façon
conviviale pourraient leur permettre d‘entrer en contact et de collaborer. Sans
nécessairement collaborer, cela pourrait à tout le moins leur permettre d‘accéder aux
105
artéfacts d‘autres communautés ayant travaillé sur le ou les mêmes thèmes. C‘est dire que
les liens sémantiques pourraient mener à activer la collaboration entre des élèves et des
classes travaillant autour d‘un même thème, sans lesquelles elles continueraient à ignorer
tout l‘une de l‘autre.
Visualiser l’évolution d’une perspective et la trajectoire des idées
Comme l‘illustre la figure suivante, le KSV permet d‘afficher le contenu d‘une perspective
de façon chronologique. Dans cette figure, les notes sont colorées selon leur auteur et ce
sont seulement leurs liens sémantiques qui sont affichés.
Figure 21. Affichage chronologique et coloration par auteur dans le KSV.
Le KSV offre une glissière permettant de se déplacer dans le temps pour revoir le fil des
évènements en faisant apparaitre ou disparaitre progressivement les objets et les liens qui
les unissent. Si elle était intégrée au KF, cette vue pourrait notamment permettre aux élèves
de voir, à travers le temps, comment les idées contenues dans leurs notes ont influencé et
intégré le discours collectif. En conséquence, nous croyons que la visualisation des notes
dans un ordre chronologique pourrait constituer un outil de navigation et de métacognition
supplémentaire pour les collaborateurs.
Rappelons également que lors des visites en classe, un élève a évoqué l‘outil Idées
prometteuses (IPROM) (Chen et al., 2012). Il expliquait alors une limite du KSV selon
laquelle on ne peut pas manuellement mettre en évidence des idées importantes pour la
communauté. Pour ce faire, il mentionnait que l‘on peut utiliser l‘outil IPROM. Cet outil
comprend un ensemble de nouvelles fonctionnalités, intégrées au KF mais toujours en
106
développement, dont l‘adoption et le potentiel pédagogique font actuellement l‘objet de
recherches. Il permet aux collaborateurs de sélectionner des idées prometteuses au sein des
notes. La communauté peut ensuite les lister de façon à orienter sa démarche. On peut
notamment créer de nouvelles perspectives à partir de certaines idées prometteuses, et ainsi,
aller creuser certaines pistes et ouvrir de nouveaux horizons.
Nous croyons qu‘une certaine combinaison de fonctionnalités d‘IPROM et du KSV
pourrait être féconde; l‘analyse sémantique pourrait tenir compte des idées prometteuses
sélectionnées par les élèves. De façon analogue à la vue chronologique présentée à la
Figure 21, les idées prometteuses pourraient devenir des objets visibles dans l‘espace de
connaissances, au même titre que les notes. On pourrait alors, entre autres, visualiser à
postériori si une idée jugée prometteuse à un temps donné a effectivement influencé et
intégré le discours collectif. Nous croyons que cet élément pourrait, lui aussi, nourrir la
métacognition des collaborateurs quant au prochain geste à poser.
Usages des mesures sémantiques
Nous croyons que plusieurs usages, en situation réelle de classe, pourraient découler des
différentes mesures sémantiques explorées dans cette étude. N‘étant pas accessibles aux
élèves et aux enseignants dans l‘immédiat, elles pourraient néanmoins être rendues
accessibles par un éventuel outil intégré au KF ou par un dispositif externe à ce dernier. Les
élèves et les enseignants pourraient utiliser ces mesures pour informer l‘évaluation
formative de leur collaboration et leur créativité, et ce, à l‘échelle individuelle et collective.
Les résultats concernant les mesures des contributions individuelles et collectives, et les
dynamiques de groupe ont permis de faire quelques observations.
D‘abord, règle générale, la plupart des élèves avaient, au terme d‘une année scolaire, une
contribution sémantique proportionnelle à leur part dans leur groupe. Cependant, nous
avons observé que, peu importe le nombre d‘élèves qui constituaient un groupe-classe, il y
avait typiquement plusieurs élèves ayant eu une contribution sémantique particulièrement
plus élevée ou moins élevée que la moyenne (cf. Figure 18). En ce sens, tous groupes
confondus, nous avons observé que 15 % des élèves contribuaient sémantiquement au
moins à moitié plus et 19 % au mieux à moitié moins que leur part dans leur groupe-classe.
Nous observions également une tendance selon laquelle la proportion entre le volume
107
sémantique et le volume lexical était plus élevée chez les élèves qui avaient écrit plutôt
moins (cf. Figure 19). De plus, nous avons observé une grande diversité dans les
dynamiques de groupe, où il y avait une légère tendance selon laquelle les groupes ayant
réalisé un volume sémantique plus élevé étaient composés de membres contribuant de
façon plutôt équilibrée, et ce, des points de vue lexical et sémantique (cf. Figure 20).
Toutefois, dans l‘ÉER, les élèves d‘une classe ne travaillent pas uniquement entre eux. Il y
a de la collaboration interclasse et de nombreuses classes multiâges dans lesquelles les
élèves d‘un même niveau collaborent surtout avec d‘autres élèves du même niveau
provenant d‘autres classes. Aussi, les élèves ont des styles d‘apprentissage différents et
n‘ont pas le même degré de motivation vis-à-vis de certains thèmes, ces éléments pouvant
d‘ailleurs évoluer en cours d‘année. Cela nous mène alors à nous questionner sur les
portions de ces résultats pouvant s‘expliquer, d‘une part, par des facteurs humains et
associés à l‘apprentissage, comme le style d‘écriture (c.-à-d. diffus ou concis), le style
d‘investigation (c.-à-d. propension à amener de nouvelles idées ou à associer celles des
autres) et les thèmes investigués (c.-à-d. la quantité de thèmes investigués et le nombre plus
ou moins élevé de mots nécessaires pour exprimer des idées associées à certaines notions)
et, d‘autre part, par des facteurs technologiques liés à la méthode d‘analyse sémantique
utilisée (c.-à-d. limites de la méthode).
Cependant, comme toute mesure, celles abordées dans cette étude pourront être raffinées.
Nous croyons qu‘elles constituent un bon point de départ pour enrichir l‘évaluation
formative de la collaboration et de la créativité en l‘abordant sous un nouvel angle, celui de
l‘analyse sémantique. Considérant la complexité des facteurs évoqués ci-dessus, il faudra
vraisemblablement tenter d‘établir des profils individuels et collectifs pour raffiner la
modéliser du travail des apprenants et de leur(s) communauté(s).
Néanmoins, puisque nous croyons que les mesures explorées font sens, nous croyons
qu‘elles pourraient être utilisées dans un avenir rapproché par les élèves et les enseignants
en les invitant à les juger en contexte, notamment en les relativisant en fonction de leur
style d‘apprentissage, des thèmes investigués et de leur dynamique communautaire. Par
exemple, les élèves pourraient se servir de leur ratio de volume sémantique (par rapport au
nombre de mots ou de notes qu‘ils ont contribués) et leur ratio de contribution sémantique
108
(au sein de leur groupe ou communauté) pour évaluer si ils ont effectivement contribué
suffisamment de nouvelles idées et développé suffisamment d‘idées de leurs collaborateurs,
et ce, en fonction de leurs intentions initiales. Aussi, les enseignants pourraient se servir de
ces mesures comme base pour faire des bilans collectifs et individuels, à différents
moments, comme plusieurs le font déjà d‘ailleurs dans l‘ÉER avec des mesures
actuellement disponibles. Plus il y a de traces, d‘indicateurs, de mesures, plus on peut
raffiner le suivi et informer le jugement de la progression des élèves. En somme, nous
croyons que les nouvelles mesures sémantiques étudiées pourraient permettre aux élèves et
aux enseignants de mieux comprendre et évaluer leur dynamique de coélaboration de
connaissances et du coup, étayer leur démarche.
L’avancement des méthodologies d’évaluation de la résolution
collaborative de problèmes
Comme nous l‘avons présenté au premier chapitre, l‘édition 2015 du programme PISA
inclura une nouvelle compétence : l‘évaluation de la résolution collaborative de problèmes.
Le collectif ATC21S en est d‘ailleurs à travailler à en développer des méthodologies
d‘évaluation, supportées par les technologies de l‘information et de la communication
(TIC). Ce collectif appelait également la communauté scientifique à creuser cette piste de
recherche.
Nos résultats suggèrent que les visualisations offertes par le KSV peuvent être utiles pour
orienter la démarche collaborative et créative des élèves, et sont à la portée des élèves du
primaire. Nous concluons également que les mesures sémantiques étudiées peuvent fournir
des indicateurs prometteurs pour comprendre et suivre la démarche de coélaboration de
connaissances. D‘ailleurs, consistant à chercher collectivement des réponses à des
problèmes authentiques, cette démarche de coélaboration de connaissances est bien souvent
de l‘ordre de la résolution collaborative de problèmes. Dans cette optique, nous croyons
que cette étude constitue un pas de plus vers l‘élaboration de ses méthodologies
d‘évaluation et pourrait contribuer à mieux préparer des élèves au programme d‘évaluation
PISA 2015.
109
La valorisation du pouvoir transformatif et émancipatoire des
technologies dans l’apprentissage
L‘apprentissage transformatif considère les apprenants comme des constructeurs de
connaissances actifs plutôt que des récepteurs d‘information. Ce processus implique « la
transformation des cadres de références d‘un apprenant par la réflexion critique sur ses
présuppositions, la validation de la remise en cause de ses croyances par le discours et la
considération des apports réflexifs des autres, en les évaluant de façon critique » (Mezirow,
1997). L‘émancipation consiste à l‘augmentation du pouvoir d‘agir (empowerment) des
individus.
En ce sens, la coélaboration de connaissances vise vivement à favoriser la transformation et
l‘émancipation des apprenants. Cependant, comme nous avons discuté au premier chapitre,
cette approche pédagogique a tendance à entrer en friction avec celles actuellement
dominantes en milieu scolaire. Nous croyons ainsi que les résultats de cette étude peuvent
contribuer à renforcir son potentiel de mise en œuvre en milieu scolaire, en fournissant
notamment davantage d‘outils et de mesures pour le suivi de la progression des élèves
quant à leur développement de compétences du 21e siècle. Tout en visant à venir appuyer le
jugement humain, les outils et mesures étudiées étaient fondamentalement technologiques.
Nous croyons donc qu‘ils contribuent à valoriser le pouvoir transformatif et émancipatoire
des technologies dans l‘apprentissage (Engeström & Middleton, 1998).
Futures pistes de recherche
Cette étude ne fait pas exception à la règle : elle apporte des pistes de solutions, mais elle
suggère également des pistes de recherche découlant des questions étudiées et des résultats
obtenus.
Pour l’avancement des méthodes d’analyse sémantique
Tel que discuté, les mesures subséquentes réalisées dans un corpus, comme les similarités
sémantiques et les longueurs vectorielles sont tributaires du nombre de thèmes choisis. Si
les corpus avaient été très volumineux, nous aurions pu travailler avec un nombre de
thèmes optimal documenté dans les écrits scientifiques. Cependant, les corpus à analyser
étaient relativement petits, soit un contexte très peu documenté.
110
Il serait donc pertinent de poursuivre la recherche si bien que des conventions relatives à
l‘analyse sémantique de petits corpus et la dimensionnalité des espaces connaissances
puissent être élaborées. De telles conventions pourraient faciliter la comparaison des
résultats d‘études similaires à celle-ci et, parallèlement, mener à l‘élaboration de repères et
de trajectoires quant à la progression des compétences de créativité et de collaboration.
Aussi, puisque nous n‘avons exploré qu‘une seule méthode d‘analyse sémantique, il serait
profitable d‘analyser le même ensemble de données, comme d‘autres, avec différentes
méthodes (p. ex. LDA) et de comparer les résultats. D‘ailleurs, le développement de ces
méthodes s‘est accéléré, notamment chez celles destinées à la modélisation de l‘anglais. Il
serait aussi intéressant de comparer des résultats d‘analyses en mode autoréférencié,
comme nous l‘avons fait, à ceux d‘analyses utilisant des corpus de référence externes (p.
ex., discours d‘experts, encyclopédies). De telles comparaisons entre analyses sémantiques,
combinées à des jugements humains de mesures sémantiques, pourraient également
contribuer à établir la validité des mesures sémantiques étudiées.
Pour des mesures de « progression »
Les élèves et les enseignants pourraient bénéficier de l‘utilisation de portraits évolutifs pour
évaluer, à certains moments clés, l‘évolution de leur démarche collaborative et créative.
Cela pourrait leur permettre de mieux évaluer comment et si les idées qu‘ils ont contribuées
ont fait avancer le discours collectif et, au besoin, de modifier leur démarche. Lors de nos
visites en classes, nous avons pu visualiser la modification des liens sémantiques dans le
KSV suite à un travail de reformulation de notes existantes ou de contributions de
nouvelles notes. Cependant, les mesures sémantiques étudiées subséquemment se sont
centrées sur l‘état final des données. De fait, nous avons analysé les perspectives
uniquement à leur état final et nous avons considéré l‘ensemble du travail des élèves au
terme de leur année scolaire. Par conséquent, il serait intéressant d‘étudier la progression,
dans le temps, du discours collectif par différentes mesures sémantiques.
D‘ailleurs, dans l‘ensemble de données utilisées pour nos analyses, il pourrait être possible
d‘associer des données d‘un même élève étant actuellement disséminées dans des bases de
connaissances différentes, sur plusieurs années scolaires. Cette considération de la
temporalité des données pourrait contribuer à identifier des profils et des trajectoires de
111
collaboration et de créativité typiques d‘élèves et de communautés, et ce, selon certaines
années scolaires et selon certaines modalités de collaboration (p. ex. intra ou inter-
commission scolaire, international, langue de travail).
En outre, l‘étude des trajectoires collaboratives et créatives pourrait permettre de mieux
comprendre les dynamiques des communautés lorsqu‘elles sont en situation de résolution
collaborative de problèmes et par conséquent, d‘en informer la conception de
méthodologies d‘évaluation.
112
Conclusion
Cette étude a cherché à identifier des affordances du KSV perçues par les participants de
cette étude et, d‘autre part, en des usages potentiels qu‘on pourrait en faire, de même que
ceux d‘outils de mesures dérivés, dans une optique de soutien au développement de deux
des compétences dites du 21e siècle. Elle contribue également au développement de la
discipline de l‘analyse de l‘apprentissage, notamment dans son volet de données destinées
aux apprenants.
L‘analyse des traces numériques associées à la progression des apprentissages deviendra
dans le futur sans doute très riche, voire indispensable, pour étayer la démarche des
apprenants, dans un contexte où l‘évaluation des apprentissages se complexifiera par le
besoin croissant de différenciation pédagogique découlant notamment de l‘explosion des
possibilités d‘apprentissage informel offertes par l‘Internet. En analyse de l‘apprentissage,
les enjeux deviennent plus axés sur les finalités éducatives visées que la faisabilité
technologique, les outils informatiques s‘étant beaucoup développés (p. ex. méthodes
d‘analyse et outils de visualisation de données).
De plus, les avancées technologiques, relatives aux conventions sur les formats et les
techniques de partage de données, facilitent la mise en commun de différentes sources de
données, favorisant du coup l‘essor de la multivocalité (multivocality). Cette dernière
consiste à la mise en commun de différents regards théoriques et méthodologiques portés
sur de mêmes objets si bien qu‘une compréhension mutuelle puisse être élaborée.
L‘analyse sémantique pourra sans doute fournir un regard intéressant pour examiner les
traces écrites par les apprenants en communautés d‘apprentissage ou d‘élaboration de
connaissances ou, encore, en communauté de pratique. Qui plus est, le développement
logiciel s‘accélère grâce aux plateformes numériques facilitant la collaboration. La
combinaison de ces plateformes et des principes de la liberté logicielle permet notamment
d‘attirer des collaborateurs venant d‘horizons de plus en plus variés, favorisant en retour la
multivocalité. Bien que les méthodes d‘analyse sémantique soient loin d‘être
irréprochables, il semble que ce ne soit qu‘une question de temps avant qu‘il n‘y ait une
meilleure proximité entre la compréhension d‘un contenu par l‘humain et par l‘ordinateur.
113
Bien entendu, il ne s‘agit pas de remplacer le jugement d‘un humain, mais de lui fournir
des outils lui venant en appui.
En conclusion, cette étude visait plus largement à explorer et contribuer au développement
d‘outils supplémentaires à la métacognition et à l‘autoévaluation des apprenants, de façon à
étayer leur démarche de développement de compétences dites nécessaires au succès et au
bienêtre à la vie moderne.
115
Références
Bereiter, C. (1994). Implications of postmodernism for science, or, science as progressive
discourse. Educational Psychologist, 29(1), 3–12. doi:10.1207/s15326985ep2901_1
Bereiter, C., & Scardamalia, M. (1993). Surpassing Ourselves: An Inquiry Into the Nature
and Implications of Expertise (p. 296). La Salle, IL: Open Court.
Bestgen, Y. (2004). Analyse sémantique latente et segmentation automatique des textes.
Communication acceptée aux JADT. http://lexicometrica.univ-
paris3.fr/jadt/jadt2004/pdf/JADT_015.pdf
Binkley, M., Erstad, O., Herman, J., Raizen, S., Ripley, M., Miller-ricci, M., & Rumble, M.
(2012). Defining Twenty-First Century Skills. In P. Griffin, B. McGaw, & E. Care
(Eds.), Assessment and Teaching of 21st Century Skills (pp. 17–66). Dordrecht:
Springer Netherlands. doi:10.1007/978-94-007-2324-5
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. (J. Lafferty,
Ed.)Journal of Machine Learning Research, 3(4-5), 993–1022.
doi:10.1162/jmlr.2003.3.4-5.993
Bransford, J. D., Brown, A. L., & Cocking, R. R. (Eds.). (2000). How People Learn: Brain,
Mind, Experience, and School (p. 384). Washington, D.C.: National Academy Press.
Brants, T. (2005). Test Data Likelihood for PLSA Models. Information Retrieval, 8(2),
181–196. doi:10.1007/s10791-005-5658-8
Breuleux, A., Erickson, G., Laferrière, T., & Lamon, M. (2002). Devis sociotechniques
pour l‘établissement de communautés d‘apprentissage en réseau pour l‘intégration
pédagogique des TIC en formation des maîtres. Revue des sciences de léducation,
28(2), 411–434. http://id.erudit.org/iderudit/007361ar
C21 Canada. (2012). Transformer les Esprits: L‘enseignement public du Canada, une
vision pour le XXIe siècle. http://www.c21canada.org/wp-
content/uploads/2012/11/C21-Shifting-Minds3.0-FRENCH-Version.pdf
Chen, B., Resendes, M., Chuy, M., Tarchi, C., Bereiter, C., & Scardamalia, M. (2012).
Identifying promising ideas in a knowledge-building discourse. QWERTY-
Interdisciplinary Journal of Technology, Culture and Education, 6(2), 224–241.
http://www.ckbg.org/qwerty/index.php/qwerty/article/viewArticle/112
Collins, A., & Halverson, R. (2009). Rethinking education in the age of technology : the
digital revolution and schooling in America (p. 175). New York: Teachers College
Press.
116
Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990).
Indexing by latent semantic analysis. Journal of the American Society for Information
Science, 41(6), 391–407. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-
ASI1>3.0.CO;2-9
Deschênes, M. (2006). Savoir communautaire et responsabilité collective : proposition
d’un outil d'observation de l'activité d'une communauté en réseau. Essai de maitrise,
Université Laval.
Desgagné, S. (2001). La recherche collaborative: nouvelle dynamique de recherche en
éducation. M. Anadon (dir.) : Des nouvelles dynamiques de recherche en éducation
(pp. 51–76). Québec: Presses de l‘Université Laval.
Dewey, J. (1916). Democracy and education: an introduction to the philosophy of
education (p. 434). New York: Macmillan.
Engeström, Y., & Middleton, D. (1998). Cognition and communication at work (p. 360).
Cambridge University Press.
Fallery, B. (2004). Les trois visions de la formation ouverte et leurs propositions de
normes: Standardiser les contenus, les activités ou les interfaces? Systèmes
d’Information et Management, 9(4), 11–31. http://hal.archives-ouvertes.fr/hal-
00775873
Ferguson, R. (2012). The State of Learning Analytics in 2012: A Review and Future
Challenges. http://kmi.open.ac.uk/publications/techreport/kmi-12-01
Gaver, W. W. (1991). Technology affordances. Proceedings of the SIGCHI conference on
Human factors in computing systems Reaching through technology - CHI ’91 (pp.
79–84). New York, New York, USA: ACM Press. doi:10.1145/108844.108856
Gong, Y., & Liu, X. (2001). Generic text summarization using relevance measure and
latent semantic analysis. Proceedings of the 24th annual international ACM SIGIR
conference on Research and development in information retrieval - SIGIR ’01, 19–25.
doi:10.1145/383952.383955
Greenbaum, J. (1993). A design of one‘s own: Towards participatory design in the United
States. In D. Schuler & A. Namioka (Eds.), Participatory design: Principles and
practices (pp. 27–37). Hillsdale, NJ: Lawrence Erlbaum Associates.
Grégoire, R., & Laferrière, T. (1998). Communauté d‘apprentissage, une définition.
http://www.tact.fse.ulaval.ca/fr/html/prj-7.1/commune2.html
Griffin, P., McGaw, B., & Care, E. (Eds.). (2012). Assessment and Teaching of 21st
Century Skills. Assessment (p. 345). Dordrecht: Springer Netherlands.
doi:10.1007/978-94-007-2324-5
117
Griffiths, T. L., Steyvers, M., & Tenenbaum, J. B. (2007). Topics in semantic
representation. Psychological review, 114(2), 211–44. doi:10.1037/0033-
295X.114.2.211
Grünwald, P. D. (2005). Introducing the Minimum Description Length Principle. In P. D.
Grünwald, J. I. Myung, & M. A. Pitt (Eds.), Advances in Minimum Description
Length: Theory and Applications. MIT Press. http://mitpress.mit.edu/books/advances-
minimum-description-length
Hawkins, J., & Collins, A. (1992). Design experiments for infusing technology into
learning. Educational Technology, 32(9), 63–67.
Johnson, L., Adams, S., & Haywood, K. (2011). The NMC Horizon Report: 2011 K-12
Edition. Austin, Texas: The New Media Consortium.
Kakkonen, T., Myller, N., & Sutinen, E. (2006). Applying Latent Dirichlet Allocation to
Automatic Essay Grading. In T. Salakoski, F. Ginter, S. Pyysalo, & T. Pahikkala
(Eds.), Advances in Natural Language Processing (Vol. 4139, pp. 110–120). Springer
Berlin / Heidelberg. doi:10.1007/11816508_13
Kintsch, W. (2001). Predication. Cognitive Science, 25(2), 173–202.
doi:10.1207/s15516709cog2502_1
Laferrière, T., Allaire, S., Hamel, C., Gervais, F., Boutin, P.-A., Perreault, C., Walters, K.,
et al. (2011). Communautés d‘apprentissage et d‘élaboration de connaissances
interreliées à l‘échelle internationale : perspectives socioculturelles appliquées en
classes primaires et secondaires.
Laferrière, T., Allaire, S., Hamel, C., Turcotte, S., Gaudreault-Perron, J., Beaudoin, J., &
Inchauspé, P. (2008). L‘École éloignée en réseau : L'apprentissage des élèves. Rapport
de recherche, phase III. http://www.eer.qc.ca/doc/2009/EER_rapport-synthese_phase-
3.pdf
Laferrière, T., Perreault, C., Boutin, P.-A., Law, N., Yuen, J., Montané, M., Hernandez
Lopez, O., et al. (2011). Knowledge Building International Project : Designs for Deep
Understanding. In H. Spada, G. Stahl, N. Miyake, & N. Law (Eds.), Connecting
Computer-Supported Collaborative Learning to Policy and Practice: CSCL2011
Conference Proceedings. Volume III — Community Events Proceedings (Vol. III, pp.
1178–1182). International Society of the Learning Sciences.
Landauer, T., Foltz, P., & Laham, D. (1998). An introduction to latent semantic analysis.
Discourse Processes, 25(2), 259–284. doi:10.1080/01638539809545028
Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato‘s problem: The latent
semantic analysis theory of acquisition, induction, and representation of knowledge.
Psychological Review, 104(2), 211–240. doi:10.1037//0033-295X.104.2.211
118
Lave, J., & Wenger, E. (1991). Situated learning: Legitimate peripheral participation (p.
138). Cambridge, UK: Cambridge University Press.
Loveless, A., DeVoogd, G. L., & Bohlin, R. M. (2002). Something old, something new…
Is pedagogy affected by ICT? ICT, Pedagogy and the Curriculum: Subject to Change
(pp. 63–83). Routledge. http://www.routledge.com/books/details/9780203468258/
Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic spaces from lexical
co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2), 203–
208. doi:10.3758/BF03204766
Mehler, A., Köhler, R., & Leopold, E. (2007). Models of Semantic Spaces. Aspects of
Automatic Text Analysis (Vol. 209, pp. 117–137). Springer Berlin / Heidelberg.
doi:10.1007/978-3-540-37522-7_6
Mezirow, J. (1997). Transformative Learning: Theory to Practice. New Directions for Adult
and Continuing Education, 1997(74), 5–12. doi:10.1002/ace.7401
National Research Council. (2012). Education for Life and Work: Developing Transferable
Knowledge and Skills in the 21st Century. (J. W. Pellegrino & M. L. Hilton, Eds.) (p.
242). Washington, D.C.: The National Academies Press.
http://www.nap.edu/catalog.php?record_id=13398
Paavola, S., Lipponen, L., & Hakkarainen, K. (2002). Epistemological foundations for
CSCL : A comparison of three models of innovative knowledge community. In G.
Stahl (Ed.), Computer Supported for Collaborative Learning: Foundations for a CSCL
community (pp. 24–32). Hilldale, New Jersey, USA: Lawrence Earlbaum Associates.
http://www.helsinki.fi/science/networkedlearning/texts/paavola_et_al_2002.pdf
Québec (Province). Ministère de l‘Éducation. (2001). Programme de formation de l’école
québécoise pour l'éducation préscolaire et l'enseignement primaire.
Québec (Province). Ministère de l‘Éducation. (2004). Programme de formation de l’école
québécoise : enseignement secondaire, 1er cycle.
Řehůřek, R., & Sojka, P. (2010). Software Framework for Topic Modelling with Large
Corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP
Frameworks (pp. 45–50). Valletta, Malta: ELRA.
http://nlp.fi.muni.cz/projekty/gensim/lrec2010_final.pdf
Scallon, G. (2004). L’évaluation des apprentissages dans une approche par compétences
(p. 342). Éditions Du Renouveau Pédagogique (ERPI).
Scardamalia, M., & Bereiter, C. (2003a). Knowledge building. In M. Reference (Ed.),
Encyclopedia of Education (2nd editio., pp. 1370–1373). New York.
http://ikit.org/fulltext/2003_knowledge_building.pdf
119
Scardamalia, M., & Bereiter, C. (2003b). Beyond brainstorming: Sustained creative work
with ideas. Education Canada, 43(4), 4–7,44.
Scardamalia, M., Bransford, J., Kozma, B., & Quellmalz, E. (2012). New Assessments and
Environments for Knowledge Building. In P. Griffin, B. McGaw, & E. Care (Eds.),
Assessment and Teaching of 21st Century Skills (pp. 231–300). Dordrecht: Springer
Netherlands. doi:10.1007/978-94-007-2324-5
Sfard, A. (1998). On Two Metaphors for Learning and the Dangers of Choosing Just One.
Educational Researcher, 27(2), 4–13. doi:10.3102/0013189X027002004
Siemens, G., & Long, P. (2011). Penetrating the Fog: Analytics in Learning and Education.
Educause Review, 46(5).
http://www.eric.ed.gov/ERICWebPortal/recordDetail?accno=EJ950794
Silva, M., & Breuleux, A. (1994). The Use of Participatory Design in the Implementation
of Internet-Based Collaborative Learning Activities in K-12 Classrooms.
Interpersonal Computing and Technology: An Electronic Journal for the 21st Century,
2(3), 99–128. http://www.helsinki.fi/science/optek/1994/n3/silva.txt
Spinuzzi, C. (2005). The methodology of participatory design. Technical Communication,
52(2), 163–174.
http://www.ingentaconnect.com/content/stc/tc/2005/00000052/00000002/art00005
Teplovs, C. (2008). The Knowledge Space Visualizer: A tool for visualizing online
discourse. Paper presented at the common framework for CSCL interaction analysis
workshop at the International conference of the learning sciences 2008. Utrech, NL.
http://chris.ikit.org/ksv2.pdf
Teplovs, C. (2010). Visualization of knowledge spaces to enable concurrent, embedded and
transformative input to knowledge building processes. University of Toronto.
http://hdl.handle.net/1807/24893
Teplovs, C., Green, A., & Scardamalia, M. (2008). The ZooLib tuplebase: an open-source,
scalable database architecture for learning sciences research. In G. Kanselaar, V.
Jjonker, P. Kirschner, & F. Prins (Eds.), Proceedings International conference of the
learning sciences 2008 (pp. 138–139). International Society of the Learning Sciences.
http://dl.acm.org/citation.cfm?id=1600001
Teplovs, C., & Scardamalia, M. (2007). Visualizations for knowledge building assessment.
Assessment of Group and Individual Learning through Intelligent Visualization
Workshop (AGILeViz), CSCL 2007. http://chris.ikit.org/agilevizcscl-teplovs-
scardamalia.pdf
UNESCO. (1996). UNESCO and an Information Society for All: a position paper. Society.
Paris: UNESCO. http://unesdoc.unesco.org/images/0010/001085/108540eo.pdf
120
Zha, H., Marques, O., Simon, H. D., & Berkeley, L. (1998). Large-Scale SVD and
Subspace-Based Methods for Information Retrieval. In A. Ferreira, J. Rolim, H.
Simon, & S.-H. Teng (Eds.), IRREGULAR ’98 (pp. 29–42). Berkeley, California,
USA: Springer Berlin / Heidelberg. doi:10.1007/BFb0018525
121
Annexe 1
Ce document présente la distribution des similarités sémantiques, allant de 0 à 1, en
fonction du nombre de thèmes (k), pour un corpus de 47 notes. Les similarités négatives,
moins nombreuses, ne sont pas présentées. C‘est la source de données utilisée pour générer
le graphique présenté à la Figure 3.
Tableau 3. Distribution des similarités sémantiques en fonction de k
Degré de similarité sémantique
k 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
1 45 0 0 0 0 0 0 0 0 0 990
2 70 27 39 37 41 62 65 89 111 178 266
3 108 66 59 66 61 67 77 82 91 156 148
4 102 78 67 79 81 87 92 110 85 121 34
5 120 110 101 98 69 88 85 86 93 68 18
6 150 135 106 101 90 69 76 74 66 37 14
7 164 143 120 109 89 71 75 56 44 25 9
8 180 150 131 111 86 69 62 48 34 21 6
9 213 160 150 113 82 56 39 36 31 17 5
10 235 176 143 108 84 55 31 32 24 16 4
11 262 165 157 110 78 49 29 28 21 12 3
12 276 187 144 116 71 37 27 28 17 7 2
13 285 218 148 94 66 35 26 28 13 8 1
14 291 224 150 95 57 37 25 21 11 7 1
15 291 241 149 84 61 33 23 17 10 6 0
16 302 244 147 84 59 30 19 13 11 6 0
17 310 248 142 87 56 29 20 9 10 6 0
18 337 236 159 81 46 25 18 11 7 6 0
19 337 236 159 81 46 25 18 11 7 6 0
20 354 248 145 87 37 27 13 14 4 6 0
21 381 255 130 82 37 29 11 12 5 6 0
22 390 247 137 78 39 26 10 9 6 5 0
23 412 258 134 68 35 30 10 8 4 5 0
24 423 266 121 62 36 30 8 7 4 5 0
25 425 275 119 60 38 27 7 7 4 4 0
26 436 282 117 62 26 26 12 5 5 2 0
27 458 276 121 57 27 23 10 5 6 1 0
28 471 276 124 53 24 21 8 6 5 1 0
29 473 294 118 45 28 20 5 7 4 1 0
30 503 289 113 44 24 17 5 7 4 1 0
31 507 292 118 37 26 12 6 6 4 1 0
122
32 509 306 115 28 29 9 6 7 3 1 0
33 524 311 109 24 26 9 7 7 2 1 0
34 537 306 106 26 24 12 6 5 1 1 0
35 555 301 101 26 21 12 6 4 2 0 0
36 558 300 104 25 20 10 5 3 2 0 0
37 555 310 94 26 20 10 3 3 2 0 0
38 560 316 94 25 18 8 3 3 2 0 0
39 555 324 94 23 17 7 5 1 2 0 0
40 566 322 92 20 16 6 4 1 2 0 0
41 572 334 78 23 13 6 4 1 1 0 0
42 576 335 80 19 13 5 3 1 1 0 0
43 572 345 76 20 12 4 3 0 1 0 0
44 573 354 71 17 10 5 2 0 1 0 0
45 566 362 73 15 11 4 1 1 0 0 0
46 565 364 74 19 7 4 1 0 0 0 0
47 570 362 72 21 8 2 0 0 0 0 0
123
Annexe 2
Tableau 4. Allure des courbes de similarités en fonction de k
k pic_x pic_diss pic_ress dec_limite_x r_diss r_ress r somme_vl
1 1 1 1,00 12,31
2 1 0 1 0,1 0,97 0,84 15,45
3 0,9 0 0,9 0,2 -0,94 0,87 0,61 17,46
4 0,9 0 0,9 0,2 -0,99 0,77 -0,20 19,21
5 0 0 0,8 0,4 -0,92 0,57 -0,68 20,71
6 0 0 0,6 0,5 -0,98 -0,88 22,32
7 0 0 0,6 0,5 -0,99 -0,92 23,67
8 0 0 1 -0,93 -0,93 24,91
9 0 0 1 -0,96 -0,96 26,11
10 0 0 0,7 0,6 -0,98 -0,97 27,07
11 0 0 1 -0,97 -0,97 27,91
12 0 0 0,7 0,6 -0,99 -0,97 28,87
13 0 0 0,7 0,6 -1,00 -0,95 29,74
14 0 0 1 -0,97 -0,97 30,41
15 0 0 0,9 -1,00 -1,00 31,17
16 0 0 0,9 -1,00 -1,00 31,88
17 0 0 0,8 0,7 -0,99 -0,99 32,44
18 0 0 0,9 -0,99 -0,99 33,13
19 0 0 0,9 -0,99 -0,99 34,13
20 0 0 0,9 0,6 -0,99 -0,66 -0,98 34,74
21 0 0 0,9 0,6 -0,99 -0,75 -0,99 35,32
22 0 0 0,9 -0,99 -0,99 35,89
23 0 0 0,9 0,8 -1,00 -0,99 36,38
24 0 0 0,9 0,8 -0,99 -0,98 36,86
25 0 0 0,6 -0,99 -0,99 37,33
26 0 0 0,4 -1,00 -0,99 37,82
27 0 0 0,8 0,7 -1,00 -0,99 38,27
28 0 0 0,9 -0,99 -0,99 38,72
29 0 0 0,7 0,6 -0,99 -0,99 39,14
30 0 0 0,7 0,6 -0,99 -0,98 39,55
31 0 0 0,6 -0,99 -0,99 39,95
32 0 0 0,7 0,3 -0,98 -0,84 -0,98 40,34
33 0 0 0,4 0,3 -0,98 -0,98 40,71
34 0 0 0,8 -0,98 -0,99 41,08
35 0 0 0,8 -0,99 -0,99 41,43
36 0 0 0,8 -0,99 -0,99 41,80
124
37 0 0 0,6 -0,99 -0,98 42,13
38 0 0 0,6 -0,99 -0,98 42,46
39 0 0 0,8 0,7 -0,99 -0,98 42,76
40 0 0 0,8 0,7 -0,99 -0,97 43,05
41 0 0 0,7 -0,99 -0,99 43,32
42 0 0 0,7 -0,99 -0,98 43,60
43 0 0 0,8 -0,98 -0,98 43,83
44 0 0 0,8 -0,98 -0,98 44,04
45 0 0 0,6 -0,99 -0,99 44,26
46 0 0 0,6 -0,99 -0,99 44,47
47 0 0 0,5 -0,99 -0,99 44,66
Où, si applicable :
k = nombre de thèmes
pic_x = pic de similarités en x
pic_diss = pic de dissemblance en x
pic_ress = pic de ressemblance en x
dec_limite_x = position en x où la partie de la courbe représentant la dissemblance
arrête de décroitre
r_diss = coefficient de corrélation de Pearson pour la partie de la courbe
représentant la dissemblance (c.-à-d. de pic_diss à dec_limite_x)
r_ress = coefficient de corrélation de Pearson pour la partie de la courbe
représentant la ressemblance (c.-à-d. de dec_limite_x à pic_ress)
r = coefficient de corrélation de Pearson pour l‘ensemble de la courbe
somme_vl = somme des longueurs vectorielles des notes