DataShop & Tatiana: expériences communes de deux outils de partage de données et danalyses...

Preview:

Citation preview

DataShop & Tatiana:expériences communes de deux outils de partage de

données et d’analyses

Gregory Dyke, John Stamper, Carolyn RoséCarnegie Mellon University / PSLC

Plan

1. PSLC DataShop

2. Tatiana

3. Quelles similarités? Quelles leçons en tirer?

PSLC DataShop

Domain Files Papers DatasetsStudent Actions

StudentsStudent Hours

Language 51 10 63 3,099,149 4,768 4,788

Math 140 45 103 36,994,755 19,097 109,513

Science 90 19 50 6,274,897 8,036 22,699

Other 13 12 29 4,840,743 8,087 18,053

Total 294 86 245 51,209,544 39,988 155,054

Utilisation

Concepts• Problem

– Composé de Step

• Step– Partie différentiable et évaluable d’un problème

• Transaction– 1 étudiant + 1 step– Indice / autre

• KC (knowledge component)– Compétence ou connaisance

• Knowledge Model– Mapping entre step et KC

Outils

• Manipulation de corpus– Import/Export– Selection de sous-corpus

• Analyses– Courbes d’apprentissage– Rapport d’erreurs– Profil de performances

Courbe d’apprentissage

Rapport d’erreurs

Profil de performance

Actualité / avenir

• Services web• Autres types de données• Intégration d’informations

supplémentaires• Compétitions (e.g. SIGKDD)

• http://pslcdatashop.org

Tatiana

Concepts

• Environnement de manipulation de rejouables – séquence d’évènements (« lignes »)– chaque événement a des facettes (« colonnes »)– Date, UID

• Operations (= points d’extension/API)– Visualisation (application d’une feuille de style)– Transformation (créer nouveaux rejouables)– Synchronisation (coordination de visualisations)– Enrichissement (ajout de colonnes ou de relations

sur rejouables existants)

Utilisation

• Lyon, Paris, Denmark, Netherlands, England, Hong-Kong, USA, Corée

• Médiatisé par ordinateur, face à face, les deux• Blogs, forums, chat, text editing, graphs, video, etc.• Co-conception, argumentation, prise de notes, FLE,

biologie, chimie, rédaction• Workshops Multivocality @ CSCL/Alpine RDV/ICLS

• Extensible et disponible:– http://code.google.com/p/tatiana

Conclusions communes?

Pourquoi partager?

• Répondre à nos propres besoins d’analyse– Partage entre chercheurs– Analyse collaborative

• Mise à disposition de données existantes– Quantité et puissance statistique– Coût de collecte– Educational data mining– Analyses à la croisée d’épistémologies

Que partager ?

Données qui rentrent dans un certain moule:• DataShop

– ITS = juste/faux, annoté KC (facultatif)– Petit grain, longue durée– Analyses « typiques » de ces données

• Tatiana– Processus interactifs (particulièrement CSCL)– Coordination de représentations et d’annotations– Données peu structurées faisant sens pour le

chercheur– Analyse manuelle/assistée

Comment partager ?• Données + contexte pour réutilisation• DataShop

– Depôt de données– Application web

• Tatiana– Logiciel standalone (import+export corpus)

• Accepter des pré-réquis de base– Transactions, steps, KC, etc.– Rejouables, tranformations, visualisations, etc.

• Proposition d’outils exploitant ces préréquis

Facteurs de réussite ?

• Facilité d’import/export– Avec minima pré-réquis– En gardant données supplémentaires

• Être l’utilisateur primaire• Fournir les fonctionnalités équivalentes aux outils ad-hoc

existants• Fournir des fonctionnalités supplémentaires « gratuites »• Donner le moyen d’exploiter ce qui va « au-delà » du

minima• Plateforme avec données mises à disposition• Evènements et workshops• Financements adéquats (et pérennes)

Recommended