of 16/16
Les données structurées et leur traitement I. Données II. Données structurées III. Base de données IV. Métadonnées V. Stockage/ cloud Progression (7 séances ) I. Activité Open data Hachette + RGPD activité qui a bien fonctionné II. Jeux Datak(données personnelles) + regarder infos personnelles sur Google activité qui a bien fonctionné. Certains sont surpris de voir toutes les infos les concernant sur googleà on peut faire un lien avec les réseaux et la confidentialité. III. Regarder vidéo MOOCà bilan données structurées+ Activité blason ( Mettre en place des descripteurs pour décrire les images. Langage commun on peut tout automatiserà et donc on va pouvoir indexer). questionnement sur la place de l’activité Blason ? la faire avant la vidéo. https://github.com/InfoSansOrdi/pedago-rennes/blob/master/pedago1/2016- communication/activite1b/instructions.pdf IV. Activité site data gouv à fichier sport + fichier temps de paroles des femmes activité sur deux séances. Qui a bien plutôt bien fonctionné. V. Activité python créer nouvelle table selon filtres activité sur deux séances. Des problèmes avec Edupython. De plus, les élèves ne sauvegardent pas le fichier dans leur dossier perso et modifient donc le dossier sur le groupe. VI. Activité statut liberté pour métadonnée Difficultés à comprendre l’affichage et difficultés à rentrer les coordonnées sur google maps. VII. Activité regrouper 2 tables hachette activité 3 pas faite. Manque de temps VIII. Le cloud exposé.

Les données structurées et leur traitement I. Données II

  • View
    1

  • Download
    0

Embed Size (px)

Text of Les données structurées et leur traitement I. Données II

Microsoft Word - Données structurées.docxLes données structurées et leur traitement
I. Données II. Données structurées III. Base de données IV. Métadonnées V. Stockage/ cloud Progression (7 séances ) I. Activité Open data Hachette + RGPD
activité qui a bien fonctionné II. Jeux Datak(données personnelles) + regarder infos personnelles sur Google
activité qui a bien fonctionné. Certains sont surpris de voir toutes les infos les concernant sur googleà on peut faire un lien avec les réseaux et la confidentialité.
III. Regarder vidéo MOOCà bilan données structurées+ Activité blason ( Mettre en place des descripteurs pour décrire les images. Langage commun on peut tout automatiserà et donc on va pouvoir indexer). questionnement sur la place de l’activité Blason ? la faire avant la vidéo.
https://github.com/InfoSansOrdi/pedago-rennes/blob/master/pedago1/2016- communication/activite1b/instructions.pdf
IV. Activité site data gouv à fichier sport + fichier temps de paroles des femmes
activité sur deux séances. Qui a bien plutôt bien fonctionné. V. Activité python créer nouvelle table selon filtres
activité sur deux séances. Des problèmes avec Edupython. De plus, les élèves ne sauvegardent pas le fichier dans leur dossier perso et modifient donc le dossier sur le groupe.
VI. Activité statut liberté pour métadonnée Difficultés à comprendre l’affichage et difficultés à rentrer les coordonnées sur google maps.
VII. Activité regrouper 2 tables hachette activité 3 pas faite. Manque de temps
VIII. Le cloud exposé.
Pour réaliser ce TD, vous devez vous rendre sur le site htpp://mathscombellas.wixsite.com/mathscombellas puis dans l’onglet SNT. En vous aidant des vidéos et documents mis en ligne répondre aux questions suivantes :
1. En quoi consiste l’ «open Data » ? Quelles sont les informations qui ne peuvent pas être rendues publiques ?
2. Qu’est-ce que le RGPD ? Qu’est-ce qu’une donnée personnelle ?
3. Identifier les dispositions qui permettent de : • Donner son accord ou refuser la collecte de données privée ;
• Contrôler ce qui est fait avec les données collectées
• Se faire oublier.
4. Jeux Datak en ligne.
I. Les données Qu’est-ce qu’une donnée ? C’est une information se rapportant à un objet, une personne, un événement… Elles peuvent être de différents types : texte, date, valeurs numériques. Plusieurs descripteurs peuvent être utiles pour décrire un même objet. Exemple : descripteurs pour caractériser un morceau de musique : artiste, titre, année… Qu’est-ce qu’une donnée personnelle ? c’est toute information se rapportant à un personne physique identifié ou identifiable. Exemple : nom/ prénom ou encore adresse IP, photographie, numéro de téléphone…
TD n°1 : Open data, RGPD et les données personnelles
Corrigé TDn°1
Activité en binôme. Feuille blason vide, blason et instructions à distribuer lors de la séance
1. Choisir un blason sans le montrer à ton camarade. 2. Donner des instructions pour qu’ils le redessinent. Attention tu n’as pas le droit de
regarder ce que ton camarade fait. 3. Inverser les rôles.
Bilan en groupe :
4. Choisir un blason par binôme. 5. Ecrire les instructions, seulement avec celles écrites sur ta feuille « instructions », afin
qu’un autre groupe le redessine. 6. Echanger les feuilles et dessiner le blason demandé.
Bilan en groupe :
II. Données structurées Que sont les données structurées ? Ce sont des informations organisées et classées afin de faciliter leur lecture et leur traitement. Table de données : une collection de données partageant les mêmes descripteurs peut être structurée dans une table. Les objets en lignes, les descripteurs en colonne. Les données non structurées sont tous ceux qui n’est pas organisé en base de données. Une base de données peut comporter plusieurs tables que l’on peut croiser si elle possède un descripteur commun.
TD n°2: les données structurées
III. Les données structurées- Traitement
Activité 1. Aller dans Ce pcà groupeà2nd6àtravailàsnt et ouvrir le fichier sport.CSV avec un éditeur de texte. ATTENTION ne pas double-cliquer dessus le fichier mais faire ouvrir avec…
Activité 2. Ouvrir maintenant le fichier sport.CSV avec un tableur puis l’enregistrer dans perso.
5. Afin d’obtenir une donnée par cellule : - aller dans DONNEES - sélectionner la colonne A - puis choisir CONVERTIR : une fenêtre s’ouvre, faire suivant puis choisir comme séparateur « VIRGULE »
TD n°3: Traitement des données sur tableur
1. Que représente la première ligne ?
2. Combien de données a-t-on sur chaque ligne ?
3. Comment sont séparées les différentes données sur chaque ligne ?
4. Où se trouvent les données présentes sur une ligne ? Comment aimerais tu que ces données soient disposées ?
Les données sont organisées de manière à s’adapter à des traitements spécifiques. La manière dont elles sont organisées est le format. Le format CSV(comma-separated values ) comptent parmi les plus utilisés. Pour stocker des données au format CSV, on écrit les descripteurs sur la première ligne. Puis, sur les lignes suivantes, sont placées les valeurs des descripteurs pour chaque objet. Les mots sont séparés généralement par des points-virgules.
Activité 3 : Sélectionner toutes les colonnes de votre document et activer le filtrage à DONNEESà FILTRER Des triangles apparaissent dans la première ligne qui fera office de choix de descripteur. En cliquant sur ces triangles on peut maintenant choisir un filtrage particulier :
Activité 4 :
Traiter les données avec un tableur : Quand les données sont chargées dans un tableur, on peut effectuer des traitements systématiques.
• Trier les données : trier les données d’une table, c’est modifier l’ordre des lignes pour que les données soient en ordre croissant ou décroissant suivant le critère choisi.
• Rechercher ou filtrer les données : filtrer les données consiste à sélectionner les données contenant une information particulière pour n’afficher que ces données là.
• Visualiser les données : pour interpréter les données ou comprendre leur évolution un graphique est souvent utile.
5. Afficher uniquement les clubs ayant participé au championnat de Basket-Ball. Combien as-tu de ligne ?
6. Pour chaque sport, afficher la ville ayant finie première en 2014 et l’écrire.
7. Quelles sont les 3 premières villes en 2016 pour le football
8. Dé-sélectionner tous vos filtres puis trier par ordre alphabétique les noms des villes inscrites en handball
9. Trier par ordre de classement les villes inscrites en Hand ball en 2015. Noter les 4 premières.
10. Trier les villes par classement en 2018, puis 2017 puis 2016 puis 2015 et enfin 2014. Noter à chaque fois les 4 premières.
Activité 5 : Le but est de déterminer quelle est le club le « meilleur » tout sport confondu Activité 6 : L’objectif ici est de voir la pertinence du tableur. 14. A partir du site www.data.gouv.fr, télécharger des données ouvertes sur le temps de
parole des hommes et des femmes à la télévision et à la radio. Le fichier qui nous intéresse est celui sur le taux d’expression des femmes moyenné par heure, année et chaîne.
16. Ouvrir le fichier dans un tableur, importer les données. Faire les modifications
nécessaires pour que chaque descripteur soit dans une colonne différente(voir activité 2) . Puis enregistrer votre travail dans votre dossier perso en le renommant « paroles » et au format CSV.
Définition des descripteurs : • media_type : 'radio' ou 'tv' • channel_name : nom de la chaîne • is_public_channel : 'True' s’il s’agit d’une chaîne publique, ‘False’ sinon • year : année analysée • hour : heure analysée • women_expression_rate : pourcentage de temps de parole occupé par des femmes • speech_rate : pourcentage de parole, soit 100 - pourcentage de musique • nb_hour_analyzed : nombre d’heures prise en compte dans le calcul de la moyenne ; les entrées ayant un nombre d’observations inférieur à 20 ont été exclues de la table.
17. A quelle heure et sur quelle chaîne le taux d’expression des femmes a-t-il fait ses 3 meilleurs scores. Ses 3 plus mauvais scores ?
11. Donner votre définition du « meilleur » club.
12. A l’aide d’une formule insérée dans la colonne I, calculer l’indicateur qui vous permettra de classer les clubs.
13. Trier alors les clubs du meilleur ou moins bon et indiquer les 4 meilleurs.
18. Nous souhaitons représenter le temps d’expression moyen des femmes en fonction de l’heure de la journée. Commencer à faire les tris/ filtrages nécessaires pour pourvoir répondre à cette question. Le tableur est-il adapté pour ce type de tâche ?
I. Premier pas 1. Ouvrir Edupython puis aller chercher depuis Edupython le fichier « partie1_python » pour cela allez dans Ce pcà groupeà 2nd5àtravailà SNTà 2. L’enregistrer au même endroit que votre fichier CSV sur le temps de parole. 3. Lire les commentaires du code. (Un commentaire est inséré à l’aide du caractère #)
5. Modifier la ligne 10 si vous n’avez pas nommer votre fichier « temps_parole » Attention ce n’est pas le commentaire qu’il faut modifier mais le code. 6. Afficher la première ligne de la base de données: les descripteurs . Pour cela taper dans la console donnees[] Attention on commence à compter les valeurs à partir de 0 et non 1.
8. Afficher la 2ème valeur de la première ligne de la base. Pour cela, taper dans la console donnees[0][1] 10. Afficher la 3ème valeur de la 4ème ligne de la table.
II. filtrage et trie
1. Nous souhaitons afficher que les lignes où le taux d’expression des femmes est supérieur ou égale à 50. Récupérer site « partie2_python » puis faire un copier/coller du code sur votre fichier python existant. Fermer le fichier « partie2_python »
3. Cette fonction possède un seul paramètre. Tester le programme. Pour cela taper dans la console : filtrage(donnees)
4. Ecrire le premier commentaire du code
7. Que faut-il écrire pour afficher la 3ème ligne de la table. ? Le tester.
9. Que faut-il écrire pour afficher la 2ème valeur de la 1ère ligne de la table ? Le tester.
2. Comment s’appelle la fonction créée ?
Faire traiter les données par un programme Pour effectuer une analyse de données spécifique, pour traiter un fichier de très grande taille ou simplement pour éviter de refaire les mêmes manipulations sur un tableur, on peut programmer le traitement.
TD n°4: Traitement des données sur Edupython
4. Modifier le programme afin qu’il affiche seulement les lignes pour lesquelles l’analyse a
été faite en 2019.Le tester 5. Modifier le programme afin qu’il affiche seulement les valeurs du taux d’expression pour
lesquelles l’analyse a été faite à 9h.Le tester
III. Taux d’expression en fonction de l’heure 1. Ouvrir le fichier « Partie3_python» Faire un copier/coller dans le fichier existant.
5.Afficher le taux moyen à 8h en changeant seulement la commande taux_moyen(donnees,5) dans la console. 6. Afficher le taux moyen à 22h 7. Télécharger le fichier « Partie4_python» Faire un copier/coller dans le fichier existant
8. La tester. Pour cela taper dans la console une commande que je vous laisse trouver en vous aidant de ce que vous avez fait avant.
3. Le Modifier afin qu’il affiche seulement les lignes pour lesquelles le taux d’expression des femmes est supérieur à 90% . Le tester. Combien y-a-t-il de chaines concernées ?
2. Comment s’appelle la nouvelle fonction
3. Quel est son rôle ?
4. Cette fonction possède deux paramètres. Tester le programme. Pour cela taper dans la console taux_moyen(donnees,9). Quelles valeurs sont affichées ?
8. Comment s’appelle la nouvelle fonction
9. Quel est son rôle ?
1. Aller dans Ce PCà groupeà 2nd5 ou 2nd6à travail à snt 2. Copier l’image « liberty » dans votre dossier perso 3. Ouvrir Edupython et taper les lignes suivantes.
4. Taper l’instruction dir(monimage) dans la console
6. Taper l’instruction monimage[‘digital_zoom_ratio’] 7. Comme pour la question 6, taper une instruction qui permette de savoir le model du smartphone avec lequel cette photo a été prise. 8. Trouver dans quel ville cette photo a été prise. Pour cela tapez une instruction comme pour la question 6 ou 7. Il vous faudra la latitude et la longitude. Puis aller sur https://www.coordonnees-gps.fr et taper les coordonnées gps trouvés sur python
9. Taper l’instruction monimage[‘model’]=’iPhone X’ dans le console 10. Refaire la question 7. Que constatez-vous ? En tapant les lignes suivantes, on peut sauvegarder une nouvelle image contenant ces nouvelles
données EXIF. 10. Modifier cette image pour qu’elle soit géolocalisée au milieu du stade Matmut Atlantique.
TD n°5: Métadonnées
Une métadonnées est une donnée particulière qui apporte des informations sur la donnée principale. Les métadonnées EXIF permettent de lier à l’image contenue dans un fichier des informations sur celle-ci. Comment sont structurées ces informations ?
5.Comment sont organisées les informations EXIF de cette image ? Donnez 5 informations que nous ne pouvons trouver dans cette image.
Exposés : power point ou carte mental par groupe de 3 1.Le cloud : Definition- caractéristiques + Avantages de l’utilisation de supports de stockage distants pur stocker nos donnée numériques 2. Trouver des fournisseurs de cloud gratuit quels sont les critères à prendre en compte pour choisir un Cloud gratuit 3.Le cloud- data centers : inconvénients Déf + Impact énérgétiques
Boite à outils : Exposé 1 : définition+avantages cloud Exposé 2 : cloud à définition + inconvénients Exposé 3 : Donner différents fournisseurs de cloud et leurs caractéristiques
IV. Le cloud
Cloud : C’est un support de stockage et de traitement distant, accessible par l’intermédiaire du réseau Internet. Vu de l’utilisateur le cloud peut sembler virtuel mais derrière cette terminologie se cachent les lieux physiques regroupant jusqu’à plusieurs milliers de serveurs informatiques : les data centers. Le mot cloud vient d’une image. La représentation d’un réseau internet est un nuage. Caractéristiques :
• Recevoir des ressources • Accès réseaux rapide • Accès au service à la demande de l’utilisateur • Facturation à l’usage volume/durée • Coût moindre • Disponible partout via internet • Contenu protégé • Antivirus toujours à jour • Stockage plus important
Les usages : • Applications ou logiciels en lignes • Sauvegarder des données
Date centers : stockent des serveurs mettant à disposition les données et des applications les exploitant. Avantages cloud
• Garantie sureté : plusieurs endroits de stockage moins de risque de perdre nos données. • Protection contre intrusions : data centers savent mieux se protéger que nous • Stockage plus important • Antivirus toujours à jour
Inconvénients cloud : Impacts sur l’environnement : Pollution : manipulation de substances dangereuses lors de la fabrication, destruction ou du recyclage + composants polluants pour les serveurs + Datas centers :
• consomment de l’énergie pour faire fonctionner leurs serveurs 24/24, • produisent beaucoup de chaleur et ont donc besoin d’être climatisés.