7
20_SNT_donnee_structuree_cours.docx 1 Thème 6. Les données structurées et leur traitement. Introduction : quelques repères historiques. Date Evénement (sources diverses) 1930 Cartes perforées : premier support de stockage des données (ici une carte des années 1960). 1956 Invention du disque dur par IBM. Il pèse 1 tonne et a une capacité de stockage de 5 Mo et fait la taille de deux réfrigérateurs. Un millier d’exemplaires vendus, à 50 000 $ pièce ! 1960 Premières bases de données. 1970 Invention du modèle relationnel pour la structuration et l’indexation des bases de données (sous forme de tables). La représentation logique et rationnelle des données permet de les rendre exploitables. 1971 IBM lance la disquette dont voici trois formats ci-dessous. 1979 Premier tableur : VisiCalc. 700 000 copies sont vendues en 6 ans. 1982 Compact Disc (CD). 2009 Open Government Initiative du président Obama qui facilite l’accès des citoyens aux données administratives. 2010 Clé USB. 2013 Charte du G8 pour l’ouverture des données publiques. Qu’est-ce qu’une donnée structurée ? Comment les données sont-elles stockées dans le cloud ? Qu’est- ce qu’une métadonnée ? En introduction du thème : vidéo et quiz intégré https://ressources.numeres.net/id-56

Thème 6. Les données structurées et leur traitement

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 1

Thème 6. Les données structurées et leur traitement.

Introduction : quelques repères historiques.

Date Evénement (sources diverses) 1930 Cartes perforées : premier support de stockage des données (ici une carte des années

1960).

1956 Invention du disque dur par IBM. Il pèse 1 tonne et a une capacité de stockage de 5 Mo

et fait la taille de deux réfrigérateurs. Un millier d’exemplaires vendus, à 50 000 $ pièce !

1960 Premières bases de données. 1970 Invention du modèle relationnel pour la structuration et l’indexation des bases de

données (sous forme de tables). La représentation logique et rationnelle des données permet de les rendre exploitables.

1971 IBM lance la disquette dont voici trois formats ci-dessous.

1979 Premier tableur : VisiCalc. 700 000 copies sont vendues en 6 ans.

1982 Compact Disc (CD). 2009 Open Government Initiative du président Obama qui facilite l’accès des citoyens aux

données administratives. 2010 Clé USB. 2013 Charte du G8 pour l’ouverture des données publiques.

Qu’est-ce qu’une donnée structurée ? Comment les données sont-elles stockées dans le cloud ? Qu’est-ce qu’une métadonnée ? En introduction du thème : vidéo et quiz intégré https://ressources.numeres.net/id-56

Page 2: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 2

1. Les données.

Une donnée est un élément se rapportant à un objet, une personne ou un événement.

1.1 Les données personnelles.

Une donnée personnelle correspond en droit français à toute information se rapportant à une personne physique identifiée ou identifiable.

Une « personne physique identifiable » est un individu physique qui peut être identifié, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification (numéro de sécurité sociale…) ou à un ou plusieurs éléments qui lui sont propres (taille, etc.).

Les données peuvent être collectées lorsque par exemple nous nous inscrivons sur un site Web (il faut entrer des données personnelles pour créer un compte).

Tous les Etats membres de l’Union européenne sont dotés d’une loi informatique et libertés et d’une autorité nationale de protection des données personnelles (directive 95/46/CE).

Les données sont donc protégées par des instruments juridiques : la loi Informatique, fichiers et libertés et le RGPD (Règlement général sur la protection des données) entré en vigueur en mai 2018.

En France, l’autorité compétente est la CNIL (Commission Nationale de l’Informatique et des Libertés), créée en 1978. Elle est chargée de veiller à ce que l’informatique ne porte atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques.

1.2 Les principaux formats de données.

Le format des données correspond à la manière dont celles-ci sont codées. Le codage est fait sous forme de bits (= des 0 ou des 1).

Les informations composant les données sont de différentes natures : textes, sons, images, fichiers exécutables… Afin de faciliter leur usage, elles sont structurées puis stockées dans un fichier qui a une extension spécifique : c’est le format de fichier.

Ainsi, il devient possible d’échanger des données structurées entre différents programmes informatiques et logiciels. C’est l’interopérabilité.

Catégorie de fichiers Format (extension du nom de fichier) Image png, tiff, jpeg, gif, bmp,… Son mp3, wav, wma,… Vidéo mpeg, dvd, avi, mp4,… Page pdf, html, php… Texte txt, odt,doc… Exécutable exe, bat, bin… Archives zip, rar…

D’après SNT 2nde Hatier-Foucher 2019

1.3 La représentation des données.

Les données sont recueillies sous forme de tableaux (ou de listes) qui sont en fait des tables de données qui permettent de les structurer pour pouvoir les manipuler. Ensuite, pour faciliter le traitement et l’analyse, elles peuvent être présentées sous différentes formes : courbes, graphiques, diagrammes circulaires… Il existe des logiciels appelés tableurs (exemple : Excel…) permettant à la fois de structurer des données dans des tableaux, de les traiter et de les analyser, en utilisant leurs représentations graphiques.

Page 3: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 3

2. Les données structurées. 2.1 Valeur d’une donnée et descripteur.

Exemple de la carte nationale d’identité (CNI). Sur une carte d’identité sont inscrites différentes

informations relatives aux personnes : nom, prénom, date de naissance, taille… Ces informations sont en noir à la suite d’un descripteur bleu. Par exemple : Nom : LEGRAND Nom : est le descripteur et LEGRAND la valeur.

Sur des documents officiels (permis de conduire, carte grise, diplôme) sont inscrites ces mêmes valeurs pour une même personne. Les descripteurs eux peuvent être différents.

Quelle que soit l’information, le descripteur correspond au type de donnée et la valeur à la donnée elle-même.

Le permis de conduire est un document officiel dont les descripteurs permettent, comme sur une CNI, d’identifier une personne physique.

D’après SNT 2nde Hatier-Foucher 2019

2.2 Les sites de données ouvertes.

Les sites Open Data sont des sites qui recueillent et mettent à disposition de tous des données ouvertes (donc publiques et libres de droit) pour être réutilisées, sous forme de cartes, de graphiques, d’applications internet, de visualisations de données complexes pour une meilleure compréhension et analyse.

Par exemple, https://data.education.gouv.fr est la plate-forme open data de l’Education nationale.

2.3 Les bases de données et le traitement des données structurées.

Une base de données est un moyen de recueillir et présenter des informations de façon structurée, généralement sous forme d’un tableau à plusieurs colonnes (voir 1.3 : tables de données). Le nom des colonnes correspond aux descripteurs et les valeurs se trouvent dans le tableau. Un objet est un élément d’une table de données. Une collection est un regroupement d’objets partageant les mêmes descripteurs.

On peut y effectuer des recherches en sélectionnant un ou plusieurs descripteurs, on peut aussi faire des tris, des filtres, des calculs etc.

Ces requêtes peuvent être exprimées dans un langage informatique : le plus utilisé aujourd’hui est le SQL (Structured Query Language). La requête est constituée de mots-clés dans un ordre précis.

Une table de données.

D’après SNT 2nde Delagrave 2019

Page 4: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 4

2.4 Le format CSV.

Les données, avant d’être exploitées, peuvent être contenues dans des fichiers CSV (Comma-separated values). Dans ces fichiers, elles sont sous un format texte simple et séparées les unes des autres par un caractère (virgule, point-virgule, tabulation). Il est ainsi possible d’exporter ou d’importer des données, par exemple un carnet d’adresses.

Ces fichiers peuvent être convertis sous forme d’une table de données. Chaque ligne du fichier CSV correspond à une ligne du tableau et les séparateurs à ses colonnes. Il devient alors possible d’organiser et de trier les données.

Il existe d’autres formats. - Le format JSON (JavaScript Object Notation) associe les données avec une étiquette

(descripteur) sous forme d’une liste ; - Le format XML (Extensible Markup Language) utilise des balises (mot entre < et >) pour

organiser les informations en sous-éléments. Le CSV et le JSON sont simples à écrire et à lire, contrairement au XML qui nécessite des lignes de code. Le CSV est rigide (tous les descripteurs doivent être renseignés), contrairement au XML et au JSON. Le XML est le format le plus rapide à traiter par la machine.

Données au format CSV Données au format JSON Données au format XML

D’après SNT 2nde Delagrave 2019

Page 5: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 5

3. Le stockage des données. 3.1 Le cloud.

Le cloud (ou cloud computing) est un espace informatique de stockage des données, sur

Internet, fourni par des grandes entreprises du secteur informatique. L’espace de stockage peut varier et devenir illimité selon les besoins du consommateur : il devient alors payant. Il est accessible via Internet, depuis un ordinateur, une tablette ou un téléphone, n’importe où dans le monde.

Les principales fonctionnalités du cloud.

D’après SNT 2nde Delagrave 2019

Par exemple, parmi les services grand-public fournis en cloud computing figure le jeu à la demande (ou cloud gaming pour les anglophones). Il permet de jouer normalement à des jeux vidéo sur son écran d’ordinateur, alors que le ou les logiciels de jeu tournent sur des serveurs distants.

Quelques services cloud et leurs principales caractéristiques (2019). Noms Stockage (Go) Caractéristiques Cozy 5 - Applications de bureautique, banques etc.

- Possibilité d’héberger sur son propre serveur si l’on préfère Dropbox 2 - Simple d’utilisation. Possibilité d’augmenter le stockage par

parrainage. - Pas d’applications, sauf édition collaborative de document.

Google Drive 15 - Intégration à Android, mais peu pratique sous Linux. - Applications de bureautique, calculs, etc.

iCloud 5 - Intégration à MacOs, iOS, mais peu pratique sous Linux et Android. - Applications de bureautique.

OneDrive 5 - Intégration à Windows. - Applications de bureautique, calculs, etc.

OVH 0 - Plus de solution freemium disponible. - Loue des serveurs. - Hébergeur de sites Web.

Owncloud/ Nextcloud

- Logiciel seul : pas de service d’hébergement ; donc il faut posséder son propre serveur.

D’après SNT 2nde Didier 2019 Dropbox est un service permettant de stocker des documents sur le cloud. En installant le logiciel, l’utilisateur possède alors un dossier Dropbox sur son ordinateur. Il

fonctionne comme les dossiers « Documents » ou « Images ». Les fichiers sont visibles sur l’ordinateur mais sont automatiquement sauvegardés sur le site dropbox.com. La sécurité et la confidentialité sont maintenues car les fichiers restent privés, sauf si l’utilisateur décide de les partager.

Page 6: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 6

3.2 Les data centers et leur consommation énergétique.

Les data centers (ou centres de données) sont les lieux physiques (pièce, bâtiment) de stockage des données du cloud sous forme de données structurées (base de données). Les quantités de données stockées sont de l’ordre du zettaoctet (1021 octets) voire du yottaoctet (1024 octets). L’équipement informatique de ces centres de données comporte des ordinateurs, des serveurs par milliers et des baies de stockage immenses. Ces réseaux informatiques sont en permanence en fonctionnement et connectés sur le Web.

Leur consommation énergétique est importante, le coût de l’électricité représentant près de 30 % des coûts d’exploitation des centres, dont 30 à 60 % utilisés pour le refroidissement des serveurs.

En effet, la chaleur générée par les data centers est si importante (4 % de la consommation énergétique mondiale en 2015) qu’ils nécessitent d’être refroidis par des systèmes de climatisation. Ce sont donc aussi de véritables gouffres énergétiques.

Quelques valeurs : plus de 2 000 data centers exécutent toutes les activités en ligne des Etats-Unis. Ils engloutissent assez d’énergie pour alimenter les ménages de la ville de New-York pendant deux ans. C’est l’équivalent de la production et de la consommation de 34 centrales à charbon.

Il existe des possibilités de récupérer l’énergie perdue par les Data Centers. Par exemple à Paris, un système de chaudière numérique chauffe l’eau de la piscine de la Butte aux cailles. Dans le sous-sol, une centaine de serveurs sont installés. Leur système de refroidissement transfère de la chaleur dans les deux bassins, intérieur et extérieur, ce qui maintient l’eau à 27°C, et permettant également de réaliser une économie de 45 tonnes de CO2 par an.

D’une manière générale, le numérique a un fort impact environnemental. Quelques exemples

ci-dessous : L’impact du numérique sur l’environnement.

Quelques chiffres : - L’envoi d’un courriel consomme autant qu’une ampoule allumée une demi-heure ; - Les visionnages en streaming du clip « Gangnam style » ont consommé l’équivalent de la

production annuelle d’une centrale ; - La fabrication des objets connectés pollue et consomme beaucoup de ressources limitées

(métaux rares).

D’après SNT 2nde Didier 2019

Page 7: Thème 6. Les données structurées et leur traitement

20_SNT_donnee_structuree_cours.docx 7

4. Les métadonnées. 4.1 Définition.

Une métadonnée est une donnée servant à définir ou décrire une autre donnée quel que soit

son support (papier ou électronique), par exemple le nom de l’auteur d’un livre. Lorsque l’on recherche un ouvrage dans une médiathèque, il est possible de le retrouver en recherchant par le nom de l’auteur, le titre, la catégorie… Ces informations, appelées métadonnées, servent au rangement structuré dans une bibliothèque.

Pour un document texte, lors de l’enregistrement du fichier, on associe au nom du fichier la date à laquelle il a été écrit. De même, à une photo seront associées, entre autres, les coordonnées GPS du lieu où elle a été prise. Ces données ajoutées sont utiles pour identifier un document et le classer.

La première métadonnée contenue dans un fichier numérique est son nom, qu’il est possible de compléter avec le titre, le nom de l’auteur etc.

4.2 Les métadonnées d’un fichier.

Dans Windows, les métadonnées se trouvent dans les « propriétés » d’un fichier. Elles sont obtenues par un clic droit sur le nom du fichier puis en sélectionnant « Propriétés ». Ces informations sont classées derrière différents onglets (« Général », « Détails », etc.). C’est notamment dans l’onglet général que sont indiquées le « nom du fichier », la « date de création », la « taille ».

Dans Mac OS, on trouve les mêmes renseignements avec la touche « control » associée à un clic puis « Lire les informations ».

Dans Windows, on peut modifier les métadonnées d’un fichier, ou les supprimer. Pour cela, il suffit de cliquer sur « Supprimer les propriétés et les informations personnelles ». Ce lien se situe en bas de la fenêtre « Propriétés », dans l’onglet « Détails ». Il est possible de faire un choix dans les métadonnées à conserver ou supprimer.