50
Gestion Eco Responsable des données Didier Mallarino ANF EcoInfo Septembre 2019, Autrans

Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion Eco Responsable des

données

Didier MallarinoANF EcoInfo Septembre 2019, Autrans

Page 2: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 2

Sommaire

● La donnée : source, stockage et transport● Les volumes en jeux● Les bonnes pratiques de gestion de la donnée● Quelques ateliers● Conclusion

Page 3: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 3

La donnée : source, stockage et transport

Page 4: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 4

C’est parce qu’il y a des données...

Le Matériel (Hardware)Logiciel (Software)

Données : En informatique, une donnée est la représentation d'une information dans un programme (Wikipédia)

Page 5: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 5

Parce que sans données….

● Pas d’analyse possible,

● Pas de compréhension du monde qui nous entoure,

● Pas de prévisions possibles,

● Pas de médecine,

● Pas de d’intelligence artificielle, ...

● Pas d’humains…. nous sommes de fait des entités biologiques qui traitent de l’information et donc, de la donnée Nous n’avons fait que déléguer aux machines le travail d’en traiter de gros volumes…. :-)

Page 6: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 6

Et d’ailleurs,

● Il existe des théories qui imaginent la « réalité » de notre univers sous la forme d’information quantique et pensent l’univers comme une forme de machine de Turing qui stocke, calcule et gère son état en manipulant de l’information.

● Source = Pour la Science

Page 7: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 7

Donc, la donnée est importante

● La donnée est précieuse, utile et unique (trace d’un instant révolu).

● La « valeur » de la donnée reste subjective, dépendant de l’usage et de l’usager. Mais, l’histoire montre que la connaissance donne de nombreux avantages ;

● La donnée « brute » (issue de l’observation) est souvent inutilisable. Elle doit être traitée, analysée, interprétée, associée à d’autres éléments (méta données) qui la rende utile et utilisable, pérenne, échangeable pour des prises de décisions ou une meilleure connaissance.

● Son acquisition (campagnes in situ, satellites, nombreuses heures de calcul, instruments médicaux, sondes sous marines, etc...) est en général coûteuse tant écologiquement que financièrement

● Son « exploitation » crée de la connaissance, de la « richesse » ou de la « valeur ajoutée » et les entreprises se battent pour récolter de la donnée….

Page 8: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 8

Sources de la donnée

IOT200 Milliards

en 2020

4To/Jour – 1,5Go/s

UHD (4K) = 3840 (ou 4096) x 2160Débit mini = 25 Mbits/s

Et tellement d’autres sources

DATA Cloud

Page 9: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 9

Une avalanche de données

Page 11: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 11

Coût du stockage : exemple du SSD vs HDD

● Choisir le bon média en fonction de l’usage : traitement, utilisation, archivage et backup

– SSD (Source Wikipédia) moins d’énergie consommée (0,1 à 0,9 W en veille, 0,9 W en activité contre 0,5 à 1,3 W en veille et 2 à 4 W en activité pour un mécanique) et moins de refroidissement

– Performance globale très supérieure aux disque mécaniques (sauf petits fichiers)– Résistance aux chocs et aux vibrations élevée, pas de bruit– Une durée de vie théoriquement plus importante (pas de pannes mécaniques) mais limitée

physiquement par le nombre de cellules (TBW, ou TeraByte Written. La valeur TBW pour un SSD de 250 Go se situe entre 60 et 150 téraoctets de données écrites. Ainsi, pour garantir un TBW de 70 To, un utilisateur devrait écrire 190 Go par jour en 1 an.)

– Et l’ACV, ça donne quoi ? : SSD, 35 matériaux pour 99 % de sa constitution versus 21 dans les HDD classiques : Recyclage plus complexes ?? Mais il y a aussi des cartes électroniques dans un HDD ; impacts biologiques moins favorables aux SSDs ?

● Autres médias : Compromis durée de vie, taille, facilité d’utilisation : DVD, Bande, et le futur … ADN ou Cristal… :-)

Page 12: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 13

Transport de la Donnée

Source = Illustration

Undersea Cable

Page 13: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 14

Transport de la donnée

● 99 % du trafic intercontinental passe par des câbles de télécommunications posés au fond des océans.

● Une infrastructure critique, tant techniquement que politiquement. C’est un enjeu de sécurité et de défense nationale. Certains pays peuvent êtres dépendant pour leur accès à Internet d’un seul câble important qui assure 80 % du trafic internet (e.g Algérie en octobre 2015)

● 250 câbles en 2013, 448 câbles sous marins en 2018 pour 1,2 million de kilomètres

● En moyenne, 100.000 km de câbles / an sont posés

● Coût d’une campagne de pose entre deux continents, plusieurs centaines de millions d’Euros sans compter les impacts écologiques (enfouissement, interventions, campagne de pose)

● Facebook et Microsoft ont récemment mis en service Marea, un câble de 6 600 km, capacité 160 térabits par seconde entre les États-Unis et l'Europe. Google a investi dans Faster, qui relie la côte Ouest des États-Unis au Japon. 12 000km, capacité de 60 térabits par seconde.

● Source : Veille Carto, Institut Français de la Mer & Cartographie Numérique

Page 14: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 15

Ça fait longtemps qu’on déploie des câbles :-)

1865: Map Shewing the Atlantic Telegraph and other Submarine Cables in Europe and America from . Note also the route of Tal Shaffner's proposed northern cable.

Arrivée (atterrissement) à New York (Rockoway Beach) du premier câble sous-marin reliant l'Italie (Rome) à l'Amérique du Nord. Ce câble passait par les Açores et Malaga en Espagne (photo de 1925) (Source Wikipédia).

c. 1880 Anglo-American Telegraph Company North Atlantic map

Page 15: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 16

Histoire (récente) et technique

● 1982 : Pose des premiers câbles optiques : Antibes-Nice (1982), Antibes-Port Grimaud (1984) et Marseille-Ajaccio (1987).

● 1988 : Premier réseau international (TAT 8) relie la France, l’Angleterre et les Etats-Unis et permet 40.000 communications téléphoniques simultanées.

● 2019 : Les dernières lignes sous marine installées ont des débits de plusieurs dizaines, voire centaines de Tb/s

● Les vitesses de pose varient de 250 km/jour pour une pose en surface, à 25 km/jour pour un ensouillage (3 à 10 mètres pour certains atterrissements délicats comme ceux de Singapour, Hongkong ou Shanghai)

● Source 1 = INSA Lyon (rapport de stage étudiant)

● Source 2 : Anatomie d’un câble

Page 16: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 17

La recherche : Renater

RENATER

12 000 km de fibre optiques

72 points de présence (NR)

150 longueurs d’ondes de 10 à 200 Gbit/s

Page 17: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 18

Aujourd’hui

Navire Câblier d’Orange (Source)

Source : Courrier International 

Page 19: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 20

Un exemple de câble 

Et sa nouvelle version : Sea-Me-We 5 : (South East Asia-Middle East-Western Europe 5). Câble de 20 000 km, coût de 300 millions d'euros, relie le sud de la France à Singapour, en passant par la Turquie, l'Égypte et l'Arabie saoudite. »

Source : Global Submarine Cable

Page 20: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 21

Coût du transport

Source : Electricity Intensity of Internet Data Transmission: Untangling the Estimate

https://doi.org/10.1111/jiec.12630

Page 21: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 22

Coût du transport

● Les chiffres font le grand écart…

● Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté  entre 2.48 et 5.12 kWh/Gb (Chiffres de 2012 et 2014)

● « Carbonalyser » : l’extension de navigateur qui révèle combien surfer sur le web coûte au climat (Attention, c’est à la louche…)

● Ce sont des données moyennes…ce qui au fond ne veux pas dire grand-chose…. On peut en tout cas supposer que plus ma donnée est loin… plus ça coûte ? Mais comment savoir ? Mini atelier traceroute ou tracert sous windows :-) https://traceroute-online.com/tcptraceroute/

Page 23: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 24

La donnée :

Les volumes en jeux...

Page 24: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 25

Les volumes en jeux et évolution

Page 25: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 26

Les volumes en jeux et évolution

Un e-mail = 10g de CO2

Source : Visual Capitalistic & Statista

Page 26: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 27

Chaque jour….

● 29 To publiées chaque seconde (25.000 Go),

● Soit 2,5 exaoctets / jour (soit 2500 Po, 1 Po = 1000To),

● Soit 912,5 exaoctets / an

● En 2018, on estime que 90 % des données disponibles dans le monde ont été créées dans les deux dernières années.

C’est l’occasion de le (re)dire, mais attention aux chiffres…. Ce ne sont pas des vérités absolues, mais des ordres de grandeur … parfois … à la louche :-)

Page 27: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 28

Google à lui tout seul

● 2009

– 37 DC dans le monde (13 sont 100% Google) - 0,01% de l’électricité mondiale,– Le PUE Power Usage Effectiveness moyen de Google est de 1,12 (1,9 USA, Europe 2,53).– 2 millions de serveurs (2% des serveurs dans le monde)– Gmail représente potentiellement 6,375 Exa octets (soit 6 375 000 000 Go).– Google brasserait chaque jour 24 Peta octets par jour (soit 24 000 000 Go) soit 8,760

Exa octets.● 2016

– 2.5 millions de serveurs, 16 Datacentres. Je n’ai pas trouvé d’autres chiffres● Exemples de coût carbone

– Une recherche sur le web, c’est entre 0,2g, 7g, 15g de CO2 : choisissez mais utilisez plus les bookmarks …

– Un arbre « moyen » absorbe entre 2 et 300 g / CO2 par jour… Plantez des arbres :-)

Sources = digora & searchengineland

Page 28: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 29

Qui truste le plus de trafic… ?

● France : 47,7 millions clients mobiles 4G pour 3,6 exaoctets de données « consommées » sur les mobiles durant l’année 2018 (+66% en un an). Soit en moyenne 6,7 Go par mois.

● Monde : 4 milliards d’utilisateurs connectés (58 % de la population mondiale)

● Netflix (37,6%) et YouTube (33,1%) représentent 70% du trafic internet mondial sur mobiles.

● Globalement, les sites de vidéo occupent près de 58% du trafic, dont 15% pour Netflix et 11% pour YouTube. Baissez la résolution… :-)

– … et encore, la 4K et le 5G ne sont encore pas déployés ! L’usage explosant en général avec la facilité technique offerte, CISCO estime un triplement de trafic pour 2022 avec 82 % dédié à la vidéo

Sources = airofmelty & planetoscope

Page 30: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 31

Consommation moyenne mobile

Sources ACERP : Observatoire & Grandes Dates

Page 31: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 32

Revenons à la recherche

● La donnée d’observation est unique et son coût d’acquisition est en général important (données satellites, imagerie médicale, mesures in situ, ...)

● Le moins que l’on puisse faire est d’éviter de continuer à perdre 80 % des données acquises :-(

● Dans le monde de la recherche, deux communautés sont pionnières (j’ai pas dit exemplaires… :-) de la préservation des données : les astronomes et les physiciens (e.g. observatoire virtuel = standards et formats communs, qualification, méta données, toutes les clés sont en place pour rendre les données pérennes….)

● Une réponse globale à la perte des données et à une gestion éco responsable de ces données : La Science ouverte ?

Page 32: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 33

Et…. ? Ah, quand même…..

● 12 % des sites web sont pornographiques (soit environ 25 milliards de sites web) pour 4,9 milliard $ de revenus…. Face à des réseaux sociaux qui en génèrent environ 20 milliards

● 8 % des mails sont pornographiques (2,5 milliards de mails)

● 35 % de l’intégralité du trafic internet en download sont du contenu pornographique.

● En 2018,

– Pornhub a enregistré 33,5 milliards de visites, pour 207 405 vidéos visionnées par minute.

– 4403 pétaoctets de données ont été transférées sur les serveurs, soit 574 Mo de données pour chaque personne dans le monde et 147 Go de données par seconde.

– Pornhub a donc consommé cette année là plus de bande passante que l'ensemble d'internet en 2002.

Source : Journal du Geek 

Page 33: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 34

Instruments et centres de données

● Instrument VLT : 30 Go / jour

● Instrument LHC : 40 To / manip

● Météo France (Opérationnel et Recherche) : 2015, 40Po, 250 To/jour en 2018, 180 Po, 1Po/jour

● CC-IN2P3 : Le Centre de Calcul de l’IN2P3 (ou CC-IN2P3 – USR6402) : recherches en physique des particules, physique nucléaire et physique des astroparticule ; Stockage, 20 Po, 340 Po sur bandes

● CINES : Le C.I.N.E.S. (Centre Informatique National de l’Enseignement Supérieur) EPA basé à Montpellier : calcul numérique intensif, l’archivage pérenne de données électroniques, l’hébergement de plates-formes informatiques d’envergure nationale ; Stockage = 5Po scratch (calcul), 260 To /home, + /store de stockage – pas de données :-)

● IDRIS : L'IDRIS est le centre majeur du CNRS pour le calcul numérique intensif de très haute performance ; Stockage = 5Po + 2 Po

● TGCC du CEA : L'architecture du TGCC est centrée sur les données et centralisée au sein d'un cluster unique pour l'ensemble du centre de calcul : GS-TGCC (Global Storage – TGCC) : Stockage = 3Po +5 Po Scratch, 9Po /home et 18 Po de Store + 50 Po de stockage bande

Autres Source : GENCI

Page 34: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 35

La donnée : Les bonnes pratiques de gestion de la

donnée et éco responsabilité

Page 35: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 36

Science ouverte et ...

« Les données de la recherche sont la matière première de la connaissance. Les partager, c’est ouvrir de nouvelles perspectives scientifiques »

Frédérique Vidal, ministre de l'Enseignement supérieur, de la Recherche et de l'Innovation (Juillet 2018)

● Site Ouvrir la science : https://www.ouvrirlascience.fr

Sources : Plan National Science Ouverte ; Qualité en Recherche ; PDF Plan National Science Ouverte ; UMR 5206 / Triangle

Page 36: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 37

Les données, soyons « FAIR » play

Pour répondre aux impératifs de la Science Ouverte, il faut rendre les données « FAIR »

● Findable / Facile à trouver → catalogage et référencement,

● Accessible / Accessibles → stockage, outils de recherche et de pré visualisation,

● Interoperable / Interopérables → formats communs, communication inter logiciels et catalogues,

● Reusable / Réutilisables → Pour assurer la reproductibilité de la Science, les données et le logiciel associés doivent êtres réutilisables

Page 37: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 38

Et si je rajoute un E ?

● Pourquoi FAIR(E), c’est éco responsable ???

Page 38: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 39

Parce que :

● Utiliser des standards ouverts, disponibles et simples permet de minimiser les besoins de conversion et manipulation de la donnée,

● Lorsque la donnée est rendue pérenne et réutilisable, son coût d’acquisition est mutualisé sur ses diverses utilisation. La réutilisation des données et des logiciels produits évite des coûts de développement, tests, intégration en de multiples endroits.

● Intégrer dans les différentes étapes du cycle de vie de la donnée des éléments éco responsables (choix du média de stockage, de backup, localisation de la donnée au plus près de son usage pour minimiser le transport, etc.) permet également une consommation optimale des ressources allouées au traitement de ces données.

● Utiliser des techniques et des outils pérennes pour l’archivage (Formats ouverts, centre type CINES, …) et le backup de la donnée (Déduplication, ...)

● Ouvrir la science et la connaissance, c’est garantir un accès à tous à un savoir publiquement financé et assurer un rempart contre la désinformation. C’est pas spécialement éco responsable, c’est juste responsable et sain.

● C’est assurer la reproductibilité de la Science, ce qui est le minimum attendu de la Science….● Une vaste étude sur des jeux de données construits par les chercheurs en 1991 a montré

qu’ils subissaient une déperdition rapide, atteignant 17% par an ●

Page 39: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 40

Cycle de vie de la donnée

Source = IUMSP

Page 40: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 41

Doranum

Source = Doranum

Page 41: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 42

Ce qui se passe aujourd’hui

● Cadre légal : La directive Européenne INSPIRE

● Initiatives : RDA, Software Heritage, Centre de données nationaux, européens et mondiaux : Huma Num, IR Système Terre, SHIM, Copernicus, SHOM, SISMER, SEANOE, ... Encore beaucoup de flou et de luttes de pouvoir... mais ça avance… :-)

● A notre échelle : il est indispensable de mettre en place des stratégies de préservation des données acquises qui soient fiables, pérennes et éco responsables.

CNRS et Big Data

Page 42: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 43

Alors, que FAIR(E)…. ?

● Comme avec l’énergie, la donnée la plus éco responsable sera celle qui ne sera pas produite ni consommée :

– Première réponse : Fermer le robinet des données… :-) éviter de produire (et consommer) des données dont on n’a pas besoin.

● Si on a une donnée « précieuse » et « utile », il est indispensable ne pas perdre ce qui a été un coût écologique important à acquérir. Il va donc falloir se diriger vers une logique d’ouverture de la donnée et rajouter à chaque étape du « cycle de vie de la donnée » des critères d’éco responsabilité adaptés et réfléchis.

– Deuxième réponse : se diriger vers « la science ouverte » et rendre ses données FAIR(E) pour garantir leur pérennité tout en appliquant des critères Eco responsables aux différentes étapes du cycle de vie de la donnée et par exemple :

● Choisir des Médias adapté au besoin en cours (calcul, backup, archivage, ...)● Donnée proche de l’usage (minimiser le « transport »)

Page 43: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 44

Merci :-)

« Le peu qu’on peut faire, le très peu qu’on peut faire, il faut le faire. »

Théodore Monod

Page 44: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 45

Ateliers

Ateliers

Page 45: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 47

Ateliers

Nous vous proposons 3 ateliers de réflexions et d’approfondissement en ayant à l’esprit les impératifs du cycle de vie de la donnée, de science ouverte et d’éco responsabilité optimale en croisant vos expériences propres et quelques recherches sur Internet :-)

● Atelier 1 : Le support de stockage

● Atelier 2 : Le lieu du stockage

● Atelier 3 : Les formats de la donnée

Page 46: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 48

Atelier 1 : Le choix du média

● Choisir le bon média en fonction de l’usage : traitement, utilisation, archivage et backup

● Intégrer les impacts autres que les coût carbone pour faire ses choix

● Analyser les Exemples d'ACV de disques Seagate et proposer vos propres conclusions.

Page 47: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 49

Atelier 2 : Le lieu….

● Stockage local ou cloud ? Quels impératifs prendre en compte ?

– « Transports » de la donnée, utilisation au plus près du calcul, performance énergétique et engagement éco responsable du centre de stockage versus le stockage local, volumétrie.

– Coût du transport de la data : Routeur : consommation quasi fixe, trafic ou pas, sans fil (wifi et xG, consommation proportionnelle au trafic).

● Deux documents pour travailler sur ces aspects : Electricity Intensity of Internet Data Transmission: Untangling the Estimate et The Megawatts behind Your Megabytes : Going from Data-Center to Desktop

Page 48: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 50

Atelier 3 : Formats et outils

● Point de départ = Le RGI  (Wikipedia) et sa Version 2.0 ; Un petit travail de découverte et de synthèse sur les formats et les licences recommandés ; Formats ouverts et universels :

– Réutilisation facilité,– Pas de conversion nécessaire,– Format auto suffisant (exemple, le NetCDF-CF contient à la

fois les données et les méta données sous une forme « conventionnée »)

● Outils et logiciels de traitement standard et communs.

● Publier ses données sous la licence etalab (https://www.etalab.gouv.fr/)

Page 49: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 52

Un exemple de câble

● « En France, Orange (via Orange Marine) investit régulièrement dans les câbles sous-marins. Il a notamment participé à l'installation du Sea-Me-We 5 : (South East Asia-Middle East-Western Europe 5). Câble de 20 000 km, coût de 300 millions d'euros, relie depuis peu le sud de la France à Singapour, en passant par la Turquie, l'Égypte et l'Arabie saoudite. »

Page 50: Gestion Eco Responsable des données...Coût du transport Les chiffres font le grand écart… Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48

Gestion éco Responsable des données 53

Sources

● Source Symboles = https://www.opensymbols.org/

● https://www.doz.com/marketing-resources/one-minute-internet