75
Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement de données ouvertes Philippe Gambette

Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Université Paris-Est Marne-la-Vallée25/09/2017

Hackathons et traitementde données ouvertes

Philippe Gambette

Philippe
Rectangle
Philippe
Machine à écrire
02/10/2017
Page 2: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Hackathons

Un hackathon, qu'est-ce que c'est ?

Page 3: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Hackathons

Un hackathon, qu'est-ce que c'est ?

Page 4: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Hackathons

Un hackathon, qu'est-ce que c'est ?

hacking

marathonhttps://cdn-images-1.medium.com/max/1600/1*dE4F_nf8P60V2baaaOxgLQ.jpeg

https://static1.squarespace.com/static/56909f73841aba578bee5b2b/t/5691a1bf2399a318016890de/1452384710213/tenyka.jpg

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ11pbyDi2DUZP-yYcpAdTOKGf2e5ymHjoCNIjcK9EWbxQXX58J

Page 5: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Hackathons

Un hackathon, qu'est-ce que c'est ?

hacking

marathonhttps://cdn-images-1.medium.com/max/1600/1*dE4F_nf8P60V2baaaOxgLQ.jpeg

https://static1.squarespace.com/static/56909f73841aba578bee5b2b/t/5691a1bf2399a318016890de/1452384710213/tenyka.jpg

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ11pbyDi2DUZP-yYcpAdTOKGf2e5ymHjoCNIjcK9EWbxQXX58J

Page 6: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Des besoins bien définis

→ partir d'un problème

Hackathon de la BNF (2016)

Gallicarte

Comment savoir à quels lieux se rapportent les résultats de recherche de documents sur

Gallica ?

HackEgalitéFH (2017)

George, le deuxième texte

Comment encourager les profs de français à utiliser davantage

de textes écrits par des femmes dans leurs cours ?

Page 7: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Des besoins cohérents avec le thème du hackathon

→ connaître les contraintes, les attendus(bien lire le règlement et la présentation,la composition du jury)

Hackathon de la BNF (2016)

Gallicarte

→ “Mettre à disposition, développer les usages et les réutilisations des données”

HackEgalitéFH (2017)

George, le deuxième texte

→ “égalité réelle entre les femmes et les hommes”,

“lutte contre les stéréotypes sexistes”

Page 8: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Un concept clair pour répondre aux besoins

Hackathon de la BNF (2016)Gallicarte

http://gallicarte.fr

HackEgalitéFH (2017)George, le deuxième texte

http://george2etexte.free.fr/

Page 9: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Un prototype opérationnel qui utilise des données fournies

Hackathon de la BNF (2016)Gallicarte

http://gallicarte.fr

Javascript, jQuery, PHP, SPARQL, JSON, leaflet

HackEgalitéFH (2017)George, le deuxième texte

http://george2etexte.free.fr/

Javascript, PHP, SQL, SPARQL, JSON

Page 10: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Une présentation rythmée...

Page 11: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Des besoins bien définis

• Des besoins cohérents avec le thème du hackathon

• Un concept clair pour répondre aux besoins

• Un prototype opérationnel qui utilise des données fournies

• Une présentation rythmée

→ une application concrète de vos cours !

Page 12: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les clés du succès pour un hackathon

• Des besoins bien définis

• Des besoins cohérents avec le thème du hackathon

• Un concept clair pour répondre aux besoins

• Un prototype opérationnel qui utilise des données fournies

• Une présentation rythmée

→ une préparation à votre insertion pro !

Page 13: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Plan

Source: Design vector designed by Freepik

L’ère des données

Traitement etvisualisationdes données

Quelques outilspratiques

Page 14: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

La révolution des données

Source : http://3.bp.blogspot.com/-Z8EYq8M8_AM/UGN_yXYbotI/AAAAAAAABqI/g_3rB9vg-xk/s400/airline-evolution.png

Révolutioninformatique

Révolutioninternet

Révolutionde la donnée

3° étape de la révolution numérique ?

Page 15: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

La révolution des données

« data scientist » : informatique, mathématiques, stratégie

Révolutioninformatique

Révolutioninternet

Révolutionde la donnée

Source : http://3.bp.blogspot.com/-Z8EYq8M8_AM/UGN_yXYbotI/AAAAAAAABqI/g_3rB9vg-xk/s400/airline-evolution.png

Page 16: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données ouvertes, «open data»

Des données de plus en plus :

• accessibles

• réutilisables

• stockables

• ... traitables !

Source : http://www.economie.gouv.fr/files/eco_numerique2.png

Page 17: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données ouvertes, «open data»

Des données de plus en plus :

• accessibles

• réutilisables

• stockables

• ... traitables !

Henri Verdier, Chief Data Officer français,directeur d’Etalab (https://www.etalab.gouv.fr/)

Source : http://www.economie.gouv.fr/files/eco_numerique2.png

Page 18: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données géographiques

Des données sur :

• Google Maps : « mashups »

• Open Street Map

Page 19: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données géographiques

Des données sur :

• Google Maps : « mashups »

• Open Street Map

• Base Adresse Nationale (en open data) :http://adresse.data.gouv.fr/

Page 20: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données géographiques

Page 21: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Géolocalisation de Lisbonne par Pessoa

Guide touristique écrit en 1925par Fernando Pessoa, en anglais

http://lisbon.pessoa.free.fr

Page 22: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Géolocalisation de Lisbonne par Pessoa

Géolocalisation manuelle Google Maps :

Page 23: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Géolocalisation de Lisbonne par Pessoa

Géolocalisation automatique Google Maps :

Page 24: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Géolocalisation de Lisbonne par Pessoa

Géolocalisation automatique Google Maps :

Page 25: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Géolocalisation de Lisbonne par Pessoa

Géolocalisation automatique Google Maps :

Base de donnéesMySQL ; PHP ;Javascript

Page 26: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Diagramme de Voronoi des McDos parisiens

http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html

Page 27: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Diagramme de Voronoi des McDos parisiens

http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html

Applet

Java

Page 28: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Diagramme de Voronoi des McDos parisiens

http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html

Page 29: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Diagramme de Voronoi des McDos français

http://www.comeetie.fr/map_mcdofr.php?

Code

Matlab

Page 30: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

La France en train depuis Paris

http://train.gambette.com

Strasbourg

Colmar

Belfort

NiceMarseille

Montpellier

ToulonPerpignan

Toulouse

Foix

Tarbes

Bordeaux

La Rochelle

Nantes

Rennes

Quimper

Saint-LôCaen

Rouen

Metz

Lille

Amiens

Lyon

Saint-BrieucParis

Grenoble

Pau

1h

2h

3h

Charleville-Mézières

Distances réelles

Besançon

Page 31: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

La France en train depuis Paris

http://train.gambette.com

Strasbourg

Colmar

Besançon Belfort

Nice

Marseille

Montpellier

Toulon

Perpignan

Toulouse

Foix

Tarbes

Bordeaux

La Rochelle

Nantes

RennesQuimper

Saint-LôCaen

Rouen

Metz

LilleAmiens

Lyon

Saint-BrieucParis

Grenoble

Pau

1h

2h

3h

Charleville-Mézières

Distances proportionnelles

aux durées de voyage en train

en avril 2006

Distances réelles

Prise en compte du TGV Est

CodeDelphi

Page 32: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

D’autres traitements de données géographiques

http://www.comeetie.fr/galerie.php?

Page 33: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données gastronomiques

Page 34: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

Photo Frédérique Voisin-Demery, https://flic.kr/p/dtUFN8

Page 35: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Page 36: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

enveloppe convexe

Page 37: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 38: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 39: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 40: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 41: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 42: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 43: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 44: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

0 50 100 150 200 250 300 350

0

20

40

60

80

100

120

140

160

180

Page 45: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données de moteursde recherche

Page 46: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fight!

http://www.googlefight.fr/

Page 47: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fight!

http://www.googlefight.fr/mathematiques-vs-informatique.php

Page 48: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fight!

http://www.googlefight.fr/mathematiques-vs-informatique.php

Attention à la fiabilité !http://blog.veronis.fr/2005/01/web-comptes-bidons-chez-google.html?m=0

Page 49: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fight pour l’orthographe ?

http://www.googlefight.fr/trafic-vs-traffic.php

Page 50: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : dangers !

https://xkcd.com/369/

Page 51: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : dangers !

http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html

Page 52: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : dangers !

http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html

CodeDelphi

Page 53: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : dangers !

http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html

Page 54: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : années

http://gambette.blogspot.fr/2006/11/la-naissance-du-web-daprs-les-moteurs.html

1 000 000 000/n(x), où n(x) est le nombre de résultats pour l’année x

Page 55: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : Miss Google 2010

http://gambette.blogspot.fr/2010/02/miss-google-2010.html

Page 56: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Google Fights : Miss Google 2010

http://gambette.blogspot.fr/2010/02/miss-google-2010.html

Page 57: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Données en arbres

Page 58: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Vote des députés

http://gambette.blogspot.fr/2007/01/arbre-phylogntique-des-dputs.htmlhttp://gambette.blogspot.fr/2007/02/la-puce-adn-des-dputs.html

«Puce ADN» des proximités de vote

Arbre des proximités de vote(2004-2007)

Page 59: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Vote des députés

http://gambette.blogspot.fr/2007/05/positionnement-des-dputs-udf.html

CodeDelphi, code Python

Page 60: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Nuage arboré du blog de Jean Véronis

http://gambette.blogspot.fr/2013/10/hommage-en-nuage.html

Page 61: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Arbre phylogénétique d'un ensemble d'espèces :

• Les classer en fonction de caractères communs

• Décrire leur évolution

D'après Lamarck (1815) Histoire

naturelle des animaux sans

vertèbres

Darwin (1837) Carnet B

Arbres phylogénétiques et arbres de mots

Page 62: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

62

Données sur les feuilles

ESPÈCES

Séquences ADN

MOTS

Position des mots

Arbres phylogénétiques et arbres de mots

Page 63: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

63

Données sur les feuilles

Distances entre les feuilles

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0

Arbres phylogénétiques et arbres de mots

Page 64: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

64

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0

A

B

classification hiérarchique ascendante

Arbres phylogénétiques et arbres de mots

Page 65: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

65

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C DA+B 0 5 6 C 5 0 3 D 6 3 0

A

B

classification hiérarchique ascendante

Arbres phylogénétiques et arbres de mots

Page 66: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

66

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C DA+B 0 5 6 C 5 0 3 D 6 3 0

A

B

classification hiérarchique ascendante

C

D

Arbres phylogénétiques et arbres de mots

Page 67: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

67

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C+DA+B 0 5,5C+D 5,5 0

A

B

classification hiérarchique ascendante

C

D

Arbres phylogénétiques et arbres de mots

Page 68: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

68

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C+DA+B 0 5,5C+D 5,5 0

A

B

classification hiérarchique ascendante

C

D

Arbres phylogénétiques et arbres de mots

Page 69: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

69

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0

A

B

C

D

classification hiérarchique ascendante

Arbres phylogénétiques et arbres de mots

Page 70: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Outils pratiques

Page 71: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

• extension iMacros de Firefox

Pour récupérer un ensemble de pages web

• expressions régulières

Pour extraire de l’information ou la changer de format

Dans la fonction rechercher/remplacer d’un éditeur de texteou dans un script Python

• bibliothèques Javascript D3.js, Google Charts, Charts.js, etc.

Pour visualiser les données de manière interactive sur le webhttp://www.sitepoint.com/15-best-javascript-charting-libraries/

Quelques outils pratiques

Page 72: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

• R : orienté statistiques

- https://www.r-project.org/- http://r4ds.had.co.nz/ (R for data science)

• Javascript : orienté web (interactions avec l’utilisateur)

- http://www.w3schools.com/js/

• Python : pour des scripts de test rapide en particulier

- https://www.python.org/

• Java : pour des outils en production

- https://www.java.com/fr/

Quelques langages utiles

Page 73: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Les expressions régulières selon xkcd

https://xkcd.com/208/

Page 74: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

Bibliothèque Javascript d3.js

http://d3js.org/

Page 75: Hackathons et traitement de données ouvertesigm.univ-mlv.fr/~gambette/ISI-Cours1-2017.pdf · 2017-10-02 · Université Paris-Est Marne-la-Vallée 25/09/2017 Hackathons et traitement

• Data Job 2016 – jeudi 10 novembre 2016 à Paris :http://datajob.fr/(entrée gratuite pour étudiants moins de 28 ans)

• Hackathons à Paris :https://www.eventbrite.fr/d/france--paris/hackathon/

• Blog Je véronise :http://gambette.blogspot.com/

• Les interventions d’Henri Verdier sur l’open data :https://www.youtube.com/results?search_query=Henri+Verdier

• Actualités de la révolution des données :http://radar.oreilly.com/data

Pour continuer à jouer avec les données

Philippe
Rectangle
Philippe
Machine à écrire
: 22 novembre 2017