32
Les humanités numériques à l’ère du big data D. A. ZIGHED [email protected] Journées Big data & visualisation Focus sur les humanités numériques ISH Lyon 18-19 juin 2015 Co-organisées par EGC – AFIHM - SFdS

Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED [email protected] ... Gestion et Analyse de données Spatiales

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités numériques à l’ère du big data

D. A. ZIGHED [email protected]

Journées Big data & visualisation

Focus sur les humanités numériques ISH Lyon 18-19 juin 2015

Co-organisées par

EGC – AFIHM - SFdS

Page 2: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Accueil - Remerciements

!   Les GT de l’association « extraction et gestion des connaissances » (EGC) !   Fouille de Données Complexes (FDC) !   Fouille de Grands Graphes (FDG) !   Gestion et Analyse de données Spatiales et Temporelles (GAST)

!   Le GT de « l’association française des interfaces homme-machine » (AFIHM) !   Visualisation d’informations, interaction et fouille de données

(VIF) !   Le GT de la société française de statistique (SFdS)

!   Data mining et apprentissage (DMA)

Bienvenue à l’ISH pour cet échange STIC-SHS

Page 3: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Plan de présentation

!  Présentation de l’ISH

!  Les humanités et les sciences sociales

!  Le big data

!  Les humanités et le big data

!  Conclusion

Page 4: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

L’institut des sciences de l’homme de Lyon

Page 5: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales

Page 6: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales

• Recherche : individuelle • Matériel : Monographie • Méthodologie : Interprétation – exégèse – érudition, critique - raisonnement déductif – discours discursif

• Publication : auteur unique - ouvrage

Page 7: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales

• Recherche : Collective • Matériel : Observations sur terrain • Méthodologie : Hypothèse - mesure – observation statistique – induction – expérimentation - simulation

• Publication : collective - articles

Page 8: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales

Littérature (Analyse de style) Economie (Eco Politique)

• Recherche : individuelle • Matériel : Monographie • Méthodologie : Interprétation – exégèse – érudition, critique - raisonnement déductif – discours discursif

• Publication : auteur unique - livre

• Recherche : Collective • Matériel : Observations de terrain • Méthodologie : Hypothèse - mesure – observation statistique – induction – expérimentation – simulation

• Publication : collective - articles

Page 9: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales

l’humain son existence et ses activités – sociales, économiques et culturelles

= Sciences de l’Humain et de la Société - SHS

Page 10: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales à L’ISH •  8000 références biblio – 2010-2014 •  23 laboratoires •  3000 personnes •  Extraction de topics •  AFC

Page 11: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Les humanités et les sciences sociales à L’ISH

Page 12: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités Numériques

~ 1940 : Computational humanities ; Digital Humanities eHumanities

Roberto Busa (1913 – 2011) Thomas John Watson, Sr. (1874 – 1956)

Lexique des 118 textes de Thomas d'Aquin

Page 13: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités Numériques

Texte1 Texte2

: Textei

: : : : : :

Texte118

Lex1 Lex2 Lex3 …… Lexj………Lexn

nij

praesentis

mag

iste

r

Ti

Tn

T2 T3

T1

(Occurences de Lexj dans Ti)

Comment visualiser Les textes dans les n dimensions lexicales ?

Page 14: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités numériques

!   ~ 1990 : PC, Scanners, Internet,

!   Objectif initial : Mise en lignes du patrimoine culturel et scientifique;

!   Les projets (~2000) : !  bibliothèque du congrès américain; !  Gutenberg (1971); !  Million books project; !  Google books (2013) ~ 30 Millions d’ouvrages.

Page 15: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités numériques Chaine de numérisation et d’édition critique;

Acquisition Numérisation (Text – image – vidéo…)

Préparation Nettoyage Mise en forme

ROC Encodage (TEI) Indexation

Enrichissement Méta-données Dublin Core

Mise en ligne DVD, Web

Enrichissement Collaboratif

Archivage

Page 16: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités numériques intégratives

Acquisition, enquête numérisation, open data, obets connectés… (Text – image – vidéo…)

Préparation Nettoyage Mise en forme

ROC Encodage (TEI) Indexation

Enrichissement Méta-données Dublin Core

Mise en ligne DVD, Web

Enrichissement Collaboratif

Archivage

Exploitation Analytique Fouille

Création de nouveaux services / outils

Enregistrer, stocker, traiter et diffuser les traces et empreintes des activités humaines

Page 17: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data en image

•  200 Mds mails/j

•  35 Mds de pages Facebook

•  5,6 Mds téléphones

•  Internet = 10 000 Mds de Go / mois

•  …

Océan – Déluge – Tsunami… des données

Page 18: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : montée en flèche et chutes libres

Nb

noeu

ds

1969 2015

1 Mds

$ / T

o

1970 2015

14 000 000 $

70 $

$ / G

FLO

PS

1960 2015

1,1 Mds $

0,08 $

1998 2015

$ / M

bps 1200 $

0,63 $

Page 19: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : caractéristiques

Volume

• Walmart : 1 million de transactions/heure • Google : 25 pétaoctets traités par jour • Facebook traite, analyse +30 pétaoctets

Vitesse

• Facebook : enregistre 100 téraoctets / jour • Twitter enregistre ~ 200 millions de tweets par jour

Variété

• Youtube enregistre 48 heures de vidéo / minute • 30 milliards de documents partagés sur Facebook • Médias sociaux – Internet des objets… Open data

Page 20: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : objet Gérer et traiter des « grands » volumes de données hétérogènes et évolutives dans un cadre contraint;

BDR optimisées

Taille de la BD

Tem

ps d

e ré

pons

e

Internet : > 10 Po

10 jours 2 h 45

Disque dur ~1To

Data center > 100 To

Temps de lecture à 100 Mo/s

Page 21: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

!   Vers un nouveau modèle de données

!   Vers de nouveaux concepts de programmation

Big data : diviser pour régner

Page 22: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : Nouveau modèle de données

NoSQL

Dénormaliser

Relâcher les contraintes Cohérence

De nouveaux compromis - Efficacité

+ Disponibilité

Distribuer Données et traitements Viser

Performance et

disponibilité

Couplage données et traitements

Montée en charge linéaire

Développement ad hoc $$$$$$$$$$$$$$

Page 23: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : Bases de données orientées agrégats

BDOA

Entrepôts Clé-valeur

BD orientées colonnes

BD orientées

documents

Clé – 0FR63K (identifie serveur et enregistrement) Valeur : blob (video/text/XML doc/…)

facteur de réplication (N) quorum d’écriture (W) quorum de lecture (R)

Clé – 0FR63K Valeur : Doc (XML, JSON) Clé – 0FR63K

table : colonnes (statique/dynamiques)

Fondation Apache

BD orientées graphes

Page 24: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : Concept de programmation

!   Calcul parallèle : un concept né avec l’informatique !   Le paradigme MapReduce

Clients

Chaque machine calcule par produit : Volume - CA

Tri par produit du map

Volume Total CA global par produit

MAP REDUCE Shuffle

Clusters de calcul

Factures

1 2 3 4

Page 25: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Big data : Hadoop, l’éléphanto dans un magasin de porcelaine ?

• Fondation Apache • Java

Framework

•  Ramener un calcul à des taches de type : Map – Reduce. Est-ce toujours possible ?

•  Ecriture-test ≠≠≠≠ •  Paramétrage ≠≠≠ •  ...

Page 26: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités numériques et big data

!   Commencement @ Google (2000)

Création d’un annuaire inversé des pages web pour le moteur de recherche Google;

Combien

Page 27: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Digital humanities @ google

Des centaines de partenariats avec des musées pour rendre accessible en ligne les œuvres d’arts et les préserver en numérique pour le futur.

Page 28: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités numériques @ Google

30 millions de livres scannés (2013) ~ 130 millions de titres ont été publiés depuis Xve siècle

Page 29: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

Humanités numériques intégratives !   Economie et Big data

Roberto Rigobon

Dépôt de bilan en juillet 2008

Relevé des prix de 500 000 prix USA Aucun nettoyage ni consolidation Analyse (big data) Détecte un épisode inflationniste en septembre 2008

Le CPI (INSEE US) ne détecte le phénomène que 2 mois plus tard, novembre 2008; Coût de production 250 millions $

Page 30: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

! Psycho-socio

Humanités numériques intégratives

Page 31: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

!   Sociologie

Humanités numériques intégratives

-  Analyse d’opinion -  Analyse des sentiments -  Recommandations -  …

Page 32: Les humanités numériques à l’ère du big data · Les humanités numériques à l’ère du big data D. A. ZIGHED djamel@zighed.com ... Gestion et Analyse de données Spatiales

!   Nous sommes qu’au début : il faut un Codd pour les big data ;

!   Il faut un Gauss pour le traitement; !   Est ce que tout est dans les données ? (frappe clavier) !   Peut-on tout optimiser ? (smart-phone/assurances) !   Faut-il tout traiter tout ? !   Faut-il cesser de chercher des théories ? (2008, Chris

Anderson)

Conclusion : Humanités numériques big data