Upload
nrb
View
676
Download
2
Embed Size (px)
DESCRIPTION
Ces slides proviennent de la présentation de Jacques Wieczorek lors du Data News Business Forum 2013 sur le thème Big Data Big Opportunities? Jacques y a partagé le retour de nos premières expériences dans le développement de services Big Data à valeur ajoutée.
Citation preview
Big Data : partage d’une expérience en cours de construction
J.Wieczorek 17/10/2013
Data News Business
Forum
Liminaire
Objectif
2
DQS
Positionnement organisationnel du Big Data
Les données
Compétences et profils
Risques
Tendances Big Data
Conclusions
Agenda
Liminaire
J.Wieczorek 17/10/2013
Liminaire
Partage d’une réflexion en cours de construction
DQS
2 1
3
4
J.Wieczorek 17/10/2013
DWH Big Data
J.Wieczorek 17/10/2013
Bi Big Data
t
Degré D’analyse BI
Big Data
J.Wieczorek 17/10/2013
Un changement de paradigme et un fantasme
Prolifération des données sous forme numérisée
Paradigme
Fantasme n’est pas de déterminer les contours en formation d’un futur immédiat MAIS bien d’un accès direct , sans médiation, à la réalité des phénomènes sociaux et économiques.
La donnée
J.Wieczorek 17/10/2013
La donnée : un faux ami
101101101
Valeurs
Champs
Multiples, hétérogènes
Répond : à des principes à des taxonomies
Devient: intelligente par recoupement
Hors contexte : Perte de signification Perte de valeur
Cadre juridique : Qui est propriétaire de la donnée ? Des droits rattachés ? Qui est responsable des conséquences de son utilisation ?
J.Wieczorek 17/10/2013
Les POCS NRB en Big Data
NRB
Partenaire(s)
ACTEURS
actif
Chaîne de valeur
CREER COLLECTER HEBERGER ANALYSER UTILISER THESAURUS
Profils consultants Big Data
J.Wieczorek 17/10/2013
Quels rôles pour quels profils pour Big Data?
Data scientist * (1)
*(1) : Patil
Association entre : Entrée : description d’un environnement, d’un objet d’intérêt Sortie : propriété que l’on veut prédire ou déterminer
J.Wieczorek 17/10/2013
Test d’échantillon
N =i
N =
A
nous n’avions pas accès à toute la population qui nous intéressait; D’ importantes décisions ont été
prises sur une quantité faible de données contenue dans un échantillon afin de calculer une quantité dénommée « statistique » pour estimer une « caractéristique » dans la population appelée « paramètre ».
Postulat : Si N est trop petit, les résultats seront imprécis et pas pertinents; Si N est trop grand, des ressources et du temps sont gaspillés pour un gain minime.
J.Wieczorek 17/10/2013
Des données massives à disposition
Le N du Big Data est presque aussi grand ou égal au N =
Big Data
Big Data
A Il faut : accepter un nouveau savoir abandonner les méthodes traditionnelles
N =i
N =
A
J.Wieczorek 17/10/2013
Informations lacunaires
On va devoir accepter plus « d’élasticité intellectuelle » car dans le domaine du Big Data 2+2 =‘ 3,85 ’
J.Wieczorek 17/10/2013
Des cours intéressants
www.coursera.org
Risques
J.Wieczorek 17/10/2013
Déterminer l’intensité de la liaison qui peut exister entre des variables
Constitution d’un échantillon
Méthode probabiliste
Méthode non-probabiliste
Corrélations potentielles mais :
Détecter une corrélation ne fait pas explication;
Les corrélations ne diront pas la vérité sur les causalités. Elles exprimeront la vérité d’une relation mais qui ne sera peut-être pas du tout causale.
L’ère du Big Data
J.Wieczorek 17/10/2013
Types de risques statistiques
Statistiques Sporadique
Inférence fallacieuse
Biais de confirmation
Paradoxe de Simpson
faute erreur
Répétitif
J.Wieczorek 17/10/2013
Le paradoxe de Simpson
Homer Edward
Un nom, deux prénoms, deux destinées…
J.Wieczorek 17/10/2013
Paradoxe statistique
Personnes malades
Personnes blessées
?
Explications • Mathématique
• L’incidence du phénomène décès est élevée dans la population blessée mais l’hôpital A comporte plus de patients de ce type • L’incidence du phénomène décès est rare dans la population malade des 2 hôpitaux qui est nombreuse. Mais l’hôpital B comporte plus de patients de ce type. Pour le phénomène étudié il n’est pas pertinent de sommer indistinctement les 2 types de patients admis au service d’urgence.
• Statistiques – épidémiologique • Les populations des patients des urgences des 2 hôpitaux ne sont pas similaires quant aux facteurs de risque. Il y a un effet de sélection quant aux facteurs de risques, trop peu de critères sont pris en compte. Une correction préalable aurait du intervenir.
J.Wieczorek 17/10/2013
Types de risques : l’apophénie
Statistiques Sporadique
Inference fallacieuse
Biais de confirmation
Paradoxe de Simpson
faute erreur
Répétitif Cognitif
J.Wieczorek 17/10/2013
Types de risques : raisonnement intuitif
(*) inspiré de D.Kahneman
place de théâtre + parking = 1,1 €
Tendances Big Data
J.Wieczorek 17/10/2013
Big Data et micro applications
Stratégie de résolutions de problèmes qui instaure une approche massive de pilotage par les données
temps
Information valide
Décision possible
t2t1 t3 t4
Prise de conscience
Délibération
Prise de décision
La valeur de l’information est constante
temps
Information valide
t2t1 t3 t4
Prise de conscience
Délibération
Prise de décision
La valeur de l’information diminue au cours du temps
et tend vers 0
Décision
possible
Ancien modèle
Modèle actuel
Traitement de masse pour des micro utilisations
J.Wieczorek 17/10/2013
Le Graal du Big Data : interagir avec l’unité ultime : l’individu dans son instantanéité.
Environnement Big DATA
J.Wieczorek 17/10/2013
Pilotage des données pour un individu acteur de son choix
J.Wieczorek 17/10/2013
Quel est le grain de sel qui rend le mets trop salé ?
Conclusions
J.Wieczorek 17/10/2013
On ne trébuche pas sur une montagne, mais sur une pierre
J.Wieczorek 17/10/2013
C’est la personne qui donne sens à l’analyse de données; sa compréhension dépend des outils qu’elle sait utiliser.
J.Wieczorek 17/10/2013
Des données hétérogènes
J.Wieczorek 17/10/2013
Une corrélation
J.Wieczorek 17/10/2013
Merci Monsieur Pissaro