QLIKVIEW ET LE BIG DATAgo.qlikview.com/rs/qliktech/images/Livre-Blanc-QlikView-et-le-BigData.pdfBig Data Analytics: Profiling the Use of Analytical Platforms in User Organizations

QLIKVIEW ET LE BIG DATALivre blanc sur la technologie QlikView

Juillet 2012

qlikview.com

QlikView et le Big Data | Page 2

Introduction

Le Big Data suscite actuellement un vif intérêt. En l’exploitant dans un cadre opérationnel, nombre d’entreprises bénéficient d’une capacité sans précédent de stockage et d’analyse de volumes extrêmement importants de données disparates. Ces données leur offrent un avantage concurrentiel décisif en permettant aux utilisateurs d’identifier de nouvelles opportunités et de résoudre des problèmes pour lesquels ils n’avaient pas trouvé de solution. Pour beaucoup d’autres entreprises, le Big Data est une tendance importante à l’heure actuelle dans le domaine de l’informatique qui nécessite une meilleure compréhension à l’égard de son utilité en faisant abstraction de l’effet de mode associé à ce concept. Le présent document fournit des informations relatives au rôle de la plate-forme QlikView de Business Discovery pour compléter une solution de Big Data grâce à ses capacités d’analyse avancées. Il est destiné aux professionnels de l’informatique et aux dirigeants qui souhaitent découvrir comment tirer pleinement parti d’une solution de Big Data en s’appuyant sur une couche analytique leur permettant d’accéder aux données et de rendre ces données accessibles aux utilisateurs métier sous un format pertinent au sein de leur organisation.

Pourquoi le Big Data est-il important ?

Aux États-Unis, environ neuf millions de vols aériens sont enregistrés tous les ans et chacun de ces vols génère presque toutes les secondes des données relatives à des centaines de paramètres provenant des appareils, des radars et d’autres sources de données. De plus, des données non structurées sont associées à chaque vol, tels que des rapports de sécurité et des rapports de pilotes et de copilotes. i La NASA (National Aeronautics and Space Administration) utilise des outils d’analyse pour explorer la totalité de ces données et recueillir des perspectives afin de détecter et d’éviter les incursions potentielles sur les pistes et d’autres accidents.

eBay, le géant du commerce en ligne, a mis en place un programme décisionnel relatif aux médias sociaux pour aider les décisionnaires à mieux comprendre les audiences, les influenceurs et la position concurrentielle de l’entreprise, et pour fournir un service de meilleure qualité à sa clientèle. En juin 2012, eBay avait indexé plus de 40 millions de blogs et de forums (60 milliards de posts, soit 10 000 à la seconde), ce qui représente 65 téraoctets de données. Une équipe mondiale chargée des analyses des médias sociaux collabore avec différents groupes au sein de l’entreprise pour identifier des perspectives à partir de l’ensemble de ces données et pour les partager. ii

Pour les sociétés commerciales comme eBay, plus elles parviennent à gérer et à analyser un volume de données supérieur à celui de leurs concurrents, plus elles parviennent à les devancer. Pour les organisations publiques comme la Nasa, plus elles parviennent à traiter et à analyser de données, plus leurs prévisions gagnent en précision. Ces exemples n’offrent qu’un simple aperçu de l’intérêt du Big Data.


Qu’est-ce que le Big Data ?

Selon le McKinsey Global Institute tout comme d’autres instituts, le concept de Big Data fait référence aux ensembles de données dont la taille dépasse celle des ensembles de données que les outils de bases de données traditionnels peuvent collecter, gérer et traiter dans un délai acceptable. Selon l’industrie concernée, ces ensembles de données peuvent représenter une volumétrie comprise entre quelques dizaines de téraoctets et plusieurs pétaoctets. De plus, l’expression Big Data est associée non seulement au volume des données mais également à leur diversité (par exemple les types de données, qu’elles soient structurées ou non structurées, etc.) et à leur rapidité (la dynamique ou la nature évolutive des données, les nouvelles données rentrent dans le système et les anciennes données en sortent). En quelques mots, si des données sont trop volumineuses pour qu’il soit possible de les gérer, elles font partie du Big Data (voir la figure 1).

Figure 1 : Qu’est-ce que le Big Data ?

Depuis quelques années, les solutions de Big Data comme Hadoop et Google BigQuery connaissent un véritable essor. Ces solutions ont un point commun : elles utilisent des réseaux de calcul distribué ou des processeurs massivement parallèles pour stocker des volumétries très importantes de données et y offrir un accès. Le présent document n’a pas pour objet d’examiner les technologies sous-jacentes des fournisseurs de solutions de Big Data mais une brève présentation technique est fournie dans l’une des sections suivantes.

Le Big Data possède une caractéristique importante consistant à exploiter ces solutions pour stocker et traiter des données non structurées (par ex. des données Web comme des commentaires en ligne, du texte ou du contenu de médias sociaux) qui viennent compléter des données structurées extrêmement volumineuses provenant de machines tels que des capteurs (par ex. des compteurs d’électricité) et des données de systèmes informatiques automatisés (par ex. des fichiers journaux ou des données de trading algorithmique). Pour exploiter ces données, les organisations souhaitent les associer aux données structurées existantes provenant de leurs systèmes OLTP internes, de leurs entrepôts de données et

Volume

8 milliards de téraoctets de données dans le monde

d’ici 2015*

Diversité

Données structurées, non structurées et partiellement

structurées

Rapidité

Mises à jour de l’état des machines, diffusion en continu

de données, etc.

* Prévisions 2012 d’IDC : Competing for 2020, décembre 2011


de leurs systèmes d’entreprise tels que les CRM et les ERP. En compilant ces données et en étant en mesure d’identifier des modèles et des associations, ces organisations peuvent réaliser des analyses portant sur les sentiments et les modèles comportementaux de leurs clients, la qualité de leurs produits ou les problèmes de sécurité et l’efficacité des essais cliniques.

QlikView joue un rôle crucial dans les implémentations de Big Data en fournissant des capacités frontales d’analyse rapides et flexibles et des capacités d’intégration de données issues de différentes sources (par ex. la source du Big Data, un entrepôt de données existant, des bases de données départementales et des feuilles de calcul) à partir d’une seule couche d’analyse interactive (voir la figure 2).

Figure 2 : Le Big Data associé à d’autres données permet de générer des perspectives

Données de machines, données Web, données de Cloud Cluster Hadoop

Systèmes opérationnels

Entrepôt de données


Big Data – Un complément aux architectures d’informations existantes

En général, les systèmes de Big Data sont perçus comme des systèmes qui viennent compléter l’infrastructure de données existante d’une organisation et non pas comme des systèmes qui remplacent cette infrastructure. Cela s’explique, entre autres, par les raisons suivantes :

• Investissement historique important dans des entrepôts de données localisés et centralisés

• Inquiétudes à propos de la sécurité et de la protection des données (réticence vis-à-vis de l’intégration de données sensibles ou de valeur dans un environnement basé sur un Cloud)

• Complexité relative à l’utilisation des logiciels existants pour déployer et gérer les systèmes de Big Data comme Hadoop ; la génération actuelle d’outils de gestion de Big Data est moins évoluée que les outils standard d’accès aux données SQL

• Traitement par lots des requêtes par opposition à un traitement dynamique, ce qui entraîne une latence élevée (faibles performances) qui ne convient pas aux exigences en matière d’analyse des utilisateurs métier

• Carences en matière de compétences informatiques pour les systèmes de gestion du Big Data comme Hadoop, NoSQL et Google BigQuery

• Les systèmes de gestion du Big Data comme Hadoop, NoSQL et Google BigQuery sont des solutions disproportionnées pour résoudre de nombreux défis en matière de données et les SGBDR standard sont des solutions plus adaptées.

• Les technologies de gestion du Big Data sont récentes et nombre d’entre elles sont des solutions Open Source ou en version Bêta.

Le rôle de l’analyse décisionnelle en matière de Big Data

Les solutions de Big Data en elles-mêmes n’offrent que peu de valeur aux organisations à moins que les données ne puissent être exploitées pour soutenir le processus décisionnel. Les technologies sous-jacentes offrant une capacité de stockage et d’accès à une volumétrie et à une diversité importantes de données à l’aide de capacités de calcul distribué ont fait l’objet de nombreux commentaires, mais seule la capacité d’analyse de ces données permet de bénéficier d’une réelle valeur ajoutée. Ce constat se vérifie pour les données de n’importe quelle taille ou de n’importe quel type, mais il est d’autant plus pertinent dans le domaine du Big Data. Wayne Eckerson de TechTarget explique dans l’une de ses analyses intitulée Big Data Analytics: Profiling the Use of Analytical Platforms in User Organizations : « L’une des caractéristiques remarquables du Big Data est la présence d’un plus grand nombre de modèles et d’anomalies notables par rapport aux données de volume moins important. Les entreprises peuvent générer une plus grande valeur en explorant des volumétries plus importantes de données. »


Organisation des données pour l’analyse décisionnelle : extraire les données pertinentes

Avec une solution de Big Data, il est presque, par définition, inévitable qu’une grande partie des données présentes dans le système soient inutiles. Les données transitent simplement et sont cumulées grâce à la capacité existante. Par conséquent, il n’est pas nécessaire, dans de nombreux cas, d’ajouter une couche analytique pour gérer toutes ces données. La plupart du temps, il a été démontré qu’il est plus efficace d’implémenter un mécanisme d’agrégation pour extraire les données les plus pertinentes et les plus utiles à partir de la source du Big Data à des fins de préparation des analyses. iii

La solution de Big Data doit être considérée comme un rouage de l’architecture globale de gestion des informations de l’entreprise qui fonctionne en parallèle avec les entrepôts de données existants, les moteurs CEP, les sandbox d’analyse, les systèmes OLTP, etc. Wayne Eckerson fait la remarque suivante dans son analyse : « À l’heure actuelle, certaines entreprises utilisent Hadoop pour préparer les données non structurées et partiellement structurées avant de les charger dans un entrepôt de données. » Le système de Big Data gère toutes les données détaillées alors que la couche analytique prend en charge les ensembles de données partiellement synthétisés.

Dans ce cadre, QlikView trouve naturellement sa place en tant que destinataire direct des données issues de Hadoop ou d’un autre système de Big Data ou en tant que couche supérieure par rapport à l’entrepôt de données (ou même en occupant ces deux rôles). Dans chacun de ces cas, la simplicité d’utilisation de QlikView pour connecter ces données provenant de différentes sources à des fins d’analyse associative est évidente.

QlikView et le Big Data

Les utilisateurs métier sont constamment incités à accéder aux données de manière efficace, à les filtrer et à les analyser pour en tirer des perspectives sans utiliser de solutions d’analyse nécessitant des compétences spécialisées. Ils ont besoin d’approches plus simples et plus performantes pour parcourir les volumétries importantes de données afin de trouver des informations pertinentes et d’obtenir des réponses à leurs questions métier précises. Ils pourront ainsi prendre de meilleures décisions métier plus rapidement.

L’adoption croissante de solutions de traitement massivement parallèle pour gérer des volumes de données toujours plus importants (structurées ou non structurées) crée une demande de plus en plus forte vis-à-vis des outils d’analyse permettant aux utilisateurs métier de générer des perspectives à partir du Big Data.

QlikView adopte une double approche pour relever ce défi.

Premièrement, son approche a toujours été de comprendre les besoins en matière d’analyse des utilisateurs métier au lieu d’imposer une solution potentiellement inadéquate. Il est plus utile de fournir aux utilisateurs des données adaptées à leur cas d’usage plutôt que de leur fournir toutes les données, tout le temps. Par exemple, les gérants d’une agence bancaire locale peuvent avoir besoin d’analyser leurs ventes, les informations relatives à leurs clients et les dynamiques du marché dans leur zone d’influence locale et non pas dans l’ensemble


du réseau national d’agences. Ce simple constat permet d’orienter le sujet de ce document sur la pertinence et sur la valeur des données plutôt que sur leur volumétrie.

Le nombre de personnes au sein des organisations ayant besoin d’analyser des volumes extrêmement importants de données est généralement peu élevé. Par exemple, une banque de détail peut comprendre des milliers d’agences et seulement quelques centaines d’analystes métier occupant une fonction de direction centralisée. Les gérants d’agences ont seulement besoin de segments de données qui sont pertinents pour leurs activités alors que les analystes principaux peuvent avoir besoin de volumes de données beaucoup plus importants.

QlikView permet de répondre aux besoins de ces deux cas d’usage et permet aux utilisateurs de se concentrer sur les données qui les intéressent et dont la valeur est la plus élevée pour eux et leur activité. Grâce à l’extraction de segments de données appropriés, de toutes les tailles, QlikView joue le rôle de plate-forme d’applications d’analyse en aval des sources de données pour fournir aux analystes métier et aux utilisateurs métier moins compétents sur le plan technique les perspectives dont ils ont besoin à partir des données les plus pertinentes.

Deuxièmement, QlikView a répondu et continue de répondre au défi associé au Big Data en s’assurant que les applications QlikView spécialisées permettent de traiter les volumes de données nécessaires pour garantir l’adéquation de ces applications en fonction des besoins des utilisateurs métier. L’approche est la suivante :

• Les tendances récentes relatives aux grandes capacités de mémoire des technologies Intel standard permettent à QlikView de traiter en mémoire des volumes de données toujours plus importants, ce qui offre aux utilisateurs une expérience interactive ultra rapide.

• Les meilleures pratiques de QlikView s’appuient sur un déploiement axé sur l’architecture en ce qui concerne le traitement de volumes très importants de données : utiliser de façon appropriée les serveurs distribués dans un environnement en cluster, développer des applications adaptées au public visé, utiliser des moteurs avancés de rechargement des données et utiliser le chaînage documentaire, le cas échéant, pour bénéficier de vues agrégées qu’il est possible d’associer à des vues détaillées tout en optimisant les ressources matérielles.

• QlikView utilise un protocole de données ouvertes (QVX ou échange de données QlikView) à l’aide d’une série d’API (Application Programming Interfaces) qui sont exploitées par les développeurs pour les mettre en relation avec les API d’Hadoop d’autres fournisseurs de systèmes de Big Data. Le protocole QVX de QlikView peut être utilisé pour établir une connexion avec les systèmes basés sur Hadoop à l’aide de deux méthodes différentes :

• Avec des extraits de fichiers QVX basés sur disque, provenant de Hadoop (méthode « push »)

• Avec un connecteur QVX de type canal nommé (méthode « pull »).

• QlikTech a créé des partenariats avec des fournisseurs externes pour établir des connexions avec des sources de Big Data comme Attivio, DataRoket et Informatica. Un SDK QVX est mis à disposition de tous les développeurs externes qui souhaitent construire des connecteurs sur mesure pour tous les systèmes caractérisés par une API ouverte.


• QlikView a conclu un partenariat avec Google pour fournir des analyses visuelles frontales au niveau de la solution Google BigQuery.

• En juin 2012, QlikTech a fait l’acquisition d’Expressor Software et propose désormais QlikView Expressor Server, une solution qui offre des capacités d’analyse des métadonnées et d’intégration avancée des données. iv

Aspects techniques liés à l’utilisation d’Hadoop à des fins d’analyse

Hadoop est un projet Open Source ayant pour objet de fournir une évolutivité massive en matière de calcul, ce qui limite souvent la facilité d’utilisation et les performances. Hadoop n’est pas une base de données. Il s’agit plutôt d’un framework destiné au calcul distribué à partir d’une application de données massives et il ne possède pas, à ce titre, de mécanisme natif pour interroger directement les données. Chaque requête doit être exécutée en développant un programme unique qui s’appuie sur MapReduce, un framework de traitement de grands ensembles de données.

C’est pour cette raison que d’autres projets Open Source ont ajouté des modules à l’architecture Hadoop pour compenser les inconvénients liés à sa grande évolutivité. Les modules les plus connus sont sans doute Hive, un entrepôt de données qui vient compléter le système de fichiers distribué de Hadoop (HDFS), et MapReduce qui permet d’accéder plus facilement aux données Hadoop à l’aide du langage HQL (Hibernate Query Language), un langage de requête se rapprochant de SQL. Hive permet d’établir plus facilement une connexion avec les données Hadoop à l’aide de connecteurs ODBC (Open DataBase Connectivity) et JDBC (Java DataBase Connectivity).

Même si cela offre un véritable avantage en matière de simplicité d’utilisation et d’intégration, Hive n’est pas une solution suffisante pour l’analyse des données, notamment pour les utilisateurs métier qui n’ont pas de compétences techniques. La principale problématique existant entre les solutions qui n’offrent pas d’analyse en mémoire et Hive réside dans le fait qu’elles ne sont pas prévues pour les charges de travail OLTP et ne permettent pas d’effectuer des requêtes en temps réel ou des mises à jour au niveau des lignes de données. Elles n’offrent pas d’expérience associative aux utilisateurs métier. v De plus, ces solutions ne permettent pas aux entreprises de fusionner facilement le Big Data avec les données d’entreprise ou de Cloud existantes. Hive est plus adapté pour les traitements par lots de grands ensembles de données dont seul l’ajout est possible.

L’intégration des données peut être un défi supplémentaire à relever avec Hive. Hive a été conçu pour occuper le rôle d’entrepôt de données Hadoop. Par conséquent, Hive ne prend pas en charge les données provenant d’autres sources de données. Au moment de la rédaction de ce document, un projet appelé SQOOP venait de sortir officiellement et essaye de fournir un moyen pour intégrer dans Hive les données issues de SGBDR. Cependant, SQOOP est toujours quelque peu limité et n’a pas encore fait ses preuves sur le plan de la stabilité. QlikView offre une capacité de connexion native avec différentes sources de données et établit des connexions logiques entre elles, ce qui constitue certainement une meilleure solution pour l’intégration de données avec les solutions de Big Data basées sur Hadoop. Dès lors, les utilisateurs bénéficient de l’expérience associative unique de QlikView.


QlikView et Hadoop : étude de cas

King.com est une entreprise de jeux en ligne qui est établie en Scandinavie. King.com utilise QlikView avec un système de Big Data basé sur Hadoop pour fournir aux utilisateurs métier occupant une fonction de marketing des perspectives rapides relatives aux comportements des clients qui ont été identifiés pendant l’utilisation des jeux. Des indicateurs tels que l’activité des clients sur le site King.com, leurs interactions dans chaque jeu et bien d’autres indicateurs sont capturés dans un déploiement sur site basé sur Hadoop. QlikView est placé au-dessus du système Hadoop pour fournir des capacités de Business Discovery à King.com afin de cibler de façon plus efficace les nouveaux clients, les nouveaux jeux, les nouvelles offres, etc.

Les volumes de données acquises sont impressionnants : 1,6 milliard de nouvelles lignes sont produites chaque jour et stockées dans le système Hadoop. King.com utilise QlikView pour analyser des données agrégées à partir du système Hadoop. Selon King.com, ces milliards de permutations de données réduisent l’impact statistique de l’effet d’agrégation. Par conséquent, lorsqu’ils analysent 211 millions de lignes dans QlikView, ils accordent une grande confiance à la représentativité de ces données provenant de l’intégralité de l’ensemble de données dans Hadoop.

King.com utilise un cluster unique de huit machines pour héberger son environnement Hadoop. Chaque événement utilisateur est enregistré, traité et mis à disposition des utilisateurs de QlikView à des fins d’analyse via un connecteur ODBC avec Hive. Le flux de données entre les systèmes de jeux sources et le système d’analyse QlikView est illustré en figure 3.

Figure 3 : flux de données dans l’implémentation par King.com de QlikView et du Big Data

Tous les fichiers journaux

des serveurs sont copiés toutes les

heures vers le serveur

de journali-sation

Données brutes + données

améliorées accessibles à des fins d’analyse

L’action X est

enregistrée sur

le serveur

Amélioration des

données dans Hive

L’utilisateur effectue

une action X

Si nécessaire,

des tableaux et des

schémas sont créés

Serveur de jeux

1...n

Les données

du serveur de journali-sation sont

lues par Hive


Figure 4 : Capture d’écran de l’application QlikView de King.com

QlikView et Google BigQuery

Google BigQuery est un service Web qui permet aux utilisateurs métier et aux développeurs de réaliser des analyses interactives d’ensembles de données massives (jusqu’à plusieurs milliards de lignes) sans aucun investissement matériel et logiciel initial. Il s’agit d’une solution évolutive et conviviale : grâce à BigQuery, les développeurs et les entreprises peuvent tirer parti des performances d’analyse de données à la demande.

Grâce à ses fonctionnalités d’objet d’extension et de connecteur personnalisé, la plate-forme QlikView de Business Discovery offre une intégration transparente avec BigQuery. À l’aide du connecteur personnalisé de QlikView, les utilisateurs peuvent charger en mémoire des données de BigQuery et explorer les informations librement, au lieu d’être cantonnés à une série prédéfinie de questions. Ils peuvent recycler et réassembler des données de BigQuery dans de nouvelles vues et créer de nouvelles visualisations pour une meilleure compréhension. Grâce à l’expérience associative unique de QlikView, les utilisateurs métier peuvent parcourir les données de BigQuery et interagir avec ces données comme ils le souhaitent.

En dehors du connecteur personnalisé, l’objet d’extension QlikView offre une connexion directe entre les tableaux de bord QlikView et Google BigQuery, ce qui permet aux utilisateurs de poser des questions ad hoc sur des volumes importants de données et obtenir des réponses en quelques secondes. Les utilisateurs métier peuvent poser des questions ad hoc sur les données BigQuery qui n’existent pas en mémoire et peuvent obtenir des réponses en quelques secondes sans rédiger une seule ligne de SQL.

La solution d’intégration de Google BigQuery de QlikView permet aux utilisateurs n’ayant aucune compétence technique ni aucune compétence en SQL d’interagir de manière efficace avec des milliards de lignes de données en quelques secondes pour trouver des informations qui les concernent et poser leurs propres questions sur les données BigQuery.


Figure 5 : Application de démonstration QlikView Google BigQuery (http://Qlikview.com/bigquery)


QlikView, une solution pour parcourir le « dernier kilomètre » et compléter votre système de Big Data

Dans le secteur des télécommunications, l’un des plus grands défis consiste à parcourir le « dernier kilomètre », c’est-à-dire raccorder la ligne téléphonique, le service Internet ou le câble jusqu’au domicile des clients. Le coût de distribution sur le réseau à partir du réseau fédérateur est élevé car le fournisseur de services doit faire intervenir des poids-lourds, faire creuser des tranchées et faire installer les lignes. Par conséquent, les coûts d’installation élevés sont parfois reportés sur le client final ou le dernier kilomètre est tout simplement négligé. Cette problématique du « dernier kilomètre » existe également avec le Big Data.

Aujourd’hui, la plupart des fournisseurs de solutions de Big Data concentrent leurs activités sur le traitement des données. Ils ne s’intéressent qu’au réseau fédérateur pour reprendre la terminologie des télécommunications. QlikTech vous permettra de parcourir ce dernier kilomètre. La mission de QlikTech est de simplifier les décisions pour tous et partout. L’expérience utilisateur est au cœur de la plate-forme QlikView de Business Discovery. Dans le cadre de notre modèle économique, les utilisateurs métier doivent être connectés, à l’image du raccordement des domiciles des clients dans le secteur des télécommunications. QlikView est la solution idéale pour compléter les capacités des solutions des fournisseurs axées sur le traitement du Big Data et offre une véritable valeur ajoutée. Elle constitue un composant fondamental pour le Big Data en fournissant des capacités d’analyse et en offrant des perspectives à partir des données pour chaque utilisateur.


© 2012 QlikTech International AB. Tous droits réservés. QlikTech, QlikView, Qlik, Q, Simplifier l’Analyse pour Tous (« Simplifying Analysis for Everyone »), la Puissance de la Simplicité (« Power of Simplicity »), Nouvelles Règles (« New Rules »), le Sourire Incontrôlable (« The Uncontrollable Smile »), et autres produits et services QlikTech tout comme leur logo respectif sont des marques ou des marques déposées de QlikTech International AB. Toutes autres dénominations de sociétés, ainsi que tous autres noms de produits et de services utilisés dans ce document, sont des marques, déposées ou non, de leurs propriétaires respectifs. Les informations publiées dans les présentes sont susceptibles de modification sans préavis. Cette publication est exclusivement à des fins d’information, sans déclaration ni garantie d’aucune sorte, et QlikTech ne sera, à cet égard, responsable d’aucune erreur ni omission. Les seules garanties se rapportant à des produits et services QlikTech sont celles stipulées dans les notices de garantie expresse accompagnant, le cas échéant, lesdits produits et services. Rien dans les présentes ne doit être interprété comme constituant une quelconque garantie supplémentaire.

Notes

i Selon le Bureau of Transportation Statistics et la Research and Innovative Technology Administration, 9 098 000 départs ont été enregistrés en 2012 (jusqu’au dernier jour du mois de février) alors qu’un nombre supérieur équivalent à 9 125 000 départs a été enregistré en 2011, ce qui équivaut à une baisse de 0,3 %. Pour plus d’informations, voir http://www.transtats.bts.gov/.

ii Le 13 juin 2012, l’analyste du commerce social d’eBay, Palm Norchoovech, a fourni ces commentaires dans une présentation intitulée Global Social Analytics @eBay lors du sommet Text Analytics organisé à Boston, Massachusetts. Pour plus d’informations, voir http://bit.ly/GSnH03.

iii Par exemple, le client de QlikView, King.com, collecte 1,6 milliard d’enregistrements supplémentaires par jour dans sa solution de Big Data mais n’extrait que 211 millions d’enregistrements agrégés à des fins d’analyse. King.com réalise une mise en cluster ou un échantillonnage pour sélectionner un sous-ensemble de données pertinent sur le plan statistique et analyse uniquement ces données.

iv Pour plus d’informations à propos de QlikView Expressor, voir la page Web : http://www.qlikview.com/us/explore/products/expressor.

v QlikView fonctionne comme vous. L’expérience associative de QlikView permet aux utilisateurs de répondre à des questions inédites. Les sélections de l’utilisateur sont surlignées en vert. Les données liées à la sélection de l’utilisateur sont surlignées en blanc, tandis que les données non liées sont surlignées en gris. Les utilisateurs peuvent réaliser un nombre illimité de sélections et toutes les données dans l’application qui peuvent provenir de différents systèmes sources sont instantanément filtrées en fonction de ces sélections. Pour plus d’informations, consulter le livre blanc QlikView, « L’expérience associative » (http://bit.ly/hgf12U).

Documents

QLIKVIEW ET LE BIG DATAgo.qlikview.com/rs/qliktech/images/Livre-Blanc-QlikView-et-le-BigData.pdfBig Data Analytics: Profiling the Use of Analytical Platforms in User Organizations