Seance 1 & 2 deploiement de la bi dans l'entreprise

Preview:

Citation preview

PLAN DU COURS Mise en œuvre du processus de BI L’intégration des données Les outils de restitutions Déploiement de la BI

Définition des terminologiesLe data Warehouse, le datamart, le data mining

Définition (Datawarehouse)Le lieu de stockage intermédiaire des différentes données en vue de la constitution du système d'information décisionnel. Le datawarehouse est ainsi le lieu unique de consolidation de l'ensemble des données de l'entreprises. Selon Bill INMON « Un datawarehouse est une collection de données orientées sujet, Intégrées, non volatiles et historisées pour la prise de décisions. »

Définition (Datamart)Le terme Datamart (littéralement magasin de données) désigne un sous-ensemble du datawarehouse contenant les données du datawarehouse pour un secteur particulier de l'entreprise (département, direction, service, gamme de produit, etc.). On parle ainsi par exemple de DataMart Marketing, DataMart Commercial, ...

Définition (Data mining)C’est l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données. Le Data Mining est une étape dans le processus d’extraction des connaissances, qui consiste à appliquer des algorithmes d’analyse des données.

Eléments de base d’un Datawarehouse

Source: base de données source ou autre

Base intermédiaire de données (ODS)

Cible : Serveur de présentation des données contenues dans le datawarehouse.

Source ODS Cible

Caractéristiques et fonctionnalitésUn datawarehouse:• Est un dépôt d’information• Améliore l’accès aux données intégrées• Garantie l’intégrité et la qualité• Fournie une perspective historique• Enregistre les résultats et les données synthétiques• Est utilisé par plusieurs utilisateurs de profils différent dans

des contextes et des besoins différents• Réduit l’impact du reporting et de l’analyse sur les bases

opérationnelles • Requières un effort d’intégration des systèmes (agilité du SI)

Exploration du Datawarehouse

Les données sont organisées et stockées par sujet métier et non par application. Cela signifie que les données collectées doivent être orientées « métier » et donc triées par thème

Application opérationnelles Sujet Datawarehouse

Contentieux

Assurances

Dépôts

Crédits

Titres

Informationfinancière

client

Le datawarehouse - IntégrationC'est-à-dire qu'un « nettoyage » préalable des données est nécessaire dans un souci de rationalisation et de normalisation

Le datawarehouse - Non volatileUne donnée entrée dans l'entrepôt l'est pour de bon et n'a pas vocation à être supprimée

Le datawarehouse - HistorisationLes données doivent être datées

Modèle physique d’un schéma en étoile

Processus inductif, itératif et interactif de découverte dans les BD larges de modèles de données valides, nouveaux, utiles et compréhensibles.

Itératif: nécessite plusieurs passes

Interactif: l’utilisateur est dans la boucle du processus

Valides: valables dans le futur

Nouveaux: non prévisibles

Utiles: permettent à l’utilisateur de prendre des décisions

Compréhensibles: présentation simple

Abduction: diagnostic médical, ... Toutes les voitures ont 4 roues La Peugeot 206 a 4 roues ==> La Peugeot 206 est une voiture

Déduction: Raisonnement qui conclut à partir de prémisses et d’hypothèses à la vérité d’une proposition en usant des règles d’inférence Toutes les voitures ont 4 roues La Peugeot 206 est une voiture ==> La Peugeot 206 a 4 roues

Induction: Généralisation d’une observation ou d’un raisonnement établis à partir de cas singuliers.

Utilisée en Datamining (tirer une conclusion à partir d’une série de faits, pas sûre à 100%) La clio a 4 roues, La Peugeot 106 a 4 roues, La BMW M3 a 4 roues, La Mercedes 190

a 4 roues ==> Toutes les voitures ont 4 roues

Classification

Clustering (Segmentation)

Règle d’associations

Recherche de séquences

Détection de déviation

Elle permet de prédire si un élément est membre d’un groupe ou d’une catégorie donné.

Classes Identification de groupes avec des profils particuliers Apprentissage supervisé: classes connues à l’avance Applications : marketing direct (profils des

consommateurs), grande distribution (classement des clients), médecine (malades/non malades), etc.

Exemple : les acheteurs de voiture de sport sont de jeunes citadins ayant un revenu important

Partitionnement logique de la base de données en clusters

Clusters : groupes d’instances ayant les mêmes caractéristiques

Apprentissage non supervisé (classes inconnues)

Pb : interprétation des clusters identifiés

Applications : Economie (segmentation de marchés), médecine (localisation de tumeurs dans le cerveau), etc.

Corrélations (ou relations) entre attributs (méthode non supervisée)

Applications : grande distribution, gestion des stocks, web (pages visitées), etc.

Exemple

BD commerciale : panier de la ménagère

Articles figurant dans le même ticket de caisse

Ex: achat de riz + vin blanc, achat de poisson achats bières et couche-culotte

Recherche de séquences

Liaisons entre événements sur une période de temps Extension des règles d’association

- Prise en compte du temps (série temporelle)

- Achat Télévision ==> Achat Magnétoscope d’ici 5 ans Applications : marketing direct (anticipation des

commandes), bourse (prédiction des valeurs des actions)

Exemple

BD commerciale (ventes par correspondance) Commandes de clients

Ex: 60% des consommateurs qui commandent la bière «Mort subite» commandent de l’aspro juste après.

Instances ayant des caractéristiques les plus différentes des autres Basée sur la notion de distance entre instances Expression du problème- Temporelle : évolution des instances ?- Spatiale : caractéristique d’un cluster d’instances ?

Applications Détection de fraudes (transactions avec une carte

bancaire inhabituelle en télémarketing)Caractéristiques Problème d’interprétation : bruit ou exception (donc

connaissance intéressante)

Exemple 1 - Marketing

Vous êtes gestionnaire marketing d’un opérateur de télécommunications mobiles :

Les clients reçoivent un téléphone gratuit avec un contrat d’un an; vous payer une commission de vente de 250€ par contrat

Problème: Taux de renouvellement(à la fin du contrat) est de 25%

Donner un nouveau téléphone à toute personne ayant expirer son contrat coûte cher.

Faire revenir un client après avoir quitter est difficile et coûteux.

Trois mois avant l’expiration du contrat, prédire les clients qui vont quitter :

Si vous voulez les garder, offrir un nouveau téléphone.

Exemple 2 – Web

Les logs des accès Web sont analysés pour…

Découvrir les préférences des utilisateurs

Améliorer l’organisation du site Web

De manière similaire…

L’analyse de tous les types d’informations sur les logs

Adaptation de l’interface

Exemple 3 – Banque, Télécom

Vous êtes à l’étranger et quelqu’un a volé votre carte bancaire ou votre mobile …

Compagnies bancaires… Utiliser les données historiques pour construire un

modèle de comportement frauduleux et utiliser le data mining pour identifier des instances similaires.

Compagnies téléphoniques… Analyser les “patterns” qui dérivent du comportement

attendu (destinataire, durée, etc.)

Objectifs

Comment mettre en place des processus d’extraction, de transformation et de chargement pour la construction d’un datawarehouse.

Les différentes techniques d’extraction, de transformation, et de chargement.

Processus d’Extraction, de Transformation et de Chargement (ETL)

Extraire les donnés sources Transformer et nettoyer les données Indexation et agrégation Charger les données dans le datawarehouse Détecter les changements Rafraîchir les données

Extraction de données

Les sources de données sont souvent diverses et variées et le but est de trouver des outils ETL (Extraction / Transformation / Loading) afin de les extraire, de les nettoyer, de les transformer et de les mettre dans l'entrepôt de données

Qualités des données

La qualité des données extraites est critique pour : Standardisation dans le datawarehouse Un bon rapprochement entre noms, adresses …. La création de règles et contraintes exactes Prévision et analyse Création d’une infrastructure solide de support BI

centré sur le client Réduction des risques dans les projets Réduction des coût à long terme

Transformation

Les Transformations éliminent les anomalies dans les données opérationnelles : Nettoyer Éliminer le superflu Enrichir Fusionner Intégrer Transformer avant chargement

Pourquoi transformer?

Chargement Le chargement alimente le datawarehouse des

données. Le rafraichissement fréquent charge de petits

volumes. Le processus métier détermine le cycle de

chargement

Online Analytical Processing (OLAP) OLAP a pour but d'organiser les données à analyser par

domaine/thème et d'en ressortir des résultats pertinents pour le décideur. Les résultats sont donc des résumés et peuvent être obtenus par différents algorithmes de datamining (fouille de données) du serveur d'analyse.

On peut par exemple établir le résultat suivant : « Les clients qui achètent généralement du beurre et du pain achètent aussi du lait ». Ces résultats pourraient amener l'organisation (ici en l'occurrence une grande distribution) à disposer ses rayons de telle façon qu'à côté de l'emplacement du beurre, elle mettra le pain et le lait..

l'OLAP signifie faire de l'analyse de données. Analyser les ventes, détecter les fraudes, prospecter des clients font partie du processus OLAP.

Module de restitution d’un SID

Les plus visibles pour l’utilisateur Régit les conditions d'accès de l'utilisateur aux

informations. Assure le fonctionnement du poste de travail, le contrôle

d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre.

Utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications mobiles, etc.)

Définitions (Reporting)

Présentation périodique (hebdomadaire, mensuelle, annuelle) des données liées à l’activité de l’entreprise globale ou par métier (Reporting financier, commercial), le plus souvent restituées sous la forme de tableaux de bord (ex : graphiques du CA mensuel etc.) et de rapports d’activité (ex : rapport d’activité financière).

Définitions (Tableaux de bord)

Outil de Reporting de l’activité d’entreprise au global ou par métier sous forme de tableaux dynamiques ou statiques. Chaque utilisateur peut réaliser ses propres tableaux de bord en croisant les données selon différents axes d’analyse (analyse simple= un seul critère d’information ou multidimensionnelle = plusieurs critères d’information). Le tableau de bord est également un outil d’aide au pilotage de l’activité permettant de prendre les décisions en temps réel.

Pour qu’un tableau de bord soit efficace il faut choisir de bons indicateurs.

Qu’est ce qu’un bon indicateur

Temps réel: le tableau de bord de pilotage doit comporter les indicateurs dont le rafraîchissement est compatible avec la prise de décision lorsque l’information est délivrée l’action est possible.

Réalisable à coût acceptable : un bon indicateur est réalisable avec un coût acceptable; il faut chercher le juste milieu entre le profit à tirer des indicateurs en terme de décision et le coût de leurs disponibilités.

Fiable :le décideur doit avoir une totale confiance en son tableau de bord, si le doute s’installe l’outil sera rejeté

Présentation :la présentation de l’indicateur doit être étudiée, les longs tableaux de bord sont à éviter et les présentations (Courbes, Jauges, listes etc.) sont à utiliser chacun dans sons contexte précis.

Quelques exemples

Quelques exemples

Comparaisons entre certains outils

Les projets de mise en place et déploiement de solutionsde Business Intelligence ont ceci de particulier qu’ils nécessitenttrès tôt une implication et une sollicitation forte des utilisateurs.Les besoins fonctionnels sont en effet très répartis au sein del’entreprise ; il s’agit dans la majorité des cas de remplacer desoutils personnels, développés par les utilisateurs eux mêmes(bureautique).Il en découle certaines spécificités, sur lesquelles nous devonsprêter une attention particulière : La présence d’un sponsor fort, et la communication en interne

des objectifs stratégiques de l’entreprise. Un lien très étroit entre la définition des besoins (maitrise

d’œuvre) et la réalisation technique (maitrise d’ouvrage). La mise en place d’équipes mixtes (techniques et fonctionnelles)

tout au long du projet. De manière standard, un projet de déploiement de solution de

Business Intelligence se base sur les étapes suivantes :

Phase Objectifs Livrables

PRE ÉTUDE - LANCEMENTEstimer les coûts internes et externes

Analyser les opportunités

Description des fonctionnalités attendues

Définition des enjeux pour l'entreprise

Macro Planning

CADRAGE

Présenter le projet en interne

Identifier les utilisateurs

Identifier les sources de données

Choisir la solution technique (architecture)

Définir l'équipe projet

Description de la solution retenue

Planning de réalisation

Annuaire du projet

CONCEPTION

Concevoir architecture technique et applicative

Rédiger la modélisation multidimensionnelle

Rédiger les spécifications techniques (alimentation

et métadonnées, outil d'administration et de

restitution, portail et sécurité

Dossier de spécifications

Cahier de recettes techniques

Cahier de recettes fonctionnelles

RÉALISATION

Mettre en place les environnements de tests

Réaliser les prototypes

Réaliser les recettes techniques et fonctionnelles

Assurer le déploiement de la solution

PV de recettes

Documentations techniques (architecture,

paramétrage)

ACCOMPAGNEMENT AU CHANGEMENTFormations des utilisateurs

Formations des équipes techniques

Documentation utilisateur

Dossier de support

Outils pour la phase de Run

Bilan du projet

Recommended