14
Livre Blanc L'intelligence artificielle au service de l'innovation guidée par les données Les innovations basées sur l'apprentissage machine de CLAIRE donne une nouvelle impulsion à la productivité des données

Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

Livre Blanc

L'intelligence artificielle au service de l'innovation guidée par les donnéesLes innovations basées sur l'apprentissage machine de CLAIRE donne une nouvelle impulsion à la productivité des données

Page 2: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

Le présent document contient des données confidentielles et exclusives, ainsi que des informations constituant des secrets commerciaux (« Informations confidentielles ») d'Informatica. Il ne peut être copié, distribué, dupliqué ni reproduit de quelque manière que ce soit, sans l'autorisation écrite préalable d'Informatica.

Même si tout a été mis en œuvre pour garantir que les informations contenues dans ce document sont exactes et exhaustives, il est possible qu'il contienne des erreurs typographiques ou des inexactitudes techniques. Informatica ne saurait être tenu responsable des pertes résultant de l'utilisation d'informations figurant dans ce document. Les informations contenues dans le présent document sont susceptibles d'être modifiées sans préavis.

L'intégration dans une quelconque version ou mise à jour d'un produit logiciel Informatica des attributs de produits étudiés dans ce document — ainsi que le calendrier de sortie de ces versions ou mises à jour — sont à la seule discrétion d'Informatica.

Protégé par les brevets américains suivants : 6,032,158 ; 5,794,246 ; 6,014,670 ; 6,339,775 ; 6,044,374 ; 6,208,990 ; 6,208,990 ; 6,850,947 et 6,895,471 ; ou par les brevets américains en instance suivants : 09/644,280 ; 10/966,046 ; 10/727,700.

Édition publiée en mai 2017

Page 3: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

1

Livre Blanc

Table des matières

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Tendances de la gestion de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Ce que cela implique pour les directeurs informatiques . . . . . . . . . . . . . . . . . . . . . . . . 4

Ce que cela implique pour les responsables métiers . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Qu'est-ce que l'apprentissage machine ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

À quoi sert l'apprentissage machine dans la gestion de données ? . . . . . . . . . . . . . 5

La gestion de données constitue le fondement de l'apprentissage machine. . . . . . 5

Informatica CLAIRE : L'« Intelligence » de l'Intelligent Data Platform . . . . . . . . . . . . . 6

CLAIRE en action . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Similarité intelligente des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Découverte intelligente des domaines à l'aide des balises. . . . . . . . . . . . . . . . . . . . . 8

Découverte intelligente des entités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Recommandations intelligentes de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Découverte intelligente de la structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Détection intelligente des anomalies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Page 4: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

2

IntroductionLa transformation numérique est une réalité d'ores et déjà présente. Aujourd'hui, soit les entreprises innovent, soit elles restent à la traîne. C'est pourquoi elles mettent en place des projets de transformation pour améliorer leurs performances et leur efficacité concurrentielle sur leur marché, en cherchant, par exemple, à approfondir leurs relations avec les clients, à optimiser les opérations, à personnaliser le service client et à prévenir la fraude.

La clé du succès de ces initiatives réside dans la capacité des entreprises à les alimenter en données fiables et opportunes. C'est très simple : Les stratégies numériques réussies se basent sur les données. Les compétences que vous développez en matière de gestion de données déterminent la réussite de votre stratégie numérique. En d'autres termes, l'efficacité de votre stratégie numérique dépend de la qualité des données.

Cependant, il faudra certainement revoir le processus de gestion des données. Les directeurs informatiques cherchent à dynamiser la productivité de la gestion de données afin que tous, dans l'entreprise, disposent de données de meilleure qualité, et ce plus rapidement.

Le moteur CLAIRETM d'Informatica — Cloud-scale AI-powered Real-time Engine — qui utilise l'intelligence artificielle (IA) et les techniques d'apprentissage machine portées par les données et les métadonnées de l'entreprise, permet d'augmenter de façon significative la productivité des responsables et des utilisateurs de données, dans toute l'entreprise.

Page 5: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

3

Tendances de la gestion de donnéesIl est temps de repenser les données et en particulier l'architecture des données. Durant des décennies, les entreprises se sont concentrées sur des systèmes et des processus métiers. Ces aspects restent bien sûr importants, mais ce qui permettra réellement à votre entreprise de se démarquer sur son marché, c'est sa capacité à alimenter ses projets avec des données de meilleure qualité, plus opportunes et plus complètes. Malheureusement, les budgets informatiques augmentent en général lentement, vous devez donc vous débrouiller pour tirer davantage de vos ressources actuelles.

Jamais le défi de la gestion de données n'a été plus grand qu'aujourd'hui. Pour libérer le potentiel des données, les services informatiques doivent être en mesure de gérer :

1. Plus de données :

• Le volume de données : 15,3 zettaoctets par an pour le trafic des centres de données mondiaux.

• La complexité et la diversité des données : Il existe de nombreux nouveaux types et sources de données, à l'intérieur comme à l'extérieur de l'entreprise.

• La vitesse des données : L'avènement de l'Internet des objets (IoT), avec ses 20 milliards d'appareils connectés, implique un flux de données incessant.

2. Plus d'utilisateurs : Avec 325 millions d'utilisateurs de données métiers, un chiffre qui ne cesse d'augmenter, tout le monde, des analystes aux experts en passant par les gestionnaires de données, veut accéder directement et immédiatement aux données.

3. Plus de schémas d'intégration :

• Le déplacement vers le Cloud : Les suites ERP se fractionnent et passent sur le Cloud.

• Technologie d'analyse : L'industrie adopte de nouvelles technologies telles que les Big Data, le NoSQL et les analyses prédictives pour compléter le data warehousing.

• Expérimentation : Les utilisateurs veulent désormais utiliser les données pour pouvoir rapidement former des hypothèses, les tester, les confirmer ou les infirmer et recommencer rapidement. Jusqu'à ce qu'ils aient pu prouver que leur hypothèse est valable, la vitesse est plus importante que la précision.

Page 6: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

4

Ce que cela implique pour les directeurs informatiquesAlors que les entreprises commencent à se rendre compte que les données sont le nerf de la transformation numérique, toutes ces tendances forment un processus de gestion de données beaucoup plus complexe.

C'est une occasion idéale pour mettre en place un système de direction guidé par les données qui mènera au succès de l'entreprise. Comment les directeurs informatiques vont-ils parvenir à fournir plus rapidement aux utilisateurs métiers des données de meilleure qualité, sans faire appel, par exemple, à une armée coûteuse de développeurs ?

Les budgets informatiques augmentent lentement, quand ils augmentent. Il n'existe donc que trois façons d'y parvenir :

• Augmenter le recours à l'automatisation et améliorer l'efficacité des tâches et des projets de gestion de données

• Augmenter le libre-service professionnel

• Renforcer la collaboration pour aligner les équipes métiers et techniques.

Ce que cela implique pour les responsables métiersLes responsables métiers ont le sentiment de pouvoir mener des projets innovants et soulever des questions, qui, économiquement, n'obtenait aucune réponse auparavant. Mais pour que ces projets aboutissent, ils ont besoin de données de qualité.

Votre priorité numéro 1 est donc d'établir un programme pour libérer le potentiel de vos données.

Vous devez développer des compétences en gestion de données, car c'est le fondement de tous vos projets numériques. Vous devez gérer les données comme une ressource identifiable et utilisable par n'importe quel utilisateur dans l'entreprise. De plus, les données doivent être de qualité supérieure pour les décisions importantes et les interactions, et de qualité correcte pour l'innovation rapide et l'itération. Du point de vue technologique, le codage manuel et les outils de gestion de données non intégrés ne pourront pas répondre aux besoins de votre entreprise.

Page 7: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

5

Qu'est-ce que l'apprentissage machine ?L'apprentissage machine est une technique par laquelle les programmes apprennent de façon répétitive, à partir des données, au lieu de rester statiques. Les systèmes d'apprentissage machine sont utilisés pour créer des modèles basés sur les entrées, qui peuvent servir à effectuer des prévisions ou à prendre des décisions. Ces systèmes apprennent en se fondant sur les données, et peuvent s'adapter en conséquence pour produire de meilleurs résultats. Plus les données sont nombreuses, plus ils apprennent vite et plus les résultats sont précis.

À quoi sert l'apprentissage machine dans la gestion de données ?Pour adapter la vitesse de mise à disposition des données dans les projets stratégiques, vous devez augmenter le recours à l'automatisation. C'est là que l'apprentissage machine entre en jeu. Grâce à la visibilité des métadonnées dans toute l'entreprise et à l'apprentissage machine, les outils de gestion de données peuvent apprendre à faire des recommandations intelligentes et automatiser de nombreuses tâches de gestion de données. L'apprentissage machine ne remplace pas les analystes de données et autres utilisateurs. Il permet d'augmenter la productivité et l'efficacité des personnes chargées de la gestion de données dans l'entreprise.

L'apprentissage machine peut être utilisé pour améliorer les tâches laborieuses ou impossibles à l'échelle humaine. Voici quelques exemples :

1. Découverte et identification

• Règles sur la qualité des données et découverte d'entités métiers

• Recherche sémantique, identification des schémas et classification des données

• Détection des anomalies et notifications

2. Opérations prédictives

• Débordements pour gérer les pics de données

• Hiérarchisation des recherches sur les problèmes opérationnels

• Réparations automatiques pour la gestion des changements d'environnement

3. Prochaine action à privilégier et recommandations

• Suggestion d'ensembles de données, de transformations et de règles

• Mapping automatique, nettoyage et standardisation de la source vers la cible

• Intégration automatique de nouvelles sources de données

La gestion de données constitue le fondement de l'apprentissage machine Un apprentissage machine efficace exige un vaste ensemble de données pour que la machine puisse « s'entraîner ». Dans le contexte de la gestion de données, la source idéale est un catalogue de données d'entreprise. La plupart des entreprises ont des milliers de bases de données, de fichiers de données, d'applications et de systèmes d'analyse. En collectant les métadonnées dans tous ces référentiels, les entreprises peuvent créer des catalogues extrêmement bien renseignés. L'association de l'apprentissage machine avec un catalogue de données offrant une bonne visibilité sur les métadonnées de l'entreprise offre une base d'informations qui aura un impact significatif et positif sur l'efficacité de la gestion de données.

À l'ère du Cloud, il est important de savoir que cette approche fonctionne également pour les applications SaaS. Les métadonnées peuvent être intégrées à partir des applications SaaS telles que Salesforce et Worday, et ajoutées au catalogue de l'entreprise.

Page 8: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

6

Informatica CLAIRE : L'« Intelligence » de l'Intelligent Data PlatformL'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine est la suivante :

1. L'Intelligent Data Platform (IDP) : Nous proposons une plate-forme intégrée de gestion de données de bout en bout, pour une productivité maximale. Grâce à ses fonctionnalités de connectivité unifiée et de gestion des métadonnées et des opérations, la plate-forme accélère le développement et le déploiement des nouveaux projets de gestion de données. Elle offre un ensemble puissant et cohérent de fonctionnalités pour gérer les données sur site, dans le Cloud et à partir des sources de Big Data. Nous avons nommé cette plate-forme de gestion de données unifiée Intelligent Data Platform.

C'est une plate-forme modulaire : Vous pouvez démarrer avec n'importe quel outil et progresser à votre propre rythme :

2. Métadonnées : Informatica est depuis longtemps reconnue pour être un leader dans la gestion des métadonnées techniques et métiers. L'entreprise a depuis accru ses fonctionnalités dans ce domaine, avec la collecte d'un plus large ensemble de métadonnées dans toute l'entreprise, incluant :

• Les métadonnées techniques, telles que les tables de bases de données, les informations sur les colonnes et les statistiques de profils de données

• Les métadonnées métiers qui capturent le contexte des données, sa signification, sa pertinence et son importance par rapport aux divers processus et fonctions métiers

• Les métadonnées opérationnelles concernant l'exécution des systèmes et des processus, telles que les dates des dernières mises à jour des données, la date de la dernière exécution de processus de chargement ou les données les plus consultées

• Les métadonnées d'utilisation relatives aux activités de l'utilisateur, y compris les ensembles de données et les résultats de recherche consultés, les classements et les commentaires

Solutions

Produits

Plate-formede donnéesintelligente

CLOUD BIG DATATEMPS RÉEL/DIFFUSION EN CONTINU

CLASSIQUE

RENSEIGNEMENTS SUR LES MÉTADONNÉES D'ENTREPRISE UNIFIÉES

SURVEILLANCE ET GESTION

CALCULS

CONNECTIVITÉ

INTÉGRATION DE DONNÉES

GESTION DES BIG DATA

GESTIONDE DONNÉES

DE CLOUD

QUALITÉ DES DONNÉES

GESTION DES DONNÉES DE RÉFÉRENCE

SÉCURITÉ DES

DONNÉES

CUSTOMER 360

PRODUCT 360

SUPPLIER 360

RÉFÉRENCES360

INTELLIGENT DATA LAKE

CATALOGUE D'INFORMATIONS

D'ENTREPRISE

GOUVERNANCE DE DONNÉES

SECURE@SOURCE

GESTION DE DONNÉES DANS LE

CLOUD D'ENTREPRISE

Figure 1 : L'Intelligent Data Platform intègre des fonctionnalités de gestion de données avec la connectivité partagée, les analyses opérationnelles et l'intelligence basée sur les données et les métadonnées.

Page 9: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

7

Cette collecte plus large de métadonnées est essentielle à l'apprentissage machine. Elle fournit des ensembles de données utilisés pour former la machine à apprendre des algorithmes et à s'adapter pour produire de meilleurs résultats.

3. Intelligence : Avec CLAIRE, Informatica propose une combinaison intégrée de métadonnées et d'apprentissage machine/IA.

Les métadonnées collectées par l'Intelligent Data Platform offrent un vaste ensemble d'informations que les algorithmes de CLAIRE peuvent utiliser pour assimiler l'environnement de données de l'entreprise. Ces connaissances permettent à CLAIRE de faire des recommandations intelligentes, d'automatiser le développement et la supervision des projets de gestion de données, et de s'adapter aux changements dans et hors de l'entreprise. CLAIRE permet d'alimenter l'Intelligent Data Platform avec des fonctionnalités intelligentes de gestion de données.

CLAIRE en action CLAIRE aide de nombreux utilisateurs :

• Les développeurs de données bénéficient de l'automatisation partielle ou totale de nombreuses tâches d'implémentation

• Les analystes de données peuvent localiser et préparer les données dont ils ont besoin plus facilement

• Les utilisateurs métiers peuvent identifier rapidement les données qui doivent être soumises à la gouvernance des données et aux contrôles de conformité recommandés

• Les experts en données comprennent les données plus rapidement

• Les gestionnaires de données visualisent plus facilement la qualité des données

• Les professionnels de la sécurité de données peuvent détecter plus facilement les utilisations abusives de données, protéger les données sensibles et prouver que les contrôles appropriés sont en place

• Les administrateurs et les opérateurs bénéficient de toute la puissance de la maintenance prédictive et de l'optimisation des performances des processus de gestion de données.

Voici quelques exemples d'utilisation de l'intelligence de CLAIRE.

Similarité intelligente des donnéesCLAIRE utilise les techniques d'apprentissage machine telles que le clustering pour détecter les similarités entre les données réparties dans des milliers de bases de données et d'ensembles de fichiers. La similarité intelligente des données est une des fonctionnalités clés utilisée pour de multiples objectifs comme l'identification des données, la détection des doublons, l'association des champs de données individuels dans les entités métiers, la propagation des balises dans les ensembles de données et la recommandation des ensembles de données aux utilisateurs.

Les fonctions de similarité des données calculent dans quelle mesure les données de deux colonnes sont identiques. L'utilisation d'une approche manuelle pour tenter de comparer les colonnes par paires dans un ensemble de données d'entreprise (par exemple, 100 millions de colonnes) serait trop coûteuse en ressources de calcul. Pour sa part, la similarité des données utilise des techniques d'apprentissage machine pour regrouper les colonnes similaires et identifier les correspondances potentielles.

Le processus fonctionne en plusieurs étapes. Tout d'abord, les colonnes sont regroupées en fonction de leurs caractéristiques. Puis les chevauchements de données sont traités pour déterminer les valeurs uniques de chaque cluster. Enfin, les paires les plus prometteuses sont sélectionnées pour rechercher les similarités de données à l'aide des coefficients Bray-Curtis et Jaccard.

Page 10: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

8

Découverte intelligente des domaines à l'aide des balisesCLAIRE peut classer les champs de données en appliquant des étiquettes sémantiques à chaque colonne. Ces étiquettes sémantiques sont appelées des domaines de données.

Généralement, les étiquettes sémantiques sont appliquées en évaluant des règles basées sur des expressions régulières, des tables de références ou autres logiques complexes codées manuellement. La définition et la maintenance de milliers de règles telles que celles-ci peuvent s'avérer laborieuses.

CLAIRE utilise le concept des balises pour simplifier au maximum le processus de découverte et d'étiquetage des champs de données. Pour les colonnes qui n'ont pas été classées, l'utilisateur doit simplement attribuer une balise (par exemple, « Date de paiement demandée ») indiquant le contenu de la colonne. Le système apprend par association, puis propage automatiquement ces balises aux colonnes identiques. La « reconnaissance faciale » pour les technologies de données est similaire à celle utilisée pour identifier les gens sur une photo Facebook, avec un avantage : les mêmes personnes sont identifiées simultanément sur des millions d'autres photos.

Figure 3 : Classification automatique des données.

Auto infer domains for columns based on data patterns

Déduction automatique des domaines de colonnes basée sur

des schémas de données

Relationships link all data assets associated with the domain

Relations permettant de lier toutes les ressources de données avec le domaine

Nom de l'entrepriseE-mailPrénomCode

postalNuméro de téléphone

Page 11: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

9

Découverte intelligente des entitésUne fois les domaines des colonnes identifiés, CLAIRE peut assembler ces champs individuels dans des entités métiers de plus haut niveau. L'exemple ci-dessous montre comment créer une entité appelée Bon de commande en combinant les champs identifiés comme Client et Produit. La découverte d'entités apprend en se fondant sur la façon dont les utilisateurs ont assemblé des champs de données disparates dans leurs processus d'analyse ou d'intégration de données, et applique cet apprentissage pour créer des entités dans tout l'environnement de données de l'entreprise.

Figure 4 : Combinaison des domaines de données pour détecter des entités à partir des tables et des fichiers.

Recommandations intelligentes de données CLAIRE fournit aux analystes et aux experts en données des suggestions sur les ensembles de données à utiliser pour leurs projets. CLAIRE étudie les ensembles de données que les utilisateurs ont sélectionnés et suggère des ensembles similaires ou mieux classés, ou des ensembles supplémentaires pour compléter ceux dont les utilisateurs se servent déjà. Les recommandations intelligentes de données permettent d'éviter aux utilisateurs de répéter des tâches déjà effectuées par leurs collègues. Les recommandations comprennent :

1. Une version préparée des données identiques (données substituables)

2. Une autre table contenant le même type d'archives (données unifiables)

3. Une table susceptible d'être adjointe pour enrichir les données avec des attributs supplémentaires (données adjoignables).

Les recommandations de données utilisent des techniques de filtrage basé sur le contenu pour fournir des suggestions sur les ensembles de données supplémentaires. Les caractéristiques (termes) utilisées pour les ensembles de données comprennent les informations de traçabilité, le classement des utilisateurs et la similarité des données. Plusieurs mesures de similarité sont utilisées pour noter les équivalences entre les différents ensembles de données. Ces notes sont ensuite utilisées pour recommander des ensembles de données avec des propriétés identiques. Des recommandations d'éléments complémentaires sont effectuées via la recherche, dans le graphique des métadonnées, des ensembles de données les plus utilisés par différents utilisateurs.

Page 12: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

10

Découverte intelligente de la structureCLAIRE peut créer des structures à partir des données en vrac des appareils et des fichiers journaux, afin de faciliter leur compréhension et leur utilisation. En utilisant une approche basée sur le contenu pour analyser les fichiers, CLAIRE peut s'adapter aux fréquentes modifications de fichiers sans affecter leur traitement.

La découverte intelligente de la structure utilise un algorithme génétique pour automatiser la reconnaissance des schémas dans les fichiers. Elle utilise, dans le cadre de cette approche, le concept d'« évolution » pour améliorer les résultats. Chaque solution candidate comprend un ensemble de propriétés qui peuvent être modifiées puis testées pour déterminer si elles fournissent une meilleure solution. Elle n'a pas recours aux entrées utilisateurs pour définir la structure du fichier et n'est pas spécifique à un ensemble de formats de fichiers de l'industrie. Les structures initiales du fichier sont créées en fonction de l'analyse basée sur des séparateurs de base. Ces structures sont ensuite notées en fonction de plusieurs facteurs, tels que la couverture de saisie et les domaines dérivés. Les structures les mieux notées entrent dans une phase de « mutation » pendant laquelle de nombreux changements sont apportés aux structures, par exemple, en combinant des sous-structures pour voir si la note augmente. Le processus se termine lorsque la structure est jugée adaptée aux données.

Figure 5 : Recherche intelligente de la structure dans des fichiers de données non structurées

Page 13: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

11

Détection intelligente des anomaliesCLAIRE utilise des approches d'apprentissage machine et de statistique, pour détecter les valeurs hors normes et les anomalies de données. La fonction d'analyse du comportement des utilisateurs (UBA) détecte les schémas de comportement utilisateur susceptibles de représenter un risque et d'exposer l'entreprise à une utilisation abusive des données. L'UBA est capable de détecter les emprunts d'identité, les piratages d'informations d'identification et les attaques d'escalade des privilèges.

L'UBA applique l'apprentissage machine non supervisé à un modèle multidimensionnel d'activités utilisateurs, qui inclut le nombre de magasins de données consultés par l'utilisateur, le nombre de requêtes effectuées et le nombre d'archives concernées sur les différents systèmes. L'analyse du composant principal est appliquée à ce modèle pour la réduction de la dimensionnalité. La technique BIRCH est appliquée pour le clustering hiérarchique non supervisé, afin de rechercher des utilisateurs dont le comportement était différent sur une période donnée. Pour valider le comportement anormal, des méthodes de détection des valeurs hors norme basées sur la densité et la distance sont utilisées, et le test statistique de Grubbs pour les valeurs hors normes est effectué, afin de confirmer que les objets indiqués par les deux premières méthodes sont effectivement des valeurs hors norme dans le système du cluster.

Voici quelques exemples des fonctionnalités que CLAIRE pourra offrir à l'avenir :

Intégration automatique : Intégration automatique des nouvelles données entrantes dans les processus d'intégration de données. Identification des données, localisation des schémas d'intégration qui traitent des données identiques, transformation et déplacement automatiques des données grâce à l'apprentissage à partir de millions de mapping existants et d'actions d'utilisateurs.

Assistance au développement : Recommandations aux utilisateurs et suggestion des prochaines actions à privilégier durant le processus de développement, notamment :

• Transformation automatique

• Recommandations de modèles

• Suggestions sur les types de masking pour les données sensibles

• Suggestions sur la qualité des données pour le nettoyage et la standardisation

• Optimisation automatique des performances

Mapping automatique : Détection des entités de données de référence dans toute l'entreprise et mapping automatique de ces données au modèle de données de référence en appliquant les transformations requises et les règles de qualité

Réparation automatique : Gestion fluide des problèmes externes au système, tels qu'une mémoire faible ou un problème de puissance de calcul. Par exemple, ajout de ressources de calcul supplémentaires (« débordement vers le Cloud ») pour gérer les pics de données

Réglage automatique : Prévision et ajustement des calendriers et des ressources informatiques en fonction des informations de l'historique, des volumes actuels de données et des ressources système disponibles, afin de respecter les critères de performance

Sécurisation automatique : Détection automatique des données sensibles et masquage de ces données avant qu'elles ne quittent la zone sécurisée

Page 14: Enterprise Cloud Data Management | Informatica - L ......Data Platform L'approche d'Informatica pour améliorer la productivité de la gestion de données avec l'apprentissage machine

Siège mondial, 2100 Seaport Blvd, Redwood City, CA 94063, États-Unis Téléphone : +33 1 42 04 89 00 (France) informatica.com/fr linkedin.com/company/informatica twitter.com/InformaticaFr© 2017 Informatica LLC. Tous droits réservés. Informatica, le logo Informatica et CLAIRE™ sont des marques commerciales ou déposées appartenant à Informatica LLC aux États-Unis et dans d'autres pays. La liste des marques commerciales d'Informatica est disponible sur le Web, à l'adresse https://www.informatica.com/trademarks.html. Les autres noms de sociétés et de produits sont la propriété de leurs détenteurs respectifs et peuvent avoir fait l'objet d'un dépôt de marque. IN09_0517_3328

ConclusionLes stratégies métiers actuelles orientées sur les données sont conçues en se fondant sur les données. Pour les exploiter au mieux, vous devez disposer des compétences de gestion de données qui vous permettent de libérer le potentiel de ces données.

Avec tous les défis que représente la gestion de données dans des circonstances ordinaires, les approches traditionnelles ne peuvent répondre aux exigences actuelles ou futures. Une des méthodes employées pour exploiter les données dans des projets d'innovation consiste à les standardiser au sein d'une plate-forme de gestion de données de bout en bout utilisant la puissance des données, des métadonnées et l'apprentissage machine/IA pour améliorer la productivité de tous les utilisateurs de la plate-forme : services techniques, opérationnels, métiers et, en particulier, libre-service professionnel.

Pour en savoir plus sur l'utilisation de CLAIRE et de l'Intelligent Data Platform, et maîtriser enfin la puissance de vos données, contactez-nous.

À propos d'InformaticaInformatica se concentre à 100 % sur les données, car ce sont les données qui font tourner le monde. Les entreprises ont besoin de solutions de données pour le Cloud, les Big Data, le temps réel et les flux de données en continu. Informatica est le premier fournisseur mondial de solutions de gestion de données, que ce soit dans le Cloud, sur site ou dans les environnements hybrides. Plus de 7 000 entreprises du monde entier font appel aux solutions de données d'Informatica.