View
1
Download
0
Category
Preview:
Citation preview
IntroductionFrançois HU - 05/07/2021 - francois.hu@socgen.com Data Scientist au DataLab de la Société Générale AssurancesDoctorant à l’ENSAE-CRESTEnseignant à EPITA, ENSAELes cours se trouvent ici : https://curiousml.github.io/
Formation Data Science Pour Actuariat (DSA)
1. Quelques prérequis - Machine Learning- Deep Learning
2. Définitions et préprocessing - Tokenization- Normalisation des tokens- Stop-words
3. Vectorisation des données textuelles - Données textuelles en données tabulaires- Modèles de vectorisation des textes
Introduction
Représentations vectorielles
Deep Learning pour NLP
Active Learning
ProgrammeSommaire
Machine Learning (ML) (Apprentissage machine ou automatique) : la science de programmer les ordinateurs de sorte qu’ils puissent apprendre à partir des données (que nous notons X)
Machine Learning
Machine Learning (ML) (Apprentissage machine ou automatique) : la science de programmer les ordinateurs de sorte qu’ils puissent apprendre à partir des données (que nous notons X)
Apprentissage supervisé : apprentissage machine où les données d’entraînement sont étiquetées -> (X, y)
- Classification (régression logistique, régression softmax, …)- Régression, …
Apprentissage non-supervisé : apprentissage machine où les données d’entraînement ne sont pas étiquetées -> X
- Partitionnement (clustering)- Réduction de la dimensionalité, …
Phase d’un système de Machine Learning : phase d’apprentissage, phase de prédiction
Comment entraîner un modèle ML ?
Machine Learning
Machine Learning (ML) (Apprentissage machine ou automatique) : la science de programmer les ordinateurs de sorte qu’ils puissent apprendre à partir des données (que nous notons X)
Apprentissage supervisé : apprentissage machine où les données d’entraînement sont étiquetées -> (X, y)
- Classification (régression logistique, régression softmax, …)- Régression, …
Apprentissage non-supervisé : apprentissage machine où les données d’entraînement ne sont pas étiquetées -> X
- Partitionnement (clustering)- Réduction de la dimensionalité, …
Phase d’un système de Machine Learning : phase d’apprentissage, phase de prédiction
Comment entraîner un modèle ML ?
Machine Learning
Machine Learning (ML) (Apprentissage machine ou automatique) : la science de programmer les ordinateurs de sorte qu’ils puissent apprendre à partir des données (que nous notons X)
Apprentissage supervisé : apprentissage machine où les données d’entraînement sont étiquetées -> (X, y)
- Classification (régression logistique, régression softmax, …)- Régression, …
Apprentissage non-supervisé : apprentissage machine où les données d’entraînement ne sont pas étiquetées -> X
- Partitionnement (clustering)- Réduction de la dimensionalité, …
Phase d’un système de Machine Learning : phase d’apprentissage, phase de prédiction
Comment entraîner un modèle ML ? choisir un modèle prédictif puis calibrer ses paramètres (souvent via minimisation d’une métrique par descente de gradient)
Machine Learning
Machine Learning (ML) (Apprentissage machine ou automatique) : la science de programmer les ordinateurs de sorte qu’ils puissent apprendre à partir des données (que nous notons X)
Apprentissage supervisé : apprentissage machine où les données d’entraînement sont étiquetées -> (X, y)
- Classification (régression logistique, régression softmax, …)- Régression, …
Apprentissage non-supervisé : apprentissage machine où les données d’entraînement ne sont pas étiquetées -> X
- Partitionnement (clustering)- Réduction de la dimensionalité, …
Phase d’un système de Machine Learning : phase d’apprentissage, phase de prédiction
Comment entraîner un modèle ML ? choisir un modèle prédictif puis calibrer ses paramètres (souvent via minimisation d’une métrique par descente de gradient)
La science de programmer les ordinateurs à comprendre le langage humainNatural Language Processing (NLP) ?
Machine Learning
La science de programmer les ordinateurs à comprendre le langage humainNatural Language Processing (NLP)
Natural Language Processing
IA
ML
DL
NLP
NLP : use cases
Modèle d’attrition (churn)Exemple :
Evaluer le sentiment dans les commentaires fournis par les
consommateurs dans les enquêtes.
Système de recommandation
Exemple : Calculer la probabilité qu'un client cesse
d'acheter ou d'utiliser les produits (contrat auto p.ex.) ou services.
ChatbotExemple :
« Next Best Action » pour les clients en se basant sur leurs informations
disponibles dans leur CRM.
Analyse de sentiment
Exemple : Conversations avec des
consommateurs via des Questions-Réponses (sous forme de texte ou de
voix).
Gestion des e-documentsExemple :
Classification automatique des documents entrants (emails, déclarations de sinistres, …)
Gestion des réclamationsExemple :
Extraire des informations de documents numérisés tels que les actes de décès
(ex. pour les images : photos de voitures endommagées).
2. Définitions et Préprocessing
Intuitions :
- formater les textes pour se rapprocher des données tabulaires (structurer)
- rendre les textes simple à traiter pour les modèles ML (normaliser et/ou supprimer des mots)
Tokenization : définition
Texte : séquence de mots
Mot : séquence logique de caractères
Tokenization : processus qui sépare une séquence (texte) en une liste de tokens (mots)
Question : comment trouver les limites d’un mot ?
Tokenization : définition
Texte : séquence de mots
Mot : séquence logique de caractères
Tokenization : processus qui sépare une séquence (texte) en une liste de tokens (mots)
Output : [‘Devons’, ‘nous’, ‘mon’, ’collègue’, ‘et’, ‘moi’, ‘vous’, ‘recontacter’]
Input : ‘Devons-nous, mon collègue et moi, vous recontacter ?’
Question : comment trouver les limites d’un mot ?
Réponse : En français / anglais, nous pouvons séparer les mots par les espaces et les ponctuations
Tokenization
Tokenization : définition
Texte : séquence de mots
Mot : séquence logique de caractères
Tokenization : processus qui sépare une séquence (texte) en une liste de tokens (mots)
Output : [‘Devons’, ‘nous’, ‘mon’, ’collègue’, ‘et’, ‘moi’, ‘vous’, ‘recontacter’]
Input : ‘Devons-nous, mon collègue et moi, vous recontacter ?’
Question : comment trouver les limites d’un mot ?
Réponse : En français / anglais, nous pouvons séparer les mots par les espaces et les ponctuations
Tokenization
implémentation python
Normalisation : Racinisation et lemmatisation
Stemming (Racinisation) : garder la racine d’un terme (souvent, couper à partir d’un caractère)
Lemmatisation : processus qui sépare une séquence (texte) en une liste de tokens (mots)
implémentation python
implémentation python
Autres types de normalisation
Les expressions régulières en Python nécessitent d’importer le module natif re : voir https://fr.wikibooks.org/wiki/Programmation_Python/Regex pour la documentation.
implémentation python
implémentation python
Exemple de texte :
Stop-words
Les stop-words : ensemble de mots fréquemment utilisés dans une langue et qui n’apportent pas de signification importante
implémentation python
objectif : supprimer ces stop-words
Résumé
Je me permets de vous recontacter
Tokenizer
Raciniser et lemmatiser
Stop-words
Je me permets de vous recontacter
A vectoriser
permettre de vous recontacterJe me
permettre de vous recontacterJe me
vous recontacterpermettreJe
3. Vectorisation des données textuelles
Intuitions :
- Transformer des documents textuels en données tabulaires (partir des données textuelles tokenizées et normalisées)
- Données textuelles => données séquentielles (tenir compte de l’ordre des mots)
Données textuelles en données tabulaires
processus d’apprentissage pour des données tabulaires
processus d’apprentissage pour des données textuelles
Problèmes
Recommended