dsa nlp introduction - curiousml.github.io

IntroductionFrançois HU - 05/07/2021 - francois.hu@socgen.com Data Scientist au DataLab de la Société Générale AssurancesDoctorant à l’ENSAE-CRESTEnseignant à EPITA, ENSAELes cours se trouvent ici : https://curiousml.github.io/

Formation Data Science Pour Actuariat (DSA)

1. Quelques prérequis - Machine Learning- Deep Learning

2. Définitions et préprocessing - Tokenization- Normalisation des tokens- Stop-words

3. Vectorisation des données textuelles - Données textuelles en données tabulaires- Modèles de vectorisation des textes

Introduction

Représentations vectorielles

Deep Learning pour NLP

Active Learning

ProgrammeSommaire

1. Quelques prérequis

Machine Learning (ML) (Apprentissage machine ou automatique) : la science de programmer les ordinateurs de sorte qu’ils puissent apprendre à partir des données (que nous notons X)

Machine Learning

Apprentissage supervisé : apprentissage machine où les données d’entraînement sont étiquetées -> (X, y)

- Classification (régression logistique, régression softmax, …)- Régression, …

Apprentissage non-supervisé : apprentissage machine où les données d’entraînement ne sont pas étiquetées -> X

- Partitionnement (clustering)- Réduction de la dimensionalité, …

Phase d’un système de Machine Learning : phase d’apprentissage, phase de prédiction

Comment entraîner un modèle ML ?

Machine Learning

Comment entraîner un modèle ML ?

Machine Learning

Comment entraîner un modèle ML ? choisir un modèle prédictif puis calibrer ses paramètres (souvent via minimisation d’une métrique par descente de gradient)

Machine Learning

Comment entraîner un modèle ML ? choisir un modèle prédictif puis calibrer ses paramètres (souvent via minimisation d’une métrique par descente de gradient)

La science de programmer les ordinateurs à comprendre le langage humainNatural Language Processing (NLP) ?

Machine Learning

Deep Learning (1/3)

Régression logistique

Quelques fonctions d’activation

Réseau de neurones

Deep Learning (2/3)

Deep Learning

Deep Learning (3/3)

La science de programmer les ordinateurs à comprendre le langage humainNatural Language Processing (NLP)

Natural Language Processing

NLP : use cases

Modèle d’attrition (churn)Exemple :

Evaluer le sentiment dans les commentaires fournis par les

consommateurs dans les enquêtes.

Système de recommandation

Exemple : Calculer la probabilité qu'un client cesse

d'acheter ou d'utiliser les produits (contrat auto p.ex.) ou services.

ChatbotExemple :

« Next Best Action » pour les clients en se basant sur leurs informations

disponibles dans leur CRM.

Analyse de sentiment

Exemple : Conversations avec des

consommateurs via des Questions-Réponses (sous forme de texte ou de

voix).

Gestion des e-documentsExemple :

Classification automatique des documents entrants (emails, déclarations de sinistres, …)

Gestion des réclamationsExemple :

Extraire des informations de documents numérisés tels que les actes de décès

(ex. pour les images : photos de voitures endommagées).

2. Définitions et Préprocessing

Intuitions :

- formater les textes pour se rapprocher des données tabulaires (structurer)

- rendre les textes simple à traiter pour les modèles ML (normaliser et/ou supprimer des mots)

Tokenization : définition

Texte : séquence de mots

Mot : séquence logique de caractères

Tokenization : processus qui sépare une séquence (texte) en une liste de tokens (mots)

Question : comment trouver les limites d’un mot ?

Output : [‘Devons’, ‘nous’, ‘mon’, ’collègue’, ‘et’, ‘moi’, ‘vous’, ‘recontacter’]

Input : ‘Devons-nous, mon collègue et moi, vous recontacter ?’

Réponse : En français / anglais, nous pouvons séparer les mots par les espaces et les ponctuations

Tokenization

Output : [‘Devons’, ‘nous’, ‘mon’, ’collègue’, ‘et’, ‘moi’, ‘vous’, ‘recontacter’]

Input : ‘Devons-nous, mon collègue et moi, vous recontacter ?’

Réponse : En français / anglais, nous pouvons séparer les mots par les espaces et les ponctuations

Tokenization

implémentation python

Tokenization : code

Normalisation : Racinisation et lemmatisation

Stemming (Racinisation) : garder la racine d’un terme (souvent, couper à partir d’un caractère)

Lemmatisation : processus qui sépare une séquence (texte) en une liste de tokens (mots)

Autres types de normalisation

Les expressions régulières en Python nécessitent d’importer le module natif re : voir https://fr.wikibooks.org/wiki/Programmation_Python/Regex pour la documentation.

Exemple de texte :

Stop-words

Les stop-words : ensemble de mots fréquemment utilisés dans une langue et qui n’apportent pas de signification importante

objectif : supprimer ces stop-words

Résumé

Je me permets de vous recontacter

Tokenizer

Raciniser et lemmatiser

Stop-words

Je me permets de vous recontacter

A vectoriser

permettre de vous recontacterJe me

vous recontacterpermettreJe

3. Vectorisation des données textuelles

Intuitions :

- Transformer des documents textuels en données tabulaires (partir des données textuelles tokenizées et normalisées)

- Données textuelles => données séquentielles (tenir compte de l’ordre des mots)

Données textuelles en données tabulaires

processus d’apprentissage pour des données tabulaires

processus d’apprentissage pour des données textuelles

Problèmes

Vectorisation des textes : principe

Vectorisation des textes : approche bag-of-words

Vectorisation des textes : approche n-grammes

Vectorisation des textes : approche TF-IDF (1/2)

Vectorisation des textes : approche TF-IDF (2/2)

Résumé

Méthode 1 : vectorisation par comptage +

bag-of-words

Méthode 2 : vectorisation par comptage +

n-grammes

Méthode 3 : vectorisation par TF-IDF

dsa nlp introduction - curiousml.github.io

Documents

Architecture DSA

ÉCOLE DE CHAILLOT · 2017-07-18 · Formation exigeante, le DSA demande un fort investissement en temps de la part des élèves. Le DSA accueille environ 60 élèves avec une rentrée

10 Techniques NLP

DSA DFCPMT fr · 2019-07-15 · Série Sol 11 Données techniques. Graphiques de sélection DSA-HV Les graphiques de vitesse de la veine d’air à différentes hauteurs sont étudiés

Myriad Livre Blanc NLP-v4 · 2019. 7. 16. · modèles utilisés en NLP à l’heure actuelle. 1. Expressions régulières. Comme nous l’avons déjà mentionné ci-dessus, les expressions

DSA Marne-la-Vallée

ÉCOLE DOCTORALE DES SCIENCES CHIMIQUES IPHC/DSA/CNRS …

Décision 16-D-18 du 8 septembre 2016 relative à des ...€¦ · Vu les décisions de secret d'affaires n° 16-DSA-55 du 24 février 2016, n°DSA 14--74 du 31 mars 2014, n°DECR-09

lecture 4 text classification - University of California ...idiom.ucsd.edu/~rlevy/lign256/winter2008/ppt/lecture_4_text... · Statistical NLP Winter 2008 Lecture 4: Text classification

8 et 9 Juin 2007 1Séminaire DINAN Du défibrillateur semi-automatique (DSA) Formation à lutilisation

DSA TECHNOLOGIES

Les techniques du NLP pour la recherche en sciences de gestion

Application de la réforme FFT - 12 ans dans la Ligue DSA

Décision n° 12-D-09 du 13 mars 2012 relative à des ... · n° 11-DSA-228 du 22uillet 2011 j ; n° 11-DSA-242 à 11-DSA-247 du 9 2011 août et n° 11-DSA-248 à 11-DSA-254 du 10

Le malade délirant: évaluation et conduite à tenirsenon-online.com/Documentation/telechargement/3cycle/Psychiatrie... · • NLP atypique surtout si premier traitement • NLP

1 Atelier SMN 1 Atelier « Synchronisation des PIMs » DRCE/DSA/SMN

I dsa mazzoncini

NAF: the NLP Annotation Format Technical Report NWR-2014-3

Bluima:(aUIMA-based(NLP( Toolkitfor(Neuroscience

DSA - schako.com · Diffuseur à jet avec buses DSA 04/01 - 3 Sous réserve de modifications. Aucune reprise possible ! Version : 14.05.2019 Description Application Le diffuseur à