Anonymisation semi-automatique de corpus dinteractions Éléments pour une méthode interactive C....

Preview:

Citation preview

Anonymisation semi-automatique de corpus d’interactions

Éléments pour une méthode interactive

C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3

1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada

3 GREYC, Université Caen Basse-Normandie, CNRS

Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 2

Le fil conducteur

• Introduction– Contexte, problématique– Les 2 Corpus traités – Anonymiser : définitions, exemples

• Le processus d’anonymisation– Marquage– Fouille– Substitution

• Bilan de l’application aux 2 corpus• Perspective

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 3

Introduction

• Partage de données en recherche– Mulce : "Repository" de Corpus multimodaux

d’enseignement et d’apprentissage– Calico : "Repository" + Outils d’analyse de

Forums, Blogs, etc.

• Données personnelles non partageables Anonymisation nécessaire• Corpus d’interaction = Gros volumes Besoin de méthode et d’outils

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 4

Anonymiser : pourquoi ?

• Obligation légale (selon les pays) : – En France : CNIL, – Directives de la Commission Européenne– Canada : comités éthiques

• Déontologie de la recherche– Protéger les données perso. des participants– Gagner leur confiance – Mieux garantir l’indépendance

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 5

Anonymiser : le « quoi »

• Cacher les données personnelles– Noms (prénoms, patronymes, noms utilisateurs, …)– Identifiants (N°Passeport, N°Etudiant, N°INSEE, …)– Lieux (villes, rues, adresse, coordonnées)– Institution (école, club, entreprise, …)– Références de contacts (e-mail, mobile, MSN, skype,

twitter, téléphone/fax, …)– Références explicites (URL page perso, blogs)– Noms d’utilisateurs de média sociaux (facebook,

MySpace, Hi5, Soundcloud, Badoo, Friendster, …)

• Et maintenir cohérence et consistance du texte

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 6

2 corpus

Nomades (1) Pgm Court (2)

Durée 3,5 mois 5 mois

Outils Galanet Knowledge F.

Niveau Format°Langues

1ère (Lycée) fr, it, es, br

Masterfr (qc)

Participants2 tuteurs,101 élèves

1 tuteur7 étudiants

Taille : 915 messages46 825 graphiesLexique : 9 652

203 messages41 317 graphies

Lexique : 4 900

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 7

Ex: Données personnelles• {2011-11-30T19:24 Gabibr Re: Quelques informations ...}

“Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS.”

• {2011-12-27T09:25 Miche Re: Les stéréotypes culinaires answers} “inviate i vostri documenti alla mia mail mikinessi@yahoo.it grazie!!!;)”

• {2011-10-22T19:52 PBS Re: Por que me chamo assim?! } “Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia”

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 8

En cherchant sur la toile…

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 9

Peimikà Bibiana… suite

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 10

Anonymisation

Contraintes:1. Toute référence (ex: nom, lieu, etc.) doit être

suffisamment imprécise pour englober plusieurs centaines de personnes.

2. Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée.

3. Conserver le maximum de dépendances sémantiques et culturelle.

Dans un corpus anonymisé, aucun participant ne doit être identifiable

par une personne externe

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 11

Comment rendre anonyme ?

• Une info (isolée) => 100+ personnes

• Faisceau d’infos combinées => 7+ pers.

• Penser aux sources externes…

« Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans

le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. »

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 12

Anonymisation• Avant :

{2011-10-17T08:22 KellyM Re: Qui sommes- nous? }Bonjour, je m'appelle Kellly. J'ai 16 ans, je suis une élève

en 1ère S dans le lycée Rosa Luxemburg à Canet, non loin de Perpignan…

• Après:{2011-10-17T08:22 FLG01 Re: Qui sommes- nous? }

Bonjour, je m'appelle Kittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Margherita Duras* à Aigues-Vives*, non loin de Perpignan…

Avant Après

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 13

Quelques difficultés

• Synonymie ou altérations lexicalesExemple : Venise– Erreurs de typo: Verise, Venize…– Multilinguisme : Venizia, Venice, …

• Homonymie :

«Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels

Urbains). Elle fréquente assidument l’hippodrome de Longchamp à côté de Paris. »

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 14

Processus d’Anonymisation

Corpus àanonymiser

Corpus avec entités

marquées

Table de transformation des entités nomméesListe initiale

participants,login,institution…

Détection de nouvellesgraphies

Marquage

Corpus Anonymisé

Substitution

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 15

Table de transformation : exemple

Synonymes : 2 graphies différentes représentent la même entité nommée

=≠

Homonymes: La même graphie représente différentes entités

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 16

Marquage : Exemple (Kelly)A - Le concordanceur donne le contexte de chaque occurrence

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 17

Marquage: Exemple (Kelly)

+

B – Ajouter “Gene Kelly” comme personne publique dans la table

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 18

Marquage : Exemple (Kelly)

C- Associer chaque graphie à l’entité correspondante

Patronyme, forme normale, inchangéereprésente la célébrité Gene Kelly

Prénom, forme normale, à changer :représente le participant KellyM

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 19

Processus d’Anonymisation

Corpus àanonymiser

Corpus avec entités

marquées

Table de transformation des entités nomméesListe initiale

participants,login,institution…

Détection de nouvellesgraphies

Marquage

Corpus Anonymisé

Substitution

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 20

Détection de nouvelle graphies : 2 stratégies

• Règles lexicales : syntaxe proche – Eli -> Elô Ely ELY Seli– Gabriela -> GABRIELA– José -> Jose

• Règles contextuelles : même contexte– First names: “mi chiamo …”, “accord avec …”– Cities: “Soy de …”, “vivo en …”, “j’habite à …”

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 21

1ère Stratégie : Règles Lexicales

adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer

Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer

103graphiesconnues

31nouvellesgraphies

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 22

2ème Stratégie : Règles contextuelles

103 prénoms connus (Adrià, …, Veronica)

145 contextes : Gauches/DroitsTotal: + 250 règles testées

15 nouvelles graphies retenuesAntonhy Belle Bet Christine Fede Federiac Kellly Leo Line Maria May Peimikà Regina fran jean léo

47 règles retenues

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 23

Processus d’Anonymisation

Corpus àanonymiser

Corpus avec entités

marquées

Table de transformation des entités nomméesListe initiale

participants,login,institution…

Détection de nouvellesgraphies

Marquage

Corpus Anonymisé

Substitution

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 24

Substitution : principes & précautions

• Vérifications avant exécution:– Homonymie (entre participants) maintenue– Pas d’introduction de nouveaux homonymes– Cohérence des graphies de substitution– Codage des acteurs (intra/inter corpus)

• Exécution en une seule passe pour éviter les remplacements en cascade

• Vérification par le chercheur par lecture (au moins sur un échantillon)

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 25

Evaluation de l’anonymisationSur le corpus 1 (Nomades)

• Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences

Méthode : Relecture exhaustive par l’animatrice• 7 graphies oubliées // 117 trouvées • 6 sur 7 dues à une application manuelle

=>1 seule vraie oubliée par la méthode : Excellent résultat pour l’anonymisation

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 26

Evaluation de l’anonymisationSur le corpus 2 (Prog. court)

• Annuaire des données personnelles : prénoms, patronymes :

• 9 données / 11 trouvées / 115 occ. marquées

Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes

• 8 graphies : 2 institutions, 1 village, 5 pers.• Soit 31 occurrences oubliées

Peu d’information au départ => moins efficace.

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 27

Discussion

• Expressions régulières (majuscules) :– Corpus 1 (Nomades) : 6 287 occ. (1509 g)– Corpus 2 (Pgrm court) : 792 occ. (328 g)– Règles inutilisable en Allemand, autres ?

• Dictionnaires externes– Corpus 1 (Nomades) : 5 langues (avec

recouvrements)– Corpus 2 (Pgrm court) : Français du Québec

• Réutilisation des règles : (1) -> 2 ?

JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet 28

Conclusion

1. Une méthode (sans dictionnaire) pour anonymiser

2. Retour aux hypothèses– Automatisation 100% impossible– 2 techniques de fouille complémentaires prometteuses– Selon contexte : ajouter expressions régulières

3. Le paradoxe de l’anonymisation– Ex: Google facilite la ré-identification => utilisons-le

pour déterminer ce qu’il faut anonymiser !

4. Perspectives– Développement (au dessus de Calico)

MerciC. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3

1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada

3 GREYC, Université Caen Basse-Normandie, CNRS

Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

Recommended