3
60 Le monstre aux cent yeux Amoureux d’Io, Zeus la transforma en génisse pour la soustraire à la jalousie de son épouse Héra. Il en confia la garde à Argus (ou Argos), prince argien aux cent yeux dont cinquante restaient ouverts pendant son sommeil. Tenace, Héra, aidée d’Hermès et de sa flûte enchantée, réussit à tuer ce pourtant si vigilant gardien. Selon la légende, les yeux d’Argus furent semés sur la queue du paon...

Le monstre aux cent yeux Amoureux d’Io, Zeus la … · Amoureux d’Io, Zeus la transforma en génisse pour la soustraire à la jalousie de son épouse Héra. Il en confia la garde

  • Upload
    vutu

  • View
    221

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Le monstre aux cent yeux Amoureux d’Io, Zeus la … · Amoureux d’Io, Zeus la transforma en génisse pour la soustraire à la jalousie de son épouse Héra. Il en confia la garde

60

Le monstre aux cent yeux

Amoureux d’Io, Zeus la transforma en génisse pour lasoustraire à la jalousie de son épouse Héra. Il enconfia la garde à Argus (ou Argos), prince argien auxcent yeux dont cinquante restaient ouverts pendantson sommeil. Tenace, Héra, aidée d’Hermès et de saflûte enchantée, réussit à tuer ce pourtant si vigilantgardien. Selon la légende, les yeux d’Argus furentsemés sur la queue du paon...

060-062 - Argus 11/08/00 14:47 Page 60

Page 2: Le monstre aux cent yeux Amoureux d’Io, Zeus la … · Amoureux d’Io, Zeus la transforma en génisse pour la soustraire à la jalousie de son épouse Héra. Il en confia la garde

Argus, gardien du secret statistique

Développé au début des années1990, dans le cadre d’un projet euro-péen, par le Centraal Bureau voor deStatistiek (CBS), Argus est un progi-ciel d’« anonymisation » des don-nées contraint par les règles du se-cret statistique. Son nom de baptême,directement tiré de la mythologiegrecque, est en même temps l’acrony-me d’Anti-Reidentification GeneralUtility System (pour les statisticiensnéerlandais, l’anglais n’est pas unelangue étrangère).

Deux-en-un

Le progiciel Argus comprend deuxmodules, Tau et Mu (toujours laGrèce...), respectivement relatifs auxtableaux statistiques et aux fichiers-détail. Le premier « supprime » descases de tableaux, le second desinformations. L’un comme l’autre intè-grent des algorithmes de minimi-sation du nombre de suppressionseffectuées. Le sous-programme d’op-timisation de τ-Argus est œuvre

conjointe des universités italiennesde Padoue et Bologne et de l’univer-sité espagnole de Ténériffe, celui deµ-Argus a été mis au point à l’univer-sité de technologie d’Eindhoven.

Protection d’un tableau

La règle de base est qu’une case detableau doit se rapporter à au moinstrois unités statistiques1. Une règleannexe, dite « règle de dominance »,qui peut conduire à majorer ce seuil,est qu’aucune des unités statistiquesauxquelles se rapporte la case nedoit représenter plus de 70 % de lagrandeur qui y est étudiée.

Les occultations effectuées en appli-cation de ces règles sont dites « sup-pressions primaires ». Mais il fautencore veiller à ce que les valeursdes cases ainsi supprimées ne puis-sent être retrouvées par simple rap-prochement avec les marges dutableau. Si par exemple il n’a étéeffectué qu’une seule suppression

primaire sur l’une des lignes dutableau, il faudra procéder sur cettemême ligne à une autre suppression,dite « suppression secondaire ». Etpeut-être même à plusieurs, une pré-caution supplémentaire étant d’em-pêcher qu’une tentative d’estimationne puisse conduire à approcher detrop près, en pratique dans un inter-valle compris entre 70 % et 140 %,les valeurs des cases occultées dansle cadre d’une suppression primaire2.Enfin, aucune ligne ou colonne dutableau ne devra au final comporterde suppressions secondaires isolées,faute de quoi les valeurs correspon-dant aux suppressions primairespourraient être retrouvées par déduc-tions successives.

Courrier des statistiques n° 91-92, décembre 1999 61

Colonne C1 Colonne C2 Colonne C3 Colonne C4 Colonne C5 Colonne C6 Total ligne

Ligne L1

Ligne L2 P S1

Ligne L3

Ligne L4 S2 S3

Ligne L5

Total colonne

Suppressions primaires et suppressions secondairesL’exemple d’une suppression primaire isolée

Soit le tableau ci-dessous, dans lequel doit être effectuée une unique suppression primaire (P) par occultation de lavaleur de la case (L2, C2). On voit bien, dans ces conditions, que pour empêcher que puisse être reconstituée la valeurainsi occultée, par simple rapprochement avec les marges ligne ou colonne, il faut procéder à trois suppressions secon-daires : l’une, S1, sur la ligne 2 (par exemple à l’intersection avec la colonne 5), une seconde, S2, sur la colonne 2 (parexemple à l’intersection avec la ligne 4), une troisième enfin, S3, à l’intersection de la colonne 5 et de la ligne 4.

En l’absence de cette troisième suppression secondaire, on pourrait en effet retrouver les valeurs correspondant à S1 ou S2 et par suite celle correspondant à P.

1. De trois à cinq en général. Deux n’est jamaissuffisant car alors, chacune des deux unitésstatistiques concernées pourrait par simpledéduction déterminer la contribution de sa voi-sine de tableau à la valeur de la case.2. En application de cette règle, il peut bien sûrêtre nécessaire de procéder à des suppres-sions secondaires sur des lignes ou colonnescomportant plus d’une suppression primaire.

060-062 - Argus 11/08/00 14:47 Page 61

Page 3: Le monstre aux cent yeux Amoureux d’Io, Zeus la … · Amoureux d’Io, Zeus la transforma en génisse pour la soustraire à la jalousie de son épouse Héra. Il en confia la garde

Références

Anco Hundepool et al. - τ-Argus, User’s Manual, version 2.0, Statistics Netherlands,1998.

Anco Hundepool et al. - µ-Argus, User’s Manual, version 3.0, Statistics Netherlands, 1998.

Leon Willenborg & Ton De Waal - « Statistical Disclosure Control in Practice »,Lecture Notes in Statistics, 111, Springer-Verlag, New York, 1996.

Ece/Eurostat - Work Session on Statistical Data Confidentiality, March 1999.

Eurostat - Proceedings of Statistical Data Protection Meeting, March 1998.

Site internet www.cbs.nl\sdc\argus.htm

Lionel Viglino

Bien sûr, pour un ensemble parfaite-ment défini de suppressions pri-maires, il existe plusieurs possibilitésde suppressions secondaires. Le pro-blème d’optimisation est ainsi trèscomplexe, mettant théoriquement enjeu un nombre d’opérations propor-tionnel à la factorielle du nombre decases du tableau. Le principe général,appuyé sur une méthode de rela-xation des contraintes, est de mini-miser la quantité d’informationsupprimée, en termes de valeur totale(ce qui n’a bien sûr de sens que si lagrandeur étudiée ne prend pas devaleurs négatives, mais c’est le cas leplus général) ou, à défaut, en nombred’unités statistiques3.

Antérieurement à la mise en oeuvrede l’« anonymisation » automatiséedu tableau, l’opérateur peut déciderde procéder en mode interactif à des agrégations de modalités devariables, en vue de la productiond’un tableau certes moins détaillémais qui comportera un nombreréduit de cases occultées. Il peutégalement effectuer ce travail d’agré-gation au moyen d’un autre logiciel,et en importer le résultat dans Argus.

Protectiond’un fichier-détail

Ici l’on s’intéresse à des fichiers depersonnes, évidemment expurgésdes noms, prénoms et adresses. Leprincipe consiste alors à déterminerdes « clés d’identification », définies entermes de variables « identifiantes » etpar croisement des variables enquestion. Pour prendre un exempleproche, il est clair que même en l’ab-sence des noms, prénoms et adres-ses, de nombreux anciens élèves del’Ensae pourraient être identifiés sansambiguïté dans un fichier de salariéscomportant le diplôme et la raisonsociale de l’entreprise employeuse.Dans un tel cas de figure, le croise-ment diplôme x raison sociale del’employeur constitue clairement uneclé d’identification potentielle.

En pratique, µ-Argus va donc compterles enregistrements du fichier selonles variables définies a priori commeidentifiantes et les croisements indi-qués par l’opérateur (ou, à défaut,automatiquement déterminés parArgus), et comparer les résultats à desseuils préparamétrés. Et si le nombreobtenu est inférieur au seuil prépara-métré, seront effacées du fichier-détail, pour chacun des enregistre-ments concernés, les valeurs cor-respondant aux variables en question.

Là encore, une première étape, anté-rieure à ces suppressions localesd’information, aura consisté en desagrégations de modalités de variables.Plus évolué que τ-Argus, µ-Arguspeut décider seul de ces agrégations,en minimisant les pertes d’informa-tion afférentes, à condition bien sûrque la nature et la forme des varia-bles du fichier traité aient été parfai-tement décrites.

La délicate gestiondes liens

Actuellement, Argus traite séparé-ment chaque tableau ou fichier, indé-pendamment des liens pouvant lesunir. Or le risque existe que parrecoupement entre les différentstableaux et fichiers issus de ces trai-tements, puissent être découvertesdes informations protégées. Des pré-cautions complémentaires doiventdonc être prises, qui induiront le caséchéant, dans le cadre d’un traite-ment entièrement manuel, des sup-pressions supplémentaires à cellesexécutées par Argus.

Lionel VIGLINODivision Méthodes comparées

Insee

62

3. Les versions futures de τ-Argus intègrerontune option de minimisation en nombre decases occultées.

060-062 - Argus 11/08/00 14:47 Page 62