Ecole Supérieure de Génie Informatiqueerictagliaferri.free.fr/memoire2.doc · Web viewWindows 2003 Server Edition Standard 80Go Poste client servant aux tests des solutions clientes

ECOLE SUPERIEURE DE GENIE INFORMATIQUE

MEMOIRE DE RECHERCHE

Présenté en vue d’obtenir

LE TITRE EXPERT EN INGENIERIE DES SYSTEMES / RESEAUX / SECURITE

Par M.TAGLIAFERRI Eric

LES DIFFICULTES LIEES A LA DETECTION DES SPAMS

MENACES LIEES AUX SPAMS, TECHNIQUES DE DETECTION ACTUELLES ET A VENIR

Soutenu à PARIS, le 19/09/2008

JURY

Monsieur BURSZTEIN (maître de mémoire)

SOMMAIRE

ABSTRACT..........................................................................................6

TABLE DES FIGURES......................................................................7

REMERCIEMENTS...........................................................................8

INTRODUCTION...............................................................................9

I. LA MESSAGERIE ET L’ENTREPRISE....................................101. Présentation générale de la messagerie..................................................................10

1.1 Définitions..........................................................................................................101.2 Description de l’acheminement des messages.................................................10

2. Menaces liées à la messagerie pesant sur le S.I.....................................................122.1 La perte de productivité des utilisateurs.........................................................122.2 Le déni de service par Mail Bombing..............................................................132.3 Le phishing.........................................................................................................142.4 Les virus et logiciels malveillants.....................................................................14

3. Les méthodes de fonctionnement des spammeurs................................................163.1 La constitution d’e-mailing.....................................................................................163.1.1 De manière automatisée....................................................................................163.1.2 Le commerce d’adresses emails : la chaîne du spam.....................................173.1.3 La ‘Directory Harvest Attack’.........................................................................183.2 Les techniques d’envoi.............................................................................................193.2.1 Les relais ouverts...............................................................................................19

3.2.1.1 Problématique.............................................................................................193.2.1.2 Solutions......................................................................................................193.2.1.3 Vérification de serveur...............................................................................203.2.1.4 Le spam aujourd’hui et les relais ouverts................................................20

3.2.2 Les PC Zombies.................................................................................................213.2.2.1 Définition.....................................................................................................213.2.2.2 Usage des zombies......................................................................................213.2.2.3 Problématique.............................................................................................213.2.2.4 Solutions......................................................................................................21

3.2.3 Via des formulaires Web..................................................................................224. Evolution des SPAMS au fil des ans.......................................................................234.1 Les pionniers du spam.............................................................................................234.2 Le premier courrier indésirable à s’appeler spam...............................................234.3 Le début des spams envoyés en masse....................................................................234.4 Les spams d’aujourd’hui.........................................................................................25

M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

2

4.4.1 Les spams à caractère pornographique..........................................................254.4.2 Les spams commerciaux...................................................................................254.4.3 Les spams vérolés..............................................................................................254.4.4 Les spams image................................................................................................254.4.5 Les spams et la Bourse......................................................................................254.5 Les spams de demain...............................................................................................264.5.1 Les spams politiques.........................................................................................264.5.2 Les spams sans information particulière........................................................264.5.3 Les spams « people ».........................................................................................265. Le véritable visage du spam....................................................................................275.1 Les plus grands spammeurs....................................................................................275.2 La répartition du spam par pays............................................................................275.3 La répartition du spam par continent....................................................................286. Contenu des SPAMS................................................................................................29

II. LES TECHNIQUES DE DETECTION DE SPAMS................311. Les techniques de filtrage de mails textuels...........................................................31

1.1 Les filtres bayésiens...........................................................................................311.1.1 Principe..............................................................................................................311.1.2 Calcul de la probabilité d’un mot....................................................................311.1.2.1 Rappel sur le théorème de Bayes..............................................................311.1.2.2 Algorithme de P. GRAHAM ([GRA 02]).................................................321.1.3 Exemple..............................................................................................................331.1.4 Avantages...........................................................................................................331.1.5 Limites................................................................................................................341.1.6 Solutions du marché..........................................................................................341.2 DCC : Distributing Checksum Clearinghouse...............................................351.2.1 Problématique...................................................................................................351.2.2 Utilisation des DCC...........................................................................................361.2.3 Avantages...........................................................................................................361.2.4 Limites................................................................................................................371.2.5 Solutions du marché..........................................................................................371.3 Le filtrage par heuristique................................................................................381.3.1 Principe..............................................................................................................381.3.2 Avantages...........................................................................................................381.3.3 Limites................................................................................................................381.3.4 Solutions du marché..........................................................................................38

2. Les techniques de filtrage de mails non-textuels...................................................392.1 La reconnaissance de caractères dans les images (spam image)...................392.2.1 Descriptif............................................................................................................392.2.1 Principes et limites............................................................................................392.2.1 Solutions du marché..........................................................................................402.2 La détection d’images à caractère pornographique......................................412.2.1 Descriptif............................................................................................................412.2.2 Avantages et limites...........................................................................................41


3

2.2.3 Solutions du marché..........................................................................................413. Les techniques basées sur le filtrage du serveur expéditeur................................43

3.1 Le Greylisting....................................................................................................433.1.1 Historique...........................................................................................................433.1.2 Principe..............................................................................................................433.1.3 Compteurs de temps.........................................................................................443.1.4 Algorithme utilisé..............................................................................................443.1.5 Limites................................................................................................................453.1.6 Avantages...........................................................................................................453.1.7 Solutions du marché..........................................................................................453.2 La détection des adresses emails spoofées.......................................................473.2.1 Problématique...................................................................................................473.2.2 SPF (Sender Policy Framework).....................................................................473.2.3 Sender-ID...........................................................................................................513.4 Les DNSBL (DNS BlackLists)..........................................................................533.4.1 Principe..............................................................................................................533.4.2 Valeurs renvoyées..............................................................................................543.4.3 Utilisation des DNSBL......................................................................................543.4.4 Variantes............................................................................................................543.4.5 Avantages...........................................................................................................553.4.6 Limites................................................................................................................553.4.7 Solutions du marché..........................................................................................55

4. Les techniques basées sur le filtrage de l’utilisateur.............................................564.1 Les tests de Turing............................................................................................564.1.1 Principe..............................................................................................................564.1.2 Avantages...........................................................................................................574.1.3 Limites................................................................................................................574.1.4 Solutions du marché..........................................................................................57

III. COMPARATIF TECHNIQUE DES TECHNIQUES DE DETECTION (BENCHMARK).......................................................58

1. Mode opératoire.......................................................................................................581.1 But.......................................................................................................................581.2 Informations préalables relatives au test........................................................581.3 Environnement de test......................................................................................591.4 Rappel quant à l’échantillon de messages testé..............................................591.5 Echantillon de secours......................................................................................60

2. Solutions testées........................................................................................................612.1 SpamAssassin et produits complémentaires...................................................612.1.1 SpamAssassin lui-même....................................................................................612.1.2 Razor..................................................................................................................622.1.3 Pyzor...................................................................................................................622.1.4 FuzzyOCR..........................................................................................................622.1.5 Mode opératoire................................................................................................622.1.6 Avantages et limites...........................................................................................63


4

2.1.7 Résultats obtenus...............................................................................................632.2 Solutions de Microsoft......................................................................................642.2.1 Filtre intégré à Outlook 2003...........................................................................642.2.2 Filtre intégré à Outlook 2007...........................................................................652.3 SpamPal.............................................................................................................662.4 Contre-spam.com : externalisation d’un test de Turing................................682.5 Trend Micro Internet Security Pro.................................................................692.6 Symantec............................................................................................................692.6.1 Norton Internet Security 2008.........................................................................692.6.2 Brightmail..........................................................................................................692.7 Kapersky Internet Security 2009.....................................................................702.8 Filtre intégré à Mozilla Thunderbird..............................................................712.9 Spamihilator......................................................................................................72

3. Autres solutions du marché (non testées)..............................................................733.1 Barracuda Spam Firewall................................................................................733.2 SpamWall...........................................................................................................733.3 Kapersky Anti-Spam 3.0..................................................................................743.4 Solutions pour Lotus Notes..............................................................................74

4. Tableau comparatif des différentes solutions anti-spam......................................745. Confrontation des résultats obtenus triés pas solution.........................................766. Confrontation des résultats obtenus triés pas technique de détection................767. Tentative de classement des solutions et techniques de détection.......................778. Synthèse des résultats obtenus................................................................................78

IV. DISCUSSIONS ET HYPOTHESES..........................................801. Les raisons du pessimisme actuel...........................................................................802. Quel avenir pour le SPAM ?...................................................................................803. L’email payant, une solution utopiste ?.................................................................80

CONCLUSION..................................................................................81

BIBLIOGRAPHIE.............................................................................82

ACRONYMES...................................................................................84

GLOSSAIRE......................................................................................85

ANNEXES..........................................................................................861. ANNEXE A : Principe d’un test de Turing...........................................................862. ANNEXE B : codes retour du protocole SMTP........................................................87


5

ABSTRACT

Qu’il s’agisse des professionnels ou des particuliers, l’utilisation de la messagerie est sujet à un fléau que l’on appelle spam, et qui correspond à l’envoi massif de courriers non sollicités par des personnes malintentionnées. La part du spam dans l’ensemble des échanges était en France de 70% en 2005, chiffre en progression selon [CLU 05].

L’objet de ce mémoire est de présenter les principales techniques de détection des courriers indésirables, en mettant en valeur leurs avantages mais aussi leurs faiblesses afin de souligner d’une manière générale les difficultés liées à la détection des courriers indésirables.

Dans un premier temps, nous étudierons le phénomène en lui-même afin de déterminer qui sont les spammeurs, d’où viennent-ils, que veulent-ils et comment font-ils pour obtenir des adresses emails valides auxquelles ils enverront leurs courriers, dont nous consacrerons une partie à décrire le contenu de ceux-ci et leur évolution au fil du temps.

Une seconde partie sera consacrée aux techniques de détection : principe de fonctionnement, avantages, limites et solutions du marché.

Une troisième partie consistera à réaliser un benchmark de ces différentes techniques de détection afin de voir quelles sont celles se démarquant des autres, et quelles sont celles devenues totalement obsolètes.

Enfin, nous effectuerons une analyse de ces résultats en tentant d’expliquer s’il convient d’être optimiste ou pessimiste quant à l’aptitude des éditeurs de solutions anti-spam à contrer de manière durable la progression de ce phénomène.

Mots clés :

Spam, ham, courrier indésirable, phishing, usurpation d’adresse email, zombie, botnet, virus, faux positifs, déni de service (DoS), Bayes, DNSBL, DCC, heuristique, SPF, Sender-ID, greylisting, analyse de signature, test de Turing.

Keywords :

Spam, ham, unsollicited mail, phishing, email spoofing, zombie, botnet, virus, false positive, Bayes, Denial of Service (DoS), DNSBL, DCC, heuristics, SPF, Sender-ID, greylisting, checksum-based analyse, Turing test.


6

TABLE DES FIGURES

Numéro de figure et titre PageFigure 1 : Capture d’une transaction SMTP 11

Figure 2 : Acheminement d’un email 11

Figure 3 : Exemple de tentative de phishing 14

Figure 4 : Exemple de récolte automatisée d’adresses emails 16

Figure 5 : La chaîne du spam 17

Figure 6 : Exemple d’email d’avertissement d’erreur (Mail Delivery Failure) 18

Figure 7 : Exemple de scam 24

Figure 8 : Exemple de spam textuel difficilement détectable 26

Figure 9 : Classement des plus grands spammeurs 27

Figure 10 : Répartition du spam par pays émetteur 28

Figure 11 : Répartition du spam par continent émetteur 28

Figure 12 : Classification des spams par catégorie 29

Figure 13 : Captures d’écran de spams 30

Figure 14 : Fonctionnement des DCC 36

Figure 15 : Progression du spam image 39

Figure 16 : Exemples de spam image 39 et 40

Figure 17 : Filtrage d’images à caractère pornographique 41

Figure 18 : Exemple de spoofing d’adresse email 47

Figure 19 : Exemple de fichier de zone DNS comportant un enregistrement SPF 48

Figure 20 : Fonctionnement des DNSBL 53

Figure 21 : Exemple de spams comportant une URI 54

Figure 22: Matériel utilisé lors des tests 59

Figure 23 : Fonctionnement de SpamAssassin + Amavis + ClamAV 61

Figure 24 : Comparatif de plusieurs DNSBL 67

Figure 25 : Tableau comparatif des différentes solutions anti-spam 75

Figure 26 : Combinaison de techniques pour un filtre optimum 79


7

REMERCIEMENTS

La rédaction d’un mémoire de recherche est un travail relativement complexe qui se doit d’être encadré par des personnes compétentes afin de guider l’étudiant dans ses recherches et lui permettre de réaliser ses objectifs. La première personne qu’il convient de remercier comme il se doit est sans conteste mon maître de mémoire : M.BURSZTEIN, lequel par ses conseils avisés aura grandement contribué à orienter mon travail dans la bonne direction.

La richesse des cours dispensés à l’Ecole Supérieure de Génie Informatique (ESGI) aura permis de développer ma culture d’ingénieur. Que l’ensemble des professeurs de cette école que j’aurai eu durant ces trois années soit remercié, le partage de leur expérience, la transmission de leur savoir et leurs précieux conseils auront contribué à renforcer mes propres connaissances et mon sens de l’analyse. Or c’est ce sens de l’analyse qui est indispensable lors de la réalisation d’une telle étude, où il faut savoir rechercher, trier pour ne garder que le meilleur de l’information, et la synthétiser de la meilleure des manières.

Il est également difficile de ne pas songer à remercier l’ensemble des auteurs des documents qui m’auront servi à approfondir mes recherches.

De même, comment ne pas saluer la patience des relecteurs de ce mémoire, en particulier Nadège, qui malgré un agenda pour le moins saturé m’aura consacré pas mal de son temps.

Et pour finir, comment ne pas féliciter mes parents de m’avoir persuadé de continuer mes études, moi qui malgré mon potentiel souhaitait commencer à travailler dès l’âge de seize ans. En espérant que la lecture du présent document les rende fier de celui que je suis devenu.


8

INTRODUCTION

La messagerie, principal vecteur de communication dans le monde de l’Entreprise, est un système sur lequel repose la productivité de nombre de salariés.

Mais les avantages de ce système se sont, ces dernières années, retournés contre lui-même de part ses défauts de conception. Ainsi, le protocole SMTP n’intègre pas de mesures de sécurité, ce qui est compréhensible, tant les menaces de 1982 liées à la messagerie ne reflètent pas celles d’aujourd’hui.

C’est pour cette raison que vit le jour le spam, l’une des principales menaces pesant sur la messagerie de l’Entreprise. Appelé également pourriel ou encore courrier non sollicité, celui-ci est généré par des personnes physiques ou morales peu scrupuleuses et envoyé en masse aux utilisateurs de la messagerie à des fins presque toujours mercantiles.

Polluant la boite de réception des utilisateurs, les spams ont un impact sur leur productivité. Une étude de [CLU 05] indique que plus de 70% des messages électroniques sont non sollicités, on peut donc s’interroger sur l’avenir de la messagerie et sur l’impact qu’aura sur l’Entreprise ce phénomène croissant d’année en année.

C’est ce à quoi nous tenterons de répondre en étudiant les techniques "pionnières" de détection, puis les techniques actuelles. Il n’existe pas actuellement à ma connaissance de méthodes de comparaison de ces différentes techniques, ainsi sera-t-il intéressant de procéder à des tests afin de comparer celles-ci.

Dans ce rapport, nous nous intéresserons dans un premier temps au fonctionnement de la messagerie dans une Entreprise, et à l’impact qu’a le spam sur celle-ci. On procèdera par la même à une description plus avancée du phénomène, notamment le mode de fonctionnement des spammeurs, le contenu de leurs messages et leur provenance.

Dans une seconde partie, nous étudierons les techniques de détection en elles-mêmes, en tâchant de décrire leur principe de fonctionnement, leurs avantages et limites, puis les solutions du marché implémentant ces types de filtrage.

Nous procéderons ensuite à un benchmark de ces techniques de détection afin de déboucher sur une dernière partie servant de bilan afin de répondre à la question suivante : "Faut-il être optimiste/pessimiste quant à l’avenir de la messagerie et la lutte contre les courriers non sollicités ? Quels sont les critères de choix du meilleur anti-spam actuel et à venir afin de limiter l’impact de ce fléau ?"


9

I. LA MESSAGERIE ET L’ENTREPRISE

1. Présentation générale de la messagerie

1.1 Définitions

Mail Delivery Agent (MDA) : Programme exécuté sur le serveur de destination et qui a pour charge de récupérer le message du MTA de destination et de le stocker dans la BAL du destinataire.

Mail Transfer Agent (MTA) : Programme exécuté sur un serveur de messagerie ayant pour tâche de relayer les messages en provenance soit d’un Agent de Messagerie d’un Utilisateur (MUA) soit d’un autre agent de transfert (MTA), et à destination du prochain MTA, si la BAL n’est pas locale, ou à destination du MDA le cas contraire (ex de MTA : Microsoft Exchange, Postfix etc…).

Mail User Agent (MUA) : Programme exécuté sur un poste client ayant à charge la communication avec le serveur de messagerie afin de lui faire parvenir les messages à envoyer, mais aussi afin de récupérer ceux stockés dans la BAL de l’utilisateur (ex : Microsoft Outlook, Mozilla Thunderbird etc…).

1.2 Description de l’acheminement des messages

Le protocole SMTP (Simple Mail Transfer Protocol), décrit dans la RFC 821 ([RFC 821]), a pour objectif le transport efficace et fiable de messages électroniques. La connexion du client au serveur s’effectue sur le port TCP/25. Toute commande envoyée par le client se voit retourner une réponse précédée d’un code retour dont la signification est disponible en ANNEXE B. Nous proposons de décrire ce protocole par l’exemple, grâce à une capture du trafic entre notre client de messagerie et notre serveur smtp.memoire-spam.info (figure 1), lequel sera utilisé pour l’ensemble des tests réalisés à travers ce mémoire. En bleu figure le trafic émis par le serveur, en rouge par le client.

En premier lieu, le serveur accueille le client par un message de bienvenue (phase d’initiation de session). L’émetteur (client), quant à lui, entre en phase d’identification du client, ce qu’il fait grâce à la commande HELO (modifiée par la RFC 1869 : SMTP Services Extensions, la commande devenant EHLO). Le serveur répond alors par une réponse positive (code retour 250). La figure 1 permet d’indiquer que le serveur utilisé a implémenté les extensions SMTP comme le montre le fait qu’il énumère certaines de ses commandes qu’il est capable de gérer (ex : le PIPELINING dans l’exemple ci-dessous de la figure 1).

L’envoi du message débute par la définition du "Reverse-path", qui est l’adresse de retour du message, par la commande MAIL FROM (phase de transaction). En cas d’erreur lors de l’acheminement, c’est à cette adresse que sera renvoyée le message d’erreur (ex : utilisateur inexistant). Cette commande permet également d’indiquer qui est l’émetteur du message, tout comme la commande RCPT TO permet d’indiquer le ou les destinataires du message.Une fois les émetteurs et destinataires définis, le client procède à l’envoi du message en lui-même (commande DATA), lequel est défini par un identifiant de message (Message-ID), et par d’autres informations telles que le client de messagerie utilisé (User-Agent) ou encore le sujet du message (Subject). La fin du message est caractérisé par la chaine <CRLF>.<CRLF> correspondant à un point entouré des caractères de retour à la ligne et de saut de ligne.


10

Figure 1 : Capture d’une transaction SMTP

L’acheminement d’un email depuis l’émetteur jusqu’au destinataire peut donc être résumée relativement simplement (cf figure 2):

L’émetteur utilise son client de messagerie (MUA) dans lequel il saisit son message et y joint d’éventuelles pièces jointes à transmettre.

Le message est transmis par le MUA au serveur de messagerie (MTA) pour lequel il a été configuré. Il peut s’agit d’un serveur interne à l’Entreprise ou d’un serveur externe au réseau local (ex : serveur SMTP du FAI).

Le message est ensuite acheminé jusqu’au serveur du destinataire, en transitant éventuellement par d’autres serveurs intermédiaires.

Le MTA de destination détermine que le destinataire du message est un utilisateur de son domaine. Il transmet alors le message à un autre processus, appelé MDA.

Le MDA ouvre la boîte aux lettres (BAL) du destinataire et y rajoute le message transmis

Figure 2 : Acheminement d’un email


11

2. Menaces liées à la messagerie pesant sur le S.I

Outre le fait que le spam peut provoquer une perte de temps pour l’utilisateur qui en est la victime, celui-ci est un vecteur de menaces diverses dont les principales sont abordées ici :

2.1 La perte de productivité des utilisateurs

Selon [CYB 08], un utilisateur qui cherche à isoler les spams (ici les faux négatifs) passe en moyenne 4.4 secondes à localiser chacun d’entre eux dans sa boite de réception.En effectuant un calcul similaire à leur étude, on peut calculer l’impact du spam dans une Entreprise française de taille moyenne. Nous prendrons ici comme exemple la société COTEBA, 1200 collaborateurs.

COTEBANombre de collaborateurs 1200

Collaborateurs spammés 60

Moyenne des spams (faux négatifs) reçus par collaborateur 25

Salaire moyen des utilisateurs spammés € 50000

Heures travaillées par jour 8H

Jours travaillés par an 2641

Temps nécessaire à l’isolation d’un spam 4.4 s

COÛTCoût total quotidien € 43.60

Coût total mensuel € 954.86

Coût total annuel € 11458,33

Ces coûts n’incluent pas l’impact d’une contamination par un virus ou autre logiciel malveillant, la perte de confidentialité, le besoin supplémentaire en termes de capacité de stockage (due à l’augmentation de la taille des boites aux lettres des utilisateurs) etc…

1 Contrairement à l’étude de [CYB 08], on inclut les congés dans le nombre de jours travaillés par an car l’utilisateur reçoit des spams pendant cette période qu’il devra marquer comme indésirables à son retour.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

12

2.2 Le déni de service par Mail Bombing

On définit par Mail Bombing le fait d’envoyer massivement à un utilisateur le même message dans le but de saturer sa boite aux lettres.

Les attaques par Mail Bombing, fréquentes par le passé, peuvent amener un utilisateur à ne plus recevoir certains messages légitimes après que la taille de sa boite aux lettres ait dépassée la taille maximale autorisée.

Il existe de nombreux logiciels disponibles, et notre étude a permis de montrer à quel point il est facile de se procurer de tels outils, puis des les utiliser de manière malintentionnée. Nous avons ainsi testé un certain nombre d’utilitaires, en envoyant dans chacun des cas 10000 messages au même utilisateur. Le Mail Bombing étant illégal, les tests ont été réalisés depuis un ordinateur personnel, à destination de mon serveur de messagerie (auto-hébergé). Les temps de réponse sont donc sensiblement inférieurs à ceux qui auraient été obtenus en utilisant un autre serveur SMTP (ex : FAI).

Nom Licence Particularités TempsAtomic MAIL Gratuit Falsification de l’adresse de l’expéditeur

Gestion d’un carnet d’adresses 12 min 04

JBonBlanc Gratuit Falsification de l’adresse de l’expéditeur 9 min 07

King Bomber Gratuit

Falsification de l’adresse de l’expéditeur Possibilité d’ajouter des pièces jointes pour amplifier

l’attaque Possibilité de planifier l’attaque

7 min 43

Xmas 2000 Gratuit

Falsification de l’adresse de l’expéditeur Possibilité d’ajouter des pièces jointes pour amplifier

l’attaque Option d’envoi massif de virus Option d’envoi de formulaires préétablis (ex :

formulaire de saisie d’un mot de passe Hotmail)

10 min 59


13

2.3 Le phishing

Le phishing (en français hameçonnage) est une technique reposant sur l’ingénierie sociale visant à leurrer un utilisateur afin de lui voler des informations qui lui sont propres (usurpation d’identité) et les utiliser de manière frauduleuse.

Un cas classique consiste à envoyer à un utilisateur un message électronique dans lequel on l’invite à consulter un site Web qu’il connaît (ex : site de sa banque), prétextant un problème divers tel que la nécessité de fournir son numéro de compte bancaire et le code qui lui est associé pour une opération de maintenance. Si l’utilisateur clique sur le lien transmis dans le message, celui-ci se retrouvera fort probablement sur un site dont l’interface graphique a imité celle du site original. A cela s’ajoute le fait que le nom du site Internet sera proche du site légitime (ex : www.bnp-parybas.fr au lieu de www.bnp-paribas.fr.). L’astuce consiste donc à parier sur l’imprudence de la victime, et dans d’autres cas, comme le montre la figure suivante, l’utilisateur peut cliquer sur un lien qui semble être le bon (l’adresse légitime du site de sa banque) et être redirigé sur une page qui n’est pas celle apparaissant dans le lien hypertexte :

Figure 3 : Exemple de tentative de phishing

2.4 Les virus et logiciels malveillants

Selon [TAN 03], un virus est "un programme qui se reproduit en accolant son code à un autre programme, tout comme le font les virus biologiques".

Les virus peuvent causer d’importants dommages tant aux particuliers qu’aux Entreprises. Ces derniers ont un coût, outre celui des solutions déployées pour s’en prémunir. La contamination d’une machine, d’un réseau entraîne une perturbation de leur fonctionnement et peut même avoir les conséquences suivantes :

Atteinte à la confidentialité des données (fichiers dérobés)

Atteinte à l’intégrité des données (modification / suppression de fichiers)

Atteinte à la disponibilité des données (mise hors d’usage d’équipements, dénis de service)

Une mise en application d’une politique de sécurité stricte permet ainsi aux Entreprises de réduire le risque, et à ce propos nous soulignerons que l’une des principales actions que tentera un virus sera de se reproduire de l’une des manières suivantes :

En infectant d’autres fichiers du disque dur.


14

http://www.bnp-paribas.fr/

http://www.bnp-paribas.fr/

http://www.bnp-parybas.fr/

En créant un maximum de processus fils de manière à saturer la table des processus (déni de service).

En tentant de se répliquer sur les autres machines se trouvant sur le réseau local.

Récupérer les adresses emails des contacts de l’utilisateur contaminé, et envoyer un email à ceux-ci avec en pièce jointe le virus lui-même. Les destinataires constateront qu’il s’agit d’un email d’un de leur contact et seront donc moins méfiants. S’ils ouvrent le message, celui-ci les infectera à leur tour et le virus continuera à se répliquer.

C’est cette dernière raison qui nous amène à traiter brièvement des virus dans le présent mémoire traitant des spams : de nombreuses personnes malintentionnées propagent des virus par l’intermédiaire de messages non sollicités. Ainsi, au cours de notre étude sur les différentes techniques de détection des spams, nous avons été amenés à tester un échantillon de 44827 messages, dont 44603 pourriels. Notre analyse antivirus a permis d’y déceler la présence de 72 virus, représentant ainsi 0.16% des courriers non sollicités1.

Il en est de même pour tous les autres types de logiciels malveillants (portes dérobées, rootkits etc…).

1 Les spams reçus par mon serveur de test ayant fait l’objet d’une redirection depuis le serveur de M.BURSZTEIN, mon maître de mémoire, la faible part des messages contenant des virus est due au fait qu’en amont son serveur a probablement procédé à la suppression d’un grand nombre de messages infectés.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

15

3. Les méthodes de fonctionnement des spammeurs

3.1 La constitution d’e-mailing

Maintenant que l’on sait que des personnes peu scrupuleuses procèdent à l’envoi massif de messages non sollicités, intéressons-nous à leurs méthodes leur permettant de se constituer des e-mailing (listes contenant des milliers, voire des millions d’adresses emails valides ou non, lesquelles seront les destinataires de ces spams).

3.1.1 De manière automatisée

L’une des méthodes probablement la plus utilisée est la capture des adresses email figurant sur des sites Internet, sur des forums de discussion ou encore sur les newsgroups. Des logiciels commerciaux ont été développés à cet effet, certains permettant de définir des critères de recherche très précis afin de mieux cibler les destinataires.

Figure 4 : Exemple de récolte automatisée d’adresses emails

Veuillez trouver ci-dessous un test de certains logiciels du marché permettant de décrire brièvement certaines de leurs fonctionnalités et l’intérêt que les spammeurs peuvent avoir pour eux, étant donné leur performance (cf colonne ‘Emails trouvés’). Le test est basique : une recherche en fonction d’un mot clé (ici le mot ‘ESGI’) pendant une durée de 60 secondes.

Nom Editeur Licence RechercheAvancée

Emails trouvés

Exportation vers fichier

Atomic Email Hunter

AtomPark Software € 60.85

Par site Web Via les moteurs

de recherche Par mots-clés

199

Presse-papier Fichier Excel Fichier Word Fichier texte Autre

Contact-Express

Matisoft € 89.00

Par annuaire (ex : pages jaunes)

Via les moteurs de recherche

Par mots-clés Autre

210

Fichier Excel Fichier Word Fichier texte Contacts Outlook Autre

Mailing Builder

Proxymis€ 238.00

Par site Web Via les moteurs

de recherche40

Inconnu (non disponible dans la version d’évaluation)

Logiciels non testés : eTarget 3.0 (EBSoft), Captimail (Softiciel Editions) etc…


16

3.1.2 Le commerce d’adresses emails : la chaîne du spam

Autour d’un phénomène du spam s’est développée une véritable industrie dont le seul mot d’ordre est le profit. L’un de ces commerces douteux est celui de la vente d’adresses emails valides. Envoyer des courriers non sollicités coûte de l’argent à un spammeur, alors pourquoi en envoyer à des adresses parfois (souvent) non valides ?

[PIN 04] saisit bien le problème et va même jusqu’à expliquer le fonctionnement des spammeurs :

1. Un annonceur publicitaire contacte un spammeur dans l’optique d’effectuer une campagne publicitaire par le biais d’un envoi massif de spams.

2. Le spammeur achète si besoin un fichier d’adresses valides (ou constitue lui-même ce fichier à l’aide des méthodes expliquées dans cette partie 3.1 Constitution d’e-mailing).

3. Le serveur utilise les moyens à sa disposition pour procéder à l’envoi des messages (utilise ses propres serveurs de messagerie, des open-relais même si cela est de plus en plus rare de nos jours, ou bien une multitude de PC sous son contrôle, dits PC Zombies)

Figure 5 : La chaîne du spam (Source : [PIN 04])

Les techniques d’envoi seront décrites plus tard dans la section 3.2 Les techniques d’envoi.


17

3.1.3 La ‘Directory Harvest Attack’

L’attaque dite DHA (Directory Harvest Attack) consiste, pour un spammeur, à connaître les adresses emails valides d’un domaine donné.

On rappelle que le protocole SMTP prévoit de retourner un message d’avertissement si un message ne peut être délivré à un utilisateur. L’exemple ci-dessous est le résultat de l’envoi d’un email à [email protected], utilisateur n’existant pas sur notre serveur de test. Un message d’erreur est retourné à l’expéditeur (cf. figure 6) :

Figure 6 : Exemple d’email d’avertissement d’erreur (Mail Delivery Failure)

Le principe de l’attaque est le suivant : un attaquant envoie massivement un message à différentes adresses (qu’il ne connaît pas) soit en attaquant par brute force (en testant un maximum de combinaisons) soit par dictionnaire (en testant un ensemble de nom d’utilisateur présent dans un fichier). Toutes les adresses pour lesquelles il n’y a pas de messages de retour (Mail Delivery Failure, comme dans notre exemple précédent) sont soigneusement mémorisées dans une base de données d’adresses valides. Celles-ci feront ensuite l’objet d’envoi de courriers non sollicités par ces mêmes spammeurs un peu plus tard.


18

mailto:[email protected]

3.2 Les techniques d’envoi

3.2.1 Les relais ouverts

3.2.1.1 Problématique

Un problème connu de l’Internet est qu’il existe de nombreux serveurs de messagerie non sécurisés, lesquels autorisent à envoyer des courriers électroniques par leur intermédiaire, et en se faisant passer pour n’importe qui.

Sans nécessiter d’authentification, un utilisateur peut se connecter et envoyer un message à qui il désire. On notera cependant que n’importe quel filtre anti-spam détectera ce genre de messages, néanmoins ces serveurs ont pendant longtemps été utilisé par les spammeurs pour envoyer des messages en masse.

Ci-dessous, veuillez retrouver un exemple d’envoi d’un mail réalisé à partir d’une simple connexion en Telnet sur le port 25 d’un relai ouvert, en se faisant passer pour [email protected] et dont le destinataire est [email protected] (adresse que l’on souhaite spammer).

telnet <nom du serveur> 25

220 Welcome on <nom du serveur>MAIL FROM: [email protected] 250 OkRCPT TO: [email protected] 250 OkDATA354 End data with <CR><LF>.<CR><LF>Subject: Test d'un Open Relay

Ce message est envoyé à partir d'un Open Relay..

250 Ok: queued as 7787832A871

3.2.1.2 Solutions

Les adresses des relais ouverts font partie des adresses recensées par des organismes à but non lucratif ou des sociétés commerciales mettant à disposition des listes noires (blacklists). L’utilisation de techniques de filtrage telle que les DNSBL (ou encore les ORB : Open Relay Blacklist) permet de détecter les messages provenant de tels serveurs et d’effectuer une action dépendant de la politique adoptée (marquage du message, mise en quarantaine ou suppression de celui-ci).

[NIS 07] met en avant deux autres solutions :

Limiter à une certaine plage d’adresses IP la possibilité de transmettre des messages par l’intermédiaire du serveur. Cela est difficilement faisable dans la mesure où dans de nombreux cas, les utilisateurs ne disposeront pas d’adresses IP fixes, lesquelles ne seront d’ailleurs pas toutes dans la même plage d’adresses (ex : les utilisateurs distants d’une Entreprise raccordés à Internet grâce à une ligne ADSL, tous n’étant pas chez le même fournisseur d’accès).

L’utilisation des extensions SMTP permet de limiter l’accès aux seuls utilisateurs authentifiés grâce à la commande AUTH, laquelle permet d’envoyer un type d’authentification au client, ce dernier devant retourner son nom d’utilisateur et son mot de passe en fonction de ce type d’authentification.


19





3.2.1.3 Vérification de serveur

On notera juste qu’il existe certains outils permettant de vérifier la bonne configuration d’un serveur de messagerie. La lutte contre le spam débute par la prudence de tous les administrateurs, afin d’éviter que les serveurs dont ils ont la charge ne servent de relai aux spammeurs.

Le site http://www.pagasa.net/test-smtp propose un outil permettant de réaliser 28 tests différents afin de tester la configuration actuelle d’un serveur de messagerie, notre serveur smtp.memoire-spam.info ayant réussi chacun de ces différents tests.

Le site https://www.dnsexit.com propose de tester l’envoi de mails d’un serveur précis afin de tester son bon fonctionnement ainsi que la possibilité de l’utiliser comme relai ouvert.

3.2.1.4 Le spam aujourd’hui et les relais ouverts

La part des spams envoyés par l’intermédiaire de relais ouverts est désormais devenue minime. Une étude de [HOF 02] a permis de démontrer que de Janvier 1998 à Août 2002, la proportion des relais ouverts parmi la totalité des serveurs de messagerie testés est passée de 51.8% à moins de 1%.

Cela n’a pas empêché le volume de spams envoyés quotidiennement d’augmenter. Les spammeurs ont tout simplement su s’adapter au changement. Des sites qui s’étaient spécialisés dans la maintenance de listes contenant les adresses de ces relais ouverts ont tout simplement disparu, comme ce fut le cas d’ORDB (Open Relay DataBase).


20

https://www.dnsexit.com/

http://www.pagasa.net/test-smtp

3.2.2 Les PC Zombies

3.2.2.1 Définition

On définit par le terme PC Zombie, ou zombie, un ordinateur infecté par un logiciel malveillant, lequel permet à une personne malintentionnée d’avoir accès à distance à cette machine afin de lui faire exécuter des actions à l’insu de son utilisateur.

On définit par botnet un ensemble de machines zombies contrôlées par des personnes malintentionnées.

3.2.2.2 Usage des zombies

Les PC zombies servent à des personnes malintentionnées pour effectuer leurs attaques dont par exemple :

Des dénis de service. Un attaquant ayant le contrôle de dizaines, centaines voire de milliers de machines infectées peut lancer une attaque distribuée à destination d’une victime.

Envoi massif de messages non-sollicités (SPAM).

Autres tâches malveillantes.

3.2.2.3 Problématique

Le problème lié aux PC Zombies est tout d’abord que des personnes malintentionnées puissent lancer des attaques ou relayer du spam, en ne laissant quasiment aucune trace. En effet, lorsqu’un zombie envoie un spam, dans l’enveloppe SMTP figurera son adresse IP, et non celle du spammeur.

L’autre problème est lié à l’ampleur que prend ce phénomène : [CIP 08] estime à 250.000 le nombre de nouveaux ordinateurs infectés chaque jour dans le monde et devenant des zombies à disposition de pirates informatiques. Cela est d’autant plus alarmant qu’actuellement [NET 07] estime que 25% des ordinateurs reliés à Internet sont des zombies.

3.2.2.4 Solutions

En 2005, selon [IND 05] citant une étude de SOPHOS, 40% du spam émis dans le monde proviendrait de PC zombies. Face à ce constat, de nombreuses organismes, dont la FTC (Federal Trade Commission) ont décidé de sensibiliser les FAI (Fournisseurs d’Accès à Internet) en lançant l’opération ‘SPAM ZOMBIE’. Cette opération consiste à inviter ces derniers à prendre des mesures pour limiter les effets d’un tel phénomène. En France, l’AFA (Association des Fournisseurs d’Accès et de services Internet) indique que « le poste d'un utilisateur résidentiel ne devrait pouvoir émettre ses messages électroniques que via le serveur de son fournisseur de messagerie électronique. »

Ces efforts de sensibilisation se sont traduits par des actions de certains FAI tel que le blocage du port 25 des abonnés ADSL. On peut citer l’exemple de FREE où il faut décocher une option sur l’interface d’administration pour pouvoir autoriser le trafic SMTP sortant (autre que celui à destination des serveurs de messagerie du FAI, qui lui est autorisé).


21

3.2.3 Via des formulaires Web

Certains sites proposent d’envoyer des mails à leur webmaster par le biais de formulaires Web. Dans certains cas, ces adresses peuvent se faire spammer directement, ou dans le cas de scripts non sécurisés, des hackers peuvent trouver un moyen pour ne pas envoyer le message à l’adresse inscrite par défaut, mais à celles qu’ils ont défini au préalable. Le site Internet se retrouve ainsi malgré lui comme étant source de spam.

Nous ne disposons pas de statistiques concernant cette technique d’envoi (pourcentage des spams émis chaque jour dans le monde), néanmoins on peut d’ores et déjà affirmer que des techniques plus efficaces, tels que l’utilisation de PC zombies, ont remplacé ces méthodes devenues obsolètes.

En revanche, un autre style de spam est apparu, ne touchant pas directement la messagerie d’Entreprise, mais utilisant des formulaires Web. Il s’agit pour un spammeur de relayer ses messages publicitaires en polluant certains forums de discussion ou livres d’or de sites personnels.


22

4. Evolution des SPAMS au fil des ans

La principale difficulté liée à la détection des spams est que la lutte contre les pourriels est un cercle vicieux : dès qu’une technique de filtrage fait ses preuves, aussitôt les spammeurs mettent tout en œuvre pour contourner les filtres, ce qui amène les spams à évoluer régulièrement.

4.1 Les pionniers du spam

Le premier courrier indésirable aurait été envoyé par Gary Thuerk en 1978, marketeur chez DEC, dans le but de présenter la gamme de DEC aux personnes reliées au réseau ARPAnet. A cette époque le réseau Internet n’existait pas, et ce message provoqua une vague de contestation de la part des destinataires de celui-ci.

Ensuite vinrent d’autres messages tels que celui de Rob NOHA en 1988 (demande de charité), ou encore celui de Dave RHODES au début des années 1990 (conseil pour gagner de l’argent facilement).

4.2 Le premier courrier indésirable à s’appeler spam

Le mot spam est en réalité une marque déposée. Il s’agit d’une boîte de conserve bas de gamme contenant du rôti de porc et dont la publicité à la radio comportait un grand nombre de fois le mot SPAM dans un laps de temps très court.

Cette publicité inspira les Monty Python, dont un sketch met en scène une vieille dame (en fait un homme déguisé) effectuant une commande dans un restaurant et demandant ce qu’il y a à la carte. Les réponses de la serveuse, là encore un homme déguisé en femme, sont des plats comportant tous le mot SPAM. Toutes les répliques du sketch comporteront ce mot, au point que la vielle dame demandera s’il est possible de commander quelque chose sans SPAM.

Le mot spam désignera plus tard les courriers indésirables grâce à la maladresse de Richard DEPEW en Mars 1993, dont le programme de modération des discussions sur USENET posta par inadvertance, suite à un bug, plusieurs fois le même message.

4.3 Le début des spams envoyés en masse

Les premiers spams envoyés en masse auraient fait leur apparition en provenance d’Afrique, et plus particulièrement du Nigéria. Il s’agit de messages textes destinés à piéger leur lecteur en leur demandant de l’aide avec en contrepartie une récompense financière. L’exemple ci-dessous de la figure 7 montre que ce type de messages apparaît encore, même si notre étude dans la partie 6. Contenu des spams montre que leur part est négligeable de nos jours.

La fraude est classique : tout part d’une histoire fausse où, dans notre exemple, une personne serait décédée et n’aurait pas d’héritier. Le but est de convaincre le destinataire du message de se présenter comme un héritier de la personne défunte et de toucher l’héritage.


23

Cette histoire, qui peut paraître grotesque, a malheureusement fonctionné de nombreuses fois lors des premières heures de la démocratisation d’Internet. Or les personnes piégées, qui donnaient leurs coordonnées bancaires pour recevoir l’héritage, ne touchèrent rien, et pire encore, les escrocs vidaient leur compte. Les conséquences du scam furent terribles, amenant à la faillite personnelle de nombreuses personnes, dont certaines se sont suicidées ou bien ont été assassinées en tentant de récupérer leur argent.

Figure 7 : Exemple de scam


24

4.4 Les spams d’aujourd’hui

4.4.1 Les spams à caractère pornographique

Très vite l’industrie du sexe s’est lancé dans une vaste campagne publicitaire sur Internet, avec comme conséquence de nombreux courriers indésirables dans les boites aux lettres des utilisateurs contenant en pièce jointe (ou sous forme de lien) des images ou vidéos pour adulte.

Ce type de spams est toujours d’actualité, notre étude montre dans la partie 6. Contenu des spams que la part de ce genre de message représente plus 6.65% des pourriels de notre échantillon de messages testé.

4.4.2 Les spams commerciaux

Arrivant en même temps que le type précédent, les spams commerciaux vantant les mérites de certaines pilules (viagra notamment) ou proposant d’acheter des contrefaçons ne cessent, aujourd’hui encore, de saturer les boites aux lettres des utilisateurs de la messagerie.

4.4.3 Les spams vérolés

La grande nouveauté par rapport aux tout premiers spams est la propagation de virus et autres logiciels malveillants par le biais de la messagerie. Les spammeurs ne s’y sont pas trompés et joignent des fichiers infectés à leurs messages.

4.4.4 Les spams image

Un spam image est un message non sollicité ne contenant en général aucun texte, hormis celui apparaissant sur une image transmise en pièce jointe.

Ce type de spams augmente d’années en années, jusqu’à représenter 70% des indésirables fin 2006, selon [KEL 07] alors qu’ils ne représentaient que 5% un an auparavant.

4.4.5 Les spams et la Bourse

Sous le nom de ‘Pump and dump’ réside une arnaque liée aux achats d’actions en Bourse. Le principe est le suivant : des personnes malintentionnées achètent massivement des actions d’une certaine société n’ayant que très peu de valeur. Après cela, une campagne de publicité est menée sur Internet, par le biais d’envois massifs de courriers non sollicités en vantant les mérites de cette société. L’argument classique est la probabilité d’une fusion avec un grand groupe.

L’action prend de la valeur petit à petit, au fil et à mesure que des investisseurs en Bourse se laissent convaincre par cette rumeur. Et lorsque les personnes malintentionnées jugent le moment opportun, toutes les actions sont revendues, leur permettant d’effectuer une grosse plus-value (du fait de la hausse du cours de l’action). D’un côté, les escrocs empochent jusqu’à parfois plusieurs millions de dollars, tandis que de l’autre côté, les investisseurs lésés perdent leur mise, le cours de l’action ayant alors tendance à plonger.


25

4.5 Les spams de demain

4.5.1 Les spams politiques

En réalité, ce type de messages est d’ores et déjà en circulation, mais ceux-ci pourraient bien prendre des proportions encore plus grandes à l’avenir. Il s’agit parfois de messages de propagandes visant par exemple à dégrader l’image d’un candidat à une élection présidentielle, dans d’autres cas cela consiste à avoir un sujet de message racoleur dans le but de faire visiter un site Web dont le lien figure également dans le message.

Ainsi parmi les messages reçus, M.OBAMA aurait eu un accident de voiture…et la nouvelle est accessible sur un site tentant d’installer un logiciel malveillant lorsque la page est consultée.

4.5.2 Les spams sans information particulière

L’article de P.GRAHAM ([GRA 02]) sur les filtres Bayésiens montre à quel point cette personne avait vu juste quant à l’évolution des pourriels. Celui-ci avait anticipé en 2002 le fait que les indésirables les plus difficiles à détecter étaient ceux constitués d’un petit texte (anodin) suivi d’un lien. Et il ne s’était pas trompé car la plupart des faux négatifs détectés lors de nos tests sont de tels messages.

Figure 8 : Exemple de spam textuel difficilement détectable

4.5.3 Les spams « people »

Un peu à l’image des spams politiques, de nombreux courriers indésirables contiennent des titres aguicheurs (un peu à l’image de la presse people) pour attirer des Internautes sur des sites contenant souvent des logiciels malveillants.


26

5. Le véritable visage du spam

5.1 Les plus grands spammeurs

Une étude constamment mise à jour de [SPA 08] permet de lister l’identité des 115 plus grands spammeurs du moment. La liste ROKSO (Register Of Known Spam Operations) donne le pays d’origine de ceux-ci. Selon cette même source, l’ensemble des spammeurs qui y sont listés représentent à eux seuls 80% des courriers indésirables.

On notera que cette classification prend en compte une entrée, laquelle n’est ni une personne ni une organisation, puisqu’il s’agit des PC Zombies, lesquels entrent dans ce classement puisqu’on rappelle qu’ils représenteraient à eux seuls 40% des pourriels émis dans le monde (selon [IND 05] citant une étude de SOPHOS).

Veuillez trouver dans la figure ci-dessous les plus grands pollu-posteurs, classés par pays et dont on constate que ceux-ci sont majoritairement de nationalité américaine :

Pays d’origine NombreUSA 72

Russie 8Canada 6Chine 4Inde 4

Taiwan 3Ukraine 3Australie 2

Brésil 2Hong-Kong 2

Japon 2Argentine 1Colombie 1

Israël 1Italie 1

Malaisie 1Roumanie 1

Figure 9 : Classement des plus grands spammeurs

5.2 La répartition du spam par pays

Maintenant que nous connaissons le pays d’origine des spammeurs, nous allons étudier l’origine des courriers non sollicités, un spammeur n’envoyant pas nécessairement ses messages depuis le pays dont il est originaire.

Pour réaliser des statistiques, nous avons besoin d’une étude récente car le monde du spam est en perpétuel changement. Nous nous sommes ainsi basés sur les mesures mensuelles de Symantec d’Août 2008, basées sur les pourriels envoyés lors de Juillet 2008. Les résultats, disponibles dans [SYM 08] permettent de confirmer que les premiers pollu-posteurs au monde sont de loin les américains, suivis de pays tels que la Russie (dont on notera une forte progression ces derniers mois) ou la Turquie.


27

27

7

7

4

3

3

3

3

3

3

37

0 5 10 15 20 25 30 35 40

Part dans le spam mondial (%)

USA

Turquie

Russie

Brésil

Chine

Thaïlande

Inde

Pologne

Royaume-Uni

Corée du Sud

Autre

Pays

Figure 10 : Répartition du spam par pays émetteur

5.3 La répartition du spam par continent

La figure précédente pourrait laisser supposer que le continent américain est le premier continent émetteur de spams, en réalité il n’en est rien puisque celui n’arrive qu’en 3ème position derrière l’Asie puis l’Europe. L’étude [SOP 08] basée sur la surveillance des pourriels du dernier trimestre de 2007 effectue un classement des continents en fonction de la quantité de pourriels qu’ils ont émis au cours de cette période. Le résultat de cette étude est disponible ci-dessous (figure 11) :

Figure 11 : Répartition du spam par continent émetteur


28

6. Contenu des SPAMS

Maintenant que l’on sait comment s’y prennent les spammeurs pour relayer leurs messages, et que l’on connaît les menaces que ces messages comportent, intéressons-nous au contenu de ceux-ci.

Le présent mémoire permettra de comparer les différentes techniques de filtrage du spam. Pour cela nous utiliserons un échantillon de 44827 messages comprenant à la fois des messages légitimes (HAMS) et illégitimes (SPAMS). Nous avons pu classer les différents pourriels reçus en différentes catégories :

Adulte : contenu ou lien vers un contenu explicite (pornographie, érotisme etc…)

Messages d’erreur : messages retournés par certains serveurs de messagerie pour indiquer (par exemple) qu’un message n’a pu être délivré.

Fraude : messages invitant l’utilisateur à souscrire à un prêt, à saisir ses coordonnées bancaires ou autres informations sensibles susceptibles d’être exploitées à son encontre.

Jeux : messages d’invitation à jouer à des casinos en ligne, ou de notification de gain.

Pharmacie : tous types de produits pharmaceutiques (notamment le viagra…).

Produits commerciaux : produits à acheter en ligne, en général des contrefaçons (montres, logiciels etc…).

Inclassables : emails de langue étrangère (ex : russe) et/ou ne comportant suffisamment d’informations pour pouvoir les classer dans les catégories précédentes.

Le schéma suivant donne le résultat de cette classification, dont on notera qu’elle ne tient pas compte des messages non classés :

Figure 12 : Classification des spams par catégorieM.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

29

On ne peut que constater que les spams vantant les mérites du viagra représentent une part dominante de l’échantillon testé (44827 messages dont 44603 spams). Historiquement, cela a toujours été le cas. En revanche on notera l’absence de scam (emails d’origine africaine ayant pour but d’extorquer des fonds à des internautes en leur faisant miroiter la possibilité de toucher un pourcentage d’une certaine somme en échange de leur aide).

L’autre catégorie dominante concerne les produits commerciaux, notamment les contrefaçons de grandes marques (de montres notamment). Viennent ensuite les contenus pour adulte puis les jeux. Les tentatives de fraude représentent tout de même 2.78%, et bien que les messages d’erreur représentent une part minime (0.69%), cela indique tout de même que les spammeurs usurpent l’adresse email testée dans le but d’envoyer des messages non sollicités.

On notera que la part des messages contenant des virus est minime (0.16% des messages reçus) mais représentent tout de même 72 virus1. En revanche de nombreux messages comportent des URL vers des sites, qui eux, doivent infecter les internautes s’ils cliquent dessus (virus, malware etc…).

Veuillez trouver ci-dessous un exemple de messages appartenant à chaque catégorie de spams décrite précédemment :

Pharmacie Produits commerciaux

Adulte Jeux

Fraude

Messages d’erreur Inclassable

Figure 13 : Captures d’écran de spams

1 Test réalisé avec Avast 4.8 Edition FamilialeM.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

30

II. LES TECHNIQUES DE DETECTION DE SPAMS

1. Les techniques de filtrage de mails textuels

1.1 Les filtres bayésiens

1.1.1 Principe

Paul GRAHAM, dans son étude [GRA 02] annonce avoir cessé de développer un anti-spam basé sur la reconnaissance des spams en fonction de leurs particularités pour une approche mathématique basée sur des probabilités. Cet article va révolutionner le monde des anti-spams.

L’idée est de collecter un grand échantillon de messages, légitimes d’une part, et non sollicités d’autre part. Pour chaque type de message (HAM ou SPAM), on relève la fréquence d’apparition de tous les mots qui figurent dans ces messages (aussi bien le contenu que l’entête). On stocke le résultat de ces fréquences dans deux tables de hachage, puis dans une troisième la probabilité de trouver le mot dans un spam.

1.1.2 Calcul de la probabilité d’un mot

1.1.2.1 Rappel sur le théorème de Bayes

Cette technique de filtrage tire son nom du célèbre théorème de Bayes, issu des travaux de Thomas BAYES (1702-1761) et largement utilisé en mathématiques. Le principe est le suivant :

Soit A et B deux évènements distincts. p(A) est la probabilité que l’évènement A se réalise p(B) est la probabilité que l’évènement B se réalise. p(A/B) est la probabilité que l’évènement A se réalise sachant que l’évènement B a déjà eu lieu.

La formule du théorème de Bayes est la suivante :

On trouve dans de nombreuses références une formule s’appliquant au filtrage bayésien du spam et dérivé de cette formule, où p(spam / word) est la probabilité que le message contenant le mot word soit un spam, p(word / spam) la probabilité que le mot word figure dans un spam et p(word) la probabilité de trouver le mot word dans un courrier :

On notera en revanche que cette formule ne suffit pas à expliquer le fonctionnement du filtrage bayésien. Cela fait l’objet de la prochaine section, laquelle décrit la première implémentation d’un tel filtre.


31

1.1.2.2 Algorithme de P. GRAHAM ([GRA 02])

Bien que cette technique de filtrage porte le nom de Bayes, les implémentations n’utilisent pas exactement la même formule que celle du théorème. En l’occurrence, la première implémentation vit les probabilités de chaque mot calculées de la sorte :

Soit p(spam / word) la probabilité qu’un message contenant le mot ‘word’ soit un spam. Attention toutefois à ne pas confondre cette valeur avec la probabilité qu’un message soit un spam (p(message)).

Soit good la fréquence d’apparition du mot word dans la table de HAM (messages légitimes).

Soit bad la fréquence d’apparition du mot bad dans la table de SPAM (messages non sollicités).

Soit ngood le nombre de HAM de l’échantillon de messages testé ayant permis à générer la table de hachage HAM.

Soit nbad le nombre de SPAM de l’échantillon de messages testé ayant permis de générer la table de hachage SPAM.

Les règles suivantes sont à appliquer avant d’effectuer le calcul de probabilité :

Si word apparaît dans la table de SPAM mais pas dans la table de HAM, alors la probabilité que le message le contenant soit un spam vaut p(spam / word)=0.99.

Si word apparaît dans la table de HAM mais pas dans la table de SPAM, alors la probabilité que le message le contenant soit un spam vaut p(spam / word)=0.01.

Si un mot n’apparaît ni dans la table HAM, ni dans la table SPAM, ou s’il apparaît moins de 5 fois dans les 2 tables réunies alors par défaut la probabilité qu’un message comportant ce mot soit un spam vaut p(spam / word)=0.4.

La formule pour calculer la probabilité qu’un message contenant le mot word soit un spam est donc selon [GRA 02] :

La formule précédente est à appliquer à tous les mots contenus dans le message. Une fois toutes les probabilités des mots obtenues, il convient de n’en retenir que les 15 les plus significatifs. Selon [GRA 02], il s’agit des messages dont la probabilité est la plus éloignée de 0.5.

A l’aide de ces 15 mots les plus significatifs, on calcule la probabilité du message d’être un spam grâce à la formule suivante, consistant à calculer le produit de ces probabilités divisé par ce même nombre auquel on rajoute le produit des probabilités inverses (on entend par probabilité inverse le résultat de la soustraction de la probabilité initiale à 1) :


32

Tout message dont la probabilité d’être un spam p(spam) est supérieure à 0.9 est marqué comme étant un spam.

1.1.3 Exemple

Il s’agit d’un exemple tiré de [GRA 02] dont les probabilités des mots significatifs ont volontairement été modifiées afin de simplifier les calculs.

Mot significatif p(spam / word)Madam 0.99

Promotion 0.99Republic 0.99Shortest 0.0472

Mandatory 0.0472Standardization 0.0735

Sorry 0.0822Supported 0.0902

People 0.0902Enter 0.908

Quality 0.892Organization 0.125Investment 0.857

Very 0.148Valuable 0.823

p(spam) 0.902

Conclusion : p(spam) > 0.9 donc le message est à marquer comme étant indésirable.

1.1.4 Avantages

Certains filtres bayésiens (on notera qu’il ne s’agit pas de la totalité) s’adaptent à l’activité de l’utilisateur en recalculant chaque probabilité qu’un mot présent dans un message fasse de lui un spam. Ces filtres adaptatifs permettent d’obtenir de bons résultats quant à la détection des courriers indésirables, tout en réduisant de manière notable le nombre de faux positifs. Cela complique également la tâche des spammeurs, lesquels n’ont plus affaire à un filtre mais à autant de filtres différents qu’il n’existe d’utilisateurs, d’où la difficulté de contourner ce filtrage.


33

1.1.5 Limites

La principale limite des filtres bayésiens vient du fait que les spammeurs s’y sont adaptés en intégrant du texte légitime dans le contenu de leurs messages, afin de faire baisser leur probabilité d’être un spam. On appelle cette technique l’empoisonnement bayésien (bayesian poisoning). Toutefois, on notera que cette limite ne concerne pas toutes les implémentations d’une telle méthode de filtrage, et l’algorithme de l’algorithme de P.GRAHAM en est un parfait exemple : afin d’éviter l’empoisonnement bayésien, celui-ci ne calcule la probabilité d’un message d’être un spam uniquement en se basant sur les 15 messages les plus significatifs.

Une autre limite vient du fait que les spams ont évolué au fil du temps, si bien que sur certains types de courriers indésirables, de simples filtres bayésiens ne conviennent plus. C’est le cas notamment des spams image : comment effectuer une analyse sur le texte d’un message si celui-ci n’en contient pas ?

1.1.6 Solutions du marché

Il existe de très nombreuses implémentations de filtres bayésiens. Un exemple que l’on peut citer est CRM114, conçu par B.YERAZUNIS, qui est une personne que P.GRAHAM décrit comme étant "meilleur qu’un humain".CRM114 s’est en effet fait connaître en 2002 après avoir, sur un échantillon de 2374 messages (1518 spams, 856 hams), réussi à éliminer 99.87% des indésirables, en ne générant qu’un seul faux positif.

Les messages peuvent être filtrés par le serveur de messagerie lui-même ou bien par le client lui-même. Voici quelques solutions testées au cours de ce mémoire :

Thunderbird intègre ainsi nativement un filtre bayésien.

On peut également trouver des logiciels qui s’intègrent aux clients de messagerie sous forme de plugins tels que SpamBayes dont il existe des versions pour Outlook (2003 et 2007), Incredimail ou encore Thunderbird (le plugin s’appelle dans ce cas Thunderbayes).

Le filtre d’apprentissage de Spamihilator est également basé sur le théorème de Bayes.

CRM114 est compatible avec de nombreux logiciels de détection et marquage des indésirables, notamment SpamAssassin.


34

1.2 DCC : Distributing Checksum Clearinghouse

1.2.1 Problématique

Les spammeurs envoient en masse les mêmes messages à une multitude d’utilisateurs. Grâce à la remontée d’informations concernant ces messages non sollicités, il est possible de maintenir une base de données contenant des informations relatives à ces messages.

Cela commence par l’attribution à chaque message d’un identifiant basé sur l’utilisation d’algorithme de hashage, lesquels sont gardés secrets et régulièrement modifiés afin d’éviter que les spammeurs ne s’y adaptent. Un serveur centralise le nombre de fois que les utilisateurs ont reçu ce message, et ces derniers interrogent le serveur à chaque réception de message afin de connaître le nombre de fois où celui-ci a été distribué. En fonction de la valeur retournée, le client peut donc déterminer s’il s’agit d’un spam ou non.

Les clients doivent être placés le plus prêt possible des serveurs pour minimiser le coût du trafic engendré par les requêtes DNS (même si celles-ci sont de petite taille, car consistant à échanger deux datagrammes UDP d’environ 150 octets).

Le fonctionnement est schématisé de manière simplifiée sur la figure 13, pour lequel on admettra que le seuil du client est fixé à 1 (tout mail dont le checksum a déjà été signalé est considéré comme du spam), en sachant qu’en réalité, cette valeur est bien plus grande. Dans l’exemple ci-dessous, c’est le client qui effectue la requête à destination du serveur gérant la base de signature de spams. Cela ne constitue pas une obligation, cette requête pouvant être effectuée par le serveur de messagerie lui-même :

1. Un spammeur envoie un message à notre serveur de messagerie.

2. Le client télécharge son message.

3. Le client transmet le checksum du message (qu’il calcule) au serveur gérant la base de signature des messages (DCC)

4. Le serveur DCC lui renvoie un nombre correspondant au nombre de fois que ce checksum lui a été soumis. S’agissant de la première fois, le serveur retourne la valeur 0.

5. La valeur étant inférieure au seuil pour lequel le client est configuré, le message peut être délivré à l’utilisateur normalement.

6. Régulièrement, les serveurs DCC s’échangent les données mises à jour dans leur base, et plus particulièrement les données concernant les messages réellement considérés comme des spams (afin de limiter le trafic). Pour donner un ordre de grandeur, une société comme Commtouch, commercialisant un tel service dispose de 250 serveurs communiquant entre eux.

7. Le spammeur réexpédie le même message à un autre utilisateur.

8. et 9. Cet autre utilisateur télécharge son message et envoie le checksum correspondant à celui-ci au serveur DCC.

10. Le serveur renvoie la valeur 1, le même message ayant déjà été reçu une fois.

11. La valeur retournée étant supérieure ou égale au seuil maximal, le message est considéré comme étant un spam et est traité en fonction de la politique à appliquer (marquage du message, suppression ou mise en quarantaine).


35

Figure 14 : Fonctionnement des DCC

1.2.2 Utilisation des DCC

En règle générale, l’utilisation de telles bases de signature demeure relativement simple. Il existe plusieurs utilisations possibles :

Le serveur de messagerie de destination effectue une requête de vérification avant de stocker le message dans la boîte aux lettres de l’utilisateur.

Certains logiciels permettent d’effectuer les requêtes pendant la réception du message par le client de messagerie (comme ce fut le cas dans l’exemple précédent).

1.2.3 Avantages

Il s’agit d’un moyen efficace pour signaler un courrier indésirable. D’autant plus que l’énorme base générée n’est pas à gérer puisqu’elle l’est par un tiers.

L’expérience réalisée lors de nos tests amènent à souligner que cette méthode ne génère que très peu de faux positifs, voire aucun lorsque nous avons testé Spamihilator sur notre échantillon de 44827 messages. Le taux de détection est d’ailleurs relativement bon, supérieur à 90%.


36

1.2.4 Limites

L’une des principales limites vient du fait qu’un message diffusé à bon nombre d’utilisateurs sera considéré comme étant un spam. Les newsletters et autres courriers de la sorte distribués en masse auront donc tendance à être détectées comme étant des spams.

De plus, les spammeurs ont développé des méthodes permettant de passer outre certains filtres basés sur l’analyse de signature : tout simplement en changeant de manière automatique le contenu de ceux-ci, en insérant par exemple des caractères aléatoires. Cela aura pour conséquence de modifier le checksum du message, qui même s’il est diffusé en masse, ne sera pas détecté comme étant indésirable.


Les DCC sont une idée originale de P. VIXIE, et ont été pour la première fois implémenté par Rhyolite Software en 2000, dont une version gratuite de DCC est disponible sur leur site officiel [RHY 08], ainsi qu’une version commerciale.

Il existe, comme indiqué en 1.2.2 que certains logiciels permettent d’effectuer les requêtes DCC pendant la réception du message par le client de messagerie. C’est le cas par exemple de Spamihilator, dont un plugin permet d’intégrer un filtre DCC au logiciel.

Parmi les solutions commerciales, Kapersky Anti-spam 3.0 propose un moteur de filtrage dont les caractéristiques sont énumérées dans [KAP 08], et dont l’un des types de filtrage est une analyse de signature des messages.


37

1.3 Le filtrage par heuristique

1.3.1 Principe

Un courrier indésirable contient quasiment toujours au moins un petit détail permettant d’affirmer que celui-ci est indésirable. Le fait de relever l’ensemble de ces signes (ou tout du moins l’ensemble des signes des spams actuels) et de soumettre chaque message à des tests le comparant à chacun de ces détails s’appelle un filtre par heuristique.

Chaque test renvoie une valeur correspondant au score obtenu par le message. L’addition de tous ces scores permet de déterminer si un message est indésirable ou non, si le score total de celui-ci dépasse un certain seuil.

Un filtre heuristique est constitué de plusieurs centaines de tests. L’ensemble des tests effectués par la version la plus à jour de SpamAssassin est disponible sur [APA 08], on y dénombre exactement 746 tests différents.

Il serait inutile de décrire de tels tests, ceux-ci étant trop nombreux. On se limitera à dire que ceux-ci analysent tous les composants du message, de l’entête jusqu’au contenu. Certains permettent de pallier aux manquements du filtrage Bayésien, lequel considère les mots ‘Viagra’ et ‘V1agra’ comme étant identiques. Or l’une des règles du filtrage par heuristique consiste à déceler la présence de certains mots clés, même si leur écriture a été modifiée grâce au remplacement de certaines lettres par des chiffres par exemple.

1.3.2 Avantages

Le filtrage présente de nombreux avantages, comme celui expliqué précédemment et permettant de pallier aux manquements des filtres Bayésiens. Un autre avantage est la grande quantité de tests disponibles, la liste de ceux-ci étant régulièrement mis à jour afin d’assurer une efficacité maximale et une adaptation aux variations du spam.

1.3.3 Limites

L’exemple de SpamAssassin, basé sur 746 tests différents, est idéal pour démontrer la plus grande faiblesse de ce genre de filtre. La grande quantité de tests à effectuer provoque une surcharge de travail pour le serveur. Au lieu d’être distribué quasi-instantanément lors de nos tests, les 44827 messages ont nécessité une longue période de traitement…allant même jusqu’à l’impossibilité d’envoyer des messages au serveur, sa file d’attente étant saturée. Avec ce type de filtrage, le temps de traitement des courriers croît, et notre serveur de tests n’a ainsi pu traiter que quelques messages à la seconde (10 par seconde dans le meilleur des cas, 3 en moyenne). Les grosses Entreprises souhaitant implémenter de telles solutions et traiter une quantité importante de messages devront opter pour de grosses configurations.


Il existe de nombreuses solutions implémentant un filtrage heuristique, néanmoins rares sont celles se limitant à ce type de filtre. On peut ainsi citer BitDefender AntiSpam 7 ou SpamAssassin, lesquels implémentent également des filtres de type listes blanche/noire, Bayésien etc…


38

2. Les techniques de filtrage de mails non-textuels

2.1 La reconnaissance de caractères dans les images (spam image)

2.2.1 Descriptif

Pour contrer les techniques de détection des spams, jusqu’alors basées sur l’analyse du contenu du message (analyse textuelle), les spammeurs ont développé une nouvelle technique de spam passant à travers les filtres existants consistant à émettre un message électronique dont l’analyse textuelle ne révèle rien d’anormal, car le message transmis apparaît sur une image.

Selon [KEL 07], cette technique, datant de 2004, ne représentait que 5% des spams dans le monde en début 2005, contre 70% en fin 2006.

Ce chiffre est néanmoins en contradiction avec notre étude, la proportion de spams images parmi les 39000 reçus pendant la réalisation du benchmarck étant relativement négligeable.

Ci-contre : Figure 15: Progression du spam image

2.2.1 Principes et limites

La reconnaissance de caractères dans les images peut a priori se révéler d’une extrême facilité, des techniques existant pour localiser le texte en question. Le spam image suivant (figure 16a) sera relativement facilement détecté car :

Un filtrage Bayésien permettra de calculer la probabilité du message d’être un spam et la présence du mot ‘Viagra’ causera le marquage du message comme étant non sollicité.

L’utilisation d’un filtre basé sur l’analyse de signature d’un message permettra de détecter l’image suivante connue comme étant un spam (grâce à son empreinte numérique).

(figure 16a) (figure 16b)

Les spammeurs n’ont pas connu de réelles difficultés pour passer outre les premiers filtres détectant les spams image, ces derniers étant à l’origine relativement primitifs. Les deux techniques décrites ci-dessus ont nécessité une amélioration :

L’ajout de caractères aléatoires dans l’image modifie l’empreinte de celle-ci. Le hash SHA1 de l’image de gauche vaut b24eb26dbeee736f7d5d49f79adf8054795b3e4e, celui de l’image de droite


39

valant c7d61d229c77f4da6c3cc69f956816630b49a0b0. L’analyse de signature se révèle donc inefficace face aux spams image.

Pour pouvoir utiliser le filtrage Bayésien, encore faut-il que le texte soit détecté dans l’image, ce qui est nettement moins évident dans les images suivantes où le texte n’est pas écrit de manière rectiligne (figure 16c), le contraste entre le texte lui-même et la couleur de fond n’est pas suffisante (figure 16d), ou la police de caractères n’est pas l’une des plus communément utilisées (figure 16e).

(figure 16c) (figure 16d) (figure 16e)


Il existe de nombreuses solutions permettant de procéder à de la reconnaissance de caractères.Les OCR (Optical Character Recognition) suivants ont été testés dans le cadre de notre étude afin de démontrer les limites des techniques actuelles. Les images précédentes ont ainsi toutes été analysées et voici le résultat des tests :

Nom Licence Figure 16a

Figure 16c

Figure 16d

Figure 16e

Commentaire

gocr GratuitUtilisé par FuzzyOCR (plugin de SpamAssassin dédié à la reconnaissance de caractères dans les images).

ocrad Gratuit

ABBYY Fine

Reader 8.0€ 169.00

Readiris Pro 11

€ 402.00

Légende : reconnaissance totale texte non détecté texte partiellement détecté


40

2.2 La détection d’images à caractère pornographique

2.2.1 Descriptif

Les spams dont le contenu appartient à la catégorie ‘Adulte : contenu ou lien vers un contenu explicite (pornographie, érotisme etc…)’ de notre classification représentent selon nos tests effectués plus de 6.65% des messages indésirables.

2.2.2 Avantages et limites

Une telle reconnaissance des images à caractère pornographique permet d’épargner l’utilisateur d’images qui peuvent paraître choquantes (notamment les enfants). Cela présente l’intérêt de pallier aux limites des autres techniques de filtrage, dont certaines sont incapables de déterminer si un message ne comportant qu’une image est effectivement un spam ou non. Par ailleurs, les techniques de détection des spams image décrits dans la section précédente s’avèrent inefficaces contre ce genre de photographies étant donné l’absence de texte dans l’image.

Mais cette détection a un coût : outre le prix de la solution à adopter (il n’existe que très peu de logiciels gratuits), il faut compter le temps nécessaire pour scruter les images et la charge supplémentaire imposée au serveur ou au poste client.

Enfin on notera qu’une telle technique de détection est difficilement fiable à 100%, ce que montrent nos tests ci-dessous. Il est en effet impossible pour un tel logiciel de faire la différence entre une femme nue et une autre en maillot de bain. Cela est dû au fait que certains de ces logiciels utilisent comme critère les couleurs présentes dans l’image. Ainsi l’image ci-dessous, représentant un labrador et donc tout à fait correcte, est déclarée comme étant réservée aux adultes, et donc floutée par l’un des programmes testés (en l’occurrence PicBlock) :

Figure 17a : Sans filtre Figure 17b : Avec filtre


Il existe plusieurs solutions permettant de détecter les images à caractère pornographique dans les emails, mais rares sont celles étant sous licence libre. Veuillez trouver ci-dessous un tableau contenant le résultat d’un test réalisé à l’aide de ces produits. Ce test a consisté à soumettre 50 images à caractères pornographique (ou érotique) reçues lors du téléchargement de notre échantillon de test, ainsi que 50 photographies banales et ne présentant aucun signe de nudité.


41

Nom Editeur Licence Avantages Inconvénients Images malsainesdétectées

(%)

Images saines

positives(%)

Email Image

ControlMessageLabs Payant nc nc

PicBlock Cinchworks Gratuit

Gratuit Filtrage des

images des emails et URL

Proxy HTTP

Ne filtre que les liens contenant des images, pas les images transmises en pièces jointes

86% 18%

Image Filter

LTU Technologies

Payant Non testé (aucune version d’évaluation)

96%(selon LTU)

nc

Poesia Filter

Gratuit Gratuit Non testé nc nc


42

3. Les techniques basées sur le filtrage du serveur expéditeur

3.1 Le Greylisting

3.1.1 Historique

Le mérite de la création de cette technique de filtrage signifiant liste grise, revient à E. HARRIS, auteur du papier blanc [HAR 03], même s’il n’est au final pas le premier à avoir proposé une solution utilisable en production.

3.1.2 Principe

La RFC 8211 définit que lors d’une transaction SMTP, le client transmet au serveur des commandes SMTP auxquelles le serveur répond par des codes retour spécifiant si la commande s’est terminée correctement ou non.

L’exemple ci-dessous définit un échange standard où un utilisateur [email protected] (MAIL FROM) envoie un mail à [email protected]. Lorsque le destinataire est spécifié (RCPT TO), le client reçoit un code retour 250 (définie dans [RFC 82] comme étant une requête réussie).

220 Welcome on memoire-spam.info's mail server.MAIL FROM:[email protected] 2.1.0 OkRCPT TO:[email protected] 2.1.5 OkDATA354 End data with <CR><LF>.<CR><LF>Subject: message de testCeci est un message normal..250 2.0.0 Ok: queued as 23CB42EB63

Dès lors que le client a spécifié l’adresse de l’émetteur et du destinataire, il lui est possible saisir les données du mail à envoyer. La technique du greylisting est de garder en mémoire cette demande d’envoi de mail et de demander au client de réitérer sa demande après un certain temps (l’envoi de DATA est impossible avant que ce temps ne soit écoulé).Or pour des contraintes de temps, les spammeurs ne renvoient jamais le même message qu’ils envoient déjà à plusieurs millions d’utilisateurs. Cela fait du greylisting l’une des techniques actuelles les plus efficaces.

L’exemple ci-dessous diffère du précédent car le serveur implémente cette fois le greylisting et demande au client de réitérer son envoi de mail en retournant un code erreur 451 (requête abandonnée suite à une erreur locale).

220 Welcome on memoire-spam.info's mail server.MAIL FROM:[email protected] 2.1.0 OkRCPT TO:[email protected] Please, try again later

Un serveur gérant le greylisting garde ainsi en mémoire un triplet composé de l’adresse IP de l’expéditeur, l’adresse email source et celle de destination. Tant qu’un certain temps ne se sera pas écoulé (dépendant de l’implémentation), toute nouvelle tentative d’envoi échouera. Lorsqu’un compteur de temps expirera,

1 [RFC 82]M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

43



l’envoi sera possible…à condition que l’expéditeur le fasse. Ce qui est rarement réalisé dans le cas d’un spam. Le triplet sera alors gardé dans une sorte de liste blanche : tout nouvel envoi provenant de la même adresse IP, du même expéditeur et à destination de la même adresse email ne fera plus l’objet d’une demande de renvoi, et ce jusqu’à l’expiration d’un nouveau compteur.

3.1.3 Compteurs de temps

Les valeurs du tableau ci-dessous correspondent aux valeurs définies par [HAR 03] pour les compteurs de temps et sont données à titre indicatif, les valeurs par défaut des diverses implémentations pouvant être différentes (le document de [HAR 03] n’est en aucun cas une norme à respecter à 100%), et ces valeurs pouvant en général être modifiées par l’administrateur :

Compteur de temps DuréeDélai d’attente d’un triplet inconnu 1 heure

Durée de vie d'un triplet n'ayant pas encore validé un message 4 heures

Durée de vie d’une entrée dans la liste blanche 36 jours

3.1.4 Algorithme utilisé

Le fonctionnement d’un filtre à base de greylisting n’est pas en soi très compliqué et doit au minimum selon [HAR 03] implémenter les opérations suivantes :

1. Vérifier si le serveur expéditeur (ou le réseau de celui-ci) ne figure pas dans une liste blanche (whitelist). Si c’est le cas, transmettre le message, sinon passer à l’étape 2.

2. Verifier si l’adresse email du destinataire (ou son domaine) ne figure pas dans une liste blanche (whitelist). Si c’est le cas, transmettre le message, sinon passer à l’étape 3.

3. Vérifier si le triplet n’a pas déjà été rencontré précédemment : S’il s’agit d’un nouveau triplet, informer l’émetteur d’une erreur temporaire et garder en

mémoire le triplet. Si le triplet a déjà été rencontré :

o Si le compteur de temps a expiré, transmettre le messageo Sinon retourner une erreur temporaire et passer à l’étape 4.

4. Si la demande est acceptée et la livraison est effectuée normalement : Incrémenter le compteur de remise pour le triplet correspondant Réinitialiser le compteur de temps de la durée de vie d’une entrée dans la liste blanche

(auquel on décompte des 36 jours le temps écoulé entre l’initialisation du premier compteur de temps et le moment où le 1er message est accepté pour le triplet en question)

5. Si la demande de livraison du message a débouché sur une erreur temporaire : Incrémenter le compteur d’échec pour le triplet correspondant Dans le cas particulier où l’adresse de l’expéditeur est nulle (<>), attendre la fin de la

commande DATA pour retourner l’erreur temporaire (et non pas après RCPT)


44

3.1.5 Limites

Force est de constater que le greylisting est une technique de filtrage prometteuse, ainsi peut-on se poser la question suivante : pourquoi son utilisation n’est-elle pas plus généralisée que cela ? Quel est son avenir ?

L’un des premiers éléments de réponse vient du fait que le serveur implémentant le greylisting doit garder en mémoire un triplet composé de l’adresse IP source de l’émetteur, l’adresse email source et de destination. Et ce pendant la durée fixée pendant laquelle le message ne peut être réémis sous peine d’être de nouveau refusé. Dans le cas où de nombreuses connexions sont à gérer, le serveur peut vite être saturé de requêtes en attente. Une étude de [CRU 05] a montré que son serveur devait gérer entre 500.000 et 600.000 triplets. Et le deuxième problème mis en valeur par cette étude est la faisabilité d’une attaque de type empoisonnement : une personne malintentionnée pourrait lancer une attaque visant à tenter l’envoi d’emails identiques mais dont l’adresse source varie à chaque connexion…entraînant à chaque fois l’ajout d’une entrée supplémentaire à gérer.

Un autre phénomène a lieu remettant en cause l’avenir de la fiabilité de cette technique de filtrage : 40% des courriers indésirables seraient actuellement envoyés à l’aide de PC Zombies (document de [IND 05] citant une étude de SOPHOS), lesquels ne géraient pas jusqu’à présent les retransmissions. Mais cela est en train de changer avec l’apparition d’une nouvelle génération de zombies.

Enfin, mais il s’agit plus d’un inconvénient que d’une limite, ce type de filtrage n’est pas transparent aux yeux des utilisateurs dans la mesure où ceux-ci devront attendre un minimum de temps lorsqu’ils souhaiteront recevoir leurs messages.

3.1.6 Avantages

Grâce au fait que les spammeurs ne renvoient jamais leurs messages après un refus du serveur de destination (perte de temps, eux qui cherchent à toucher un maximum d’utilisateurs), le greylisting permet donc de filtrer une grande quantité de messages indésirables, et ce avant même qu’ils ne puissent pénétrer dans le réseau. A cela s’ajoute le fait que le serveur implémentant cette technique n’utilise que très peu de ressources lors de la notification du message indiquant qu’il est nécessaire de renvoyer le message.

Il est vrai que le greylisting possède de nombreux inconvénients, comme le fait que la réception des messages n’est plus quasi-instantanée. Or comme le souligne l’auteur de [RAS 08], cette particularité peut se révéler être d’un grand secours dans le cas de l’utilisation sur le même serveur de plusieurs filtres. Cette temporisation permettra par exemple de laisser du temps au spam d’être détecté par des serveurs gérant par exemple les signatures DCC des messages, ou laissera le temps à l’adresse IP de l’émetteur d’être signalée et entrée dans une liste noire d’un serveur gérant une DNSBL.


Il existe de nombreuses implémentations de cette technique de filtrage, on commencera par nommer (bien que ce ne soit pas la plus connue) celle de [HAR 03] : relaydelay.

Ensuite, on peut noter que les versions récentes de Postfix implémentent un script permettant d’effectuer un tel filtrage en natif. Il existait déjà pour ce même serveur une autre implémentation : Postgrey. Milter-greylist est une implémentation pouvant être utilisée avec Postfix ou Sendmail sous UNIX/Linux.

En ce qui concerne Microsoft Exchange, il ne semble pas que cette solution intègre en natif un tel filtre. Il existe en revanche un plugin développé par un tiers : JEP(S).


45

Nom Auteur / éditeur

Licence Plateforme MTA compatibles

greylisteximet

greylistqmailMartin Dempsey Gratuit UNIX / Linux

Exim 4 Qmail

j-chkmail Jose Marcio Martins da Cruz

Gratuit UNIX / Linux Postfix Sendmail

JEP(S) Proxmea € 199.0 Windows Exchange 2000 Exchange 2003 Exchange 2007

milter-greylist Emmanuel Dreyfus

Gratuit UNIX / Linux Postfix Sendmail

postfix Wietse Venema Postfix implémente désormais en natif une fonctionnalité permettant d’activer le greylisting

relaydelay Evan Harris Gratuit UNIX / Linux Postfix


46

3.2 La détection des adresses emails spoofées

3.2.1 Problématique

Toute machine connectée à un réseau peut émettre un email en se faisant passer comme appartenant à n’importe quel domaine et/ou en se faisant passer pour n’importe qui. Le protocole SMTP ne permet pas en effet (par défaut d’authentifier l’expéditeur, lequel peut utiliser l’identité d’un autre utilisateur de la messagerie en indiquant une adresse usurpée (spoofée) dans le champ MAIL FROM de l’entête du message et/ou dans le champ From dans le contenu (idem lors de l’utilisation de la commande HELO/EHLO).

L’exemple ci-dessous de la figure 18 montre à quel point cela est trivial, une simple connexion en telnet sur le port TCP/25 d’un FAI nous permettant de spoofer l’adresse email [email protected] :

220 ****************** PostfixMAIL FROM: [email protected] 250 OkRCPT TO: [email protected] 250 OkDATA354 End data with <CR><LF>.<CR><LF>From: [email protected] To: [email protected] Subject: Message de testCeci est un message de test..250 Ok: queued as 95DA6B01CD

Figure 18 : Exemple de spoofing d’adresse email

Le message est bel et bien transmis, puis reçu par notre client de messagerie. Notre test montre que le possesseur de l’adresse [email protected] a tenté de communiquer avec nous (rien n’indique le contraire pour le moment), ce qui bien entendu n’est pas le cas.

Le problème est qu’une grande proportion des spams envoyés à travers le monde possède un entête mentant à propos de l’origine de l’email. Il a donc fallu développer des techniques de filtrage permettant d’identifier quels sont les messages n’étant pas autorisés à utiliser un certain nom de domaine. Pour l’exemple, nous ne sommes absolument pas propriétaires du nom de domaine mccain.com ni même du compte de messagerie [email protected]).

3.2.2 SPF (Sender Policy Framework)

3.2.2.1 Historique

SPF, Sender Policy Framework, crée en 2004 est le résultat d’études indépendantes (en 2002) menées par P.VIXIE, H.DANISH et G.FECYK qu’ils présentèrent chacun lors de deux conférences dont l’une consacrée au langage Perl (YAPS : Yet Another Perl Conference), l’autre consacrée à la présentation de logiciels open-source (OSCON : O’Reilly Open Source Convention). MENG WENG WONG fusionna ces travaux tout en demandant l’appui d’acteurs du logiciel libre afin de créer ce qui aujourd’hui s’appelle SPF.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

47








3.2.2.2 Principe

SPF (Sender Policy Framework) fut crée afin de vérifier si l’adresse IP de l’émetteur est autorisée à envoyer des courriers électroniques pour le domaine de l’adresse email de l’expéditeur.Concrètement, cela se traduit par une requête DNS du serveur recevant le message à destination du serveur DNS du domaine de l’expéditeur, afin de récupérer un enregistrement spécial contenant l’adresse des hôtes autorisés à émettre du courrier électronique pour ce domaine.

Les règles de fonctionnement de cette technique de filtrage sont définies dans [RFC 4408], laquelle est une RFC expérimentale. Nous allons tenter d’expliquer le fonctionnement de SPF par l’exemple, en nous aidant des explications de [SPF 08] :

En premier lieu, un utilisateur se connecte à notre serveur smtp.memoire-spam.info et envoie un message à destination d’un utilisateur dont le serveur de destination procède à une vérification de l’enregistrement SPF.

Le serveur smtp.memoire-spam.info transmet le message au serveur de destination. Ce dernier, lors de la commande HELO/EHLO du protocole SMTP peut procéder à une vérification de l’identité de l’utilisateur. La vérification lors de la réception de la commande MAIL FROM est quant à elle obligatoire.

La vérification consiste à effectuer une requête DNS afin de récupérer un enregistrement TXT contenant une ligne spécifique à SPF. La figure 19 est un extrait du fichier de la zone mémoire-spam.info de notre serveur DNS servant à nos tests durant ce mémoire de recherche. L’enregistrement TXT est envoyé au serveur de destination de notre message. Voici l’explication des principaux champs d’un tel enregistrement :

Cet enregistrement signifie que la version utilisée est SPF version 1 (v=spf1).

Le terme ‘mx’ signifie que les serveurs de messagerie du domaine (enregistrements MX) sont autorisés à relayer des messages électroniques.

Le champ ‘a : smtp.tagliaferri.fr’ signifie que ce serveur est également habilité à relayer des messages de notre domaine, même s’il s’agit d’une machine extérieure à notre domaine (il s’agit en fait d’un serveur secondaire).

Le champ ‘-all’ signifie qu’il n’existe aucune autre machine habilitée à émettre de messages en provenance du domaine mémoire-spam.info.

MX 10 smtp.memoire-spam.info.MX 20 smtp.tagliaferri.fr.

smtp A 82.232.75.99

memoire-spam.info. TXT “v=spf1 mx a:smtp.tagliaferri.fr –all”Figure 19 : Exemple de fichier de zone DNS comportant un enregistrement SPF


48

3.2.2.3 Les attributs possibles

Nous n’avons, dans l’exemple du 3.2.2.2, que cité l’exemple de quelques attributs pouvant être utilisés dans un enregistrement SPF. En réalité, la syntaxe est bien plus riche et la [RFC 4408] détaille les attributs suivants (appelés mécanismes dans la norme) :

"a" : s’il existe un enregistrement DNS de type A correspondant à l’adresse IP de l’expéditeur alors la condition est vérifiée.

"mx" : s’il existe un enregistrement MX correspondant à l’adresse IP de l’expéditeur alors la condition est vérifiée (dans ce cas, ‘+a’ autorise l’expéditeur, ‘-a’ l’interdit etc…).

"ptr" : s’il existe un enregistrement PTR permettant d’associer l’adresse IP de l’expéditeur à un nom d’hôte du domaine, alors la condition est vérifiée.

"ipv4" et "ipv6" : permettent de spécifier en paramètre une ou plusieurs adresses IP. Si l’adresse IP de l’expéditeur correspond à l’une de celles-ci, alors la condition est vérifiée.

"include" : pour prendre en compte le contenu d’un autre fichier

3.2.2.4 Valeurs retournées

Le programme d’un hôte implémentant les requêtes SPF retournera les valeurs suivantes en fonction du résultat de la requête et de l’analyse de son contenu :

‘None’ : soit aucun enregistrement SPF n’a été publié pour le domaine concerné, soit aucune adresse autorisée n’y a été spécifiée. Le programme ne peut affirmer si l’expéditeur est autorisé ou interdit (le choix est laissé aux éventuels autres filtres).

‘Neutral’ : doit être traité de la même manière que ‘None’. Le propriétaire du domaine ne peut affirmer ou infirmé que l’expéditeur est autorisé.

‘Pass’ : l’adresse IP de l’expéditeur est explicitement autorisée.

‘Fail’ : l’adresse IP de l’expéditeur est explicitement interdite.

‘SoftFail’ : Le domaine pense que l’expéditeur n’est pas autorisé. Le choix est laissé à d’éventuels autres filtres.

TempError : Une erreur est intervenue pendant la requête. L’hôte peut soit autorisé soit interdire le message.

PermError : Une erreur de syntaxe a été détectée dans l’enregistrement SPF (la RFC n’indique pas la démarche à suivre dans ce cas).

3.2.2.5 Les qualifiants

Il existe 4 qualifiants, permettant de retourner des valeurs différentes :

+ : permet d’autoriser une adresse (qualifiant par défaut. En son absence, par exemple pour mx de l’exemple précédent, il faut comprendre +mx). Retourne le résultat ‘Pass’.

"-" : permet d’interdire une adresse. Retourne le résultat ‘Fail’.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

49

"~" : signifie que l’adresse est peut-être interdite. Retourne le résultat ‘SoftFail’.

"?" : signifie que l’on ne sait pas si l’adresse doit être interdite ou pas. Retourne ‘Neutral’.

3.2.2.6 Avantages

Il s’agit d’un moyen libre et gratuit permettant de détecter facilement les adresses emails usurpées.

3.2.2.7 Limites

Une des limites actuelles est la faible proportion de domaines utilisant SPF. Deux études successives [MEA 06] et [MEA 07] montrent que la proportion de domaines dans le monde à utiliser les enregistrements DNS pour indiquer quelles sont les machines de leur domaine autorisées à émettre du courrier électronique n’était que de 5% en 2006 et 12.6% en 2007.

Mais le principal problème vient du fait que ce projet se heurte à un autre, appelé Caller-ID dont Microsoft était à l’origine. Bien que des efforts aient été faits pour faire fusionner ces deux projets – l’IETF créa le groupe de travail MARID (MTA Authorization Records In Dns) – les différences de points de vue entre les initiateurs de ces deux projets entrainèrent l’arrêt de cette tentative de fusion, ce qui donna naissance à une RFC décrivant SPF d’une part, une autre décrivant Sender-ID (ex Caller-ID) d’autre part. Le conflit entre les pro-Sender-ID et les pro-SPF est ainsi un frein à leur utilisation.

Pour en revenir au principe même de SPF, celui-ci ne fait que vérifier si une adresse IP de l’expéditeur est autorisée par le propriétaire du domaine de l’adresse email source. Or, si le spammeur est lui-même propriétaire du domaine1 et s’il publie un enregistrement SPF autorisant les adresses IP qu’il utilise pour envoyer ses pourriels, alors SPF ne pourra détecter le message comme étant indésirable. Cela fait que ce type de filtre ne sera jamais fiable à 100%, et devra toujours être couplé avec d’autres méthodes de détection.

3.2.2.8 Solutions du marché

De nombreux serveurs de messagerie intègrent, en natif ou sous forme de patches, d’effectuer un filtrage des adresses IP de l’expéditeur basé sur SPF :

Pour Postfix, il existe par exemple deux patches : postfix-policyd-spf-perl et python-postifx-policyd-spf, disponibles sur le site http://www.openspf.org.

Pour sendmail, il existe sendmail-spf-milter.

GFI MailEssentials implémente plusieurs filtres anti-spam pour Micosoft Exchange et Lotus Notes, dont un filtre basé sur SPF.

Kerio Antispam 5

1 [SPA 08] aurait détecté 568 nouveaux domaines achetés en moins d’un mois (décembre 2007) par celui qu’il considère en ce moment comme étant le plus gros spammeur de la planète, HerbalKing.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

50

http://www.openspf.org/

3.2.3 Sender-ID

3.2.3.1 Historique

Sender-ID est né de la tentative de rapprochement de SPF et Caller-ID par un groupe de travail de l’IETF appelé MARID (MTA Authorization Records In Dns). Cette tentative échoua et le projet Caller-ID, à l’initiative de Microsoft, subit des modifications et fut renommé Sender-ID.

3.2.3.2 Notion de PRA (Purported Responsible Address)

Sender-ID permet d’authentifier soit l’adresse de l’expéditeur d’un message définie lors de l’appel à la commande MAIL FROM, soit l’adresse PRA (Purported Responsible Address). Il s’agit d’une nouvelle identité associée à un message défini dans [RFC 4407]. Pour expliquer en quoi consiste le PRA, prenons l’exemple suivant, tiré de [RFC 4405] :

S: 220 almamater.edu.example ESMTP server readyC: EHLO example.comS: 250-almamater.edu.exampleS: 250-DSNS: 250-AUTHS: 250-SUBMITTERS: 250 SIZEC: MAIL FROM:<[email protected]> [email protected]: 250 <[email protected]> sender okC: RCPT TO:<[email protected]>S: 250 <[email protected]> recipient okC: DATAS: 354 okay, send messageC: (message body goes here)C: .S: 250 message acceptedC: QUITS: 221 goodbye

Lors de l’envoi de cet email, l’expéditeur est [email protected] et le destinataire est [email protected]. Jusque là rien d’anormal. Considérons maintenant le cas où [email protected] souhaite transférer ce message à [email protected].

S: 220 company.com.example ESMTP server ready C: EHLO almamater.edu.example S: 250-company.com.example S: 250-DSN S: 250-AUTH S: 250-SUBMITTER S: 250 SIZE C: MAIL FROM:<[email protected]> [email protected] S: 250 <[email protected]> sender ok C: RCPT TO:<[email protected]> S: 250 <[email protected]> recipient ok C: DATA S: 354 okay, send message C: Resent-From: [email protected] C: Received By: ... C: (message body goes here) C: . S: 250 message accepted C: QUIT S: 221 goodbye


51





Le message reste le même, à savoir que c’est [email protected] qui en est la créatrice, mais la personne qui "soumet" l’email (SUBMITTER : à l’origine de la nouvelle transmission) est désormais [email protected]. On indique également que le message a été transféré grâce à Resent-From.

Mais maintenant une question se pose, quelle est l’adresse à sélectionner par le serveur de messagerie de [email protected] afin de procéder à l’authentification de l’expéditeur (grâce à Sender-ID) ?

[RFC 4407] propose un algorithme (dont nous ne traiterons pas ici) permettant de désigner cette adresse.

3.2.3.3 Principe

Sender-ID est totalement basé sur SPF, dont il reprend la syntaxe, mais en y apportant quelques modifications.

En premier lieu, la version utilisée n’est plus spfv1 mais spfv2. Il est possible de déterminer de quelle adresse email le domaine sera extrait et dont on cherchera à savoir si l’adresse IP de l’expéditeur est autorisée ou non pour le domaine en question. Cela est faisable en indiquant une étendue de la forme :

spf2.0/mfrom : ne prendre en compte que l’adresse du champ MAIL FROM

spf2.0/pra : ne prendre en compte que la Purported Responsible Address.

spf2.0/mfrom,pra ou spf2.0/pra,mfrom, pour prendre en compte les 2 adresses.

3.2.3.4 Les attributs possibles

Les attributs possibles sont identiques à ceux de SPF, décrits dans la partie 3.2.2.3.

3.2.3.5 Valeurs retournées

Le programme d’un hôte implémentant les requêtes Sender-ID retournera les valeurs suivantes en fonction du résultat de la requête et de l’analyse de son contenu (les descriptions de ces valeurs étant disponibles dans la partie 3.2.2.4) :

"Neutral" "Pass" "Fail" "TempError"

3.2.3.6 Limites

Il semblerait que dans la bataille opposant Sender-ID à SPF, bien que soutenu par Microsoft, Sender-ID ait bien du mal à s’imposer. L’encadré ci-dessous montre d’ailleurs l’enregistrement DNS1 de Microsoft relatif à Sender-ID ou SPF. On y aperçoit que la version utilisée est v=spfv1…celle de SPF. On peut donc légitimement s’interroger sur l’avenir de Sender-ID.

"v=spf1 mx include:_spf-b.microsoft.com include:_spf-c.microsoft.com include:_spf-ssg-a.microsoft.com include:_spf-a.microsoft.com ?all"

Une autre limite est le faible nombre de solutions implémentant Sender-ID, lequel est toutefois utilisé par Microsoft Echange 2003 (SP2) et 2007. Kerio Antispam 5 permet également d’utiliser Sender-ID.

1 L’enregistrement peut être facilement récupéré grâce à un formulaire en ligne sur [SPF 08].M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

52




3.4 Les DNSBL (DNS BlackLists)

3.4.1 Principe

Il existe un nombre limité de spammers, lesquels sont identifiables par l’adresse IP qu’ils utilisent pour envoyer leurs messages. Recenser toutes ces adresses permettrait de générer une liste noire laquelle permettrait d’identifier de manière a priori fiable si un message est à marquer comme étant un spam.

Ainsi virent le jour les DNSBL, ou DNS BlackLists, parfois simplement appelées Blacklists. Ces listes noires reposent sur l’utilisation du DNS pour déterminer si une adresse IP a déjà été signalée comme étant à l’origine de spams.

Il existe de nombreux organismes gérant de telles listes, et nous allons tenter ci-dessous d’expliquer le fonctionnement générique des DNSBL sachant qu’il n’existe aucune norme (hormis un draft de l’IETF : [IET 08]) et que chaque organisme possède sa propre implémentation.

En premier lieu, un serveur de messagerie reçoit un message. Ce dernier interroge un serveur tiers gérant une Blacklist en effectuant une simple requête DNS. Il s’agit ici d’une légère modification par rapport au DNS inversé : on inverse les octets de l’adresse de l’expéditeur, auxquels on concatène le nom de domaine (lors d’une résolution inverse, on concatène ‘in-addr.arpa’) et on effectue une requête DNS pour obtenir un enregistrement de type A correspondant au résultat de cette concaténation (une résolution inverse permettant d’obtenir un enregistrement de type PTR). Si le serveur gérant une DNSBL renvoie une réponse positive, alors l’expéditeur est inscrit dans la Blacklist et le message doit suivre la politique à appliquer lors de la détection d’un spam (suppression, mise en quarantaine ou marquage du message). Si l’on n’obtient aucune réponse, alors le message peut être délivré à l’utilisateur.

La figure ci-dessous résume le fonctionnement d’une DNSBL dans chacun des deux cas (envoi d’un spam depuis une adresse IP figurant dans la Blacklist, puis d’un message légitime d’un serveur n’y figurant pas).

Figure 20 : Fonctionnement des DNSBL


53

3.4.2 Valeurs renvoyées

Les valeurs renvoyées par le serveur gérant la DNSBL ne sont pas normalisées et dépendent fortement du choix des personnes à l’initiative de la conception de cette Blacklist.[IET 08] recommande néanmoins de retourner des enregistrements DNS de type A contenant des adresses IP de la plage 127.0.0.0/8 afin de prévenir tout trafic non désiré à destination des adresses retournées.Par exemple, le projet SpamHaus propose une solution originale permettant de signaler les adresses IP marquées comme étant utilisées par des spammers (adresse de retour : 127.0.0.2), ou si l’hôte qui émet le message n’est pas une machine infectée, par exemple, par un ver ayant pour rôle d’envoyer du spam depuis la machine infectée (adresses renvoyées : 127.0.0.4 à 127.0.0.11).

Il existe un autre moyen de connaître les motivations qui ont amené à blacklister l’adresse IP en question. A chaque enregistrement DNS de la blacklist peut correspondre un enregistrement TXT contenant de plus amples informations :

4.3.2.1.spammer.com TXT "Host name used in phish"

3.4.3 Utilisation des DNSBL

En règle générale, l’utilisation de telles Blacklist demeure relativement simple. Il existe plusieurs utilisations possibles :

Le serveur de messagerie de destination effectue une requête de vérification avant de stocker le message dans la boîte aux lettres de l’utilisateur.

Certains logiciels s’installent sur le poste de l’utilisateur et permettent de s’introduire entre le client de messagerie et le serveur POP ou IMAP et procèdent eux-mêmes à cette vérification avant de transmettre le message au client de messagerie.

3.4.4 Variantes

On confond souvent les RBL (RealTime Blackhole Lists) et les DNSBL. Le terme RBL est une marque déposée par la société MAPS (Mail Abuse Prevention System) ayant été la première à implémenter la technologie DNSBL.

Les URI DNSBL sont quant à elles des Blacklists basées sur les adresses IP et les noms de domaine apparaissant dans le corps des messages. Le spam ci-dessous sera ainsi facilement détecté (à condition toutefois qu’il ait déjà été signalé au préalable) car les spammeurs y ont joint un lien vers un de leurs sites.

Figure 21 : Exemple de spams comportant une URI

Les DNSWL fonctionnent de manière analogue à l’exception qu’il s’agit d’une Whitelist (liste blanche) contenant les adresses IP considérées comme fiables.


54

3.4.5 Avantages

Il s’agit d’un moyen permettant de mutualiser les efforts de recherche de plusieurs centaines voire milliers de personnes dans leurs recherches contre les spammeurs dans la mesure où certaines DNSBL mettent à contribution les personnes qui l’utilisent.

Il s’agit d’une technologie permettant de déterminer si un message provient d’un spammeur ou non ne nécessitant pas trop de ressources du serveur de messagerie, le travail étant délégué au serveur gérant la DNSBL. Le serveur de messagerie fonctionne en quelque sorte en client DNS et ne fait qu’attendre le résultat de ses requêtes.

3.4.6 Limites

Il est quasi-impossible de prétendre pouvoir relever de manière exhaustive l’ensemble des adresses IP d’où proviennent les courriers non sollicités. Une telle solution ne peut donc prétendre éliminer le spam à 100%. De même, se pose la question des adresses IP marquées comme étant sources de spam alors que des utilisateurs légitimes (non spammeurs) peuvent eux-aussi essayer d’envoyer des messages depuis cette adresse. C’est par exemple le cas pour les listes blacklistant les adresse IP dynamiques attribuées aux clients abonnés en ADSL et souhaitant installer un serveur de messagerie chez eux comme c’est le cas pour smtp.memoire-spam.info, le serveur auto-hébergé qui nous sert à effectuer les tests dans le cadre de ce mémoire. Sur 49 blacklists testés grâce à un outil présent sur [IVE 08], l’adresse IP de notre serveur figure sur 5 listes.

Il s’agit de listes établies par des personnes indépendantes, pas toutes dans un but lucratif. Ces dernières années ont montré que certaines listes efficaces dans le passé avaient été abandonnées par leurs créateurs pour diverses raisons (manque de temps, de moyen, procès de spammeurs à leur encontre etc…), comme c’est le cas par exemple de SPEWS, dont la liste n’est plus mise à jour depuis aôut 2006 à la suite d’attaques à répétition contre ses serveurs, de menaces de poursuites (dues aux critères d’ajout d’adresses IP dans la liste noire, jugés litigieux) etc… On notera qu’une nouvelle équipe a repris ce projet, désormais appelé APEWS.

Enfin, la dernière limite est le temps de latence qui s’écoule entre le moment où est effectuée la requête à destination du serveur gérant la DNSBL et le moment où notre serveur reçoit la réponse. Ce temps de réponse est de l’ordre du dixième de secondes. Lors de nos tests, effectués grâce à SpamPal, la durée de réception de nos 44827 messages est ainsi passée d’environ 1H à 5H dans le meilleur des cas.On minimisera toutefois cette remarque dans la mesure où sur un serveur de production, les requêtes sont espacées en fonction de l’arrivée des messages et le temps d’attente est quasiment invisible pour l’utilisateur, ce qui n’est pas le cas lorsqu’on effectue 44827 requêtes à la chaine.


Il existe de très nombreuses DNSBL, toutes ne se valent pas. Il est possible de procéder au filtrage lors de la réception du message par le serveur de messagerie. Il convient alors de modifier la configuration de ceux-ci pour intégrer ce filtrage, ce qui est le cas par exemple de SpamAssassin.

On peut également procéder au filtrage lors du téléchargement des messages par le client de messagerie de l’utilisateur. Il existe un logiciel appelé SpamPal qui nous a ainsi permis de recevoir plusieurs fois nos messages (grâce à une sauvegarde de la mailbox de l’utilisateur [email protected], et dont on donne des informations sur l’échantillon de messages testé en page 58) et ainsi tester l’efficacité de certaines DNSBL encore en activité. Le résultat de cette étude est disponible en page 66.


55


4. Les techniques basées sur le filtrage de l’utilisateur

4.1 Les tests de Turing

4.1.1 Principe

Les spammeurs envoient par millions des messages non-sollicités aux utilisateurs de la messagerie.Dans la mesure où cet envoi massif est totalement automatisé, que se passe-t-il si l’expéditeur se voit renvoyer un message lui demandant de saisir un code (affiché sous forme d’image) ou de répondre à une question ?

Dans cette question réside le principe du test de Turing, par lequel nous tentons de déterminer si l’émetteur est humain ou non. Lorsqu’un utilisateur A envoie un mail à l’utilisateur B (on admet que A et B n’ont jamais communiqué ensemble via leurs adresses respectives), l’anti-spam de B fait parvenir à A un message de confirmation, où le destinataire est en général invité à clique sur un lien permettant d’accéder au test1 :

Si l’adresse utilisée par A n’existe pas, alors il n’y aura jamais de réponse au test.

Si l’adresse existe :

o S’il s’agit d’une adresse spoofée, alors il n’y aura en principe pas de réponse de la part de l’utilisateur légitime du compte usurpé.

o Si l’adresse n’est pas usurpée :

A est humain et répond au test de Turing en saisissant le code demandé, ou en répondant à la question triviale posée

A n’est pas humain et ne peut répondre au test, et le message reste ainsi en quarantaine.

Tout mail entrant ne sort ainsi de quarantaine que lorsqu’une réponse correcte au test de Turing a été reçue. On notera que l’utilisateur A ne devra effectuer qu’une seule fois ce test, son adresse étant désormais qualifiée par B.

Un schéma récapitulatif du fonctionnement d’un test de Turing est disponible en ANNEXE A.

1 Les captures d’écran de cette page ont été effectuées lors d’un test réalisé avec le service anti-spam de Contre-Spam.com, basé sur les tests de Turing

4.1.2 Avantages

Le principal intérêt d’un tel test réside dans le fait que seuls les êtres humains sont capables, a priori, de saisir une chaîne de caractères contenue dans une image. Certes le volume de messages à traiter par le serveur augmente (tout nouveau mail envoyé par un nouvel expéditeur génère l’envoi d’un email), néanmoins il s’agit d’une technique de détection ne nécessitant pas de ressources machines pour effectuer un quelconque traitement lié à la détection (ex : analyse du contenu du message). Les performances ne sont donc en aucun cas dégradées.

4.1.3 Limites

Tout comme les captchas pour les forums de discussions sur Internet, les tests de Turing font l’objet de tentatives de contournement par les spammeurs. Un captcha est une chaîne de caractère affichée dans une image et que l’utilisateur d’un forum doit saisir afin, par exemple, de poster un message.

Des hackers ont réussi à détourner ce procédé en récupérant les images du captcha depuis un forum qu’ils cherchent à spammer, puis en les soumettant à des utilisateurs humains...en affichant ces mêmes captchas sur un autre site, leur appartenant cette fois, le but étant de permettre l’accès gratuit à un site (en général à caractère pornographique) lors de la saisie de ce même captcha. Le résultat saisi par les internautes est alors envoyé au spammeur (de manière automatisée), et par script, le spammeurs du forum de discussion répond au test (captcha) et peut ainsi poster son message à caractère publicitaire sans avoir lui-même à saisir la chaîne de caractère correspondant au test.

Il est fort probable que de telles mesures de contournement apparaissent au fur et à mesure que se développeront les solutions anti-spam basées sur des tests de Turing.


Il n’existe que quelques solutions implémentant des tests de Turing pour la détection des spams. Il s’agit dans certains cas d’externaliser la gestion de ces tests, en faisant télécharger par un serveur tiers (auquel on souscrit un abonnement) l’ensemble des messages d’un utilisateur. Et c’est ce serveur qui gère l’envoi des tests de Turing. Quant à l’utilisateur, il ne télécharge plus ses messages auprès de son serveur d’Entreprise, mais auprès du serveur tiers. Les tests réalisés au cours de cette étude ont fait ainsi appel au service du site http://www.contre-spam.com, mais on peut citer également des services tels que MailInBlack, .

Il existe également des solutions où il n’est pas nécessaire d’avoir recours à un serveur tiers, on citera l’exemple de Pidkey, dont l’utilitaire Pidware permet d’implémenter ce qui est ni plus ni moins un test de Turing, bien que les concepteurs de Pidkey affirment avoir crée une nouvelle technique de détection anti-spam.


57

http://www.contre-spam.com/

III. COMPARATIF TECHNIQUE DES TECHNIQUES DE DETECTION (BENCHMARK)

1. Mode opératoire

1.1 But

Le présent benchmark a pour but de comparer les différentes solutions anti-spam du marché, qu’il s’agisse de celles destinées aux particuliers ou celles destinées aux Entreprises. Il consiste également à comparer les résultats relatifs à chaque méthode de détection des courriers indésirables (DNSBL, filtres Bayésiens, DCC etc…) afin de déterminer lesquelles sont actuellement les plus efficaces.

1.2 Informations préalables relatives au test

Chaque solution est, sauf indication contraire, soumise au même test qui consiste à détecter le nombre de spams présent dans un échantillon de messages (décrit dans la section suivante) afin d’en déduire le pourcentage de réussite. Sera également relevé le pourcentage de faux négatifs (nombres de spams ayant réussi à échapper aux filtres), idem en ce qui concerne les faux positifs (nombre de spams et pourcentage de messages légitimes détectés comme indésirables).

Chaque produit testé répond à l’un des critères suivants :

Une licence a déjà été acquise au préalable.

Le logiciel est gratuit et donc libre d’utilisation.

Le logiciel est disponible sur le site de l’éditeur, mais pour une durée limitée (version d’évaluation).

Chaque test a, sauf indication contraire, respecté les conditions suivantes :

Tous les tests sont effectués sur la même plateforme, le système d’exploitation étant restauré à l’identique après chaque test afin de s’assurer de l’indépendance des tests (cf 1.5 Procédé).

Les logiciels testés ont fait l’objet d’une mise à jour complète (si disponible) avant de procéder au test.

Dans le cas de techniques de filtrage nécessitant un apprentissage (ex : filtres Bayésiens), cet apprentissage sera effectué à l’aide de l’échantillon de tests n°2 (comportant un nombre moindre de messages).

Chaque logiciel est configuré selon les recommandations de l’éditeur, si un tel document existe sur son site officiel.

Toutes les machines utilisées sont reliées à Internet, protégées par un firewall (tout le trafic provenant et à destination d’Internet transitant par lui), lequel laisse passer le trafic nécessaire aux tests (ex : requêtes à destination des serveurs gérants les DNSBL).


58

1.3 Environnement de test

MATERIEL DE TESTNom d’hôte CPU1 RAM Système

d’exploitationDisque

durCommentaire

smtp.memoire-spam.info

P4 2.66Ghz

512Mo Linux Debian 4.0

20Go Serveur de messagerie pour le domaine : smtp.memoire-spam.info.

client.memoire-spam.info

Sempron 3000+

1.81GHz 768Mo

Windows XP SP2

Windows 2003 Server Edition

Standard

80Go

Poste client servant aux tests des solutions clientes disponibles pour Windows.

Serveur de messagerie de test pour les solutions serveur s’interfaçant avec MS Exchange.

portable.memoire-spam.info

Core 2 Duo

T7200 2GHz

1Go Linux Debian 4.0

120Go

Poste client servant aux tests des solutions clientes disponibles pour Linux.

Machine de test des solutions serveurs avant installation sur le serveur de production.

Figure 22 : Matériel utilisé lors des tests

1.4 Rappel quant à l’échantillon de messages testé

L’échantillon testé a déjà été présenté dans une section antérieure de ce document, mais en voiçi les principales caractéristiques :

1 Processeur.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

CARACTERISTIQUES DE L’ECHANTILLON TESTE

Nombre de messages 44827

Messages non sollicités (SPAM) 44603

Messages légitimes (HAM) 224

Virus détectés 72

Taille totale de la mailbox 153.10Mo

59

Les pourriels reçus sont en fait des messages transférés depuis le serveur de messagerie de M.BURSZTEIN, mon maître de mémoire, et qui étaient à destination de certains adresses spammées (ex : [email protected]), ou inexistantes. L’échantillon, initialement constitué de plus de 168.000 messages, a été réduit (pour des raisons de performance des machines de test), de manière à ne retenir que les plus récents.

Le trafic légitime est constitué de messages personnels, ou bien envoyés par l’administration ou étudiants de l’Ecole Supérieure d’Informatique de Gestion, afin de refléter au maximum une activité personnelle et professionnelle, fidèle à la réalité d’un utilisateur "lambda" de la messagerie. Enfin, l’échantillon inclut également quelques messages reçus par le biais de newsletters.

1.5 Echantillon de secours

Dans certains cas, un échantillon de secours, a été utilisé lorsqu’une solution implémente une technique de filtrage nécessitant un apprentissage (il s’agit d’indiquer au programme quels sont les messages légitimes de ceux qui ne le sont pas, afin qu’il connaître l’activité de l’utilisateur et adapter le filtrage à cette activité).

Voici brièvement les caractéristiques de cet échantillon n°2 :

1717 messages.

1639 spams.

78 courriers légitimes.


60


2. Solutions testées

2.1 SpamAssassin et produits complémentaires

2.1.1 SpamAssassin lui-même

Ecrit en Perl, SpamAssassin est l’anti-spam probablement le plus utilisé sur les serveurs de messagerie sous Linux, intégrant de nombreuses possibilités de filtrage grâce à l’ajout d’extensions. Il existe une version en ligne de commande (spamc) prenant en paramètre un message et retournant s’il s’agit d’un spam ou non. Mais l’intérêt n’est pas de l’utiliser de la sorte mais en l’interfaçant avec un serveur de messagerie afin que celui-ci ne lui soumette tous les messages entrants de manière à déterminer la nature de ceux-ci (courriers légitimes ou non).

A cet effet, dans le cadre de notre test, le MTA (Postfix) reçoit un message et le transmet à Amavis. Ce dernier est un programme ayant pour rôle de soumettre un message que Postfix lui envoie sur le port 10024 à divers tests : en général l’un pour déterminer si le courrier contient un virus (grâce à l’antivirus ClamAV dans notre cas), et/ou un autre pour déterminer si le message est un spam (ici grâce à SpamAssassin). Une fois cela effectué, le message est retransmis à Postfix via le port 10025 (cf figure 23).

Figure 23 : Fonctionnement de SpamAssassin + Amavis + ClamAV


61

SpamAssassin permet un filtrage par heuristique basé sur un ensemble de 746 tests (source : [APA 08]), et s’interface avec de nombreux logiciels externes dont :

2.1.2 Razor

Razor est un logiciel pouvant s’interfacer avec SpamAssassin. Basé sur une analyse de la signature des messages, celui-ci n’est toutefois pas à confondre avec DCC même si la technique de filtrage sous-jacente suit le même principe.

La version 2 de Razor permet à l’ensemble de la communauté qui l’utilise de rassembler des informations relatives aux messages qui transitent par leurs serveurs de messagerie et établir une base distribuée et collaborative permettant une détection optimum des pourriels. Il existe 4 types de signature permettant d’identifier les courriers indésirables de manière unique :

2.1.3 Pyzor

Fonctionnant d’une manière similaire à Razor, Pyzor calcule un hash de chaque email reçu par l’utilisateur et l’exporte vers un serveur externe, lequel spécifie en retour si le hash figure dans la base collaborative recensant les checksums des messages considérés comme étant des spams.

La ressemblance avec Razor est flagrante, Pyzor étant à la base une implémentation de Razor écrite en Python (Razor ayant été développé en Perl par VIPUL VED PRAKASH), mais qui a évolué pour finalement implémenter son propre protocole de communication avec le serveur contenant la base de hash (pour des raisons de droits, Razor n’étant pas open-source).

2.1.4 FuzzyOCR

FuzzyOCR est un programme permettant de procéder à de la reconnaissance de caractères dans les images. Très utile étant donné l’augmentation constante de la part des spams images.

2.1.5 Mode opératoire

Afin de soumettre le même échantillon de messages aux tests, un compte [email protected] a été crée sur le serveur de messagerie principal (smtp.memoire-spam.info). Ces messages ont été téléchargés par un client de messagerie, lequel était configuré pour transférer tous les messages entrants à [email protected]. Le second serveur de tests, gérant de manière temporaire les emails du domaine tagliaferri.fr, fut configuré de manière à procéder au filtrage anti-spam et anti-virus des courriers à l’aide de SpamAssassin et ClamAV (le MTA étant Postfix).

Une fois la totalité des messages transférés, on a procédé au téléchargement du courrier du compte [email protected], et on dénombre le nombre de spams détectés grâce au sujet qui commence par [MEMOIRE-SPAM].

On répète l’expérience plusieurs fois afin de tester successivement le filtre Bayésien, les DNSBL, puis l’analyse de signature avec Razor.


62




2.1.6 Avantages et limites

Le principal avantage de SpamAssassin, qui est vraisemblablement la solution anti-spam la plus utilisée sous Linux, est qu’il est open-source et facilement configurable. Grâce à la possibilité d’utiliser des projets tiers en combinaison avec SpamAssassin, celui-ci peut gérer un grand nombre de techniques de filtrage dont les DNSBL, le filtrage par analyse de signature, la reconnaissance de caractères dans les images, analyse de l’entête des emails etc…sans oublier que celui-ci intègre par défaut un filtre Bayésien.

En revanche, le principal problème vient des faibles performances de celui-ci, non pas en terme d’efficacité de détection des pourriels, mais en terme de rapidité d’exécution. Sa technique de filtrage par heuristique, plus de 746 tests successifs, et le fait qu’il soit programmé en Perl (langage interprété, et non pas exécuté) font que nos tests ont révélé une certaine lenteur dans le traitement des messages. A tel point que les tests n’ont pu être effectués que sur l’échantillon de secours (1717 messages), les essais faits avec l’échantillon n°1 se révélant trop longs. En moyenne, 3 messages auront été traités par seconde au cours de nos tests effectués sur un AMD Sempron 3000+ doté de 768Mo de mémoire vive.

Ce problème de performance limite l’utilisation d’un tel outil aux petites voire moyennes Entreprises. Quant aux grandes sociétés, elles se tourneront vers des solutions plus à même de traiter plusieurs dizaines, voire centaines de messages par seconde.

2.1.7 Résultats obtenus

Le test réalisé a consisté dans un premier temps à soumettre à l’anti-spam l’échantillon n°1 constitué de quelques 1717 messages. Une fois cela réalisé, les messages sont téléchargés depuis un client de messagerie, lequel est configuré pour ne pas effacer les messages du serveur, tant que ceux-ci ne sont pas envoyés dans la corbeille (du client de messagerie, ici Mozilla Thunderbird).

Une fois reçus, les messages ont fait l’objet d’un tri : on ne retire que les courriers légitimes. Il ne nous reste donc sur le serveur que les spams, que l’on soumet à une commande de spamassassin afin de lui indiquer qu’il s’agit d’un échantillon de spam. Ce dernier peut ainsi mettre à jour ses calculs bayésiens en ce qui concerne les courriers indésirables.

eric@smtp:~> sa-learn --spam --mbox /var/spool/mail/eric

On procède à la même opération en supprimant cette fois tous les spams de l’échantillon, et en indiquant à spamassassin le chemin de la mailbox de l’utilisateur contenant les courriers légitimes :

eric@smtp:~> sa-learn --ham --mbox /var/spool/mail/eric

Les résultats obtenus, avant et après apprentissage sont récapitulés dans le tableau suivant :

SPAMASSASSIN (filtre bayésien + SURBL + DCC)AVANT APPRENTISSAGE1 APRES APPRENTISSAGE

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

806 35.68% 76 100% 21552 48.32% 0 0%

1 Les résultats de la colonne ‘avant apprentissage’ proviennent du test de l’échantillon n°1 (1717 messages).M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

63

On relativisera toutefois le résultat moyen obtenu, SpamAssassin étant connu pour son efficacité sur le long terme, après longue une période d’apprentissage. Nos 1717 messages ont semble-t-il constitué un échantillon trop petit pour augmenter de manière sensible l’efficacité du filtre. D’autres filtres bayésiens (quoique SpamAssassin ne soit pas qu’un filtre bayésien) nécessitent moins d’apprentissage, à l’image de Bogofilter que l’on teste dans la section suivante.

2.2 Solutions de Microsoft

2.2.1 Filtre intégré à Outlook 2003

Microsoft Outlook 2003 est un client de messagerie intégrant par défaut un filtre de courrier indésirable. Celui-ci est simpliste et probablement basé sur un filtre bayésien1. Le filtrage peut se faire selon 3 niveaux de détection :

Faible : le filtre élimine le courrier de manière à éviter les faux positifs, quitte à ce que de nombreux faux négatifs ne soient pas détectés.

Elevée : le filtre élimine un maximum d’emails avec un risque d’augmenter le nombre de faux positifs.

Listes approuvées uniquement : permet l’utilisation de listes blanches (listes d’adresses emails désignées par l’utilisateur comme étant fiables).

Les tests effectués démontrent l’importance de l’apprentissage. Celui-ci est nécessaire pour que le filtre apprenne correctement à reconnaitre les spams des hams.

Les 2 tests ont consisté d’une part, à relever le nombre de spams détectés ainsi que le nombre de faux positifs sans avoir effectué d’apprentissage. Un autre test est effectué de manière indépendante après avoir utilisé un premier échantillon de 1747 messages (1641 spams, 76 hams). Après apprentissage, les résultats sont ainsi nettement meilleurs, à condition biensûr que la suite Office soit bien à jour (les mises à .jour incluent des règles de filtrage du courrier indésirable).

FILTRE D’OUTLOOK 2003AVANT APPRENTISSAGE APRES APPRENTISSAGE

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

3649 8.18% 0 0% 40587 91.00% 0 0%

On notera par ailleurs qu’après l’installation du Service Pack 1, Microsoft Outlook 2003 intègre un filtre basé sur l’origine des courriers reçus : il est ainsi possible de considérer tous les messages provenant de domaines étrangers (dont l’extension du nom de domaine n’est pas .fr par exemple), ou encore de filtrer en fonction de la langue détectée dans le message (ex : ne retenir que les emails en Français et Italien).

Enfin, un filtrage par mot clé (dans l’entête du message, son corps ou bien dans l’adresse de l’expéditeur) permettra aux utilisateurs d’affiner les critères de détection des pourriels en redirigeant ceux-ci vers un répertoire précis (faisable grâce aux ‘Règles et alertes’).

1 Aucun document décrivant les techniques de filtrage de ce filtre n’a été trouvé.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

64

2.2.2 Filtre intégré à Outlook 2007

Microsoft Outlook 2007 est un client de messagerie proposant un filtre anti-spam amélioré par rapport à celui d’Outlook 2003, bien qu’il repose, tout comme ce dernier, sur l’utilisation de la technologie Microsoft SmartScreen.

Selon [MIC 07], cette technologie se base sur la classification messages (spams / légitimes) des utilisateurs du service Hotmail (proposé par Microsoft) pour affiner son filtrage Bayésien. En plus de cela, un effort tout particulier a été fait quant à la détection des sites de phishing, avec désactivation des URL contenues dans le corps du message et éventuellement avec déplacement vers le dossier de courriers indésirables (il ne s’agit pas d’une obligation, l’action dépendant du score obtenu lors du filtrage Bayésien).

Les 3 niveaux de protection proposés sont les mêmes que pour la version 2003 (cf section précédente). Le niveau utilisé lors des tests est celui par défaut, et voici ci-dessous les résultats obtenus avant et après optimisation du filtre :

FILTRE D’OUTLOOK 2007AVANT OPTIMISATION APRES OPTIMISATION

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

41602 93.27% 0 0% 41842 93.81% 4 1.79%

Enfin, tout comme pour Outlook 2003, un filtrage par mot clé (dans l’entête du message, son corps ou bien dans l’adresse de l’expéditeur) permettra aux utilisateurs d’affiner les critères de détection des pourriels en redirigeant ceux-ci vers un répertoire précis (faisable grâce aux ‘Règles et alertes’).


65

2.3 SpamPal

SpamPal est un petit logiciel laissé à l’abandon pendant plusieurs années mais dont un certain nombre de développeurs s’est récemment porté volontaire pour le maintenir à jour. La dernière version datant d’Octobre 2005, on est en droit de s’interroger sur l’intérêt de tester ce logiciel.

La réponse est simple : SpamPal permet de tester plusieurs méthodes de détection des spams, et en l’occurrence c’est celui-ci qui nous servira à tester les différentes DNSBL les plus connues, afin de comparer les performances de celles-ci et tirer un bilan quant à cette technique de détection.

SpamPal est disponible sous Windows, et fait office, en quelque sorte, de proxy entre le client de messagerie et le serveur POP/POP3S/IMAP ou IMAPS.

Le client de messagerie doit être configuré pour aller chercher ses messages à l’adresse 127.0.0.1, et le nom d’utilisateur doit être suivi du caractère ‘@’ suivi du nom ou de l’adresse réelle du serveur POP/POP3S/IMAP ou IMAPS.

Le client de messagerie transmet les requêtes à SpamPal, lequel relaie les demandes aux serveurs, puis procède à une vérification de l’adresse IP de l’expéditeur de chaque message et marque le sujet du message (ex : [SPAM]) si la réponse du serveur gérant la DNSBL pour lequel il a été configuré indique qu’il s’agit de l’adresse IP d’un spammeur.

Un tableau récapitulatif de toutes les DNSBL testées est disponible ci-dessous :


66

COMPARATIF DE PLUSIEURS DNSBLNom Adresse de la

BlacklistCommentaire Spams

détectés%spams détectés

Faux négatifs

%faux négatifs

Faux positifs

%faux positifs

ZEN zen.spamhaus.org 30457 68.28% 14146 31.72% 1 0.45%

Spamcop bl.spamcop.net 22570 50.60% 22033 49.40% 0 0%

FIVETEN blackholes.five-ten-sg.com

21443 48.08% 23160 51.92% 214 95.54%

APEWS l2.apews.orgBasée uniquement sur les adresses IP (utiliser l1.apews.org pour ne se base que sur les noms

de domaine).44602 99.99% 1 0.01% 214 95.54%

UBL ubl.unsubscore.com 22603 50.68% 22000 49.32% 3 1.34%

CBL cbl.abuseat.com 27666 62.03% 16937 39.97% 0 0%

PSBL psbl.surriel.com 25988 58.27% 18615 41.73% 0 0%

Figure 24 : Comparatif de plusieurs DNSBL

2.4 Contre-spam.com : externalisation d’un test de Turing

Il n’existe que quelques solutions permettant de filtrer le spam en demandant à l’expéditeur de répondre à un test de Turing. Il en existe néanmoins quelques-uns, lesquels nécessitent la souscription à un abonnement. Nous avons testé ainsi le service de contre-spam.com dont le principe est le suivant :

Les messages sont reçus et stockés dans la mailbox de l’utilisateur sur le serveur smtp.memoire-spam.info.

Lors de l’ouverture d’un compte sur contre-spam.com, les identifiants de cet utilisateur sont fournis.

Le serveur de contre-spam.com télécharge les messages stockés sur notre serveur de test grâce aux identifiants fournis.

Si l’expéditeur du message ne figure pas déjà sur notre liste blanche, on lui envoie par email un test de Turing qui consiste à lui demander de saisir une chaîne de caractère contenue dans une image. Si celui-ci retourne une réponse correcte, alors il est inscrit sur une liste blanche. Tout mail provenant d’une adresse n’étant pas sur cette liste blanche n’est pas délivré au destinataire tant que la réponse n’a pas été obtenue.

Voici les résultats obtenus, effectués avec deux échantillons indépendants1 du reste de notre étude, constitués respectivement de 1212 spams et 26 hams, puis de 1397 spams et 37 hams :

FILTRE PAR TEST DE TURING (contre-spam.com)AVANT APPRENTISSAGE APRES APPRENTISSAGE

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

1212 100% 8 30.77% 1397 100% 1 2.70%

On notera la détection de la totalité des spams, étant donné que les spammeurs créent ou usurpent certaines adresses, aucune réponse au test de Turing n’est envoyée et le spam reste donc en quarantaine. En revanche, avant apprentissage, 30.77% des messages sont des faux positifs. La raison est la réception d’une grande quantité de newsletters provenant d’adresses où personne ne répondra au test de Turing (ex : les adresses du type [email protected]). L’apprentissage consiste ici à déclarer directement (sur la liste blanche) depuis l’interface du site de contre-spam.com les adresses expéditrices de tels courriers. Et on constate clairement une diminution de faux positifs, puisque sur le second test n’en donne qu’un seul : un utilisateur légitime n’ayant toujours pas répondu au test de Turing.

1 Nous avons ici utilisé deux autres échantillons, la raison étant que les messages de l’échantillon de 44827 messages commençaient à dater et risquaient de surprendre les expéditeurs de recevoir un tel test plusieurs semaines après avoir procédé à l’envoi de leur message.


2.5 Trend Micro Internet Security Pro

2.6 Symantec

2.6.1 Norton Internet Security 2008

Solution avant tout destinée aux particuliers, Norton Internet Security 2008 a la particularité d’annoncer parmi ses fonctions par défaut, sa capacité à détecter les courriers indésirables. Or cette fonctionnalité ne sera possible qu’après téléchargement d’un ‘add-on’ sur le site officiel de l’éditeur.(http://service1.symantec.com/SUPPORT/INTER/norton2008-intl.nsf/fr_docid/20070906143212900)

Sans cet add-on, aucun filtrage ne sera effectué, même s’il est possible d’activer le filtre dans la console d’administration du logiciel.

NIS 2008 utilise un filtrage Bayésien nécessitant un apprentissage où l’on doit spécifier au logiciel dossier de courrier reçu contenant des courriers légitimes.

FILTRE DE NORTON INTERNET SECURITY 2008AVANT APPRENTISSAGE APRES APPRENTISSAGE

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

34777 77.97% 17 7.59% 38546 86.42% 4 1.79%

2.6.2 Brightmail


69

http://service1.symantec.com/SUPPORT/INTER/norton2008-intl.nsf/fr_docid/20070906143212900

2.7 Kapersky Internet Security 2009

Kapersky Internet Security est une solution (fonctionnant sous Windows XP SP2 / Vista) regroupant des fonctionnalités de lutte contre les virus, vers et autres logiciels malveillants tout en intégrant un firewall personnel. Avant tout destinée aux particuliers, cette suite logicielle nous intéresse dans le cadre de cette étude grâce à son filtre anti-spam proposant les filtres suivants :

Un filtre d’analyse par mots clés (dont la base de données est mise à jour depuis le site de Kapersky afin de ne retenir que les termes récents apparaissant dans les messages des utilisateurs de la solution).

Un filtre d’analyse de l’entête du message permettant de détecter toute anomalie.

Un filtre de détection des spams images (OCR).

Un filtre Bayésien.

Bien entendu, les messages contenant des virus ou des logiciels malveillants feront l’objet d’une suppression, et il en est de même pour les messages contenant des liens vers des sites Internet étant connus pour effectuer du phishing.

Kapersky Internet Security installera un plugin pour les clients de messagerie suivants :

Microsoft Outlook Express et Microsoft Outlook

Mozilla Thunderbird

The Bat!

Grâce à ce plugin, l’utilisateur peut, au fur et à mesure qu’il reçoit ses messages, signaler au logiciel la présence d’un spam non détecté, ou encore signaler un faux positif.

Cela rend les filtres activés adaptatifs en fonction de l’activité de l’utilisateur, permettant de maximiser la détection des courriers indésirables, tout en minimisant la détection des faux positifs. Ci-dessous, veuillez retrouver le résultat de nos tests, avec à gauche le score obtenu avant d’optimiser le filtrage, et à droite après l’avoir optimisé grâce à notre échantillon n°2 :

KAPERSKY INTERNET SECURITY 2009AVANT APPRENTISSAGE APRES APPRENTISSAGE

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

14374 32.23% 224 0% 321641 72.11% 2 0.89%

1 22389 déclarés comme Spam (50.20%), 9775 comme étant ‘Probable Spam’ (21.92%).M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

70

2.8 Filtre intégré à Mozilla Thunderbird

Mozilla Thunderbird est, après Microsoft Outlook, l’un des clients de messagerie les plus utilisés au monde. Disponible sur différentes plateformes (Windows, Linux), celui-ci intègre un filtre de courriers indésirables que nous avons soumis à notre test.

Avant apprentissage, ce filtrage Bayésien obtient un très mauvais score puisqu’il n’est pas capable de différencier les courriers légitimes de ceux qui ne le sont pas. Un temps d’apprentissage est ainsi nécessaire, et dont les résultats figurent dans le tableau suivant :

FILTRE DE THUNDERBIRDAVANT APPRENTISSAGE APRES APPRENTISSAGE

Spams détectés

%spams détectés

Faux positifs

%faux positifs

Spams détectés

%spams détectés

Faux positifs

%faux positifs

44603 100% 224 100% 39675 88.95% 5 2.23%


71

2.9 Spamihilator

Spamihilator est un logiciel conçu par un allemand, Michel Krämer, diffusé gratuitement. Celui-ci a la particularité de pouvoir intégrer plusieurs filtres sous la forme de plugins supplémentaire à installer1.La dernière version en date est la version 0.9.9.41 (22 Avril 2008) et fonctionne sous Windows XP/Vista/2003, avec la prise en compte de la quasi-totalité des clients de messagerie existants (Outlook 2003/2007, Thunderbird, Eudora, IncrediMail etc…).

Spamihilator joue le rôle de proxy entre le client de messagerie et le serveur. Il peut être configuré pour utiliser un ou plusieurs filtres (simultanément) différents dont :

Un filtre Bayésien Un filtre DCC Un filtre d’image (OCR) Un filtre par mots clés Un filtre des pièces jointes

D’autres filtres sont disponibles mais seuls les 3 premiers cités précédemment nous intéressent.

Le client de messagerie doit être configuré pour aller chercher ses messages à l’adresse 127.0.0.1, le nom d’utilisateur devant être de la forme <nom ou IP du serveur> & <login> (192.168.1.10&test lors de nos tests). C’est Spamihilator qui télécharge les messages dans leur totalité, avant de les restituer au client, ce qui peut générer un temps d’attente pour l’utilisateur.

Spamihilator présente l’intérêt d’être facilement configurable mais aussi évolutif. Il permet également de pouvoir sélectionner le filtre anti-spam à utiliser (indispensable pour nos tests) mais aussi d’utiliser simultanément plusieurs d’entre eux, permettant d’affiner le filtrage.

SPAMIHILATOR : filtre DCCSpams détectés %spams détectés Faux positifs %faux positifs

40500 90.80% 0 0%

1 Les versions les plus récentes proposent l’ajout de certains plugins lors de l’installation du logiciel.M.TAGLIAFERRI EricMémoire de rechercheESGI Promotion 2008

72

3. Autres solutions du marché (non testées)

3.1 Barracuda Spam Firewall

Disponible sous la forme d’appliances, la solution anti-spam de BARRACUDA NETWORKS, qui fait également office de pare-feu, est destinée aux Entreprises de toutes tailles. Celle-ci embarque plusieurs filtres permettant d’optimiser la détection des courriers indésirables.

Son analyse est ainsi basée sur l’utilisation des techniques suivantes, en plus d’une détection de virus et autres logiciels malveillants:

Filtrage bayésien adaptatif grâce à la maintenance d’une base (de calcul des probabilités qu’un message contenant un certain mot soit un spam ou un ham) par utilisateur (possibilité de signaler un message indésirable ou un courrier légitime grâce à un plugin s’installant sous Microsoft Outlook).

Analyse de la signature des emails

Détection des spams images

3.2 SpamWall

Les solutions de SpamWall sont des appliances dédiées à la détection des spams, faisant également office de pare-feu d’Entreprise. Tout message entrant est soumis aux tests suivants avant sa livraison dans la boite aux lettres de l’utilisateur destinataire :

Vérification de l’adresse IP de l’expéditeur (utilisation de DNSBL) pour déterminer si celle-ci a déjà été signalée comme étant source de spam.

Analyse antivirus

Recherche de l’adresse email de l’expéditeur dans une liste blanche (et éventuelle remise du message).

Analyse de la signature du message

Filtrage heuristique

Filtrage bayésien

Cette succession de tests assure une détection optimale des courriers indésirables, en détectant, selon l’éditeur, 98% des courriers indésirables, avec un taux de faux positifs quasi nul (à 0.1%).


73

3.3 Kapersky Anti-Spam 3.0

Solution destinée aux Entreprises, Kapersky Anti-Spam 3.0 s’installe sur un serveur sous Linux afin de filtrer les messages avant qu’ils ne soient livrés aux utilisateurs. Celui-ci se base sur l’utilisation de plusieurs techniques de filtrage afin d’améliorer ses résultats :

Utilisation de listes noires de type DNSBL.

Utilisation de listes noires de type SURBL (également appelées URI DNSBL).

Un filtre d’analyse de l’entête du message permettant de détecter toute anomalie.

Un filtre d’analyse de signature des messages.

Détection des spams images.

Tout message non identifié à 100% comme étant un spam fait l’objet d’une requête UDS (Urgent Detection System), technologie propre à Kapersky, lequel est comparé aux modèles les plus récents de spams.

3.4 Solutions pour Lotus Notes

Les solutions anti-spam décrites jusqu’ici ne concernaient que des serveurs de messagerie sous Microsoft Exchange ou autres solutions telles que Postfix, Sendmail etc…

Il en existe également pour Lotus Notes dont en voici une liste non exhaustive :

Les versions récentes de Lotus Notes intègrent en natif une fonctionnalité anti-spam.

PI X-AntiSPAM de PIXELIXIR.

SpamSentinel de MAYFLOWER SOFTWARE.

GFI MailEssentials est également compatible avec Lotus Notes.

Etc…

4. Tableau comparatif des différentes solutions anti-spam

Le tableau ci-dessous permet de confronter les différentes solutions anti-spam du marché aux techniques de détection existantes (liste non exhaustive), afin de visionner facilement quel logiciel implémente tel ou tel filtre (figure 25).


74

Figure 25 : Tableau comparatif des différentes solutions anti-spam

Logiciel Analysesignature

Bayes DNSBL Greylisting Heuristique ImagesX

OCR Sender-Id

SPF Turing

BarracudaBitDefender AntiSpam 7BrightmailCRM114

DCCContre-spam.com

FuzzyOCRKapersky

Anti-spam 3.0Kapersky

Internet SecurityKerio

Antispam 5 (SURBL)Pidmail

Poesia FilterPostfix

PostgreyPyzorRazorSieve

SpamAssassinSpamhilator

SpamPalSpamWall

Thunderbird

5. Confrontation des résultats obtenus triés pas solution

Le résultat de nos tests nous permet de classer les diverses solutions utilisées au cours de cette étude en fonction de leurs résultats. La classification est faite selon plusieurs critères :

La 1ère colonne ‘Place’ indique le rang qu’occupe la solution dans le classement en fonction de son taux de détection des spams. Plus ce taux est élevé, meilleure est la détection.

La seconde colonne ‘Place’ indique le rang qu’occupe la solution dans le classement dépendant du taux de faux positif détecté. Plus ce taux est bas, meilleure est la solution.

Solution %spams détectés

Place (spams détectés)

Faux positifs Place (faux positifs)

Contre-spam.com (Turing)

100% 1 2.70% 9

Outlook 2007 93.81% 2 1.79% 6

Outlook 2003 91% 3 0% 1

Spamihilator (DCC)

90.80% 4 0% 1

Thunderbird 88.95% 5 2.23% 8

Norton Internet Security 2008

86.42% 6 1.79% 6

Kapersky Internet Security 2009

72.11% 7 0.89% 5

SpamPal (DNSBL) 68.28% 8 0.45% 4

SpamAssassin 48.32% 9 0% 1

L’analyse du tableau précédent ne permet pas, pour l’instant, de tirer de conclusions quant à la solution la plus efficace. On remarque en effet que celle qui obtient le meilleur score en termes de détection des courriers indésirables est également celle générant le plus de faux positifs.

6. Confrontation des résultats obtenus triés pas technique de détection

Il est difficile de trier les résultats obtenus en fonction des techniques de détection employées, étant donné qu’il n’est pas rare qu’une solution soit basée sur plusieurs techniques de détection. Il ressort néanmoins de notre analyse que les solutions basées sur le filtrage de l’expéditeur obtiennent de très bons résultats en termes de détection des courriers indésirables. Le filtrage à base de tests de Turing obtient ainsi un score de 100% avant et après apprentissage, preuve que les techniques de contournement de ce genre de tests sont quasi-inexistantes.

L’analyse de signature obtient un score mitigé : encourageant avec Spamihilator, dont on notera qu’il était utilisé pour n’utiliser que cette technique de détection. En revanche, malgré l’utilisation de Razor2, SpamAssassin ne dépasse pas les 50%, et ce même avec le couplage avec un filtre heuristique et Bayésien.

7. Tentative de classement des solutions et techniques de détection

On l’a vu dans les deux parties précédentes, il est difficile d’établir un classement fiable en fonction de la technique de détection employée, ou en fonction de la solution en elle-même puisque celles obtenant le meilleur score en termes de détection des spams ne se retrouvent en général pas en haut du classement de celles obtenant le moins de faux positifs.

Ainsi nous avons décidé d’attribuer nous-mêmes des scores aux solutions, ceux-ci étant établis à partir des calculs suivants :

On garde le taux de détection des spams, ce qui nous donne une note sur 100 que l’on note TX_SPAM.

On considère que la détection d’un faux positif est 10 fois plus grave que la non-détection d’un spam. On multiplie donc le taux de détection des faux positifs par 10. On ôte à 100 la valeur obtenue, ce qui nous donnera un nombre que l’on notera TX_HAM.

On calcule ensuite la moyenne des deux valeurs calculées précédemment :

Les résultats figurent dans le tableau suivant :

Solution Score PlaceOutlook 2003 95.5 1

Spamihilator (DCC) 95.4 2

Outlook 2007 87.955 3

Contre-spam.com (Turing) 86.5 4

Norton Internet Security 2008 86.42 5

Thunderbird 83.325 6

SpamPal (DNSBL) 81.89 7

Kapersky Internet Security 2009 81.605 8

SpamAssassin 74.16 9


77

8. Synthèse des résultats obtenus

Maintenant que l’on connaît les résultats de cette étude, comment procéder à un choix aussi important qui impactera le travail de vos collaborateurs ?

En tout premier lieu, il faut savoir qu’une solution anti-spam parfaite n’existe pas. Tout simplement parce que les spammeurs ne cessent de s’adapter aux nouveaux filtres. Le choix doit donc se porter sur les solutions dont les mises à jour sont fréquentes. Ensuite, du fait de cette perpétuelle adaptation (il s’agit d’un cercle vicieux, on optera pour des solutions ne se basant pas que sur l’utilisation d’une seule technique de détection. Parmi les techniques efficaces actuelles, l’analyse de signature (avec DCC) permet de s’assurer de l’élimination d’une grande partie de spams. On peut également insister sur les bons scores de certaines DNSBL car celles-ci ne génèrent que peu de faux positifs. Ces deux techniques assurent au serveur de messagerie de se décharger de l’analyse du contenu d’un grand nombre de messages, d’où un certain gain en performance. Néanmoins, les temps de réponse des serveurs DCC ou de ceux gérant les DNSBL ajoutent un certain temps de latence entre l’envoi de la requête et la réponse à celle-ci, sans compter le surplus de trafic sur la connexion à Internet.

A l’opposé, le greylisting nécessite d’énormes besoins en termes de performance afin de pouvoir gérer correctement de nombreuses demandes de livraison de messages. Ce problème est d’autant plus vrai que nous avons vu dans la partie concernée que des serveurs implémentant ce type de filtrage étaient vulnérables à des attaques de type spoofing. Néanmoins, il s’agit d’une des meilleures techniques de filtrage en fonction de l’expéditeur, car permettant de rejeter les courriers indésirables émis par des PC Zombies, dont on rappellera qu’ils occupent une place majeure dans le nombre total de spams émis chaque jour dans le monde.

Il apparaît que des techniques relativement anciennes, telles que le filtrage Bayésien, sont encore indispensables. En effet, l’augmentation constante de la part des spams images dans le nombre total de spams émis chaque jour dans le monde amènent les solutions de reconnaissance de caractères dans les images à ensuite procéder à des calculs statistiques pour déterminer si le texte contenu dans l’image est bel un message indésirable. Et compte tenu des difficultés des logiciels OCR à détecter ce genre de textes dans des images parfois complexes, on peut être amené à penser que la part de ces spams devrait augmenter encore sensiblement pendant un bon moment.

Enfin, nos tests ont peu parlé de SPF et Sender-ID, lesquels peuvent être utilisés en amont afin là-encore d’épargner le serveur d’un filtrage conséquent avec des techniques de détection basées sur du filtrage de contenu.

Une solution optimale devrait ainsi autant que possible implémenter les techniques de détection suivantes, lesquelles sont réputées pour ne quasiment pas générer de faux positifs, et si possible dans un ordre semblable à celui-ci :

Un filtrage de l’expéditeur basé sur du greylisting ou l’utilisation de DNSBL (cette dernière étant recommandée).

Un filtrage de l’expéditeur basé sur le domaine de l’expéditeur (SPF / Sender-ID).

Un filtre de reconnaissance de caractères dans les images (OCR).

Un filtre Bayésien s’adaptant à l’activité de tous les utilisateurs.


78

Figure 26 : Combinaison de techniques pour un filtre optimum

Une autre solution actuellement intéressante à implémenter et ayant de l’avenir est celle à base de tests de Turing. Même si le nombre de faux positifs peut s’avérer élevé au début (personne ne répondra jamais à des tests de Turing envoyés à des adresses emails de newsletter), après une certaine adaptation à l’activité de l’utilisateur on constatera probablement les meilleurs taux de détection, pour un taux de faux positifs réduit autant que possible. A cet effet, on choisira une solution permettant de récupérer les adresses présentes dans son carnet d’adresses personnelles afin de les stocker sur une liste blanche (les possesseurs de ces adresses ne recevront jamais de tests de Turing, car acceptés par défaut).

Pour une implémentation optimale, on veillera à choisir une solution dont le test de Turing est envoyé en plusieurs langues, puis à sensibiliser les utilisateurs à de tels tests, afin de s’assurer que ces derniers répondront réellement au test. Le seul faux positif obtenu dans le cadre de cette étude (on notera que le faible échantillon utilisé a entrainé un fort taux de faux positifs, alors qu’il n’y en a en fait qu’un seul), l’a été à cause d’un utilisateur dont la langue maternelle est l’anglais…alors que le test de Turing était envoyé en Français. D’où la méfiance de ce dernier qui a préféré ne pas y répondre.

A ces deux solutions proposées (combinaison de techniques et tests de Turing), un filtrage effectué au niveau du client de messagerie de l’utilisateur affinera encore plus le processus d’isolement des indésirables.


79

IV. DISCUSSIONS ET HYPOTHESES

1. Les raisons du pessimisme actuel

Au fur et à mesure que de nouvelles techniques de détection des spams apparaissent, de nouveaux courriers indésirables apparaissent à leur tour les contournant. Ce cercle vicieux semble sans fin : selon [CLU 05], « une technique antispam perd au moins 50% de son efficacité tous les ans ». Le fait que la part du spam n’ait cessé de grandir au fil des ans, pour aujourd’hui représenter l’écrasante majorité des échanges, n’amène pas non plus à être optimiste. Mais ce phénomène croissant aura-t-il malgré tout tendance à se résorber ces prochaines années ?

A la lecture de nombreux documents, rapports, études dans le cadre de ce mémoire, le climat ambiant invite guère à l’optimisme.

2. Quel avenir pour le SPAM ?

De nombreux chercheurs en informatique réfléchissent encore et encore afin de trouver une solution optimale qui pourrait permettre à terme d’éliminer totalement ce phénomène de spam. Mais quand bien même serait-il impossible de techniquement l’éradiquer, ne pourrait-on pas mettre en place des mesures qui permettraient de dissuader ceux qui en sont à l’origine ?

La question est en réalité difficile à résoudre, tant il est difficile voire impossible d’homogénéiser les lois internationales afin que celles-ci appliquent les mêmes sanctions. D’ailleurs, encore faudrait-il que ce genre de lois soient appliquées lorsqu’elles existent. Mais comment condamner des spammeurs sachant que remonter jusqu’à eux relève d’une enquête nécessitant de gros moyens afin, par exemple, de retrouver qui contrôle un réseau de PC Zombies (botnet) émettant des courriers indésirables.

Le spam est en réalité un problème politique dans la mesure où lorsqu’une personne est identifiée comme étant un spammeur, le plus difficile reste à faire : le faire arrêter puis condamner.

Le spam a donc encore de beaux jours devant lui.

3. L’email payant, une solution utopiste ?

Nous avons vu que les spammeurs envoyaient en masse des courriers indésirables, aidés par le manque de mécanismes de protection du protocole SMTP. L’idée suivante a pu être partagée sur plusieurs forums de discussion relatifs à l’éradication des spams : en revoyant totalement le mode de fonctionnement de la messagerie actuelle, si chaque spam envoyé coûte 1 centime d’euro, alors tout spammeur souhaitant relayer ses messages devra débourser 10000€ pour 1 million de courriers indésirables. Cela rendrait impossible de procéder aux mêmes envois massifs que ceux que l’on rencontre aujourd’hui, tout en restant raisonnable en termes de coût, aussi bien pour les particuliers que pour les professionnels.

Il ne s’agit aujourd’hui que d’une simple proposition, qui se heurtera probablement à la réaction de nombreuses personnes (ex : associations de consommateurs, entreprises) ne voyant là qu’un simple moyen de faire payer plus l’internaute ou l’Entreprise utilisatrice de la messagerie, mais le débat a toutefois le mérite d’être ouvert.


80

CONCLUSION


81

BIBLIOGRAPHIE

[APA 08] Ensemble des tests réalisés par SpamAssassin disponible sur le site officiel de celui-ci :http://spamassassin.apache.org/tests_3_2_x.html

[CIP 08] Ciphertrust, site d’information sur la sécurité informatique. (http://www.ciphertrust.com)

[CLU 05] Sécurité de la messagerie, CLUSIF (http://www.clusif.asso.fr), 2005

[CRU 05] JMM. MARTINS da CRUZ. Filtrage de messagerie sur des gros serveurs.http://j-chkmail.ensmp.fr/papers/JRES2005-jchkmail-article.pdf

[CYB 08] SPAM – A Mail to kill, CYBEROAM, 2008.

[DIN 04] T. VAN DINTER, New and Upcoming Features in SpamAssassin v3

[DNS 08] Description générale du fonctionnement des DNSBL. http://en.wikipedia.org/wiki/DNSBL.

[GFI 07] Pourquoi le filtre Bayésien est la technologie anti-spam la plus efficace, (http://www.gfsfrance.com), 2007

[GRA 02] P. GRAHAM. A plan for spam. Août 2002.http://www.paulgraham.com/spam.html

[GRA 07] T. BRIAN GARNIER, SPAM and Anti-spam, 2007

[GRE 08] http://www.greylisting.orgSite dédié au greylisting contenant divers articles le concernant.

[HAR 03] E. HARRIS. ‘The Next Step in the Spam Control War: Greylisting’. Août 2003

[HOF 02] P. HOFFMAN de l’Internet Mail Consortium : ‘Allowing Relaying in SMTP: A Series of Surveys’. Août 2002.

[IET 08] J. LEVINE. Internet-Draft de l’IETF: ‘DNS Blacklists and Whitelists’.

[IND 05] J. SAIZ. Article sur les PC zombies pour le site INDEXEL.net.http://www.indexel.net/1_20_4128___/La_guerre_aux_PC_zombies_est_declaree.htm

[IVE 08] A. IVERSON. Site d’information sur les DNSBL : http://www.dnsbl.com

[KAP 08] KAPERSKY Lab. Descriptif de la solution Kapersky Anti-spam 3.0.http://www.kaspersky.be/fr/anti-spam

[KEL 07] N. KELLY, Le spam image, nouveau fléau de la messagerie, 2007 (http://mcafee.com)

[MAR 03] P. MARQUET. Ham, spam, graham. Document résumant l’algorithme de [GRA 02] pour calculer la probabilité d’un message d’être un spam.http://www2.lifl.fr/~marquet/ens/cu/hamspam.html

[MAS 04] J. MASON, Spam Forensics : Reverse-Enginneering Spammer Tactics, Toorcon 2004


82

http://www2.lifl.fr/~marquet/ens/cu/hamspam.html

http://mcafee.com/

http://www.kaspersky.be/fr/anti-spam

http://www.dnsbl.com/

http://www.indexel.net/1_20_4128___/La_guerre_aux_PC_zombies_est_declaree.htm

http://www.greylisting.org/

http://www.paulgraham.com/spam.html

http://www.gfsfrance.com/

http://en.wikipedia.org/wiki/DNSBL

http://j-chkmail.ensmp.fr/papers/JRES2005-jchkmail-article.pdf

http://www.clusif.asso.fr/

http://www.ciphertrust.com/

http://spamassassin.apache.org/tests_3_2_x.html

[MEA 06] Etude concernant l’usage du DNS dans le monde. Août 2006.http://dns.measurement-factory.com/surveys/200608.html

[MEA 07] Etude concernant l’usage du DNS dans le monde. Octobre 2007.http://dns.measurement-factory.com/surveys/200710.html

[MIC 07] Article sur le site de Microsoft traitant de la technologie SmartScreen.http://www.microsoft.com/protect/yourself/email/spam.mspx.

[NET 07] Article du site 01net traitant des PC Zombies.http://www.01net.com/editorial/340200/un-quart-des-pc-connectes-dans-le-monde-seraient-des-zombies

[NIS 07] M. TRACY, W. JANSEN, K. SCARFONE, J. BUTTERFIELD du NIST. Guide SP800-45 : Guidelines on Electronic Mail Security

[PIN 04] P.PINARD. La chaîne du spam.http://assiste.com.free.fr/p/spam/spam_023_chaine_du_spam.php

[RAS 08]B. RASLE. Le retour des morts-vivants ou quand les PC Zombies se mettent à retransmettre !http://www.cortina.fr/pc-zombies.php

[RFC 4406] RFC 4406 : Sender ID: Authenticating E-Mail (RFC expérimentale).J. LYON, MICROSOFT CORPORATION, M.WONG, pobox.com. Avril 2006.

[RFC 4407] RFC 4407: Purported Responsible Address in E-Mail Messages (RFC expérimentale).J. LYON, MICROSOFT CORPORATION. Avril 2006.

[RFC 4408] RFC 4408: Sender Policy Framework (SPF) for Authorizing Use of Domains in E-Mail, Version 1 (RFC expérimentale). M. WONG, W. WONHLITT, Avril 2006.

[RFC 821] RFC 821 : Simple Mail Transfer Protocol, 1982

[RHY 08] Site de RHYOLITE Software, concepteur du logiciel DCC :http://www.rhyolite.com/dcc

[SOP 08] SOPHOS : ‘Russia emerges as spam superpower, as Asia and Europe overtake North America’ : http://www.sophos.com/pressoffice/news/articles/2008/02/dirtydozfeb08.html

[SPA 08] Site officiel de la DNSBL Spamhaus.http://www.spamhaus.org

[SPF 08] Site officiel du projet OpenSPF : http://www.openspf.org

[SYM 08] SYMANTEC : ‘The state of spam : A monthly report – August 2008’http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_08-2008.en-us.pdf

[TAN 03] A. TANENBAUM. Systèmes d’exploitation. Editions PEARSON Education. 2nde édition.

[WSR 07] The Web Security Report, édition de Septembre 2007


83

http://eval.symantec.com/mktginfo/enterprise/other_resources/b-state_of_spam_report_08-2008.en-us.pdf

http://www.openspf.org/

http://www.spamhaus.org/

http://www.sophos.com/pressoffice/news/articles/2008/02/dirtydozfeb08.html

http://www.rhyolite.com/dcc

http://www.cortina.fr/pc-zombies.php

http://assiste.com.free.fr/p/spam/spam_023_chaine_du_spam.php

http://www.01net.com/editorial/340200/un-quart-des-pc-connectes-dans-le-monde-seraient-des-zombies

http://www.01net.com/editorial/340200/un-quart-des-pc-connectes-dans-le-monde-seraient-des-zombies

http://www.microsoft.com/protect/yourself/email/spam.mspx

http://dns.measurement-factory.com/surveys/200710.html

http://dns.measurement-factory.com/surveys/200608.html

ACRONYMES

ADSL Asymmetric Digital Subscriber LineAFA Association des Fournisseurs d’Accès et de Services Internet

BAL Boite Aux Lettres

DCC Distributed Checksum ClearinghousesDNS Domain Name SystemDoS Denial of ServiceDNSBL DNS BlackListDNSWL DNS WhiteList

FAI Fournisseur d’Accès à InternetFTC Federal Trade Commission

IETF Internet Engineering Task ForceIMAP Internet Message Access ProtocolIMAPS IMAP over SSLIP Internet Protocol

MAPS Mail Abuse Prevention SystemMDA Mail Delivery AgentMUA Mail User AgentMTA Mail Transfert AgentMX Mail eXchanger

OCR Optical Character RecognitionORB Open Relay BlacklistORDB Open Relay DataBase

POP Post Office ProtocolPOP3S POP3 over SSLPRA Purported Responsible Address.

RBL Real-time Blackhole ListsRFC Request For Comments

SHA-1 Secure Hash Algorithm (version 1)S.I Système d’InformationSMTP Simple Mail Transfer ProtocolSPF Sender Policy Framework

UDP User Datagram ProtocolURI Uniform Resource IdentifierURL Uniform Resource Locator


84

GLOSSAIRE

Botnet : Terme désignant un regroupement de PC zombies sous le contrôle de personnes malintentionnées.

DCC : (Distributing Checksum Clearinghouse). Terme désignant une technique de détection des spams par analyse de la signature d’un message.

DNSBL : (DNS BlackList) Terme désignant une technique de détection des courriers indésirables, utilisant une liste noire contenant les adresses IP signalées comme étant émettrices de spams.

Faux négatif : Terme désignant un message électronique considéré comme n’étant pas un spam alors qu’il en est un.

Faux positif : Terme désignant un message électronique considéré à tort comme un spam.

HAM : Terme désignant un message électronique légitime. Contraire de spam.

Maibox : Terme désignant un type de stockage des messages reçus par l’utilisateur, dans un seul et unique fichier appelé mailbox.

Mail Delivery Agent (MDA) : Programme exécuté sur le serveur de destination et qui a pour charge de récupérer le message de MTA de destination et de le stocker dans la BAL du destinataire.

Mail Transfer Agent (MTA) : Programme exécuté sur un serveur de messagerie ayant pour tâche de relayer les messages en provenance soit d’un Agent de Messagerie d’un Utilisateur (MUA) soit d’un autre agent de transfert (MTA), et à destination du prochain MTA, si la BAL n’est pas locale, ou à destination du MDA le cas contraire (ex de MTA : Microsoft Exchange, Postfix etc…).

Mail User Agent (MUA) : Programme exécuté sur un poste client ayant à charge la communication avec le serveur de messagerie afin de lui faire parvenir les messages à envoyer, mais aussi afin de récupérer ceux stockés dans la BAL de l’utilisateur (ex : Microsoft Outlook, Mozilla Thunderbird etc…).

SPAM : Terme désignant un message électronique non désiré par un utilisateur. Contraire de HAM.

Spambot : Programme ayant pour rôle la collecte d’adresses emails valides en parcourant le Web (sites Web, forums de discussion etc…).

Zombie : Terme désignant un ordinateur sous contrôle d’une personne malintentionnée, laquelle peut (entre autre) s’en servir pour relayer des messages indésirables.


85

ANNEXES

1. ANNEXE A : Principe d’un test de Turing


86

2. ANNEXE B : codes retour du protocole SMTP.


87

Documents

Ecole Supérieure de Génie Informatiqueerictagliaferri.free.fr/memoire2.doc · Web viewWindows 2003 Server Edition Standard 80Go Poste client servant aux tests des solutions clientes