38
UNIVERSITE DJILLALI LIABES SIDI BEL ABBES FACULTE DES SCIENCES DE L’INGENIEUR Département d’Informatique Master 2 La détection des spams 2014-2015 1

La détection des spam

Embed Size (px)

Citation preview

UNIVERSITE DJILLALI LIABES SIDI BEL ABBESFACULTE DES SCIENCES DE L’INGENIEUR

Département d’InformatiqueMaster 2

La détection des spams

2014-2015

1

Introduction générale

Data mining

Texte mining

Introduction sur le spam

Les catégories de spam

SOMMAIRE

Les techniques anti spam

Les solutions logiciels anti spam

Conclusion

implémentation du projet

2

Introduction

Les moyens de communication modernes ont connu ces dernières années une expansion massive.

Les entreprises voient dans ces nouveaux outils la possibilité d’améliorer de façon significative leur efficacité en communiquant toujours plus vite, de façon plus efficace et à des coûts toujours plus faibles.

Parallèlement à cette frénésie s’est développé un véritable fléau : le spam.

Le spam, connu en français sous les termes de « pourriel » ou « courrier indésirable », désigne une communication électronique non sollicitée.

La notion d'envoi de messages n'est pas nouvelle ; elle existait déjà sous la forme de publicités via la boîte aux lettres postale (fax, appel automatique de messageries téléphoniques...).

3

Data miningDéfinition

Ensemble de méthodes et de techniques qui permet d'extraire des informations à partir d'une grande masse de données.

il s'agit du processus de sélection, exploration, modification et modélisation de grandes bases de données

Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables.

4

Data mining Les étapes du processus Data Mining

Quel que soit le domaine d’application, une opération de datamining suit globalement un processus en huit étapes :

Comprendre le domaine d'applicationSélection d'un ensemble de données.Nettoyage des données.Choix des fonctionnalités : classification, consolidation, association, clustering.Choix de(s) l'algorithme(s) d'extraction.Data Mining: Recherche des motifs (patterns)Evaluation des patterns et présentation, visualisation, transformation, suppression Utilisation de la connaissance extraite.

1

5

Data miningLes algorithmes de datamining

Les algorithmes qui utilisé dans Data mining sont :

Naïve Bayes

ID3 et C4.5

K-means

KNN «k-nearest neighbors» 

EM pour Espérance-maximisation .

6

Data miningLes différents domaines

applications 

Marketing direct: population à cibler (profession, habitation, région, …) Gestion et analyse des marchés : Ex. Grande distribution : profils des consommateurs etc…

Détection de fraudes: Télécommunications, ...

Gestion de stocks: Ex. quelle quantité demander, …

Analyse financière

Gestion et analyse de risque: Assurances, Banques

Compagnies aériennes

Médecine et pharmacie

7

Text miningDéfinition

technique permettant d’automatiser le traitement de gros volumes de contenus texte pour en extraire les principales tendances et répertorier de manière statistique les différents sujets évoqués.

le texte mining peut être utilisé pour analyser le contenu des e-mails entrant ou les propos tenus sur des forums et médias sociaux.

8

Text miningLe processus du text mining 

Le text mining débute par la modélisation des textes en vue de leur préparation pour l’étape de Data mining

Le déroulement d’un processus Text Mining est tout à fait conforme à celui d’un processus KDD (Knowledge Data Discovry). C'est-à-dire trois phases distinctes :

Le traitement linguistique 

La lexicométrie

Le traitement des données 

9

Text miningLes étapes de TextMining

1.Sélection du corpus de documents•Documents pré-classés•Documents à classer2.Extraction des termes•lemmatisation•Filtrage des termes extraits3.Transformation4.Classification5.Visualisation des résultats6.Interprétation des résultats

10

Text miningLes différents domaines

applications 

Recherche d'information :

•Les moteurs de recherche tels Google ou Yahoo!.

Filtrage des communications :

•Beaucoup de gestionnaires de courriers électroniques sont maintenant livrés avec un filtre anti-spam.

Applications de sécurité :

•Le système mondial des communications privées et publiques exemple d'utilisation militaire .

11

Le spam

L’historique de Spam est née en 1994 lorsque deux juristes Américains effectuent le premier e-mailing de masse vers quelques milliers de destinataires afin de promouvoir leur société de conseil.

Introduction

12

DEFINITION

Le spam mot signifie courriers indésirables. Les e-mails non sollicités reçus par toute personne à son / sa boîte aux lettres sont appelés spam. Ces courriers indésirables sont généralement envoyés en masse pour la publicité et la commercialisation

13

A quoi ça sert

Nous sommes tous victimes de spam, qui vient polluer notre messagerie de manière non sollicitée.

Le lien "Spam" permet à la communauté de contrôler le nombre de commentaires indésirables laissés sur les vidéos envoyées ou visionnées.

14

Les catégories de spam

15

Spam email

Le spam définit le courrier électronique non-sollicité et Le contenu des emails spams peuvent variés

16

Spam emailLes bases de données d'adresses

une campagne d'envoi de spams doit toucher plusieurs millions d'utilisateurs.

Elle nécessite donc la constitution de gigantesques bases de données d'adresses e-mails. Plusieurs stratégies sont employées afin de constituer ces bases de données

17

Spam emailL'envoi des e-mails de spam

l’envoi des email de spam est devenu facile avec des logiciels et des scripts écris en php par contre dans les années 90

18

Spam emailOrdinateurs « zombies »

PC zombie est un ordinateur mal protégé qui a été infecté par un cheval de Troie, ces ordinateurs sont, le plus souvent, utilisés sans l'accord de l'utilisateur. Ces logiciels rendent extrêmement simple l'envoi de spams .

19

Spam email Messages similaires et systèmes de règles

Afin d'être efficaces ; les e-mails de spam doivent être envoyés en très grandes quantités. L'envoi d'aussi grandes quantités de messages similaires est détectable par les serveurs.

Cette méthode de détection est très efficace lorsque les messages envoyés sont identiques.

20

Spam email

Spam par image et le phishing

Le spam image est une forme de spam dans laquelle le texte du message est incorporé dans une image, de manière à contourner les systèmes de filtrage

Une autre forme un peu particulière de spam d'e-mail est le _ phishing _. Elle consiste à envoyer un e-mail à l'utilisateur visant à le diriger vers un faux site Web.

21

Le spam Web

Spam de mots-clés

Pour améliorer le classement des pages, les spammeurs utilisent ce que l'on appelle vulgairement le _ bourrage de mots clés _ pour lesquelles le spammeur désire que ses pages soient bien classées, sont insérées à la fois dans le contenu de la page,

22

Spam web Camouflage et redirections

rendre le contenu ajouté invisible à l'utilisateur.

servir un contenu différent aux moteurs de recherche et aux utilisateurs humains.

un contenu différent au moteur de recherche consiste à rediriger l'utilisateur vers la page contenant le vrai contenu du site Web.

23

Spam email

Fermes de liens

Une ferme de liens (en l'anglais link farm) est une méthode utilisée pour augmenter artificiellement l'importance d'un site ou d'un groupe de sites dans les moteurs de recherche.

24

Les techniques anti spam

les types des spam

Les messages d’émail se composent de deux sections principales :En tête : Structuré dans des champs tels que le sommaire, l'expéditeur, Le récepteur, et d'autres informations sur le émail.From: L'adresse d’émail de l'expéditeur du message.To: Les adresses d’émail des récepteursCC : Les adresses d’émail des récepteurs du message.Content type : Informations sur la façon dont le message doit être montré,Subject: le sujet ou un bref sommaire du contenu d’émail.Date: L'heure et la date locales où le message a été à l'origine envoyéContenu : Le message lui-même en tant que texte non structuré.

25

Les techniques anti spam

Texte Spam

From: " [email protected]  "To : Morsli nori ([email protected])Subject: Urgents Mettre à jour de vos informations personnelles Paypal.fr !Date: Dim. 20/01/13 10:31Content-Type: texte/plainDRS : Direction Régional de PayPal Cher (e) Client (e) PayPal :En procédant sur le serveur à un contrôle concernant les paiements effectuées, nous avons relevé l'erreur suivante :Ce mois-ci en date du 04/01/2013 vos frais mensuels d'abonnement ont été prélever en double ( 32.75 * 2) un montant de 67.50 Euro.A cet effet, vous êtes priés de vous rendre sur l'espace abonnée et remblaie le formulaire de demande de remiseen cliquant sur le lien ci-dessous pour bénéficier d'une remise immédiate.Appelez simplement ou Accéder votre formulaire en ligne en cliquant iciMerci pour votre compréhension.Aucune réclamation ne sera acceptée à défaut d'une réponse immédiate de votre part.dés réception de votre fiche nous vous contacterons sur le numéro que vous allez fournir.

Très Cordialement,Direction régional .

Tous vos emails en 1 clic avec l'application Mail sur i Phone et Android - En savoir plus.

26

Les techniques anti spam

Image Spam

from:"control@premier loan provider  "To : Morsli nori ([email protected])Subject: Earn moneyDate: Dim. 20/08/10 10:31Content-Type: image/plain

27

les techniques anti spam

Les techniques principaux

Liste noire RBL Jeffrey Posluns 2004 Une liste « noire » contient les adresses électroniques, les domaines et les adresses IP des expéditeurs (les serveurs qui ont déjà envoyé les spams) dont le courrier doit être bloqué.

28

les techniques anti spam

Les techniques principaux

Liste blanche Jeffrey Posluns 2004 La liste « blanche » contient les adresses des utilisateurs, les domaines et les adresses IP des expéditeurs dont les messages ne peuvent pas contenir de courrier indésirable

29

les techniques anti spam

Les techniques principaux

Pattern : Richard O. Duda , Peter E. Hart 2001 : un ensemble de règles de bons sens prévus pour identifier des caractéristiques spécifiques de Spam , pattern est faible et t il est difficile à penser quels mots les spammeurs utiliseront.

Par exemple : Tous les emails qui contient les mots : money, ou millionnaire… sont détectés spams.

30

les techniques anti spam

Les techniques principaux

Liste grise PRIGENT, Fabrice 2005 est une liste liée à la liste blanche et à la liste noire . Lorsqu’un message est reçu, le serveur crée un triplet formé de :l'adresse IP du serveur émetteurl’adresse email de l’expéditeurl’adresse email du destinataireSi ce triplet est déjà connu, le message est acheminé. Sinon, le message est

temporairement rejeté .

31

les techniques anti spam

Les techniques principaux

Vanne Thevenon, David 2002: La vanne est probablement l'une des manières les plus sensibles de combattre le Spam pour de petite taille aux fournisseurs de service moyens, car il n'arrête aucun courrier légitime d'entrer dans le réseau.

32

les techniques anti spam

Les techniques principaux

Adresse cachée Brian McWilliams 2004 : On doit cacher nos adresses des emails. on peut les modifier ou bien on met les sur des images au lieu de texte

33

les techniques anti spam

Les techniques principaux

Filtre Statistique Arnaud Doucet 2000 :

Utilise l’algorithme Bayésiens, Le filtre calcule des probabilités conditionnelles en fonction des informations observées (situées dans une base de données); chaque mot d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini comme indésirable ou non. Ce filtre est donc basé sur le théorème de Bayes.

L’idée principale de cet algorithme est qu’on doit calculer la probabilité spam ou ham d’un émail dépend à ses informations comme le sujet, l’adresse de l’éxpéditeur, et le contenu. .

34

les techniques anti spam

Les techniques principaux

Comment calculer la probabilité qu'un message contenant un mot donné soit un spam

La formule utilise pour déterminer la probabilité est dérivée du théorème de Bayes. Il s'agit, dans sa forme la plus générale, de :

35

Evaluationcomparaison entre les techniques

Observer tout le message

S’adapter fréquemment

S’entrainer par la base de donnée d’utilisateur particulier

Multilanguage et international

Defficile a tromper

Liste noire Non Non Oui oui NonListe blanche Non Oui Oui Oui NonPattern Oui Non Oui Non NonVanne Non Non Non Oui ouiAdresse cachée

Non Non Non Oui Non

Filtre statistique

Oui Oui Oui Oui oui

36

Les solutions logicielles anti

spam Solutions logicielles

Des logiciels supplémentaires sont disponibles pour aider à filtrer encore plus, en se référençant à des listes de spammeurs et de messages spams connus.Quelque logicels de filtrage: trend microScanMail, SpamAssasin, MailInBlack, GFI MailEssentials

37

Merci

38