Upload
nour-el-houda-megherbi
View
168
Download
0
Embed Size (px)
Citation preview
UNIVERSITE DJILLALI LIABES SIDI BEL ABBESFACULTE DES SCIENCES DE L’INGENIEUR
Département d’InformatiqueMaster 2
La détection des spams
2014-2015
1
Introduction générale
Data mining
Texte mining
Introduction sur le spam
Les catégories de spam
SOMMAIRE
Les techniques anti spam
Les solutions logiciels anti spam
Conclusion
implémentation du projet
2
Introduction
Les moyens de communication modernes ont connu ces dernières années une expansion massive.
Les entreprises voient dans ces nouveaux outils la possibilité d’améliorer de façon significative leur efficacité en communiquant toujours plus vite, de façon plus efficace et à des coûts toujours plus faibles.
Parallèlement à cette frénésie s’est développé un véritable fléau : le spam.
Le spam, connu en français sous les termes de « pourriel » ou « courrier indésirable », désigne une communication électronique non sollicitée.
La notion d'envoi de messages n'est pas nouvelle ; elle existait déjà sous la forme de publicités via la boîte aux lettres postale (fax, appel automatique de messageries téléphoniques...).
3
Data miningDéfinition
Ensemble de méthodes et de techniques qui permet d'extraire des informations à partir d'une grande masse de données.
il s'agit du processus de sélection, exploration, modification et modélisation de grandes bases de données
Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables.
4
Data mining Les étapes du processus Data Mining
Quel que soit le domaine d’application, une opération de datamining suit globalement un processus en huit étapes :
Comprendre le domaine d'applicationSélection d'un ensemble de données.Nettoyage des données.Choix des fonctionnalités : classification, consolidation, association, clustering.Choix de(s) l'algorithme(s) d'extraction.Data Mining: Recherche des motifs (patterns)Evaluation des patterns et présentation, visualisation, transformation, suppression Utilisation de la connaissance extraite.
1
5
Data miningLes algorithmes de datamining
Les algorithmes qui utilisé dans Data mining sont :
Naïve Bayes
ID3 et C4.5
K-means
KNN «k-nearest neighbors»
EM pour Espérance-maximisation .
6
Data miningLes différents domaines
applications
Marketing direct: population à cibler (profession, habitation, région, …) Gestion et analyse des marchés : Ex. Grande distribution : profils des consommateurs etc…
Détection de fraudes: Télécommunications, ...
Gestion de stocks: Ex. quelle quantité demander, …
Analyse financière
Gestion et analyse de risque: Assurances, Banques
Compagnies aériennes
Médecine et pharmacie
7
Text miningDéfinition
technique permettant d’automatiser le traitement de gros volumes de contenus texte pour en extraire les principales tendances et répertorier de manière statistique les différents sujets évoqués.
le texte mining peut être utilisé pour analyser le contenu des e-mails entrant ou les propos tenus sur des forums et médias sociaux.
8
Text miningLe processus du text mining
Le text mining débute par la modélisation des textes en vue de leur préparation pour l’étape de Data mining
Le déroulement d’un processus Text Mining est tout à fait conforme à celui d’un processus KDD (Knowledge Data Discovry). C'est-à-dire trois phases distinctes :
Le traitement linguistique
La lexicométrie
Le traitement des données
9
Text miningLes étapes de TextMining
1.Sélection du corpus de documents•Documents pré-classés•Documents à classer2.Extraction des termes•lemmatisation•Filtrage des termes extraits3.Transformation4.Classification5.Visualisation des résultats6.Interprétation des résultats
10
Text miningLes différents domaines
applications
Recherche d'information :
•Les moteurs de recherche tels Google ou Yahoo!.
Filtrage des communications :
•Beaucoup de gestionnaires de courriers électroniques sont maintenant livrés avec un filtre anti-spam.
Applications de sécurité :
•Le système mondial des communications privées et publiques exemple d'utilisation militaire .
11
Le spam
L’historique de Spam est née en 1994 lorsque deux juristes Américains effectuent le premier e-mailing de masse vers quelques milliers de destinataires afin de promouvoir leur société de conseil.
Introduction
12
DEFINITION
Le spam mot signifie courriers indésirables. Les e-mails non sollicités reçus par toute personne à son / sa boîte aux lettres sont appelés spam. Ces courriers indésirables sont généralement envoyés en masse pour la publicité et la commercialisation
13
A quoi ça sert
Nous sommes tous victimes de spam, qui vient polluer notre messagerie de manière non sollicitée.
Le lien "Spam" permet à la communauté de contrôler le nombre de commentaires indésirables laissés sur les vidéos envoyées ou visionnées.
14
Spam email
Le spam définit le courrier électronique non-sollicité et Le contenu des emails spams peuvent variés
16
Spam emailLes bases de données d'adresses
une campagne d'envoi de spams doit toucher plusieurs millions d'utilisateurs.
Elle nécessite donc la constitution de gigantesques bases de données d'adresses e-mails. Plusieurs stratégies sont employées afin de constituer ces bases de données
17
Spam emailL'envoi des e-mails de spam
l’envoi des email de spam est devenu facile avec des logiciels et des scripts écris en php par contre dans les années 90
18
Spam emailOrdinateurs « zombies »
PC zombie est un ordinateur mal protégé qui a été infecté par un cheval de Troie, ces ordinateurs sont, le plus souvent, utilisés sans l'accord de l'utilisateur. Ces logiciels rendent extrêmement simple l'envoi de spams .
19
Spam email Messages similaires et systèmes de règles
Afin d'être efficaces ; les e-mails de spam doivent être envoyés en très grandes quantités. L'envoi d'aussi grandes quantités de messages similaires est détectable par les serveurs.
Cette méthode de détection est très efficace lorsque les messages envoyés sont identiques.
20
Spam email
Spam par image et le phishing
Le spam image est une forme de spam dans laquelle le texte du message est incorporé dans une image, de manière à contourner les systèmes de filtrage
Une autre forme un peu particulière de spam d'e-mail est le _ phishing _. Elle consiste à envoyer un e-mail à l'utilisateur visant à le diriger vers un faux site Web.
21
Le spam Web
Spam de mots-clés
Pour améliorer le classement des pages, les spammeurs utilisent ce que l'on appelle vulgairement le _ bourrage de mots clés _ pour lesquelles le spammeur désire que ses pages soient bien classées, sont insérées à la fois dans le contenu de la page,
22
Spam web Camouflage et redirections
rendre le contenu ajouté invisible à l'utilisateur.
servir un contenu différent aux moteurs de recherche et aux utilisateurs humains.
un contenu différent au moteur de recherche consiste à rediriger l'utilisateur vers la page contenant le vrai contenu du site Web.
23
Spam email
Fermes de liens
Une ferme de liens (en l'anglais link farm) est une méthode utilisée pour augmenter artificiellement l'importance d'un site ou d'un groupe de sites dans les moteurs de recherche.
24
Les techniques anti spam
les types des spam
Les messages d’émail se composent de deux sections principales :En tête : Structuré dans des champs tels que le sommaire, l'expéditeur, Le récepteur, et d'autres informations sur le émail.From: L'adresse d’émail de l'expéditeur du message.To: Les adresses d’émail des récepteursCC : Les adresses d’émail des récepteurs du message.Content type : Informations sur la façon dont le message doit être montré,Subject: le sujet ou un bref sommaire du contenu d’émail.Date: L'heure et la date locales où le message a été à l'origine envoyéContenu : Le message lui-même en tant que texte non structuré.
25
Les techniques anti spam
Texte Spam
From: " [email protected] "To : Morsli nori ([email protected])Subject: Urgents Mettre à jour de vos informations personnelles Paypal.fr !Date: Dim. 20/01/13 10:31Content-Type: texte/plainDRS : Direction Régional de PayPal Cher (e) Client (e) PayPal :En procédant sur le serveur à un contrôle concernant les paiements effectuées, nous avons relevé l'erreur suivante :Ce mois-ci en date du 04/01/2013 vos frais mensuels d'abonnement ont été prélever en double ( 32.75 * 2) un montant de 67.50 Euro.A cet effet, vous êtes priés de vous rendre sur l'espace abonnée et remblaie le formulaire de demande de remiseen cliquant sur le lien ci-dessous pour bénéficier d'une remise immédiate.Appelez simplement ou Accéder votre formulaire en ligne en cliquant iciMerci pour votre compréhension.Aucune réclamation ne sera acceptée à défaut d'une réponse immédiate de votre part.dés réception de votre fiche nous vous contacterons sur le numéro que vous allez fournir.
Très Cordialement,Direction régional .
Tous vos emails en 1 clic avec l'application Mail sur i Phone et Android - En savoir plus.
26
Les techniques anti spam
Image Spam
from:"control@premier loan provider "To : Morsli nori ([email protected])Subject: Earn moneyDate: Dim. 20/08/10 10:31Content-Type: image/plain
27
les techniques anti spam
Les techniques principaux
Liste noire RBL Jeffrey Posluns 2004 Une liste « noire » contient les adresses électroniques, les domaines et les adresses IP des expéditeurs (les serveurs qui ont déjà envoyé les spams) dont le courrier doit être bloqué.
28
les techniques anti spam
Les techniques principaux
Liste blanche Jeffrey Posluns 2004 La liste « blanche » contient les adresses des utilisateurs, les domaines et les adresses IP des expéditeurs dont les messages ne peuvent pas contenir de courrier indésirable
29
les techniques anti spam
Les techniques principaux
Pattern : Richard O. Duda , Peter E. Hart 2001 : un ensemble de règles de bons sens prévus pour identifier des caractéristiques spécifiques de Spam , pattern est faible et t il est difficile à penser quels mots les spammeurs utiliseront.
Par exemple : Tous les emails qui contient les mots : money, ou millionnaire… sont détectés spams.
30
les techniques anti spam
Les techniques principaux
Liste grise PRIGENT, Fabrice 2005 est une liste liée à la liste blanche et à la liste noire . Lorsqu’un message est reçu, le serveur crée un triplet formé de :l'adresse IP du serveur émetteurl’adresse email de l’expéditeurl’adresse email du destinataireSi ce triplet est déjà connu, le message est acheminé. Sinon, le message est
temporairement rejeté .
31
les techniques anti spam
Les techniques principaux
Vanne Thevenon, David 2002: La vanne est probablement l'une des manières les plus sensibles de combattre le Spam pour de petite taille aux fournisseurs de service moyens, car il n'arrête aucun courrier légitime d'entrer dans le réseau.
32
les techniques anti spam
Les techniques principaux
Adresse cachée Brian McWilliams 2004 : On doit cacher nos adresses des emails. on peut les modifier ou bien on met les sur des images au lieu de texte
33
les techniques anti spam
Les techniques principaux
Filtre Statistique Arnaud Doucet 2000 :
Utilise l’algorithme Bayésiens, Le filtre calcule des probabilités conditionnelles en fonction des informations observées (situées dans une base de données); chaque mot d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini comme indésirable ou non. Ce filtre est donc basé sur le théorème de Bayes.
L’idée principale de cet algorithme est qu’on doit calculer la probabilité spam ou ham d’un émail dépend à ses informations comme le sujet, l’adresse de l’éxpéditeur, et le contenu. .
34
les techniques anti spam
Les techniques principaux
Comment calculer la probabilité qu'un message contenant un mot donné soit un spam
La formule utilise pour déterminer la probabilité est dérivée du théorème de Bayes. Il s'agit, dans sa forme la plus générale, de :
35
Evaluationcomparaison entre les techniques
Observer tout le message
S’adapter fréquemment
S’entrainer par la base de donnée d’utilisateur particulier
Multilanguage et international
Defficile a tromper
Liste noire Non Non Oui oui NonListe blanche Non Oui Oui Oui NonPattern Oui Non Oui Non NonVanne Non Non Non Oui ouiAdresse cachée
Non Non Non Oui Non
Filtre statistique
Oui Oui Oui Oui oui
36
Les solutions logicielles anti
spam Solutions logicielles
Des logiciels supplémentaires sont disponibles pour aider à filtrer encore plus, en se référençant à des listes de spammeurs et de messages spams connus.Quelque logicels de filtrage: trend microScanMail, SpamAssasin, MailInBlack, GFI MailEssentials
37