5

Click here to load reader

Analyse du trafic p2p

Embed Size (px)

DESCRIPTION

En 2007, l'utilisation de réseau p2p pour télécharger des jeux, des vidéos ou des applications était encore d'actualité. L'objectif de cet article est de faire un point sur l'information que l'on pouvait en tirer et éventuellement cibler des entreprises pratiquant la veille sur ces réseaux.

Citation preview

Page 1: Analyse du trafic p2p

Analyse du trafic P2P In2Merge – Thierry HUET Page 1 sur 5

ANALYSE DES ECHANGES SUR LE RESEAU P2P

In2Merge – Thierry HUET

E-mail : [email protected]

Décembre 2007 – v0.0

Mots-clés : P2P, téléchargement, distribution, surveillance

Résumé : eMule n'est pas uniquement dédié au téléchargement de fichiers audio ou vidéo. On y trouve un grand nombre de documents partagés parfois par mégarde. C'est une bonne source de renseignement à la fois en matière de document mais aussi en matière d’habitudes liés aux utilisateurs de ce mode d’échange. Dans cet article, nous allons vous présenter des résultats concernant l’exploitation des données provenant des téléchargements.

I. INTRODUCTION

Nombre d’utilisateurs exploitent eMule (eMule) pour partager des fichiers audio et vidéo. Cependant, on peut aussi trouver des documents, des articles, des présentations dont la finalité, même si elle est parfois promotionnelle, permet de compléter une recherche sur internet. Au delà de cette démarche de recherche, il semble essentiel de faire un point sur les échanges réalisés avec cet outil.

Le livre blanc du P2P (SNEP, 2007) annonce que la France est le pays où « la proportion des internautes pratiquant le téléchargement y est élevé (>50%) ». Plus récemment, le rapport Olivennes (Olivennes, 2007), tout en confirmant les chiffres proposés dans le livre blanc, indique que des solutions techniques existent pour restreindre les contenus jugés illégaux. Il fait aussi des propositions pour réglementer le téléchargement. Il est pourtant important de rationaliser ces chiffres et les comparer à d’autres. Dans ce document, nous aurons l’occasion de comparer le téléchargement en France et dans d’autres pays européens.

II. LA COLLECTE D’INFORMATION

Le mode de fonctionnement d'eMule est simple. Après s'être connecté à un réseau de serveur, il suffit de faire une recherche en choisissant ses mots clés. A l'issue de la recherche est proposée une liste de fichier qu’il convient de choisir et de télécharger si besoin est. Quelques informations dont des commentaires sont proposées. Il est évident que le mot clé peut ne pas correspondre à l’information téléchargée. Le nom du fichier étant proposé par le propriétaire.

Deux protocoles sont utilisés pour diffuser ces informations. Le premier, eDonkey (eDo071) est basé sur la connexion d’un ordinateur « client » à un ordinateur « serveur ». Une fois qu'il est connecté au

réseau, le client peut rechercher des noms de fichiers par mots clés. La recherche peut être locale ou globale. Une recherche locale (seulement sur le serveur auquel est connecté le client), est plus rapide mais affiche moins de résultats. Une recherche globale (sur tous les serveurs du réseau), prend plus de temps mais offre plus de résultats. Chaque serveur vérifie les mots clés contenu dans sa base de données et retourne tous les noms de fichiers (ainsi que leur valeur de hachage) qui correspondent à ces mots clés. Le second, Kadmelia (Kad07) considère tout ordinateur connecté sur ce réseau comme un serveur. Quelles que soient vos recherches, noms de fichiers, sources de téléchargements ou autres utilisateurs, l'opération s'effectue de manière identique. Aucun serveur ne conserve la trace des clients ni des fichiers qu'ils partagent. Nous proposons de collecter des informations pour ensuite les analyser. (Gong, 2005) et (Myung-Sup, 2003) décrivent et proposent une méthode pour collecter et analyser les informations échangées. Nous nous baserons sur cette méthode pour collecter les informations. Nous capitaliserons le travail moyennant une recherche en utilisant les DNS afin d’associer un nom de pays et un propriétaire à chaque adresse IP.

Le mode opératoire est constitué de trois étapes. Premièrement, nous déterminons arbitrairement trois mots-clés plus ou moins significatifs sur Internet. Il faut que ces mots-clés soient les plus éloignés sémantiquement possibles. Nous choisissons « SHOM », « Windows » et « Clapton » : SHOM1

pour son aspect thématique très spécifique, peu connu hors de France ; Windows, pour son aspect attractif et universel ; Clapton… encore une fois pour son aspect thématique spécifique mais mieux répandu que le SHOM.

1SHOM : Service Hydrographie & Océanique de la Marine

Page 2: Analyse du trafic p2p

Analyse du trafic P2P

A. Les informations collectées

La collecte des informations a été réalisée sur plusieurs jours afin de pouvoir identifier des tendances. Aux vues de cette collecte, nous pouvons annoncer les chiffres suivants :

• 469248 connexions ont été obtenues en réalisant trois séries de 2 mconnexions représentent des accès au réseau eMule, Le reste est dédié aux connexions au réseau Kadmelia.

• 30002 adresses IP ont été identifiées. Ceadresses sont réparties en eMule, 29391 pour Kadmelia.

• 125 pays ont été identifiés. Ces adresses sont réparties en 12 pays pour eMule, pour Kadmelia.

B. La répartition des échanges

L’analyse de la provenance des connexions sous eMule (Cf. Figure 1) présente l’intérêt de démontrer la forte présence des États-Unis et d’Israël (on dénote tout de même une grande différence entre les deux paysprésence de la Hollande étant principalement due aux échanges avec le serveur auquel nous étions connectés.

Figure 1 - Provenance des connexions sous eMule pour 3 requêtes

Afin de normaliser les chiffres nous avons décidé de rapporter ces pourcentages au nombre d’internautes connectés par pays.

La valeur obtenue correspond alors à la proportion d’utilisateurs réalisant du téléchargement. Les graphiques représenteront alors les provenances des connexions par internaute.

En pondérant les chiffres à l’aide des données sur la pénétration d’Internet dans les pays concernés(Miniwatts Marketing Group), nous constatons que la proportion d’utilisateurs connectés à Internet et utilisant eMule est bien plus importante en Israël qu’en France (Cf. Figure 2). N’ayant pas d’information sur la nature des informations

FR

4%

US

71%

In2Merge – Thierry HUET

La collecte des informations a été réalisée sur plusieurs jours afin de pouvoir identifier des tendances. Aux vues de cette collecte, nous pouvons

connexions ont été obtenues en séries de 2 mesures. 4% des

connexions représentent des accès au réseau reste est dédié aux connexions au

adresses IP ont été identifiées. Ces adresses sont réparties en 148 adresses pour

pour Kadmelia. ntifiés. Ces adresses pays pour eMule, 123

L’analyse de la provenance des connexions sous eMule ) présente l’intérêt de démontrer la forte

Unis et d’Israël (on dénote tout de même une grande différence entre les deux pays). La présence de la Hollande étant principalement due

serveur auquel nous étions

nnexions sous eMule pour 3

Afin de normaliser les chiffres nous avons décidé de rapporter ces pourcentages au nombre d’internautes

La valeur obtenue correspond alors à la proportion d’utilisateurs réalisant du téléchargement. Les graphiques représenteront alors les provenances des

les chiffres à l’aide des données sur la pénétration d’Internet dans les pays concernés

nous constatons que la proportion d’utilisateurs connectés à Internet et

bien plus importante en Israël ). N’ayant pas

d’information sur la nature des informations

échangées et ne connaissant pas la règlementation en vigueur en Israël, il semble difficile d’émettre d’autres conclusions. Il faut seulement constater que l’écart dans les proportions est énorme.

Figure 2 - Provenance des connexions sous eMule pour 3 requêtes (chiffres pondérés)

Au-delà de ces comparaisons, ilque la vision du réseau eMule obtenue par cette méthode est « universelle ». Il n’est pas certain que, connecté au réseau en un autre lieu géographiquesur un autre serveur, la répartition soit pourra être l’objet d’une autre campagne de tests

Figure 3 - Provenance des connexions sous KadMelia pour 2 mesures

La Figure 3 présente les connexions au réseau KadMelia dans des conditions similaires à la mesure précédente pour les 15 pays les plus représeNous constatons que la Chine européens sont bien représentél’influence de la latence du réseau Internet sur les résultats. Plus les serveurs sont topologiquement distants, plus il devient difficile de s’y connec

Figure 4 - Provenance des connexions sous KadMelia pour 2 mesures (chiffres pondérés)

IL

16%

NL

7%

Autres

2%

NL

10%

US

6%

CN

30%

IT

19%

ES

14%

FR

9%

IT

16%

ES

17%

FR

8%

BR

3%

DE

2%IL

29%

Page 2 sur 5

échangées et ne connaissant pas la règlementation en vigueur en Israël, il semble difficile d’émettre

Il faut seulement constater que l’écart dans les proportions est énorme.

Provenance des connexions sous eMule pour 3

delà de ces comparaisons, il reste à démontrer ion du réseau eMule obtenue par cette

l n’est pas certain que, connecté au réseau en un autre lieu géographique ou

, la répartition soit identique Ce pourra être l’objet d’une autre campagne de tests.

Provenance des connexions sous KadMelia pour

te les connexions au réseau elia dans des conditions similaires à la mesure

pour les 15 pays les plus représentés. Nous constatons que la Chine et quelques pays

és. On peut soupçonner l’influence de la latence du réseau Internet sur les résultats. Plus les serveurs sont topologiquement distants, plus il devient difficile de s’y connecter.

Provenance des connexions sous KadMelia pour

FR

2%

IL

82%

BR

5%DE

4%IL

4%

PL

4% US

3%TW

2%KR

2% AR

1%CA

1%GB

1%

MY

1%

CN

4%

PL

8%

US

0%

TW

4% KR

1%AR

3% CA

2%

GB

1%MY

2%

Page 3: Analyse du trafic p2p

Analyse du trafic P2P

Ramené au nombre d’utilisateurs connectés, on retrouve Israël et les pays européens en tête de liste. En comparant cette information avec topologiques proposées par le CAIDAdiego Supercomputer Center, 2008)effectivement que les pays européens, Israël, l’Afrique du Sud et les pays russes sont dans le même espace.

C. Consistance des échanges

La mesure de la consistance vise à vérifier qu’une requête fournit les mêmes résultats quelque soit la date d’acquisition. Elle a été déterminée en comparant un même type d’échange à des dates différentes.

Figure 5 - Consistance d'une requête sous eMule SHOM

La Figure 5 représente les résultats obtenus pour trois requêtes identiques réalisées à trois dates différentes sur le réseau eMule. Nous constatons que les résultats sont identiques. La consistance pour les autres mots clés est de même nature.

Pour le réseau Kadmelia, la consistance est plus difficile à mesurer. En effet, le nombre de serveur visible varie avec le temps pour tendre vers une valeur qui semble constante (généralement½ heure de mesure, Cf. Figure 6).

Figure 6 - Recherche de stabilité pour le réseau Kadmelia

D. Latence du réseau

La mesure de la latence vise à déterminer le temps de réponse minimum pour obtenir une réponse exhaustive.

0%

10%

20%

30%

40%

50%

60%

70%

80%

CN FR IL NL PL TW

0

200

400

600

800

1000

0 100 200

In2Merge – Thierry HUET

Ramené au nombre d’utilisateurs connectés, on retrouve Israël et les pays européens en tête de liste. En comparant cette information avec les cartes topologiques proposées par le CAIDA (California' San diego Supercomputer Center, 2008), on constate

que les pays européens, Israël, l’Afrique du Sud et les pays russes sont dans le même

La mesure de la consistance vise à vérifier qu’une requête fournit les mêmes résultats quelque soit la date d’acquisition. Elle a été déterminée en comparant un même type d’échange à des dates

Consistance d'une requête sous eMule - Mot clé

représente les résultats obtenus pour trois requêtes identiques réalisées à trois dates différentes sur le réseau eMule. Nous constatons que les résultats

La consistance pour les autres mots

Pour le réseau Kadmelia, la consistance est plus difficile à mesurer. En effet, le nombre de serveur visible varie avec le temps pour tendre vers une

alement après une

Recherche de stabilité pour le réseau Kadmelia

La mesure de la latence vise à déterminer le temps obtenir une réponse

Sur la Figure 6, nous constatons aussi du réseau eMule est atteinte bien plus rapidement que celle du réseau Kadmelia. au vu des chiffres cités au paragraphe Amode de connexion. Pour effectuer une requête sur eMule, la distance topologique est plus courte donc plus rapide.

E. Comparaison des requêtes

Compte tenu des résultats obtenus précédemment, il est évident que toutes les requêtes effectuées sur réseau eMule fournissent le même résultat. La 7 confirme cette conclusion.

Figure 7 - Comparaison des résultats de requêtes sous eMule

Le résultat obtenu sur la Figure requêtes réalisées sous Kadmelia sont totalement différentes. D’une part, nous pouvons constater la diversité des connexions. Les serveurs espagnols, italiens, chinois et français représentent 50% des connexions. D’autre part, nous consrésultats varient avec le mot clé. Ce qui semble conforme au processus de fonctionnement du réseauchaque ordinateur connecté au réseau est un serveur. Celui-ci réagit en fonction de son contenu.

Figure 8 - Comparaison des résultats sous Kadmelia

L’intérêt pour tel mot clé est donc plus facilement exploitable

III. CONCLUSIO

Les résultats que nous avons obtenus confirment certaines idées que l’on peut avoir sur la diffusion d’information via ce type de medium. D’une pexiste bien de la demande quant à l’échange

US

Série 1

Série 2

Série 3

300 400

0%

10%

20%

30%

40%

50%

60%

70%

80%

CN FR IL NL PL

-

20

40

60

80

100

IT FR ES

CN

BR

DE IL PL

NL

TW US

Page 3 sur 5

constatons aussi que la stabilité du réseau eMule est atteinte bien plus rapidement

Ce qui semble évident au vu des chiffres cités au paragraphe A et au vu du

. Pour effectuer une requête sur eMule, la distance topologique est plus courte donc

Comparaison des requêtes.

Compte tenu des résultats obtenus précédemment, il est évident que toutes les requêtes effectuées sur le réseau eMule fournissent le même résultat. La Figure

Comparaison des résultats de requêtes sous

Figure 8 démontre que les requêtes réalisées sous Kadmelia sont totalement différentes. D’une part, nous pouvons constater la diversité des connexions. Les serveurs espagnols, italiens, chinois et français représentent 50% des connexions. D’autre part, nous constatons que les résultats varient avec le mot clé. Ce qui semble conforme au processus de fonctionnement du réseau : chaque ordinateur connecté au réseau est un serveur.

ci réagit en fonction de son contenu.

raison des résultats sous Kadmelia

L’intérêt pour tel mot clé est donc plus facilement

ONCLUSIONS

Les résultats que nous avons obtenus confirment certaines idées que l’on peut avoir sur la diffusion d’information via ce type de medium. D’une part, il existe bien de la demande quant à l’échange

TW US

Série 1

Série 2

Série 3

US

GB

AR

AT

Clapton

Shom

Windows

Page 4: Analyse du trafic p2p

Analyse du trafic P2P In2Merge – Thierry HUET Page 4 sur 5

d’information. Le nombre de pays touchés par ces échanges n’est pas limité à la France mais concerne majoritairement les pays de l’hémisphère nord (Cf. Figures 1 & 2).

Afin de juger de l’universalité de la mesure, il serait intéressant de comparer ces chiffres avec une autre série mesurée à une autre date pour identifier le caractère évolutif des téléchargements. De même, la vision que nous avons est de la France, connecté à un serveur aux Pays-Bas. Il serait intéressant de faire le même type de mesure dans un autre pays pour évaluer l’influence de la topologie du réseau sur les mesures.

L’analyse comparative des résultats obtenus sous eMule et sous KaMelia fait apparaitre deux types d’utilisation du réseau. D’une part, eMule fait apparaitre les relations entre les grands serveurs hébergeurs de requêtes et de données tandis que l’analyse de Kadmelia fait apparaitre les échanges d’information entre les utilisateurs. La localisation des serveurs démontre un hébergement majoritairement aux US. La France semble n’héberger que 4% des serveurs présents sur eMule pour un volume faible d’utilisateurs (2% des échanges mondiaux…). Sans vouloir justifier ni excuser les abus liés au téléchargement, il me semble important de comparer ces faits avec les conclusions du rapport Olivennes.

Quelques constatations sont à faire quant aux distributions des adresses IP. Nous avons constaté que des séries récurrentes d’adresses apparaissaient lors de requêtes sous eMule. Toutes proviennent de société prestataires de service sur Internet. Ce qui laisse penser que certaines pratiques peuvent être provoquées (audit, publicité, diffusion de masse). Bien évidement, à ce stade de l’étude, il est difficile d’affirmer quoi que ce soit mais on peut penser effectivement que certains prestataires sont utilisés pour faire ce type d’opération mais la consultation des connexions n’est pas suffisante pour l’affirmer.

Comment exploiter ces informations ? Le processus mis en place permet de faire un inventaire, une cartographie des pays utilisant cette technologie. Un observatoire du téléchargement mondial pourrait être mis en place. Les figures 3 & 5 montrent que vouloir utiliser eMule pour connaitre l’attractivité de tel mot clé n’est pas significatif. Par contre, sur KadMelia, il pourrait être possible de soumettre tel mot clé et de savoir quelle plage IP est intéressée. Un moyen comme un autre d’identifier des tendances, des signaux faibles cependant, pour des mots clés à faible utilisation, le risque est de tomber dans le bruit de fond des échanges. Il pourrait être utile de quantifier ce type d’approche et de comparer ces résultats avec des sources d’information fiables.

IV. ANNEXES

F. Suites récurrentes sous eMule – Requête SHOM

Plage d’IP Propriétaire Pays

38.107.161.47/63 Performance System International, Inc US

38.107.164.2/23 Performance System International, Inc US

67.159.44.102/190 FDC Servers.net, LLC US

72.172.89.117/135 Net2EZ US

83.149.104.122/125 Leaseweb NL

212.179.18.132/142 Bezeq International-Ltd IL

G. Suites récurrentes sur eMule – Requête Clapton

Plage d’IP Propriétaire Pays

38.107.161.47/63 Performance System International, Inc US

38.107.164.2/23 Performance System International, Inc US

67.159.44.102/182 FDC Servers.net, LLc US

72.172.89.117/135 Net2EZ US

83.149.104.122/125 Leaseweb NL

212.179.18.132/142 Bezeq International-Ltd IL

Page 5: Analyse du trafic p2p

Analyse du trafic P2P In2Merge – Thierry HUET Page 5 sur 5

H. Suites récurrentes sur eMule – Requête Windows

Plage d’IP Propriétaire Pays

38.107.161.47/63 Performance System International, Inc US

38.107.164.2/23 Performance System International, Inc US

67.159.44.102/182 FDC Servers.net, LLc US

72.172.89.117/135 Net2EZ US

83.149.104.122/125 Leaseweb NL

212.179.18.132/142 Bezeq International-Ltd IL

V. BIBLIOGRAPHIE

California' San diego Supercomputer Center. 2008. IPv4 Internet Topology Map. Cooperative Association for Internet data Analysis. [En ligne] San Diego Supercomputer Center, 01 2008. [Citation : 2008 07 29.] http://www.caida.org/research/topology/as_core_network/pics/ascore-simple.2008_big.png.

eDonkey2000. Wikipedia. [En ligne] [Citation : 17 12 2007.] http://fr.wikipedia.org/Wiki/Edonkey2000.

eMule. Site Officiel d'eMule. [En ligne] [Citation : 2007 17 12.] http://www.emule-project.net/home/perl/general.cgi?l=13.

Gong, Y. 2005. Identifying P2P users using traffic analysis. Security Focus. [En ligne] 21 07 2005. [Citation : 18 12 2007.] http://www.securityfocus.com/infocus/1843/1.

Kadmelia. Wikipedia. [En ligne] [Citation : 17 12 2007.] http://fr.wikipedia.org/wiki/Kadmelia.

Miniwatts Marketing Group. World Internet Usage Statistics News & World Population Stats. [En ligne] [Citation : 30 07 2008.] http://www.internetworldstats.com/stats.htm.

Myung-Sup, K., Hun-Jeong, K., & W., H. J. 2003. Towards Peer-to-Peer Traffic Analysis Using Flows. DSOM. [En ligne] 2003. [Citation : 17 12 2007.] http://dpnm.postech.ac.kr/papers/DSOM/03/P2P/camera-ready/L45.pdf.

Olivennes, Denis. 2007. Le développement et la protection des oeuvres. Paris : La Documentation Francaise, 2007. http://www.ladocumentationfrancaise.fr/rapports publics/074000726/index.shtml.

SNEP. 2007. Livre blanc sur le "peer to peer". PromusicFrance. [En ligne] 25 10 2007. [Citation : 17 12 2007.] http://www.promusicfrance.com/pdfs/LivreBlancP2P.pdf.