48
Panorama des problématiques de traitement de l’information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Panorama des problématiques de traitement de l’information

Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Page 2: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Conduite d’une étude statistique

Larbi Aït Hennani, maître de conférences en mathématiques

appliquées, IUT de Roubaix, Université Lille 2

Page 3: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Qu’est-ce que la Statistique ?

Petit Robert : Etude méthodique des faits sociaux par des procédés

numériques (classements, dénombrements, inventaires chiffrés, recensements) destinée à renseigner et à aider les gouvernements.

Ensemble de techniques d’interprétation mathématique appliquées à des phénomènes pour lesquels une étude exhaustive de tous les facteurs est impossible, à cause de leur grand nombre et de leur complexité.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 3

Page 4: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Qu’est-ce que la Statistique ?

« Statistique » : du latin statisticum (ce qui se rapporte à l’Etat)

Gottfried Achenwall (1746) : premier enseignement de la statistique (Allemagne)

En fait, origine plus ancienne : mot déjà utilisé dans un texte administratif de Colbert(vers 1666)

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 4

Page 5: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Qu’est-ce que la Statistique ?

XIVe siècle :

– Au début, la statistique a consisté à observer des faits : statistique descriptive

– Début des enregistrements des actes civils (naissances, mariages, décès)

XVIIe siècle :

– Probabilités estimations, prévisions

– Extrapolation à partir d’une partie de la population

– W. Petty: estimation de la population londonienne, 1686

• Juger d’après un échantillon:(problème de la représentativité)

• Statistique inférentielle

XXe siècle : développement des sondages (U.S.A.)

– 1885 : création de l’Institut International de la Statistique

– 1895 – 1925 : débat sur la représentativité

• A. Kiaer (Norvège) : « une partie pour le tout »

• Réactions violentes

– Après 1925 : « Comment tirer l’échantillon ? »

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 5

Page 6: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Qu’est-ce que la Statistique ?

La statistique fait partie de la culture anglo-saxonne

Culture probabiliste indispensable

Enorme retard en France

Causes :

Statistique: parent pauvre des probabilités et des mathématiques

L’«incertain» est antipédagogique (déstabilisant …)

Nette préférence pour l’enseignement de certitudes

Association obligatoire avec une autre discipline (biologie, gestion,...), cette approche pluridisciplinaire est encore mal acceptée

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 6

Page 7: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Qu’est-ce que la Statistique ?

La statistique est une discipline :

– Dans son sens actuel, elle est considérée comme un ensemble d’outils et de méthodes qu’on utilise pour étudier des phénomènes.

– A ne pas confondre avec les statistiques qui sont les données sur lesquelles on travaille ou les résultats qu’on obtient quand on applique les méthodes statistiques.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 7

Page 8: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Comment conduit-on une étude statistique ?

Une étude statistique peut être décomposée en 10 étapes :

Réception de la demande ou du cahier des charges

Réalisation d’une étude de faisabilité

Réalisation d’une étude exploratrice (documentaire, quantitative)

Définition des objectifs de l’étude

Détermination des informations à rechercher

Détermination de la population

Collecte de l’information

Traitement de l’information

Analyse des résultats

Synthèse et rédaction du rapport

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 8

Page 9: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Comment conduit-on une étude statistique ?

Le rassemblement des données se fait soit par expérimentation soit par observation.

L’analyse statistique se subdivise en deux parties : – l’une descriptive – l’autre inductive

L’analyse descriptive a pour but de résumer et de présenter les données sous forme telle que l’on puisse en prendre connaissance aisément (sous forme de tableau ou de graphique) et d’en dégager les caractéristiques essentielles.

La statistique inférentielle (inductive) permet de généraliser sous certaines conditions les résultats ainsi obtenus.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 9

Page 10: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Qu’est ce que la statistique descriptive ?

Elle peut être définie comme l’instrument qui permet de données un sens à l’information recueillie.

Elle rassemble et condense les informations pour dégager les caractéristiques essentielles qui se dissimulent dans une foule de données.

Les différentes méthodes qui permettent d’atteindre cet objectif peuvent être définies en fonction du nombre de variables qui vont être considérées simultanément.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 10

Page 11: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

La statistique descriptive Son but est de synthétiser, résumer, structurer l’information contenue

dans les données. Elle utilise pour cela des représentations de données sous forme de

tableaux, de graphiques, d’indicateurs numériques. Elle s’est enrichie de techniques de visualisation de données

multidimensionnelles. Son rôle est de mettre en évidence les propriétés de l’échantillon et de

suggérer des hypothèses.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 11

Page 12: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Analyse des données

~ Régression linéaire simple et multiple ;

~ Analyse de la variance à un facteur ;

~ Analyse de la variance à deux facteurs ;

~ Segmentation ;

ACP (Analyse en Composantes Principales) ~ Analyse discriminante ;

AFC (Analyse Factorielle des Composantes) ~ Analyse des mesures conjointes ;

ACM (Analyse factorielle des Composantes Multiples) Analyse typologique : ~ Analyse canoniques.

~ Classification hiérarchique,

~ Classification non hiérarchique.

Analyse factorielle Classification

Analyse des données

Méthodes explicativesMéthodes descriptives

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 12

Page 13: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Statistique inférentielle

Son but est d’étendre les propriétés constatées sur l’échantillon à la population tout entière et de valider ou d’infirmer des hypothèses a priori ou formulées après une phase exploratoire.

Le calcul des probabilités y joue souvent un rôle fondamental.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 13

Page 14: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

« Connaître, c’est mesurer » (Brunschvicg)

La statistique nous dit:

Comment effectuer les mesures

Comment extraire l’information des mesures

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 14

Page 15: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Information

Principale matière première du XXIe siècle

Sa production et son exploitation

statisticiens

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 15

Page 16: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Statisticiens

Statisticiens : interlocuteurs privilégiés des décideurs dans

tous les secteurs d’activité :

– politique économique

– sciences

– industrie

– …

et à tous les niveaux :

– collecte de données

– conception des systèmes d’information

– contrôle de la production

– analyse et restitution des données

– …

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 16

Page 17: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Domaines d’utilisation de la statistique

Statistiques officielles (I.N.S.E.E.) Presse – medias Banques – assurances Sciences de la vie Environnement ( foresterie, pêche …) Santé Sciences humaines Entreprises – industrie (contrôle de qualité, études de

marché, management, …) Finance Recherche fondamentale et appliquée …

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 17

Page 18: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

L’informatique décisionnelle (Business Intelligence) et nouveaux

enjeux : le Big Data

Fatma Bouali, maître de conférences en informatique, IUT de Roubaix,

Université Lille 2

Page 19: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Plan L’informatique décisionnelle (Business

Intelligence)

Le «Big data»

Exemples d’usage des « Big Data »

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 19

Page 20: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Informatique Décisionnelle

L’informatique décisionnelle (en anglais : BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent :

collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision

de permettre à un décideur d’avoir une vue d’ensemble (transversale) de l’activité traitée.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 20

Page 21: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Informatique Décisionnelle

Exemple d’une application « simple » en informatique décisionnelle : Homengo

Plusieurs sources de données :

Annonces immobilières

Données issues de l’open data ( Lycées, Parcs, Service Publics)

Données d’INSEE (Recensement, ..)

• Fournir à un individu des informations pour l’aider dans la décision du choix de son logement

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 21

Page 22: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Architecture Décisionnelle

Base de données

Fichiers

Transform

Load

Data Warehouse

Portail

Dashboard

Datamining

OLAP

Reporting

Collecter Exploiter Stocker Distribuer

Extract

Extract

Extract

Sources de données internes

Sources de données externes

Page 23: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Informatique Décisionnelle

Une enquête (Gartner Group) – menée dans le monde entier

– quatrième trimestre de 2012

– dans 41 pays

– 2053 entreprises

– 36 secteurs d’activités

a révélé que la première priorité des entreprises est : « Analystics and Business Intelligence »

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 23

Page 24: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Informatique Décisionnelle

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 24

Page 25: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Big Data

(Données massives)

Ensembles de données qui deviennent tellement gros qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données.

Volume

Vélocité Variété

• Une autre définition communément admise : celle des 3V volume, variété, vélocité [Gartner Group]

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 25

Page 26: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Big Data

2005 2006 2007 2008 2009 2010 2011

0

400

800

1200

1600

2000Exabytes

[source: The Diverse and Exploding Digital Universe, IDC 2011]

Volume : volumes traités sont dans l’ordre du péta-octet

Plus de données ont été créé ces 3 dernières années que pendant les 40.000 années précédentes

Tous les deux jours : masse de donnée produite = masse de données numérisée jusqu'en 2003

2011 dans le monde : 1,8 zéta-octets

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 26

Page 27: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Big Data

Variété

Données interpersonnelles communications électroniques, e-mails, réseaux sociaux…

Données d’interaction homme-machine : transactions comme les archives des cartes bancaires, des historiques de navigation web…

Données inter-machine : GPS, caméras de surveillance, géolocalisation, « compteurs intelligents » ….

4.6 milliards de téléphones-caméra

100 millions de GPS vendus

annuellement 76 millions de compteurs intelligents en 2009

200 millions prévus en 2014

30 milliards de RFID

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 27

Page 28: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Big Data

Vélocité : rythme de renouvellement et de défilement des données

45 milliards d’e-mails envoyés par jour

50 millions de tweets postés dans le monde.

165 millions de transactions bancaires quotiennes dans la zone euro

12 téra_octets de tweets chaque jour

25 téra_octets de données log générées tous les jours

? téra_octets de données générées

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 28

Page 29: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Nouvelles technologies, nouveaux

métiers, nouveaux enjeux… Nouveaux enjeux

Comment exploiter ces nouveaux volumes de données? Comment les stocker? Comment les traiter? Comment les visualiser? Nouvelles technologies Bases de données distribuées Traitement de données distribué Analyse d'événements en temps réel Cloud Computing

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 29

Page 30: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Source [MarkessInternational 2012]

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 30

Page 31: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Exemples d’outils utilisés dans le big data

apprentissage automatique apprentissage supervisé apprentissage non supervisé apprentissage de règles

d’association classification réseaux de Neurones analyse typologique algorithmes génétiques intégration de données Traitement du langage naturel reconnaissance des formes

statistique exploration de données séries chronologiques analyse de réseaux modélisation prédictive régression analyse des sentiments traitement de signal analyse spatiale simulation visualisation Le test A / B ..

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 31

Page 32: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Exemples d’applications du big data

Projet « Artemis » University of Ontario Institute of Technology : service de néonatalogie.

Recherche de solutions permettant l’analyse « à la volée » de grands volumes de données

– Anticiper les défaillances de nourrissons prématurés.

Mise en place d’une solution big data

Résultats & bénéfices :

– diminution significative du taux de mortalité

– détection avec 24 heures d’avance des défaillances des nourrissons prématurés

– augmentation du temps de réflexion et de réaction disponible pour les médecins face aux problèmes.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 32

Page 33: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Exemples d’applications du big data

Une marque d'équipements sportifs analyse le sentiment des consommateurs au travers des messages déposés sur 2 600 blogs pour comprendre si le bon message est véhiculé.

la ville d'Ottawa analyse des données météo pour placer en temps réel ses équipes urgentistes.

les opérateurs télécoms analysent les données de smartphones (géolocalisation, numéros appelés, sites visités) afin de pouvoir retrouver tout événement en moins de 30 minutes afin d'optimiser leurs réseaux.

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 33

Page 34: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Big Data : des milliers d’emplois en perspective

Etats-Unis : 190 000 postes d’« analystes BI » et de « data scientists » à pourvoir annoncés Source : [rapport McKinsey 2012]

France 20 000 à 30 000 postes

Aussi recherchés que les « traders »

« … Que ce soit dans la grande distribution, chez les opérateurs télécom ou dans le secteur public, on voit poindre un intérêt pour ces profils d’analystes BI ou big data à triple culture, informatique, modélisation mathématique et culture économique au sens large, qui n’auront pas forcément la même image que les traders, mais sont promis à un bel avenir »

Source : [http://www.lemagit.fr/economie/carriere] 2012

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 34

Page 35: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Analyse de données sur la réussite à la session 2010 du baccalauréat

par lycée Vincent Vandewalle, maître de conférences en mathématiques

appliquées, IUT de Roubaix, Université Lille 2

Page 36: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Tableau de données

Etablissement Ville

Code Etablissement Commune

Secteur Public=1 Privé=2

Effectif Présents série L

Effectif Présents série ES

Effectif Présents série S

Effectif Présents série STG

LYCEE HONORE DE BALZAC PARIS 0750705J 75117 PU 46 65 80 43

LYCEE SIMONE WEIL PARIS 03 0750651A 75103 PU 26 80

LYCEE TURGOT PARIS 03 0750647W 75103 PU 20 58 56 85

LYCEE VICTOR HUGO PARIS 03 0750648X 75103 PU 46 82

LYCEE CHARLEMAGNE PARIS 04 0750652B 75104 PU 34 203

LYCEE DES FRANCS BOURGEOIS PARIS 04 0753820V 75104 PR 16 76 93 21

LYCEE MASSILLON PARIS 04 0753824Z 75104 PR 47 37 52

LYCEE SOPHIE GERMAIN PARIS 04 0750653C 75104 PU 41 82 66 34

http://www.data.gouv.fr/DataSet/30377766

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 36

Page 37: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Détails du tableau de données

Indicateurs sur les résultats de lycées généraux et technologiques pour la session 2010 du baccalauréat : – Effectif des baccalauréats généraux et technologiques

par lycée

– Taux de réussite au baccalauréat

– Taux de réussite attendu au baccalauréat

– Taux d’accès baccalauréat

– Proportion de bachelier parmi les sortants

– …

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 37

Page 38: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Le nettoyage des données : une étape nécessaire mais délicate

ND signifie que la donnée est manquante

Les blancs peuvent signifier soit 0 soit une valeur manquante

Certains pourcentages suivis de la lettre a, b, (1) ou *

Certaines cellules avec uniquement une virgule

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 38

Page 39: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Exemples de questions

Comment se distribue le taux de réussite au baccalauréat ?

Y-a-t ’il une relation entre le taux de réussite au baccalauréat et l’académie ? et la filière ? et le secteur ?

Comment visualiser l’ensemble des lycées sur un plan en prenant en compte simultanément tous ces indicateurs ?

Peut-on construire des groupes de lycées homogènes vis-à-vis de ces indicateurs ?

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 39

Page 40: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Distribution du taux de réussite au baccalauréat

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 40

Page 41: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Lycées avec un pourcentage de réussite entre 99,5% et 100%

71 lycées avec un taux de réussite de 100%

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 41

Academie PARIS VERSAILLES CRETEIL AIX-MARSEILLE GRENOBLE LILLE NANTES LYON MONTPELLIER

Nombre de lycées avec 100% de réussite

17 15 10 5 5 4 4 3 3

Academie STRASBOURG NANCY-METZ TOULOUSE CAEN CLERMONT-FERRAND LA REUNION NICE

ORLEANS-TOURS RENNES

Nombre de lycées avec 100% de réussite

3 2 2 1 1 1 1 1 1

Page 42: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Lien entre le taux de réussite au baccalauréat et l ’académie

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 42

Page 43: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Taux de réussite au baccalauréat et l ’académie

Y-a-t’il une différence statistiquement significative entre les taux de réussite moyens des différentes académies ?

Modèle : 𝑌𝑖𝑗 = 𝜇 + 𝛼𝑖 +𝜀𝑖𝑗

– 𝑌𝑖𝑗 : taux de réussite pour le lycée 𝑗 de l’académie 𝑖

– 𝜇 : taux de réussite moyen

– 𝛼𝑖 : l’effet de l’académie 𝑖

– 𝜀𝑖𝑗 : terme de bruit

Test d’hypothèse : les 𝛼𝑖 sont-ils tous identiques ?

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 43

Page 44: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Visualisation de l’ensemble des lycées

5 variables :

– taux d’accès au bac après une seconde

– taux d’accès au bac après une première

– taux de réussite obtenu

– pourcentage de bachelier parmi les sortants de première, seconde, terminale

– pourcentage de bachelier parmi les sortants de terminale

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 44

Page 45: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Visualisation de l’ensemble des lycées

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 45

Page 46: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Visualisation de l’ensemble des lycées

Analyse en composantes principales (ACP) : recherche des axes de plus grande variance

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 46

Page 47: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Visualisation de l’ensemble des lycées

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 47

Corrélations entre les anciennes et le nouvelles variables

Page 48: Panorama des problématiques de traitement de l’informationiut-c.univ-lille.fr/fileadmin/user_upload/... · apprentissage automatique apprentissage supervisé apprentissage non

Construction de groupes de lycées homogènes

21/03/2013 Statistique et informatique, les deux piliers de l’aide à la décision 48