Modules Tech : Apprendre des méthodes, des techniques et des logiciels (non spécifiques à un domaine d'application)
Titre Description Pré requis
Algorithmes pour la résolution de problèmes Modélisation de problèmes (graphes, programmes linéaires) et résolution par des approches algorithmiques (exactes, approchées, probabilistes)
Connaître un langage impératif (C, C++, Java, Python ou autre)
Introduction à Python pour le calcul scientifique
Introduction au langage Python. Découverte et prise en main de quelques bibliothèques spécialisées de calcul scientifique. aucun
Programmation paralléle + Programmation Multicoeurs= Programmation haute
performance
Comment paralléliser un problème pour une mise en oeuvre sur des architectures à mémoire distribuée (grappe de PCs, machines massivement paralléle) ou des machines à mémoire partagée (machine multicoeurs) ? Introduction à la programmation avec la librairie MPI et l'API OpenMP. Ce module inclut également une petite mise à niveau en programmation C.
Savoir programmer dans un langage impératif
Comment utiliser la puissance des GPU pour accélerer ses calculs ? Quels sont les parallélisations adaptées à ces architectures particulières ? Comment programmer pour des GPU ? Introduction à la programmation CUDA et OpenCL.
Savoir programmer dans un langage impératif
Introduction à l'analyse de données Analyse en composantes principales, Analyse factorielle discriminante et Classification. Sans
Data Mining avec le logiciel R
Introduction au langage R et aux outils de statistiques descriptives (“data exploratory analysis”) avec R 1. Méthodes de data mining multivariées pour données numériques ou qualitatives: Analyse en composantes principales (ACP), Analyse factorielle des correspondances (AFC), Analyse des Correspondances multiples (ACM) 2. Méthodes de classification (clustering) non supervisées (kmeans, classification hiérarchique, à base de modèles probabilistes de mélange) et supervisées (régression logistique,…). NB: Ce module s'intitule “Data Mining” (fouille de données) et pas “Big Data” car ces méthodes sont adaptées à des données éventuellement très volumineuses, mais qui “tiennent” dans un ordinateur courant, sans nécessiter de système ni de calcul distribué type Hadoop/MapReduce.
Sans (une connaissance de base du logiciel R et des statistiques
élémentaires est un plus)
Data Mining : Fondements et Outils Python
Introduction au Data Mining (types de données - tâches) - Classification supervisée : arbre de décision, classifieur bayésien, k-plus-proche-voisin, réseau de neurones, SVM, noyaux - Classification non supervisée : k-moyenne, hiérarchique, clustering spectral, méthodes fondées sur la densité - Quelques notions sur la recherche de règles d'association et de motifs fréquents. Utilisation d'un environnement de Data Mining développé en Python (Orange) et de librairies Python comme Scikit-learn. Importance du pré-traitement des données et de la validation des modèles
Sans. Une connaissance de Python peut être un plus mais
nous utiliserons principalement des packages Python et des fonctions prédéfinies de ces
packages.
Expérimentation numérique + Méthodes numériques pour la simulation =
Expérimentations numériques
La simulation numérique s'avère être aussi un véritable outil d'expérimentation dans bien des domaines. Ce module aborde deux méthodes que sont celles de Monte Carlo et celles de la dynamique moléculaire avec des applications vers le dépôt de couches minces, la théorie des votes, la biologie, l'écoulements des fluides, ... La pertinence des solutions obtenues sera examinée.
Connaissances en algorithmique/programmation
Dans ce module, on découvrira le logiciel libre Scilab, référence pour le calcul scientifique (syntaxe similaire à Matlab).On présentera et programmera des méthodes efficaces pour - résoudre un système d'équations linéaires - trouver les zeros d'une fonction- interpoler des mesures- calculer une intégrale - visualiser la solution d'une équation différentielleCe module pourra être complété par le module Expérimentation numérique qui abordera d'autres exemples d'applications.
Goût pour la programmation
Analyse de données par des cas pratiques
Apprendre à se servir de différents outils/concepts courants dans l'analyse de données, à partir de cas pratiques (cf. numerical recipes): propagation d'erreurs (bootstrap), tests d'hypothèse, régression linéaire (avec/sans erreurs), régression non-linéaire, estimation de spectres de Fourier, ...
Connaissances en algorithmique/programmation
Introduction au logiciel SAS Sans
Modèles de prévision avec séries temporelles
Rappel sur les outils usuels de modélisation des séries temporelles univariées stationnaires. Modèles de séries temporelles univariés à variables non stationnaires. La modélisation économétrique multivariée usuelle à l'aide des modèles vectoriels autorégressifs. Cointégration et modèles Vectoriels à Correction d’Erreurs.
Connaissance de la statistique inférentielle et de notions en
algèbre matricielle
Big Data avec SAS
Ce cours a pour objet l’étude d’un modèle d’apprentissage supervisé connusous le nom d’arbres de décision. Les méthodes d’agrégation des arbres de décisions, telles que les forêts aléatoires ou Random Forest (Breiman, 2001) et les méthodes de Boosting (Freund et Schapire, 1996) seront également abordées. Ces méthodes sont très utiles pour la prédiction dans le contexte des données massives. Le logiciel d’application est SAS.
Connaissance des méthodes de régression (MCO) et de classification (logistique)
Big Data avec Hadoop
Ce module, contenant une partie très pratique, a pour objectif de donner aux étudiants des connaissances solides dans la gestion, le stockage et la manipulation de grandes masses de données en utilisant le modèle MapReduce, le système de fichiers distribuées et différents frameworks BigData : Hadoop, Hbase, Hive Piglatin, et Giraph.
Connaissance de Java et de Linux
Modules Them : Utilisation des data sciences dans différents domaines des Masters participant à GSON
Titre du module existant Description Pré requis
Biologie : qu'analyse-t-on?
Nature, fonction et expression du génome. L'ADN, un code à 4 lettres formant des signatures. Séquençage de l'ADN, assemblage des morceaux et bar-coding. L'ARN, ne jamais travailler avec l'original. Traduire un ARN en protéine, règle et prédictions. La protéine, un code à 20 lettres formant des cassettes modulables. Séquence protéique : prédictions de structures et fonctions. Analyses de n séquences : alignements et motifs consensus. Phylogénie : évolution moléculaire, un arbre de distance.
Sans
Data sciences et langage
Dans ce module, nous initions les futurs data scientists aux pièges tendus par les langues naturelles et nous leur offrons quelques clés pour décoder efficacement le langage humain. Parmi bien d'autres choses, nous évoquerons avec vous :- Qui parle lorsqu’on parle ? (structuration des données massives en langues naturelles dans la perspective des humanités numériques),- Des oui qui veulent dire non — et très rarement des non qui veulent dire oui (Pour l'opinion mining notamment : de la prosodie à la sémantique),- « des poulets vifs et bien gras qu'on plume, qu'on coupe en morceaux, qu'on cuit et qu'on sert avec des légumes » (Problèmes d’extraction d'information, résumé automatique, etc... : la résolution automatisée des coréférences),- « si t'as soif, y a de la bière dans le frigo » /« c'était bon, mais c'était bon ! » — ou comment faire déprimer les logiciens (Connecteurs logiques en langues naturelles).
Sans
Du CRM (Management de la Relation Client) au BigData
Faire prendre conscience que l'organisation est fondamentalement immergée dans un ensemble de relations tant internes qu'externes, que ces relations s'alimentent grâce à de multiples données et informations qu'il est nécessaire d'identifier, de stocker, de structurer, d'analyser et d'exploiter, notamment en mobilisant des outils informatiques.
Connaissances fondamentales en marketing, systèmes
d'information et bases de données
Chimie informatique
Sélection, transformation et préparation des données chimiques et biologiques en données numériques ; Data Mining (analyse de chimiothèques, de bases de données publiques et analyse en composantes principales) ; Construction de modèles QSAR ; méthodes supervisées et non supervisées, méthodes de classification. Exemples de méthodes utilisées : k-NN, Neural Networks, k-means, hierarchical clustering, kohonen maps, SVM et SVR, PLS, RF. Application à la découverte de nouveaux médicaments.
connaissance de Python est un plus
Analyse de données par des cas pratiques
Apprendre à se servir de différents outils/concepts courants dans l'analyse de données, à partir de cas pratiques (cf. numerical recipes): propagation d'erreurs (bootstrap), tests d'hypothèse, régression linéaire (avec/sans erreurs), régression non-linéaire, estimation de spectres de Fourier, ...
Connaissances en algorithmique/programmation
Méthodologie de l'économétrie
Ce cours propose une présentation des notions et des méthodes statistiques/économétriques de base. Nous commençons par la distinction entre la statistique descriptive et la statistique inférentielle, et la présentation des principales mesures statistiques. Nous abordons ensuite les techniques d’estimation des paramètres, notamment les estimateurs ponctuels et les intervalles de confiance. Les paramètres inconnus font l’objet des tests statistiques, et la relation entre deux ou plusieurs populations (en termes de moyenne, variance, etc.) est aussi vérifiée à l’aide des procédures de tests paramétriques.La deuxième partie du cours porte sur les principes de l’estimation des modèles de régression simple/multiple avec des applications en finance. Les problèmes liés aux termes d’erreurs seront ensuite détectés via les tests d’hétéroscedasticité, d’autocorrélation et de normalité. Une analyse de la stabilité du modèle est aussi envisagée.
Statistiques/Proba et algèbre linéaire
Géomatique pour les géosciences
Géomatiques des ingénieurs des bureaux d’études ou des compagnies minières pour la modélisation des désordres environnementaux sur l’eau et les sols liés aux activités humaines en général ainsi que la modélisation et la gestion des données métallogéniques.
Sans
Droit de l'informatique Ce module se propose d'initier les futurs data scientists au droit lié à la gestion de l'information et de les sensibliser à la sécurité des pratiques utilisateurs. Sans