14
CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu Contact Florian CHABOT Tél +33 (0)1 69 08 02 88 E-mail [email protected] STAGE 2018 Réf : AS-18-S1 DETECTION D’OBJETS D’INTERET PAR RESEAUX DE NEURONES PROFONDS Présentation du laboratoire d’accueil Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie). Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition. Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs). Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène. Description du stage L’objectif principal de ce stage est de proposer un détecteur d’objets performant et rapide en utilisant des technologies d’apprentissage profond (Deep Learning) pour des applications allant de la vidéo-surveillance à la conduite autonome. La détection est une tâche indispensable pour comprendre la scène et permettre, par la suite, d’analyser de manière plus précise les objets (reconnaissance fine, segmentation d’instances, pose 3D…). Depuis quelques années, un grand nombre de méthodes efficaces basées sur les réseaux de neurones profonds ont été proposées afin de solutionner cette problématique [1, 2, 3, 4, 5]. Néanmoins, ces approches ne permettent pas encore d’apporter une solution unifiée pour répondre aux nombreuses difficultés de la détection : temps de calcul, détection des petits objets, robustesse aux occultations et aux troncatures…

DETE TION D’OJETS D’INTERET PAR RESEAUX DE … · Au cœu du Plateau de Saclay (Ile-de-F ance), l’institut EA LIST focalise ses eche ches sur les ... NS LES VUES DE DRONES AERIENS

  • Upload
    lamminh

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Florian CHABOT Tél +33 (0)1 69 08 02 88 E-mail [email protected]

STAGE 2018 Réf : AS-18-S1

DETECTION D’OBJETS D’INTERET PAR RESEAUX DE NEURONES PROFONDS

Présentation du laboratoire d’accueil

Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

L’objectif principal de ce stage est de proposer un détecteur d’objets performant et rapide en utilisant des technologies d’apprentissage profond (Deep Learning) pour des applications allant de la vidéo-surveillance à la conduite autonome. La détection est une tâche indispensable pour comprendre la scène et permettre, par la suite, d’analyser de manière plus précise les objets (reconnaissance fine, segmentation d’instances, pose 3D…). Depuis quelques années, un grand nombre de méthodes efficaces basées sur les réseaux de neurones profonds ont été proposées afin de solutionner cette problématique [1, 2, 3, 4, 5]. Néanmoins, ces approches ne permettent pas encore d’apporter une solution unifiée pour répondre aux nombreuses difficultés de la détection : temps de calcul, détection des petits objets, robustesse aux occultations et aux troncatures…

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Florian CHABOT Tél +33 (0)1 69 08 02 88 E-mail [email protected]

Dans le cadre de ce stage de recherche, le stagiaire aura pour première mission d’analyser les avantages et les inconvénients des approches récentes de la littérature. Dans un second temps, il devra proposer une méthode permettant de pallier une ou plusieurs faiblesses des approches de l’état de l’art. Cette méthode devra être validée par une évaluation quantitative sur plusieurs bases de données publiques consacrées à la détection. Enfin, il sera amené à intégrer sa solution dans les différents algorithmes du laboratoire, notamment dans le système Deep MANTA [6] dédié à l’analyse 2D/3D d’objets dans une scène routière.

Références

[1] “Faster-RCNN: Towards Real-Time Object Detection with Region Proposal Network”, Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. NIPS 2015

[2] “SSD : Single Shot MultiBox Detector”, Wei Lie, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. ECCV 2016

[3] “YOLO 9000: Better, Faster, Stronger”, Joseph Redmon, Ali Farhadi. CVPR 2017

[4] “Feature Pyramid Networks for Object Detection”, Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. CVPR 2017

[5] “Focal Loss for Dense Object Detection”, Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar. ICCV 2017

[6] “Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image”, Florian Chabot, Mohamed Chaouch, Jaonary Rabarisoa, Céline Teulière, Thierry Chateau. CVPR 2017

Niveau demandé : Ingénieur, Master 2

Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation. Compétences requises :

- mathématiques appliquées - vision par ordinateur - apprentissage automatique (deep learning) : une première expérience d’utilisation d’outils de

deep learning (Torch, Caffe, Tensorflow) est un plus - compétences informatique : C/C++, python

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Romaric AUDIGIER Tél +33 (0)1 69 08 40 86 E-mail [email protected]

STAGE 2018 Réf : AS-18-S2

ANALYSE DE FOULES DANS LES VUES DE DRONES AERIENS

Présentation du laboratoire d’accueil Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les

systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

L’analyse automatique de vidéos de foules demeure un défi en vision par ordinateur, principalement à cause de la complexité et de la diversité des scènes (densité des personnes, variété des interactions et occultations entre les personnes) et de la faible résolution des images. La caractérisation fine des comportements et des densités de foules est cependant essentielle lorsque l’on souhaite détecter les événements dangereux tels que les encombrements anormaux, les piétinements, les mouvements de panique, les bagarres, les chutes massives, etc. Pour pouvoir assurer la sécurité des personnes, réagir rapidement et porter secours lors de grands événements extérieurs (sportifs, culturels, …), les forces de sécurité et de secours ont parfois recours à des drones équipés de caméras. Ceux-ci ont l’avantage de montrer une vue aérienne globale de la scène comportant moins d’occultations entre les personnes qu’une vue du sol. De plus, ils peuvent être facilement déployés, palliant ainsi l’éventuelle absence de caméras de vidéo-surveillance sur le terrain. L’analyse automatique a alors pour but d’assister les services de secours à détecter plus rapidement les événements d’intérêts.

L'objectif de ce stage est de caractériser de manière fine les comportements de la foule dans les vidéos aériennes prises par des drones. Cette caractérisation permettra de détecter et classifier les évènements présentant des risques pour la sécurité des personnes. Les différentes représentations utilisées dans l'état de l'art pour modéliser les comportements des foules sont le plus souvent basées sur une information de mouvement [1] [2] [3] mais ne sont pas suffisamment précises pour accéder à une compréhension fine des comportements dans la foule. Dans le cas de vidéos prises par un drone, le mouvement propre du drone s’ajoute au mouvement des foules, ce qui met en difficulté les méthodes qui se basent sur le mouvement apparent résultant.

Par ailleurs, les travaux en détection d'objets utilisant des techniques de réseaux de neurones profonds [4] ont montré des résultats bien supérieurs aux approches traditionnelles qui se basaient sur des descripteurs ad-hoc. Cette amélioration des résultats provient non seulement de la richesse de la représentation visuelle, mais aussi du caractère multitâche de l’apprentissage supervisé de ces réseaux.

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Romaric AUDIGIER Tél +33 (0)1 69 08 40 86 E-mail [email protected]

En effet, un réseau multitâches [5] se propose de résoudre plusieurs problèmes complémentaires de manière conjointe pour que les couches de neurones mutualisées pour ces différents problèmes encodent une information plus représentative de la réalité.

Des travaux réalisés au laboratoire [6] ont montré que les architectures permettant d’aboutir aux meilleures performances pour la classification des comportements de foule, sont celles qui intègrent la dimension temporelle des données au plus tôt par le biais de convolutions 3D [7]. Par ailleurs, les réseaux récurrents [8] permettent également de prendre en compte la dimension temporelle des événements. L’objectif du stage est de poursuivre ces travaux en rendant la méthode de reconnaissance de comportements robuste au mouvement propre du drone et en améliorant les performances, notamment la finesse d’analyse au moyen de réseaux multitâches. L’apprentissage profond supervisé nécessitant une quantité considérable et variée de données annotées, il sera nécessaire d’ajouter aux vidéos réelles de foules prises par des drones, des vidéos aériennes de synthèse. Des moteurs de jeu tels GTA ou Unity pourront être utilisés à cette fin

Exemples de situation de foule à analyser et à caractériser (un carrefour urbain, un festival, une tribune où des affrontements ont

lieu)

Références

[1] J. Shao, C. C. Loy, X. Wang. Scene-independent group profiling in crowd. CVPR, 2014. [2] H. Mousavi, S. Mohammadi, A. Perina, R. Chellali, V. Murino, Analyzing Tracklets for the Detection of Abnormal Crowd Behavior. WACV, 2015. [3] J. Shao, C. C. Loy, K. Kang, X. Wang, Slicing Convolutional Neural Network for Crowd Video Understanding, CVPR, 2016.

[4] S. Ren, K. He, R. Girshick, J. Sun, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, CVPR, 2015.

[5] F. Chabot, M. Chaouch, J. Rabarisoa, C. Teulière, T. Chateau, Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image, CVPR, 2017.

[6] C. Dupont, L. Tobías, B. Luvison, Crowd-11: A Dataset for Fine Grained Crowd Behaviour Analysis, CVPR Worshop, 2017.

[7] D. Tran, L. Bourdev, R. Fergus, L. Torresani, M. Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV, 2015. [8] H. Su, Y. Dong, J. Zhu, H. Ling, Bo Zhang, Crowd Scene Understanding with Coherent Recurrent Neural Networks, IJCAI, 2016

Niveau demandé : Master 2 ou dernière année d’école d’ingénieurs

Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation.

Compétences requises : - Méthodes d’apprentissage automatique, deep learning - Tensorflow, python - Connaissance d’outils de synthèse d’images et de moteur de jeu souhaitable

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Brice BURGER Tél +33 (0)1 69 08 01 09 E-mail [email protected]

STAGE 2018 Réf : AS-18-S3

COMPTAGE MULTI-CLASSES PAR APPRENTISSAGE PROFOND

Présentation du laboratoire d’accueil Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les

systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

Les algorithmes d'apprentissage à base de réseaux de neurones artificiels connaissent aujourd’hui un succès important grâce aux nouvelles méthodes d'optimisation, à l'augmentation des puissances de calcul (GPU, cluster, ...) et à l'abondance des données d'apprentissage qui ont permis à ces algorithmes (Deep Learning) de bousculer l’état de l'art dans de nombreux domaines d'application, en particulier la vision par ordinateur. Notre laboratoire, déjà spécialiste de ce type d’algorithmes dans des domaines tels que la détection et reconnaissance fine d’objets, la ré-identification de personnes et l’analyse de l’activité et du comportement dans les vidéos, souhaite continuer à élargir le champs d’application de cette technologie.

C’est dans ce cadre, et dans le but de comparer ces algorithmes à des approches plus conventionnelles, que notre laboratoire souhaite expérimenter le comptage d’objets multi-classes (piéton, cycliste, automobile, etc) dans un flux vidéo par apprentissage profond.

Références

[1] J. Shao, C. C. Loy, X. Wang. Scene-independent group profiling in crowd. CVPR, 2014. [2] H. Mousavi, S. Mohammadi, A. Perina, R. Chellali, V. Murino, Analyzing Tracklets for the Detection of Abnormal Crowd Behavior. WACV, 2015. [3] J. Shao, C. C. Loy, K. Kang, X. Wang, Slicing Convolutional Neural Network for Crowd Video Understanding, CVPR, 2016.

Niveau demandé : Ingénieur, Master 2

Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation.

Compétences requises : - Une bonne connaissance des algorithmes d'apprentissage et des réseaux de neurones (Deep

Learning) en particulier est requise. - La connaissance de l’outil TensorFlow et de son environnement est un plus.

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Brice BURGER Tél +33 (0)1 69 08 01 09 E-mail [email protected]

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Bertrand LUVISON Tél +33 (0)1 69 08 01 37 E-mail [email protected]

STAGE 2018 Réf : AS-18-S4

RECONNAISSANCE D’INTERACTIONS HUMAINES Présentation du laboratoire d’accueil

Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

La reconnaissance d’actions ou d’activités est un sujet majeur en vision par ordinateur puisqu’elle permettra d’avoir une compréhension de très haut niveau des scènes avec présence humaine. Cependant, derrière ce terme vaste, on peut distinguer différents types d’activité : les actions/activités individuelles (regarder la télé, marcher, etc.), les interactions à distance qui peuvent être vues comme une juxtaposition d’actions individuelles qui se répondent mutuellement selon des codes liés à l’activité menée (geste sportif au tennis, faire un signe à quelqu’un, etc.) et les interactions de contact (sport de combat, se serrer la main, danser, etc.). Dans le cadre de ce stage, nous nous intéresserons à cette dernière catégorie.

Plateforme d’évaluation Mobile Mii

La reconnaissance d’actions a connu une rupture technologique depuis que Microsoft a commercialisé son capteur 3D Kinect. Ce capteur offre une estimation de squelette 3D de quelques joueurs, ce qui permet d’analyser de manière canonique, efficace et non ambigüe la gestuelle des différents acteurs. Cependant, le squelette ainsi estimé souffre de diverses faiblesses. Il est nécessaire que la Kinect soit positionnée de manière favorable face aux sujets et que ceux-ci ne soient que très peu occultés. Depuis, d’autres approches d’estimation de squelette plus robustes aux occultations sont apparues [CSW16, HGDG17]. Cependant ces approches ne fournissent qu’une information purement 2D et elles échouent malgré tout dans le cas de forte occultations mutuelles qui sont des situations fréquentes dans le cas d’interaction de contact.

L’objectif principal du stage est de concevoir et mettre au point un algorithme de reconnaissance d’interactions. Pour cela, il faudra tout d’abord mettre en place au sein de notre plateforme Smart Home (Mobile Mii), un appartement témoin vitrine de nos technologies, un système d’acquisition de ces interactions et participer à la création d’une base de données. Afin de pallier le problème d’occultation mutuelle, une estimation du squelette 3D dans un repère monde unique des différents acteurs de la scène sera réalisée à l’aide de plusieurs capteurs 2D et 3D observant une même scène. Ces squelettes consolidés pourront ensuite être facilement projetables sous différents angles de vue plus ou moins favorables. Les problèmes d’interférences inter-capteurs, de calibration précise et de fusion multi-caméras seront à résoudre.

La phase de reconnaissance des interactions se basera, quant à elle, sur la base de données constituée. Elle exploitera les informations de squelette aussi bien 3D que 2D avec des techniques d’apprentissage profond qui ont prouvé leur efficacité dans de nombreux domaines de la vision par ordinateur y compris celui de la reconnaissance d’activités individuelles avec l’intégration de la dimension temporelle dans la modélisation [3, 4]. Références

[1] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. arXiv preprint, arXiv :1611.08050, 2016.

[2] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick . Mask R-CNN. In ICCV, 2017.

[3] Guilhem Chéron, Ivan Laptev, and Cordelia Schmid. P-cnn : Pose-based cnn features for action recognition. In ICCV, 2015.

[4] Congqi Cao, Yifan Zhang, Chunjie Zhang, and Hanqing Lu. Body joint guided 3d deep convolutional descriptors for action recognition. arXiv preprint, arXiv :1704.07160, 2017

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Bertrand LUVISON Tél +33 (0)1 69 08 01 37 E-mail [email protected]

Niveau demandé : Ingénieur, Master 2

Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation.

Compétences requises : - Vision par ordinateur, Traitement/Compression d’image - C++ (OpenCV, Qt), Python - Windows, linux/gcc, cmake, git - Utilisation d’un framework d’apprentissage profond (en particulier Tensorflow)

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Astrid ORCESI Tél +33 (0)1 69 08 33 63 E-mail [email protected]

STAGE 2018 Réf : AS-18-S5

DEMONSTRATEUR D’ANALYSE PERSONNALISEE DE L’ACTIVITE PAR VISION

Présentation du laboratoire d’accueil

Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

La ré-identification de personne et la reconnaissance d’activités sont deux thèmes de recherches prédominant pour le laboratoire puisqu’ils permettent d’avoir une compréhension précise d’une scène contenant plusieurs individus. En effet, savoir identifier chaque personne d’une vidéo et pouvoir décrire leur activité est une source riche d’information que ce soit pour le domaine de la vidéo surveillance ou celui du smart home.

Le laboratoire possède une plateforme Smart Home (Mobile Mii), véritable appartement permettant d’évaluer et de mettre en place des démonstrations de nos technologies d’intelligence ambiante (www-mobilemii.cea.fr). La base de données DAHLIA [1] qui est la première base de données d’activités longues (cuisiner, manger, faire le ménage, etc.) a été acquise par des capteurs 3D Kinect dans cette plateforme et nous permet d’avoir les données nécessaires au développement de nos technologies de reconnaissance d’activités.

Actuellement nos algorithmes de reconnaissance d’activités sont basés sur le squelette 3D retourné par le capteur Kinect. Cependant, être dépendant d’un capteur 3D est une contrainte pour les industriels car ce type de caméra est plus difficile à déployer qu’une simple caméra 2D. Le premier objectif du stage est de mettre au point un algorithme de reconnaissance d’activités basé sur des données 2D. [2] présente une méthode d’estimation du squelette 2D très fiable et robuste aux occultations. L’idée est donc d’utiliser ce squelette 2D en entrée d’un algorithme de classification (qui sera à déterminer pendant le stage) basé sur les techniques d’apprentissage profond qui ont prouvé leur efficacité dans de nombreux domaine de la vision par ordinateur y compris la reconnaissance d’activité [3, 4]

Plateforme d’évaluation Mobile Mii – Acquisition de la base de données DAHLIA

Le deuxième objectif du stage est de réaliser un démonstrateur temps réel dans la plateforme Mobile Mii de l’algorithme développé dans la première partie du stage et d’y intégrer les technologies de ré-identification développées par le laboratoire.

Références

[1] Vaquette, G., Orcesi, A., Lucat, L., & Achard, C. (2017, May). The DAily Home LIfe Activity Dataset: A High Semantic Activity Dataset for Online Recognition. In Automatic Face & Gesture Recognition (FG 2017), 2017 12th IEEE International Conference on (pp. 497-504). IEEE.

[2] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. arXiv preprint, arXiv :1611.08050, 2016.

[3] Guilhem Chéron, Ivan Laptev, and Cordelia Schmid. P-CNN : Pose-based CNN features for action recognition. In ICCV, 2015.

[4] Congqi Cao, Yifan Zhang, Chunjie Zhang, and Hanqing Lu. Body joint guided 3d deep convolutional descriptors for action recognition. arXiv preprint, arXiv :1704.07160, 2017.

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Astrid ORCESI Tél +33 (0)1 69 08 33 63 E-mail [email protected]

Niveau demandé : Ingénieur, Master 2 Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation.

Compétences requises : - Vision par ordinateur, Traitement d’image, Machine Learning - C++ (OpenCV, Qt), Python - Linux/gcc, cmake, git - La maîtrise d’un framework d’apprentissage profond (en particulier Tensorflow) est un plus.

RECONNAISSANCE D’OBJETS 3D ET SEGMENTATION SEMANTIQUE DANS UNE SCENE 3D PAR RESEAUX DE NEURONES PROFONDS

Présentation du laboratoire d’accueil

Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

L’objectif de ce stage est de proposer une méthode originale permettant à la fois la reconnaissance d’objets 3D dans un nuage de points 3D et la segmentation sémantique de la scène 3D. La tâche de la reconnaissance consiste à détecter des instances d’objets d’intérêt pouvant être des personnes, des cyclistes ou des véhicules dans un contexte outdoor, des chaises, des tables, des portes ou autres dans un contexte indoor. La segmentation sémantique 3D consiste à associer, à chaque point 3D, un label parmi un ensemble de classes prédéfinis comme route, trottoir, building, végétation, dans un contexte outdoor, ou sol, mur, plafond dans un contexte indoor. Le but final de la méthode est de prédire un masque de segmentation qui indique la catégorie de chaque point 3D. Ce sujet est très actif dans le domaine de la vision 3D et le défis est d’atteindre un niveau de performance permettant l’intégration de ces technologie dans les véhicules autonomes et les bâtiments intelligents.

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Mohamed CHAOUCH Tél +33 (0)1 69 08 01 17 E-mail [email protected]

STAGE 2018 Réf : AS-18-S6

Notre équipe est experte sur le sujet de la détection d’objets 3D, et en particulier sur les techniques

d’apprentissage profond. Nos technologies sont aujourd’hui intégrées dans des solutions industrielles. Dans ce stage, on s’intéressera principalement aux méthodes d’apprentissage basées sur les réseaux de neurones profonds [5,6,7], le deep learning, et aux données 3D acquises à partir d’un capteur 3D (Lidar, TOF ou caméra stéréo). Un premier travail consistera à étudier les approches récentes de l'état de l'art [1,2,3,4]. Le stagiaire travaillera ensuite sur les représentations des données 3D les plus invariantes à la résolution, à l’échelle et aux transformations. Sa mission principale consistera à proposer une solution rapide et performante permettant de répondre aux nombreux problèmes de la reconnaissance 3D. Enfin, il validera l’approche sur les benchmarks publiques [8,9,10] consacrés à la reconnaissance et la segmentation 3D.

Références

[1] “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation“, Charles R. Qi, Hao Su, Kaichun Mo, Leonidas J. Guibas. CVPR 2017. [2] “Multi-View 3D Object Detection Network for Autonomous Driving“, Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia. CVPR 2017 [3] “3D ShapeNets: A Deep Representation for Volumetric Shapes“, Zhirong Wu, Shuran Song, Aditya Khosla, Fisher Yu, Linguang Zhang, Xiaoou Tang, Jianxiong Xiao. CVPR 2015. [4] “Learning Spatiotemporal Features With 3D Convolutional Networks“, Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri, ICCV 2015. [5] “Feature Pyramid Networks for Object Detection”, Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. CVPR 2017. [6] “Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image”, Florian Chabot, Mohamed Chaouch, Jaonary Rabarisoa, Céline Teulière, Thierry Chateau. CVPR 2017. [7] “Faster-RCNN: Towards Real-Time Object Detection with Region Proposal Network”, Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. NIPS 2015. [8] Large-Scale Point Cloud Classification Benchmark, http://www.semantic3d.net/ [9] NYU Depth Dataset, http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html [10] the KITTI Vision Benchmark Suite, http://www.cvlibs.net/datasets/kitti/index.php

Niveau demandé : Ingénieur, Master 2

Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation.

Compétences requises : - Vision par ordinateur - Apprentissage automatique (deep learning) - Géométrie 3D - Reconnaissance de formes - C/C++, Python - La maîtrise d’un framework d’apprentissage profond (en particulier Tensorflow) est un plus.

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Mohamed CHAOUCH Tél +33 (0)1 69 08 01 17 E-mail [email protected]

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Romaric AUDIGIER Tél +33 (0)1 69 08 40 86 E-mail [email protected]

MODELISATION D’APPARENCE DE PERSONNES PAR ATTRIBUTS

Présentation du laboratoire d’accueil

Au cœur du Plateau de Saclay (Ile-de-France), l’institut CEA LIST focalise ses recherches sur les systèmes numériques intelligents. Porteurs d’enjeux économiques et sociétaux majeurs, ses programmes de R&D sont centrés sur les systèmes interactifs (intelligence ambiante), les systèmes embarqués (architectures, ingénierie logicielle et systèmes), les capteurs et le traitement du signal (contrôle industriel, santé, sécurité, métrologie).

Dédiés à la recherche technologique, les 700 ingénieurs-chercheurs et techniciens de l’institut ont pour objectif de favoriser l’innovation et son transfert autour de partenariats industriels pérennes. La culture projet et l'excellence scientifique des équipes de l'Institut sont au cœur de cette ambition.

Le Laboratoire de Vision et d’Ingénierie des Contenus mène ses recherches dans les domaines de la Vision par Ordinateur (Computer Vision) et l’analyse automatique de texte avec le défi d’extraire et d’organiser l’information à partir de documents faiblement ou non structurés (texte, image, vidéo, réseaux de capteurs).

Contexte du stage Ce stage s’inscrit dans les activités d'Analyse de Scène du Laboratoire Vision et Ingénierie des

Contenus du CEA List. Le laboratoire développe dans le cadre de projets R&D, des systèmes d’analyse vidéo automatique en temps réel intégrant des technologies avancées de détection, localisation, classification et suivi temporel d’objets d’intérêt, de reconnaissance d’activité et de comportements, ainsi que des outils de modélisation automatique de la scène.

Description du stage

La modélisation de l'apparence visuelle des personnes est une étape clé dans les applications de vidéo-surveillance comme, par exemple, le contrôle automatique d'accès par reconnaissance faciale, ou la recherche d'individus suspects dans de grandes bases de vidéos par détection et ré-identification de personnes. Récemment, la modélisation par attributs connait un vif intérêt dans la communauté scientifique. En effet, la description des personnes par des attributs sémantiques tels que le genre, l'âge, le type et la couleur des vêtements, les chaussures et accessoires portés (chapeaux, lunettes, ...) permet de discriminer les apparences des personnes en créant un lien entre les descripteurs bas niveau et une description intuitive que ferait un opérateur humain.

La reconnaissance fine de tels attributs sur des visages [Liu15] ou sur des silhouettes de personnes [Li16, Fabbri17] reste cependant un défi dans certaines conditions dues au contexte ou au capteur: points de vue divers, occultations avec l'environnement ou avec d'autres personnes, qualité et résolution de l'image, réponse colorimétrique de la caméra, etc.

Les récents modèles génératifs tels que les Variational Auto-Encoder (VAE) [Kingma14] et les Generative Adversarial Networks (GAN) [Goodfellow14] permettent de générer des images de synthèse plus ou moins photo-réalistes. Certains travaux [Yan16, Lu17] proposent de générer des images de visages à partir d'attributs.

Lors de ce stage, on s'intéressera à ces méthodes d'apprentissage profond. L'objectif sera de modéliser finement les personnes par des attributs afin d'améliorer la reconnaissance de personnes [Su16, Lin17, Zhang17].

STAGE 2018 Réf : AS-18-S7

CEA List Laboratoire de Vision et d’Ingénierie des Contenus Centre de Saclay 91191 Gif-sur-Yvette France http://www.kalisteo.eu

Contact Romaric AUDIGIER Tél +33 (0)1 69 08 40 86

E-mail [email protected]

Références [Fabbri17] Fabbri et al. Generative Adversarial Models for People Attribute Recognition in Surveillance. AVSS 2017.

[Goodfellow14] Goodfellow et al. Generative Adversarial Networks. NIPS 2014.

[Kingma14] Kingma and Welling. Auto-encoding variational Bayes. ICLR 2014. [Li16] Li et al. Human Attribute Recognition by Deep Hierarchical Contexts. ECCV 2016.

[Lin17] Lin et al. Improving Person Re-identification by Attribute and Identity Learning. arXiv, 2017.

[Liu15] Liu et al. Deep Learning Face Attributes in the Wild. ICCV 2015.

[Lu17] Lu et al. Conditional CycleGAN for Attribute Guided Face Image Generation. arXiv 2017.

[Su16] Su et al. Deep attributes driven multi-camera person re-identification. ECCV 2016.

[Yan16] Yan et al. H. Attribute2Image: Conditional Image Generation from Visual Attributes. ECCV 2016.

[Zhang17] Zhang et al. Attributes Co-occurrence Pattern Mining for Video-based Person Re-identification. AVSS 2017.

Illustration issue de [Yan16] : Génération d’images conditionnée par différents attributs.

Niveau demandé : Ingénieur, Master 2

Ce stage ouvre la possibilité de poursuite en thèse et ingénieur R&D dans notre laboratoire.

Durée : 6 mois

Rémunération : entre 700 € et 1300 € suivant la formation. Compétences requises :

- Vision par ordinateur - Apprentissage automatique (deep learning) - Tensorflow, python