Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
L’air de rienNo 23
L’aléastriel du Laboratoire de Recherche et de Développement de l’EPITA 1 Numéro 23, 10 Octobre 2011
Éditopar Olivier Ricou (Enseignant-Chercheur)
Le mois dernier je vous ai presque annoncé l’arri-vée d’Etienne et de Benjamin au sein du LRDE. Au-jourd’hui voici leurs mini-bios et nul doute qu’auprochain numéro ils vous expliqueront plus en dé-tail leur sujet de recherche. Ce numéro est aussi l’oc-casion de mettre en valeur un étudiant du LRDE unpeu fou, il aime Javascript, mais fort sympathique etqui sait partager sa passion. Il le fait à travers unarticle ici, mais aussi le mardi 25 octobre à 18h30dans l’amphi masters (entrée libre). Enfin je ne résistepas au plaisir de vous proposer encore du Scribo.Ce projet qui nous a tenu en haleine pendant des
années et qui a permis à Guillaume de s’épanouirdans le traitement d’image, est fini. Il a permis d’en-richir notre plateforme Olena à tel point qu’on n’apas eu d’autre choix que de sortir la version 2.0. Aveccette nouvelle version commence notre conquête duMonde. Actuellement Olena est dans la distributionde Linux Mandriva pour ajouter des fonctionnali-tés au bureau intelligent (ou sémantique) Népomukde KDE. Nous travaillons pour que d’autres distri-butions l’intègrent et nous visons aussi d’autres ap-plications. Par exemple un greffon pour Gimp seraitprobablement une bonne source de contributeurs auprojet.
Mini-bios de Benjamin et d’EtienneBenjamin Raynal
Benjamin est docteur de Paris-Est Marne-la-Vallée. Ses travauxportent principalement sur la cap-tation de mouvement en temps réelà partir d’ensembles de flux vi-déos. Cela peut servir notammentà la conception de nouvelles in-terfaces homme-machine, la vidéosurveillance automatique, ou en-
core en domotique.
Il intègre le LRDE en tant que Post-doc et s’in-téresse actuellement à l’extraction automatique detexte dans les images.
Etienne Renault
Diplômé de Paris VI en systèmeet applications réparties, Etiennes’intéresse à la vérification formelledes systèmes concurrents. Il intègrecette année le LRDE dans le cadrede sa thèse portant sur la com-position dynamique de techniquespour le model checking efficace.Cette thèse vise à introduire de
nouvelles méthodes permettant de s’attaquer au pro-blème de l’explosion combinatoire au travers del’adaptation dynamique des représentations des au-tomates. Ce travail, en collaboration avec l’équipeMoVe du LIP6, s’intègrera au projet Spot.
1. L’air de rien, http://publis.lrde.epita.fr/LrdeBulletin.
L’air de rien No 23, 10 Octobre 2011
Scribo : un projet pour la dématérialisation dedocuments.par Guillaume Lazzara
De nos jours, les informations sont de plus enplus accessibles grâce aux réseaux et aux moteursde recherche toujours plus performants. Cependant,une quantité importante d’information reste encoreinexploitée à travers notamment toutes les archiveset livres papier. Pour pallier ce problème, la tendanceest à la numérisation et à la dématérialisation des do-cuments. Le récent Grand Emprunt de la France por-tait d’ailleurs un volet spécifique sur ce sujet, ce quine fait qu’appuyer son importance aujourd’hui. Unautre problème qui surgit quand on parle de numéri-sation est l’indexation. Comment s’y retrouver dansdes millions de documents numérisés ? Il est néces-saire d’exploiter correctement le contenu pour s’enservir pour l’indexation, mais pas n’importe com-ment ! C’est là que l’analyse sémantique intervient.
Grâce au pôle de compétitivité Systematic et sonGroupe Thématique Logiciel Libre, en septembre2009, le LRDE a rejoint le projet Scribo pour 2 anset demi de travail en collaboration avec 8 autrespartenaires : AFP, CEA, INRIA, Mandriva, Nuxeo,Proxem, Tagmatica et XWiki. Le but de ce projet étaitde fournir des outils d’indexation semi-automatiquede documents en proposant notamment des solu-tions d’analyse sémantique.
Le rôle du LRDE dans ce projet était de fournirdes outils pour la dématérialisation afin de pouvoirlancer une analyse sémantique à posteriori.
L’idée de la dématérialisation de documentsconsiste à numériser (scanner) et à analyser soncontenu. Le but étant d’obtenir en bout de chaînel’équivalent numérique en format PDF, XML, OpenDocument, ... En bref, un format dans lequel le texteest sélectionnable, les images sont bien découpées etla structure préservée.
A l’heure actuelle, il existe déjà quelques outilsde référence dans le domaine, tel Abby FineReader.Ils sont plutôt adaptés à des documents variés etsimples. De plus, ces solutions sont pour la plupartfermées et payantes. Une alternative open-source au-rait donc toute sa place, ce qui justifiait d’autant plusnotre participation.
Nous avons choisi de développer ces outils grâceà notre plateforme de traitement d’image Olena.Après 10 ans de développement, la bibliothèque detraitement d’image Milena était suffisamment stable
pour s’attaquer à un tel projet. Nous avons mis aupoint des ensembles d’algorithmes de base et deschaînes de traitement afin de rendre le code modu-lable et réutilisable. Les résultats de ce développe-ment étant probants, ce code a été intégré sous formede module dans la plateforme Olena.
Le but de ce projet était également de fournir unesolution de dématérialisation pour le grand public.Une interface a été développée à cet effet et fait éga-lement partie du module.
Grâce à ce projet, Olena est maintenant distribuésous format RPM dans la distribution Mandriva. Leschaînes d’extraction de texte dans les documents ontété également intégrées dans le bureau sémantiquede KDE, Nepomuk.
Enfin, nos traitements étant suffisamment ro-bustes à certains types de documents, nous avons puparticiper cette année à un concours de segmentationde documents type magazines et à un concours desegmentation de documents anciens. Nous avons at-teint la 2ème place à ce dernier.
Scribo a été intégré à Olena et fait partie de la nou-velle version 2.0.
Pour ceux qui voudraient en savoir plus, un pa-pier décrivant le projet a été accepté à la 11ème édi-tion de ICDAR et est disponible sur notre site web.
Des démos en ligne sont aussi disponibles surhttp://www.lrde.epita.fr/Olena/Demos#Scribo
2
No 23, 10 Octobre 2011 L’air de rien
(a) Image de document originale.
\»\\` ̀ -1
\\“\§|§' 'camp, and in such surprisingly spaciousbeds, that it took them hours to get tosleep. Where were we, you ask? Why, inour driveway, of course. The only sen-sible place to do a dry-or in this casewet-run of the trailer before really hit-ting the highway.
About l A.M. l awoke, frozen, andrealized another piece of vital instruc-tion I hadn’t gotten during the handoffwas how to work the heating system. lfumbled with a flashlight and the outsidegas tanks and finally figured it out. The THE AGE OF
next morning, however, I learned that I AIRSTREAM
had been too slow: My 2-year-old son, J.F.K. exits a mobile
Walker, awoke with a nice head cold. hospital in 1961;
The next blow: Our destination-the parked in Red Square
dry lakebed of El Mirage to watch the in 1960; and setting
last of the year’s speed trials-was shut a speed record
down because of 35 mph winds. with a '65 Dodge.
Instead we braved the ten-mile driveto a waterside park in Newport Beach, the can eventually crept in (which wouldreignited my enthusiasm. We were in
back-to-basics mode (albeit with lots of happen to me in anything short of a mov-Calif. And although a questionable in-modern conveniences) and enjoying every able Four Seasons), and we ended ourterior aroma grew steadily stronger, thesimple minute of it. We even forgot to test journey. I realized that I had initiallynovelty of our temporary home, the gor-
geous setting, and our sunset pizza party the flat-screen TV. missed the real point: Airstreams are hotAfter a few days the realities of life in again because they are high-end folk art,Feeoafxckfortunejoyride (Ci)/10tmail.c0m
sculptures that represent Amer-ican pride and skill. In an agewhere people at the pointy endof the earning curve are startingto scale back on all that is bigMY PLEA T0 ALAN MULALLYand wasteful, Airstreams areauthentic statements about theIn which the author begs Ford 3 CEO to produce the Ford Airslrearn.simple life without sacrificinglooks or comfort-especiallycurrent family mover from Ford. The Ford AirstreamDEAR ALAN: I am writingto you because I recently
when you customize them (seehad the opportunity to spend an afternoon with concept actually achieved something that I honestly
box). To that point, 40% (andyour advanced-design team and their brilliant Ford thought would never be possible: It made me desire
growing) of today’s AirstreamAirstream hybrid hydrogen fuel-cell concept that you what is essentially a minivan. If it can win over a
buyers are “design aficionados”unveiled in Detroit. I was once again struck by its family-vehicle skeptic like me, imagine hovv easy it
who see Airstreams as cool retrovvill be to conquer buyers who already vvant such aback-to-the-future interpretation of Airstreams iconic
collectibles. They use them inshell, its clever solutions ior entertainment and com- thing-even with a simple gas engine or hybrid sys-
new ways, from mobile archi-fort, and its svvish yet simple interior. You may agree tem. But you must already know this. So when will
tecture and fashion statementthose superlatives are not usually put together tor any you announce production? -Sincerely, Sue
to guest house. (Tony furnituresupplier Design Within ReachHIGH CONCEPT
now offers an incredibly chicFord’s appealing
16-footer.)Airstream van
I just hope that Airstreamcan bridge all its different cus-tomers and remain faithful to
the details (bring back the sun-burstl). As is true with manylongtime brands, the loyalists$95have kept it alive-but it is thenew blood who will make or-..I I Qi#break the future. E
84 ' F O R T U N E November 26, 2007
(b) Document reconstruit en PDF.
FIGURE 1 – Segmentation et reconstruction de document.
Présentation Javascriptpar Christopher Chedeau
Les sites tels que Gmail, Fa-cebook et Google Maps sont desexemples classiques d’utilisa-tion de Javascript. Mais saviez-vous que l’interface de Win-dows 8 ou les extensions deChrome et Firefox sont écrites enJavascript ? Ou qu’il est possibled’écrire des serveurs web en Ja-
vascript grâce à Node.js ?Javascript est partout et pourtant, je me suis
rendu compte en parlant autour de moi que per-sonne ne connaissait réellement ce langage. C’estpourquoi je vous invite à une présentation de deuxheures sur le sujet le Mardi 25 Octobre en AmphiMaster de 18h30 à 20h30.
Javascript, le languagePour commencer, un petit peu d’histoire. Bren-
dan Eich raconte qu’il a pensé et implémenté le pre-mier prototype de Javascript en 10 jours en 1995.En effet, Javascript est un langage qui contient unnombre extrêmement restreint de concepts. Cetteidée provient du monde des langages fonctionnelstels que Lisp, Haskell ou Caml. Le génie de Javascriptc’est d’avoir su s’écarter d’un modèle mathématiqueparfait au profit d’un confort d’utilisation pour le dé-veloppeur.
Javascript a pour objectif d’être utilisé par le plusgrand nombre de personnes. La syntaxe du langagea été fortement inspirée du C et ne contient au-cune fantaisie. Cela rend le code source lisible etcompréhensible par n’importe quel informaticien. Lelanguage a été conçu pour exécuter un maximumde programmes, même mal formés. Par exemple,une heuristique va rajouter des point-virgules man-quants. Au final, la barrière d’entrée au Javascript esttrès faible.
Lambda Fonctions et ObjectsJavascript tire sa puissance de deux concepts fon-
damentaux : les Lambda fonctions et les Objets. La pré-sentation a pour objectif principal de vous apprendreà manipuler ces deux outils. En guise d’introductionau langage, je montrerai comment reproduire des pa-radigmes de programmation connus, en particulierla Programmation Orientée Objet.
Le navigateur est un environnement hostile. Dansun site cohabitent une multitude de modules Javas-cript développés par des personnes différentes. Onpeut citer le site lui-même, les publicités, les com-mentaires, les statistiques, le bouton "like", etc. Nousverrons brièvement l’utilité des objets et des fonc-tions pour se placer dans l’un des trois points de vuesuivants : être un citoyen respectueux, fortifier soncode contre les attaquants ou au contraire s’amuseravec le code des autres.
3
L’air de rien No 23, 10 Octobre 2011
Un langage dynamique
A l’école nous avons principalement étudié deslangages de programmation statiques comme le C,C++ et Caml. Javascript quant à lui fait partie de lacatégorie des langages dynamiques comme le PHP,Ruby ou Python. Les fonctionnalités de ces derniersont pour objectif de simplifier la vie du développeuren s’éloignant des contraintes de la machine ou des
théories mathématiques de typage. De ce fait, les lan-gages dynamiques sont de plus en plus utilisés.
Nous étudierons lors du séminaire du 25 les chan-gements apportés par cette nouvelle façon de penser.Par exemple, les chaînes de caractères sont utiliséesde façon quasi systématique afin de faciliter le dé-buggage, les objets sont construits à la volée sans dé-finir leur structure dans un fichier séparé pour ga-gner du temps, etc.
En brefLes nouvelles publications
L’ensemble des publications du LRDE sont dispo-nibles sur http://publis.lrde.epita.fr/.
DURET-LUTZ, A., KLAI, K., POITRENAUD, D.,AND THIERRY-MIEG, Y.. Combining explicit andsymbolic approaches for better on-the-fly LTL modelchecking. Technical Report 1106.5700, arXiv
We present two new hybrid techniques thatreplace the synchronized product used in theautomata-theoretic approach for LTL modelchecking. The proposed products are explicitgraphs of aggregates (symbolic sets of states)that can be interpreted as Büchi automata.These hybrid approaches allow on one hand touse classical emptiness-check algorithms andbuild the graph on-the-fly, and on the otherhand, to have a compact encoding of the statespace thanks to the symbolic representation ofthe aggregates. The Symbolic Observation Pro-duct assumes a globally stuttering property(e.g., LTL\X) to aggregate states. The Self-LoopAggregation Product does not require the pro-perty to be globally stuttering (i.e., it can tacklefull LTL), but dynamically detects and exploitsa form of stuttering where possible. Our ex-periments show that these two variants, whileincomparable with each other, can outperformother existing approaches.
DURET-LUTZ, A.. LTL translation improvements inSpot. In Proceedings of the 5th International Workshopon Verification and Evaluation of Computer and Commu-nication Systems (VECoS’11), Electronic Workshops inComputing, Tunis, Tunisia. British Computer Society
Spot is a library of model-checking algorithms.This paper focuses on the module translatingLTL formulæ into automata. We discuss im-provements that have been implemented in thelast four years, we show how Spot’s translationcompetes on various benchmarks, and we give
some insight into its implementation.
VERNA, D.. Towards LATEX coding standards. InTUGboat
LaTeX, en tant que simple système de macro-expansion, n’impose aucune forme de génielogiciel, structure de programme ou style deprogrammation. Contrairement à d’autres lan-gages, l’idée d’un standard de programmationn’est pas tellement répandue dans le mondeLaTeX, probablement parce que le travail col-laboratif n’y est que peu représenté. Au fil desans, un flot permanent d’expériences de déve-loppement a contribué à forger notre goût per-sonnel en termes de style. Dans cet article, nousdécrivons ce que nous pensons être de bonnespratiques de programmation en LaTeX.
VERNA, D.. Biological realms in computer science :the way you don’t (want to) think about them. InOnward ! 2011
En biologie, l’évolution est souvent perçuecomme un processus de « bricolage », pro-cessus différent de ce que fait un ingénieurlorsqu’il planifie le développement de ses sys-tèmes. Des études récentes ont cependant mon-tré que même en biologie, il existe une partd’ingénierie. En tant qu’informaticiens, nousavons par contre beaucoup plus de mal à re-connaître qu’il existe aussi une grande part debricolage dans ce que nous faisons, et que nossystèmes se comportent finalement de plus enplus comme des biotopes. Cet essai relate monexpérience personnelle dans ce domaine.
Soutenance de thèse de Roland Levillain
Roland Levillain soutiendra sa thèse de doctoratintitulée « Vers une architecture logicielle pour le trai-tement d’images générique » le mardi 15 novembre2011. Le lieu de la soutenance sera communiqué ul-térieurement.
4