12
© Tous droits réservés BASES PUBLICATIONS 2016 SOMMAIRE MÉTHODOLOGIE Antérioriser un brevet, une démarche complexe et aléatoire mais à fort enjeu, pp. 1-4 SERVEURS Capadoc : fin de l'histoire, p. 4 PANORAMA Open Data : une mine d’or brut pour les professionnels de l’information, pp. 5-10 ACTUS EN BREF L’actualité des serveurs, bases de données et éditeurs scientifiques, p. 11 N°333 janvier 2016 Antérioriser un brevet, une démarche complexe et aléatoire mais à fort enjeu François Libmann Le cas de figure est classique. Un concurrent attaque un brevet que vous avez déposé, récemment ou non, au motif qu’il serait une contrefaçon d’un de ses propres brevets, déposé bien sûr avant le vôtre. S i le brevet attaqué est le fondement du développement d’un produit ou d’une famille de produits, l’enjeu économique peut alors être très important, comme nous l’a fait savoir un client à qui il est arrivé récemment une telle mésaventure. Il était tout simplement menacé d’avoir à renoncer à lancer sa nouvelle famille de produits sauf à négocier en position très défavorable avec son concurrent. Dans le cas précis, la recherche d’antériorité préalable au dépôt de son brevet était malencontreusement passée à coté du brevet adverse. Autre cas de figure, imparable celui-là, le brevet adverse a été déposé au cours des dix huit mois précédant la recherche d’antériorité. Il n’avait donc pas été publié au moment de cette recherche. Nous avons connu encore un troisième cas de figure légèrement différent. La démarche de veille de notre client avait détecté que l’un de ses concurrents avait déposé un brevet dans leur domaine commun d’activité, à savoir des machines de contrôle en continu de la fabrication d’un certain produit. Or ce brevet cherchait à protéger une gamme très large de moyens destinés à réaliser une fonction donnée, risquant ainsi de bloquer d’éventuels dépôts postérieurs de brevets s’appuyant sur une façon particulière de remplir cette fonction. Au-delà même du dépôt de brevet, une simple utilisation de cette méthode particulière était aussi prohibée. Cette situation contrecarrait les projets de notre client, comme on peut le comprendre. Le point commun de ces trois cas de figure résidait dans le fait que pour se libérer de la contrainte, il fallait tenter d’antérioriser le brevet adverse en trouvant idéalement un document, d’ailleurs pas nécessairement un brevet, qui à lui seul ou combiné à d’autres, permette de démontrer qu’il n’y avait pas assez de nouveauté dans ce brevet.

Bases_pour une recherche intelligente d'information

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Bases_pour une recherche intelligente d'information

▶© Tous droits réservés BASES PUBLICATIONS 2016

S O M M A I R E

MÉTHODOLOGIE

• Antérioriser un brevet, une démarche complexe et aléatoire mais à fort enjeu, pp. 1-4

SERVEURS

• Capadoc:findel'histoire,p. 4

PANORAMA

• Open Data : une mine d’or brut pour les professionnels de l’information, pp. 5-10

ACTUS EN BREF

• L’actualité des serveurs, bases de données et éditeurs scientifiques,p.11

N°333 • janvier 2016

Antérioriser un brevet, une démarche complexe et aléatoire mais à fort enjeu

François Libmann

Le cas de figure est classique. Un concurrent attaque un brevet que vous avez déposé, récemment ou non, au motif qu’il serait une contrefaçon d’un de ses propres brevets, déposé bien sûr avant le vôtre.

Si le brevet attaqué est le fondement du développement d’un produit ou d’une famille de produits,

l’enjeu économique peut alors être très important, comme nous l’a fait savoir un client à qui il est arrivé récemment une telle mésaventure. Il était tout simplement menacé d’avoir à renoncer à lancer sa nouvelle famille de produits sauf à négocier en position très défavorable avec son concurrent.

Dans le cas précis, la recherche d’antériorité préalable au dépôt de son brevet était malencontreusement passée à coté du brevet adverse.

Autre cas de figure, imparable celui-là, le brevet adverse a été déposé au cours des dix huit mois précédant la recherche d’antériorité. Il n’avait donc pas été publié au moment de cette recherche.

Nous avons connu encore un troisième cas de figure légèrement différent. La démarche de veille de notre client avait détecté que l’un de ses concurrents avait déposé un brevet dans leur domaine commun d’activité, à savoir des machines de contrôle en continu de la fabrication d’un certain produit. Or ce brevet cherchait à protéger une gamme très large de moyens destinés à réaliser une fonction donnée, risquant ainsi de bloquer d’éventuels dépôts postérieurs de brevets s’appuyant sur une façon particulière de remplir cette fonction. Au-delà même du dépôt de brevet, une simple utilisation de cette méthode particulière était aussi prohibée. Cette situation contrecarrait les projets de notre client, comme on peut le comprendre.

Le point commun de ces trois cas de figure résidait dans le fait que pour se libérer de la contrainte, il fallait tenter d’antérioriser le brevet adverse en trouvant idéalement un document, d’ailleurs pas nécessairement un brevet, qui à lui seul ou combiné à d’autres, permette de démontrer qu’il n’y avait pas assez de nouveauté dans ce brevet.

Page 2: Bases_pour une recherche intelligente d'information

2

©BASES•N°333•Janvier2016

MÉTHODOLOGIE

Antérioriser un brevet, une démarche complexe et aléatoire mais à fort enjeu suite

Il suffit que ce document ait été publiquement accessible avant la date du dépôt prioritaire du brevet adverse, et ce même si la diffusion du document n’avait pas été très large. Il pouvait par exemple avoir été publié dans une revue technique peu diffusée.

On peut aussi, même si c’est moins simple, avec l’aide d’un conseil en brevet et/ou d’un avocat spécialisé, construire une argumentation s’appuyant sur la combinaison de plusieurs documents.

Pour illustrer la variété des sources possibles nous nous rappelons ce que nous avait confié, lors d’une de nos visites à l’Office Européen des Brevets à la Haye, un examinateur de brevets qui était issu d’une famille néerlandaise d’industriels de l’aviation. Il nous avait alors raconté qu’il lui était arrivé à plusieurs reprises de trouver dans les archives familiales des antériorités imparables au sein d’anciennes publications spécialisées.

Les examinateurs de brevets de l’OEB réalisent donc des recherches d’antériorité dont le résultat est un rapport de recherche qui contribue fortement à l’évaluation du brevet.

Pour ce faire, ils sont loin d’être démunis car ils disposent de bases de données performantes avec des interfaces adaptées à leurs méthodes de travail et sont spécialisés dans un domaine relativement étroit, ce qui leur donne une bonne culture du sujet. De plus, comme on l’a vu plus haut, il arrive qu’ils détiennent en complément des sources personnelles.

Cependant, le champ de recherche étant quasi illimité, contrairement au temps alloué à l’examen d’un brevet qui est nécessairement limité, le rapport de recherche est un élément important mais il ne clôt pas le débat de façon définitive.

Il n’est donc pas inutile, si l’enjeu économique le justifie, de procéder à des recherches complémentaires.

Avant l’apparition des banques de données, les recherches se faisaient «à pied» en particulier à l’INPI (Institut National de la Propriété Industrielle) où des spécialistes consultaient les immenses répertoires papier des brevets déposés. Cette pratique a disparu compte tenu du très fort dé-veloppement des banques de données brevets. Au passage,

cela explique pourquoi de nombreux cabinets de brevet étaient situés près de la rue de Saint-Pétersbourg, où se situait, jusqu’en 2012 le siège, de l’INPI.

Pour certains produits, il peut aussi être utile d‘explorer dans le détail des catalogues anciens de produits. Cette pratique continue d’ailleurs d’exister mais elle est très ingrate.

Même si nous nous limiterons ici à l’utilisation des sources électroniques, les possibilités sont très nombreuses.

Dans un premier temps, on pensera évidemment aux sources brevet, même si l’examinateur de brevet a déjà réalisé une recherche dans ce corpus.

On dispose pour cela de nom-breuses sources présentant beaucoup de points communs mais possédant néanmoins quelques particularités.

Pour les recherches purement brevet, nous utilisons régulièrement Orbit qui offre aujourd’hui plusieurs types de recherches que l’on peur combiner de multiples façons en réitérant les recherches autant de fois qu’on le souhaite.

Mais un préalable absolu est un contact approfondi et régulier, à mesure des avancées de la recherche, avec le spécialiste du sujet. Il doit permettre de bien comprendre le sujet et les points qui posent problème et sur lesquels il faut se concentrer, en particulier les revendications. En cours de route, ce dialogue permettra d’évaluer les résultats et de suggérer de nouvelles pistes de recherches.

Outre la recherche par les termes, recherche qui peut être complexe, on peut en outre «jongler» avec les «citants/cités», les brevets similaires et avec la recherche sémantique récemment introduite, en réitérant la recherche autant que cela paraît utile. C’est là qu’une forte créativité dans la conception et la réalisation des stratégies est un atout certain.

On notera que PatBase qui a un fonds analogue à celui d’Orbit, offre aussi une recherche de similarité qui fonctionne avec un algorithme différent et donne donc des résultats différents.

Il faut savoir que STN et Proquest Dialog disposent tous les deux de langages d’in-terrogations très sophistiqués

Page 3: Bases_pour une recherche intelligente d'information

©BASES•N°333•Janvier2016

3

MÉTHODOLOGIE

et de très belles collections de bases brevet qui s’ajoutent à leurs nombreuses bases de données de littérature scienti-fique et technique.

Cela permet, dans les deux cas, de faire simultanément la recherche dans les bases bre-vet et les bases de littérature scientifique.

De plus, chez Proquest Dialog, on a la possibilité, à partir d’un ou plusieurs terme(s) pertinent(s), de rechercher les brevets qui citent au moins un article dont le titre contient le(s) terme(s) recherché(s). Mais il faut savoir que les banques de données de brevets proposées par Dialog ne contiennent pas toutes des références de littérature. Cela constitue néanmoins une façon originale d’identifier des brevets potentiellement pertinents.

Par ailleurs, STN est incon-tournable dans le domaine de la chimie et la banque de données Chemical Abstracts offre 42 millions de références de littérature et de brevets ayant une indexation propre à la chimie. Depuis juillet 2009, elle propose aussi les réfé-rences citantes (brevets ou littérature) pour peu qu’elles figurent dans la base.

STN propose aussi depuis peu sur sa nouvelle plateforme (new STN) un regroupement des sources permettant d’effectuer des recherches sur les structures de Markush, ce qui est très utile pour les recherches de brevets

concernant des produits chimiques complexes, par exemple des médicaments.

Autre originalité de STN, la possibilité d’introduire dans l’équation de recherche des valeurs numériques pour 55 grandeurs physiques, soit les valeurs précises soit des intervalles de valeurs. Il s’agit par exemple de la longueur, de la densité de courant, de l’intensité lumineuse ou de la pression. Cette possibilité est offerte aussi bien dans les bases de littérature que dans les bases brevets dont un grand nombre proposent le texte intégral (c’est-à-dire là où l’on a le plus de chance de trouver des valeurs numériques).

Citons aussi la banque de données Derwent World Patents Index (DWPI) dis-ponible sur Proquest Dialog, STN et Thomson Innovation dont les valeurs ajoutées sont la réécriture du titre et de l’abstract des brevets ainsi qu’une indexation «maison» très précise.

Dans le domaine des brevets on citera aussi la nouvelle plateforme américaine AI Patents (voir Bases n° 330 – Octobre 2015) qui propose une recherche sur les brevets américains à partir d’une méthode originale consistant à se baser sur les rapports de recherche des examinateurs de l’USPTO, ce qui peut permettre de trouver des brevets qui auraient échappé à d’autres approches.

Les publications défensives

En complément des bases brevet, il peut être judicieux de penser à ce que l’on appelle des publications défensives.

Ces publications défensives qui sont généralement assez brèves, proviennent le plus souvent de sociétés, qui pour différentes raisons, la plupart du temps économiques, n’ont pas la volonté de déposer un brevet mais souhaitent néanmoins qu‘aucune autre société ne puisse le faire autour de la technologie donnée. Concrètement, cela leur permet d’exploiter cette technologie, mais cela n’em-pêche pas un concurrent de l’exploiter également.

La plus connue des bases de données de cette nature est RDisclosure que Questel a ra-chetée en 2011. D’après le pro-ducteur, 10% des publications présentes dans RDisclosure ont fait l’objet d’une citation dans un rapport de recherche. Malheureusement l’utilisation de RDisclosure n’est pas incluse dans Orbit et il faut souscrire un contrat séparé.

On peut néanmoins trouver les informations de RDisclosure soit dans STN qui offre la banque de données RDISCLOSURE, soit dans World Patents Index disponible à différents endroits en tant que source non brevet. Même si le nombre de documents (1000 à 2000 nouvelles entrées par an) reste

modeste comparé aux bases brevet, il serait dommage de l’ignorer.

Les sources non brevet

Si la recherche de brevets pertinents est un préalable incontournable, ce type de source est loin d’être la seule intéressante.

En effet, dans de nombreux cas, il peut être utile d’explorer les sites proposant de la littérature scientifique.

De nombreuses possibilités existent pour chercher parmi des centaines de millions de références.

On pensera bien sûr aux ser-veurs STN et Proquest Dialog qui permettent d’utiliser des stratégies sophistiquées ainsi qu’à Scopus et Web of Science.

On n’oubliera pas Google et Google Scholar, ainsi que de nombreux sites gratuits, au moins en partie et les sites en open access.

Les sites d’éditeurs (Science Direct d’Elsevier, Springer Link, Wiley Online Library, …) sont aussi des sources à explorer, et dans lesquels la recherche et la visualisation des résumés d’articles sont gratuites. Si l’article est disponible en open access, on peut alors le visualiser gratuitement.

Par ailleurs il n’est pas inutile de faire un travail de sourcing spécifique dans le secteur de l’invention.

Page 4: Bases_pour une recherche intelligente d'information

MÉTHODOLOGIE

Les possibilités y sont sinon infinies, au moins très nombreuses. On citera à titre d’exemple INIS sur l’industrie nucléaire à vocation civile (voir Bases n° 259 – Avril 2009), Prodinra qui recense les publications des chercheurs de l’INRA, (voir Bases n° 299 – Décembre 2012). On pourra aussi chercher à identifier des sources de littérature grise (voir Bases n°326 – Mai 2015).

On n’oubliera pas non plus les thèses françaises et interna-tionales disponibles dans de nombreux sites (voir Bases n° 312 – Février 2014).

Bien sûr, selon les sites, les pos-sibilités de recherche seront plus ou moins sophistiquées.

Pour les sources du Web il faudra être très attentif à la preuve de la date de publication qui est un élément essentiel.

Une décision récente qui a mis fin à 13 années de procédures a ainsi validé des dates de pu-blication d’informations trou-vées dans le site du quotidien américain Florida Times Union et du site d’archives du Web (www.archive.org) (voir Bases n°318 – Septembre 2014).

Recherche sur les noms d’inventeurs

Une précaution élémentaire, si l’on n’a toujours pas trouvé de résultats satisfaisants consiste à s’intéresser à l’inventeur ou aux inventeurs. En effet,

rien ne garantit qu’ils n’aient pas commis d’imprudence en divulguant précocement des informations-clés.

On cherchera à retrouver leur(s) thèse(s) s’ils en ont soutenu, et les articles qu’ils ont écrits. On signalera à ce propos que les recherches par auteur sont très performantes sur Scopus mais également réalisables sur STN ou Proquest Diaog.

On pourra aussi chercher à identifier des congrès spécia-lisés dans lesquels les inven-teurs auraient pu s’exprimer, sachant que tous les congrès ne sont pas référencés dans les banques de données ce qui ne simplifie pas les choses.

En conclusion : Résultat non garanti

mais «jackpot» possible

On voit donc qu’il existe de nombreuses possibilités, mais il faut savoir que ces recherches sont quelque peu frustrantes car beaucoup sont infructueuses et obligent en tout état de cause à examiner de nombreux documents décevants.

Ces recherches, si on veut vrai-ment les pousser, nécessitent un investissement non négligeable en temps et en argent, sans garantie de résultats.

Mais le plus souvent ce coût est dérisoire si on le compare aux enjeux liés à la validité du brevet adverse.

Capadoc:findel'histoire

Après 26 ans de bons et loyaux services, Capadoc va fermer ses portes. C'était l’une des dernières sociétés indépendantes à représenter un grand serveur et en assurer le service assistance.

Capadoc avait été créé en juillet 1989 à la suite de la déconfiture du CNIC (Centre National de

l'Information Chimique) provoquée par une gestion douteuse de son management.

L'équipe technique qui n'était en rien liée à ces malversations avait gardé la confiance de Chemical Abstracts Service et Mme Jérome avait alors dé-cidé de créer Capadoc pour poursuivre la représentation de STN International

et de Chemical Abstract Service en France, à Monaco et au Luxembourg et d'en assurer l'assistance technique.

On soulignera que Capadoc était considéré à l'unanimité des utilisateurs français comme étant de loin le meil-leur service assistance des serveurs utilisés dans notre pays et on ne peut qu'espérer que la nouvelle formule gardera ce niveau de qualité.

Marie-Christine Jérome, directrice et propriétaire de Capadoc, n'ayant pas trouvé de solution de reprise ni en in-terne, ni en externe, s'est résolue à faire cesser les activités de Capadoc.

Le bureau à Boulogne sera fermé et les membres de l’équipe qui restent, à sa-

voir Martine Michel et Olivier Flageul, seront joignables par mail et sur leurs numéros de téléphones portables. Ils seront rattachés à la structure ACSI (American Chemical Society International) dont dépendent tous les représentants de CAS dans le monde.

La transition se fera néanmoins en douceur, Marie-Christine Jérome pre-nant sa retraite de manière progres-sive en continuant, pendant quelque temps à suivre ses principaux clients.

Capadoc aura été une belle aventure.

Martine Michel : [email protected] - Tél. : 06 33 07 23 64

Olivier Flageul : [email protected] - Tél. : 06 37 30 19 50

François Libmann

SER

VEU

RS

4

©BASES•N°333•Janvier2016

Page 5: Bases_pour une recherche intelligente d'information

©BASES•N°333•Janvier2016

5

PANORAMA

Open Data : une mine d’or brut pour les professionnels de l’information

Carole Tisserand-Barthole

L’Open Data fait régulièrement la Une de l’actualité française depuis 2010 avec l’ouverture des premières données publiques dans notre pays. Nous avons eu plusieurs fois l’occasion de publier des articles dans Bases sur l’Open Data mais il s’agissait surtout de lister les nouvelles initiatives en France et ailleurs dans le monde. Nous avons décidé qu’il était temps de nous lancer dans un article de fond sur les apports de l’Open Data pour les professionnels de l’information.

Cet article reviendra donc sur le mouvement de l’Open Data en France

mais également dans le reste du monde (dates-clés, concepts, etc.), nous nous intéresserons ensuite aux types de données proposées (quels organismes en proposent, est-ce du contenu exclusif et non disponible ailleurs, quel apport comparé à des données payantes, etc.) et nous effectuerons ensuite un focus sur la France avec un panorama des sources aujourd’hui disponibles.

Nous illustrerons tout cela avec une méthodologie de recherche pour retrouver des données sur les gares de voyageurs et de fret en France et dans différents pays européens. Enfin, nous

terminerons sur les actualités des derniers mois.

Open Data : Fondamentaux

L’Open Data, c’est avant tout l’idée qu’un certain nombre de données numériques (textuelles ou non textuelles comme des cartes, des formules chimiques, des statistiques, etc.) produites par des organismes publics mais également privés devraient être librement accessibles et réutili-sables sans condition par tout un chacun. L’Open Data s’inscrit dans le mouvement dit de « l’Open » - Open Access, Open Source, etc. - mais il dispose de ses propres particularités.

L’Open Access par exemple se concentre exclusivement sur la mise à disposition de manière libre et gratuite de publications académiques tandis que l’Open Source concerne uniquement le type de licence sous laquelle est distribué un logiciel informatique. L’idée de diffusion libre et gratuite est en filigrane derrière toutes ces initiatives mais c’est le type de supports/documents/données /domaines d’application qui les distinguent.

Depuis les débuts de l’Open Data, de nombreux arguments en faveur ou contre le mouvement sont avancés par deux camps opposés.

Pour certains, les données appartiennent par nature à l’être humain, de l’argent public a souvent été utilisé pour les produire ou le fait de rendre plus facilement accessibles des données accélère le processus de recherche et d’innovation et donc justifie le mouvement de l’Open Data.

D’autres en revanche ont le sentiment que l’Open Data fait une concurrence déloyale au secteur privé, que la mise en forme et la mise à disposition de ces données représentent un coût humain non négli-geable pour les organismes qui les diffusent ou encore qu’il est préférable de payer une somme minimum pour l’obtention de ces données mais d’avoir l’assurance d’ob-tenir des données vérifiées, fréquemment mises à jour et dans un format exploitable.

Nous ne tenterons pas de départager les deux camps mais toujours est-il que le mouve-ment est maintenant bien en route et en perpétuelle évolution et ce, dans la plupart des pays du monde (à des degrés très divers néanmoins). En Europe notamment, le mouvement des données ouvertes pour le secteur public est encadré par la directive 2003/98/CE et la directive INSPIRE de 2008 qui imposent aux collectivités de pu-blier certaines de leurs données. Seul problème, notamment en

France et en Europe (mais pas aux Etats-Unis), les collectivités et organismes publics doivent publier une partie de leurs données mais sans aucune contrainte quant au format ou au support de publications. Ce qui conduit parfois à la publica-tion de données complètement inexploitables.

Il serait dommage de ne pas en tirer parti que ce soit pour une veille ou pour une recherche d’information. Parmi les théma-tiques fréquemment abordées, il est souvent question de la réu-tilisation commerciale des don-nées ou encore de l’anonymisa-tion des données et du respect de la vie privée. Ces sujets sont certes très intéressants mais ce n’est pas l’angle sous lequel nous avons choisi d’aborder la question. L’idée étant pour nous de regarder l’Open Data comme une nouvelle source, un nouveau canal d’information au même titre que des bases de données professionnelles.

Quels types de donnéesetquiles

produit ?

Sur le papier, l’Open Data pourrait être présent dans n’importe quel domaine (santé, transport, sciences, économie, etc.) et les données pourraient provenir d’organismes publics (on appelle cela des données publiques) mais également d’entreprises privées. Dans la

Page 6: Bases_pour une recherche intelligente d'information

6

©BASES•N°333•Janvier2016

PANORAMA

réalité, c’est un tout petit peu plus compliqué…

Le mouvement de l’Open Data concerne en réalité quasi-exclu-sivement les données dites « pu-bliques », c’est à dire produites par des organismes publics ou affiliés (ministères, collectivités locales, état, organismes publics comme l’assurance maladie, Pôle Emploi, l’INSEE, entreprises publiques etc.). L’Open Data dans le domaine privé n’en est pour le moment qu’à ses balbutiements et les entreprises qui s’y sont mises (au-delà des beaux discours sur la volonté d’ouvrir ses données et de la libéralisation d’un seul jeu de données sans aucune valeur stratégique) se comptent presque sur les doigts d’une main. On citera Enel (un acteur italien de l’énergie qui publie des données sur l’aspect financier de l’entreprise ainsi que des don-nées orientées environnement et développement durable), Nike (données environnemen-tales) ou encore Asos (acteur du secteur de la vente en ligne de vêtements).

Et parmi les organismes publics, l’ouverture des données se fait à des degrés très divers. Beaucoup d’organismes se sont contentés d’ouvrir quelques données afin de répondre à leurs obligations légales mais bien souvent, il s’agit simplement des données les plus faciles à diffuser. En revanche, les données plus sensibles ou avec un grand potentiel et un fort impact restent la chasse gardée des organismes qui les produisent.

En France par exemple, l’ouverture des données de santé fait débat depuis maintenant plusieurs années. Néanmoins, une loi votée en avril 2015 vise à rendre publiques ces données une fois qu’elles sont anonymisées (feuilles de soin, ordonnances, fiches de séjours hospitaliers) mais la route est encore longue avant que cette nouvelle base de données voie le jour.

Quelles données publiques trouve-t-on en règle générale ?

Chaque organisme étant relati-vement libre sur ce qu’il décide de rendre public (en France et en Europe notamment), il est impossible de définir préci-sément les types de données accessibles. En analysant la principale plateforme de données publiques en France (data.gouv.fr), on constate que les thématiques qui reviennent fréquemment sont les sui-vantes : Agriculture, Economie, Emploi, Education, Recherche, Logement, Développement Durable, Energie, Santé, Social, Société, Territoires et Transports.

Mais le volume de données d’un organisme à l’autre est très variable. A titre d’exemple, la région île de France a publié 420 jeux de données (carte des pharmacies, lieux-dits, élections municipales, arbres remarquables, voyageurs montants en gare en région parisienne, etc.) là où la région Basse Normandie s’est conten-tée de 24 jeux de données. La ville d’Issy les Moulineaux a pu-

blié 77 jeux de données quand la ville de Limoges a choisi d’en publier seulement 2 et pour les organismes le constat est le même : la Caisse nationale des allocations familiales en a publié 77 alors que la Poste ou Réseau Ferré de France se sont limités au strict minimum avec 2 ou 3 jeux de données.

Autant dire que c’est une véritable loterie. Ainsi, dans le cadre d’une recherche ou d’une veille, il faudra d’abord se demander si les données que l’on recherche sont susceptibles d’avoir été produites par un organisme public et si oui aller vérifier au cas par cas.

Quid par rapport au payant ?

Avant le mouvement de l’Open Data, les données pu-bliques françaises étaient soit totalement inaccessibles, soit payantes, soit accessibles de manière complexe (demande à l’organisme concerné qui était ou non acceptée, envoi sous forme papier dans cer-tains cas, délais longs, etc.). Grâce à l’Open Data, certaines données qu’il était impossible de récupérer auparavant peuvent désormais l’être et certaines données payantes sont désormais gratuites. Mais force est de constater qu’il existe encore un nombre non négligeable de données publiques accessibles unique-ment avec une redevance.

L’Open Data fait-il ainsi concur-rence au secteur privé ? Pas sûr… En effet, comme nous le mentionnions au début de cet

article, l’Open Data en 2016, ce sont exclusivement des don-nées publiques et non privées. Les entreprises qui achetaient des données publiques pour créer d’autres services (des serveurs d’informations et des bases de données par exemple) peuvent désormais récupérer certaines de ces données gratuitement (par exemple les informations de l’INPI sur les dépôts de brevets) et, pour les autres continuer à les acheter. Et les services créés par ces en-treprises représentent toujours une plus grande valeur ajoutée pour les professionnels. En ef-fet, là où l’organisme public va fournir des fichiers de données brutes, généralement sans mise en forme et difficilement recherchables -mais gratuites- l’entreprise va proposer un produit généralement com-plexe avec des possibilités de recherche avancées et des données supplémentaires obtenues par d’autres biais, permettant ainsi de recroiser les informations.

Focus sur la France

En France, l’Open Data a com-mencé à émerger en 2010 avec le lancement des premières plateformes développées par les villes de Rennes et de Paris. Et c’est en 2011 que le portail na-tional data.gouv.fr a été lancé. Et même s’il existe en France de multiples initiatives distinctes, le portail gouvernemental reste le point d’entrée principal vers les données publiques fran-çaises. Certaines collectivités ou certains organismes publics disposent de leur propre portail d’Open Data mais transmettent

Page 7: Bases_pour une recherche intelligente d'information

©BASES•N°333•Janvier2016

7

PANORAMA

et synchronisent de plus en plus leurs données avec data.gouv.fr. Ce n’était pas le cas il y a quelques années où ces initia-tives isolées ne se retrouvaient pas sur data.gouv.fr.

Nous conseillons néanmoins de consulter les initiatives locales car, nous avons pu constater pour certaines organisations que le nombre de jeux de données présents sur data.gouv.fr était inférieur à celui de la plateforme locale et surtout que les sites dédiés proposaient généralement des fonctionnalités de recherche et de visualisation plus avancées.

L’état produit des milliards de données mais il faut bien être conscient que même si la quantité de données ne cesse d’augmenter, seule une infime partie se trouve actuellement sur le portail ou sur des plateformes dédiées.

On pourra consulter la carte des acteurs de l’Open Data en France sur le site http://www.opendatafrance.net/lassociation/les-acteurs-2/

Data.gouv.fr

Lors de notre visite, le site comptait 21 415 jeux de données provenant de 646 institutions ou organismes différents. Les dix plus importants fournisseurs étaient alors les suivants :

■ Data Publica (un éditeur de données référençant près de 200 éditeurs privés et publics – voir Bases n°289 - Janvier 2012) avec 7 170 jeux de données

■ Eurostat avec 5 908 jeux de données

■ La Banque Mondiale avec 1 260 jeux de données

■ La Direction départementale des territoires et de la mer de la Somme avec 596 jeux de données

■ La Direction départementale des territoires de l’Aube avec 527 jeux de données

■ Le Ministère de l’Intérieur avec 508 jeux de données

■ Le Portail mutualisé Nantes/Loire Atlantique/Pays de la Loire avec 449 jeux de données

■ La Région Ile de France avec 420 jeux de données

■ La Direction départementales des territoires de l’Ariège avec 411 jeux de données

■ Open PACA avec 411 jeux de données

On compte de nombreux ministères, régions, départe-ments, des directions dépar-tementales et régionales, des villes, métropoles et collecti-vités locales et plus rarement des syndicats mixtes, des CCI, des écoles, des offices de tou-rismes, des musées, etc.

On trouve également de nombreux établissements publics qui proposent des données à l’échelle nationale. Nous avons choisi d’en faire la liste car les données produites par ces organismes revêtent généralement un caractère précieux pour les profession-nels de l’information (voir la liste détaillée en figure 1.) et

il n’est pas toujours facile de savoir qui s’est lancé dans une politique d’Open Data.

Mais comme le montre le ta-bleau, certains établissements ont réellement mis en place une politique d’ouverture de leurs données alors que pour d’autres les données mises à disposition relèvent presque de la mascarade.

Enfin, quelques entreprises et organismes ne relevant pas du domaine public sont également présents sur la plateforme comme notamment des fédérations (fédération nationale des bistrots par exemple), des syndicats (syndicat de la presse indépendante), des journaux/magazine (UFC que Choisir), des associations, des plateformes communautaires et des entreprises (Havas Media, Keolis, Orange, RTE, Renault ou encore Tesla Motors).

Attention à bien prendre en compte que ce n’est pas parce qu’une entreprise dispose d’un jeu de données sur la plateforme qu’elle s’est réellement lancée dans une grande politique d’ouverture de ses données. A titre d’exemple, le seul jeu de données fourni par Renault et Tesla concerne la localisation des stations de recharge pour véhicules électriques, données qui de toutes façons disposent d’une facette publique évidente et sont également partagées (ou tout du moins en partie) par des acteurs publics.

Méthodologie de recherche:identifier

les gares de fret et de voyageurs

dans plusieurs pays européens

Comment faire concrètement pour retrouver des informa-tions susceptibles d’être en Open Data ? Pour cela, nous prendrons comme exemple une recherche d’information effectuée par l’équipe de notre société sœur FLA Consultants il y a maintenant plusieurs années. En 2011, dans le cadre d’un projet européen, un client souhaitait ainsi obtenir les informations suivantes : un listing des gares de fret et de voyageurs dans plusieurs pays européens (en l’occur-rence France, Allemagne et Royaume-Uni) dont le nombre de quais était supérieur à 5 pour les gares de fret et la fréquentation supérieure à 100 000 par an pour les gares de voyageurs. Le client avait en-suite besoin, pour chaque gare, de la latitude et la longitude.

A l’époque, l’Open Data n’en était qu’à ses balbutiements et les informations n’avaient pas été faciles à trouver dans chacun des pays, loin de là. L’information existait bien, nous en avions la certitude et elle était très probablement détenue par les entreprises de transports et infrastructures ferroviaires (Réseau Ferré de France, SNCF, Deutsche Bahn, etc.). Pour l’Allemagne, pays connu pour sa rigueur administrative, les informations avaient été relati-vement faciles à trouver.

Page 8: Bases_pour une recherche intelligente d'information

8

©BASES•N°333•Janvier2016

PANORAMA

Une fois le bon organisme identifié, les informations avaient été dénichées en accès libre sur leur site Web (il ne s’agissait alors pas de données en Open Data mais d’une base de données en accès libre sans possibilité d’exportation). Pour le Royaume-Uni, même stratégie et même réussite, le pays étant à cette époque-là déjà dans une politique d’ouverture de ses données publiques (leur portail Open Data data.gov.uk ayant ouvert en 2011).

Mais c’est en France que nous avions rencontré la plus grande difficulté et surtout une forte résistance de la part des entreprises contactées. Nous avions ainsi commencé par contacter par email les principales structures susceptibles de fournir cette information : SNCF, Gares et Connexions et Réseau Ferré de France. Aucune réponse. Nous avions ensuite appelé les responsables communication des différentes structures. Après de multiples appels, où chaque organisme se renvoyait la balle quant à savoir qui était le détenteur des données, nous avions fini par comprendre entre les lignes quelle structure disposait des données que nous recherchions. Nous avions alors un peu insisté et nous nous étions vu répondre qu’il s’agissait de données confidentielles et stratégiques et que l’entreprise ne les communiquerait pas. Cinq ans après, force est de constater que les temps ont changé et la politique aussi…

OrganismeJeux de

données

Office national de l'eau et des milieux aquatiques (ONEMA)

151

Institut français de recherche pour l'exploitation de la mer (IFREMER) 116

IRDES & ECOSANTE.FR : Institut de Recherche et Documentation en Economie de la Santé

105

Caisse Nationale des Allocations Familiales 77

SNCF 65

Système d'Information sur l'Eau 62

FranceAgriMer 61INSEE 39Météo-France 35Centre national du cinéma et de l'image animée

34

SHOM 33INPI 29IGN 22RATP 22Cour des comptes 19Hadopi 18Caisse Nationale de l'Assurance Maladie des Travailleurs Salariés (CNAMTS)

17

Agence Nationale pour la Rénovation Urbaine (ANRU)

15

Observatoire national de la délinquance et des réponses pénales (ondrp)

13

ERDF 13Agence Technique de l'Information sur l'Hospitalisation (ATIH)

12

Irstea 12Infogreffe 11CeNGEPS (Centre National de Gestion des Essais de Produits de Santé)

11

CNIL 9

OpenHealth Company 8

Pôle Emploi 8

Centre des monuments nationaux 7Haute Autorité de Santé (HAS) 6BNF 6Commission Nationale des Comptes de Campagne et des Financements Politiques (CNCCFP)

5

Centre National des Œuvres Universitaires et Scolaires

5

ATOUT FRANCE - Agence de développe-ment touristique de la France

5

Muséum National d'Histoire Naturelle 5Sénat 5Office National des Forêts 5

OrganismeJeux de

données

ONISEP 5Agence de Services et de Paiement (ASP) 5Institut Français du Cheval et de l'Equita-tion (IFCE)

4

Autorité de Régulation des Communications Electroniques et des Postes (ARCEP)

4

Agence nationale de sécurité sanitaire, de l'alimentation, de l'environnement et du travail (ANSES)

4

Centre National de la Propriété Forestière 4Ined 3Agence Bio 3Institut national de l'origine et de la qua-lité (INAO)

3

Institut national de recherches archéolo-giques préventives (INRAP)

3

La Poste 3Inria 2Réseau Ferré de France 2

Mission Très Haut Débit 2

ADEME 2

Cap Digital (pôle de compétitivité) 2

Images & Réseaux (pôle de compétitivité) 2

Agence pour l'enseignement français à l'étranger

2

Observatoire français des drogues et des toxicomanies

2

Haute Autorité pour la transparence de la vie publique

1

Autorité de Régulation des Jeux en Ligne (ARJEL)

1

Agence Nationale d'Appui à la Performance des établissements de santé et médico-sociaux (ANAP)

1

ASF (Autoroutes du Sud de la France) 1Commission d’accès aux documents administratifs (CADA)

1

AFNIC 1IRSN 1le.taxi 1Agence Française de Développement (AFD)

1

Agence Nationale pour l'Amélioration des Conditions de Travail (ANACT)

1

Agence nationale des fréquences 1

Conseil Supérieur de l'Audiovisuel 1Agence nationale pour la cohésion sociale et l'égalité des chances

1

Conseil Constitutionnel 1CNES 1

Figure 1. Etablissements publics et autorités publiques indépendantes au niveau national

Page 9: Bases_pour une recherche intelligente d'information

©BASES•N°333•Janvier2016

9

PANORAMA

Si nous devions refaire cette recherche en 2016, voici comment nous nous y prendrions.

Comme tout le monde, notre premier réflexe consisterait à interroger Google. Pour commencer simplement, notre stratégie consisterait à entrer les termes gares de voyageurs / gares de fret avec le terme France (la stratégie étant à traduire dans les différentes langues concernées).

Dès les premiers résultats, on trouve une page Wikipédia listant les gares de voyageurs accueillant plus d’1 million de voyageurs par an (avec un tableau listant le nom des gares et le nombre de voyageurs) et encore mieux une page du portail Data.gouv.fr qui héberge un jeu de données (au format excel) fourni par Réseau Ferré de France (l’entreprise-même qui nous avait indiqué en 2011 qu’elle ne nous communiquerait pas ces données !) appelé « Gares ferroviaires de tout type, exploitées ou non » avec le nom des gares, le code postal, le type de gare (fret, voyageurs etc.) et les coordonnées spatiales.

Nous avons donc trouvé la première partie de la réponse en un rien de temps. Reste maintenant à obtenir des informations sur le nombre de voyageurs annuels/nombre de quais. Nous avons ainsi lancé d’autres recherches sur Google en croisant les termes gares

de voyageurs / gares de fret avec des termes comme quai, plateformes, fréquentation, nombre de voyageurs, etc. mais nous n’avons rien obtenu de très concluant (à part quelques données sur des régions et départements mais rien au niveau national).

Nous avons ainsi décidé d’ex-plorer la plateforme Open Data data.gouv.fr à la recherche de données qui ne seraient pas listées dans Google ou du moins très mal classées dans les pages de résultats. Après plusieurs re-cherches, nous avons découvert un fichier appelé « Référentiel des gares de voyageurs » publié par la SNCF, qui indique pour chaque gare de voyageurs en France si elle appartient à la catégorie a (plus de 250 000 voyageurs par an), b (plus de 100 000) ou c (les autres) ainsi que les coordonnées géographiques de chaque gare.

Restait maintenant à trouver des données concernant le nombre de quais des gares de fret. Et malgré plusieurs tests, nous n’avons pas réussi à identifier cette information au niveau national. Un moyen d’obtenir cette information, mais il est très chronophage, consisterait à utiliser le fichier de RFF contenant les coordonnées géographiques de chaque gare, d’extraire les gares de fret et de regarder avec un logiciel d’images satellitaires (type Google Earth) combien de quais/plateformes sont visibles à l’image pour chaque gare...

Et pour l’Allemagne et le Royaume-Uni dont nous avions

déjà réussi à obtenir les données en 2011, nous avons découvert que les organismes de trans-ports nationaux disposaient désormais de plateformes Open Data, ce qui permettait d’obtenir les informations plus rapidement et dans un format plus facilement exploitable.

Ainsi, une recherche Google peut représenter une première étape intéressante mais il faut avoir conscience que les données en Open Data ne sont pas toujours bien référencées par le moteur. Il faudra alors consulter les grandes plateformes du ou des pays concernés ainsi que les sites des organismes susceptibles d’avoir produit cette donnée (et regarder s’ils ne disposent pas d’une plateforme d’Open Data en interne). Malheureusement, les plateformes d’Open Data ne proposent pas toujours des fonctionnalités de recherche très poussées.

Pour les pays étrangers dont on connaît peu la structure en matière d’Open Data, on pourra consulter des annuaires et cartographies comme notamment :

■ OpenDataSoft qui a listé sur une carte plus de 1 600 portails Open Data dans le monde https://www.opendatasoft.com/fr/ressource-liste-portails-open-data-dans-le-monde/

■ Dataportals qui a listé environ 500 portails dans le monde : http://dataportals.org/

L’actualité des derniers mois

Cet article est également l’oc-casion de lancer une nouvelle rubrique dans Bases autour de l’ Open Data. L’actualité dans ce domaine et le lancement de nouvelles plateformes n’étant pas toujours faciles à suivre. C’est pour cette raison que nous avons listé les dernières nouveautés repérées depuis la rentrée de septembre. A l’avenir, cette ru-brique sera également enrichie d’informations autour de l’Open Access, autre élément impor-tant de ce mouvement dit de l’ « Open », notamment pour les professionnels de l’information.

France

Data.gouv.fr

■ Pôle Emploi a finalement ouvert une partie de ses données (8 jeux de données)

■ Il en est de même pour Météo France (avec 35 jeux de données)

■ Le CNES a rejoint en novembre la plateforme data.gouv.fr en partageant les données du programme Copernicus

■ La ville de Meudon a également rejoint la plateforme en octobre

■ L’Assemblée Nationale a lancé son portail Open Data à l’adresse data.assemblée-nationale.fr, données que l’on retrouve aussi sur le portail national.

■ La Caisse d’Allocations Familiales a lancé son propre portail à l’adresse

Page 10: Bases_pour une recherche intelligente d'information

10

©BASES•N°333•Janvier2016

PANORAMA

http://data.caf.fr/dataset, les données se retrouvent également sur data.gouv.fr. On y trouve 76 jeux de données dont la population couverte par une aide au logement - par Caf, le taux d’appels téléphoniques traités par les agents, etc.

■ La Dila a ajouté en septembre dernier 4 jeux de données sur la plateforme atteignant ainsi les 80 jeux de données

■ L’Assurance Maladie a récemment ajouté des données sur les dépenses et prescriptions en médicaments. Elles sont accessibles sur le site ameli.fr et référencées sur la plateforme data.gouv.fr

■ ERDF a mis en ligne 13 jeux de données (la consommation journalière par catégorie client, le bilan électrique relatif à la puissance installée, le parc des installations de production raccordées sur le réseau ERDF par tranche de puissance et par région, etc.)

■ L’AFD (L’Agence Française de Développement) a créé sa propre plateforme d’Open Data à l’adresse http://afd.opendatasoft.com, données également indexées sur la plateforme nationale. Le site de l’AFD permet néanmoins une meilleure visualisation des données avec notamment l’existence d’une carte interactive et de différents filtres pour visualiser les données.

■ La Seine Saint-Denis a ouvert sa propre plateforme à l’adresse http://data.seine-saint-denis.fr/, données

également indexées sur la plateforme nationale

Autres initiatives

■ L’université Paris Ouest Nanterre La Défense a publié ses premiers jeux de données (évolution du nombre d’étudiants inscrits et d’inscriptions depuis la rentrée universitaire 2008-09, origine géo-graphique des étudiants inscrits à l’université, offre de formation de l’univer-sité, écoles doctorales et doctorants de l’université, domaines scientifiques et structures de recherche de l’université) sur la plateforme Opendata92. A noter qu’une partie des données des Hauts-de-Seine se retrouve bien sûr data.gouv.fr mais pas celles de l’université Paris Ouest Nanterre La Défense. https://opendata.hauts-de-seine.net

■ Infogreffe se lance dans l’Open Data suite à la promulgation de la loi Macron le 6 août 2015. Un portail dédié a été lancé à l’adresse https://www.datainfogreffe.fr mais on retrouve une partie des données sur data.gouv.fr. 17 jeux de données sont pour l’instant disponibles (entreprises radiées en 2015, entreprises immatriculées en 2015, etc.). L’ouverture à l’Open Data ne signifie pas pour autant l’accès libre et gratuit aux documents d’Infogreffe. La demande d’un extrait Kbis, les actes et statuts d’une entreprise ou encore les comptes

annuels sont toujours des services payants.

■ Le STIF (Syndicat des Transports en Ile de France) a lancé sa propre plateforme d’Open Data avec 29 jeux de données pour le moment - http://opendata.stif.info

■ Enfin, le département de Haute-Garonne vient de mettre en ligne sa plateforme d’Open Data à l’adresse http://data.haute-garonne.fr/. Elle contient 24 jeux de données pour le moment.

A venir

Le 24 juillet dernier, une ordon-nance a été publiée au Journal Officiel encadrant l’ouverture prochaine en mode Open Data des données essentielles des marchés publics. A l’article 56, on peut lire : « dans des conditions fixées par voie réglementaire, les acheteurs rendent public le choix de l’offre retenue et rendent accessibles sous un format ouvert et libre-ment réutilisable les données essentielles du marché public sous réserve des dispositions de l’article 44 ». L’ordonnance entrera en vigueur au plus tard le 1er avril 2016.

Le 12 janvier dernier, Axelle Lemaire a annoncé l’ouver-ture en Open Data du réper-toire SIRENE (répertoire des entreprises françaises- gérée par l’INSEE) au 1er janvier 2017.

Monde

■ L’union européenne a lancé un portail Open Data européen appelé European

Data Portal (http://www.europeandataportal.eu/) qui contenait plus de 240 000 jeux de données issues de 34 pays lors de son lancement en novembre dernier.

■ Le Sénégal a ouvert ses données géographiques http://www.basegeo.gouv.sn/

■ Lancement aux Etats-Unis de Databrary, une base de vidéos scientifique en open data https://nyu.databrary.org/

L’Open Data représente donc bien un réel intérêt pour les professionnels de l’informa-tion en matière de sources. Cela permet notamment d’accéder à des informations auxquelles il était tout sim-plement impossible ou très difficile d’accéder auparavant. Lors d’une recherche ou d’une veille, il faudra toujours se de-mander si les données recher-chées sont susceptibles d’être produites par des organismes publics et donc susceptibles d’être en Open Data.

On pourra ensuite se lancer dans une recherche Web qui, si elle s’avère infructueuse ou insuffisante, devra être com-plétée par la consultation des grandes plateformes d’Open Data et des organismes pro-ducteurs des données en ques-tion. En revanche, il sera sou-vent intéressant de compléter les données identifiées (tout dépend évidemment du sujet traité) par d’autres sources no-tamment payantes qui peuvent proposer des données plus complètes ou récentes et plus d’analyse (comme par exemple dans le cas d’une recherche sur une entreprise).

Page 11: Bases_pour une recherche intelligente d'information

WEB INVISIBLE

©BASES•N°333•Janvier2016

11

ACTUS EN BREF

L’actualité des serveurs, bases de donnéesetéditeursscientifiques

Carole Tisserand-Barthole

Grands serveurs et bases de données

Thomson Reuters

Web of Science

Le département Intellectual Property & Science business de Thomson Reuters a récemment annoncé sa collaboration avec la bibliothèque numérique scientifique russe eLIBRARY.RU. De fait, le Russian Science Citation Index (RSCI qui inclut plus de 600 journaux scientifiques russes) sera désormais inclus dans Web of Science.

Ce même département vient tout juste de publier un rapport intitulé World’s Most Influential Scientific Minds identifiant les chercheurs ayant eu le plus d’im-pact dans leur domaine. Il est accessible à l’adresse suivante :

bit.ly/1JTBE4Z. Les domaines couverts sont les suivants : Agricultural Sciences, Biology & Biochemistry, Chemistry, Clinical Medecine, Computer Science, Economics & Business, Engineering, Environment & Ecology, Geosciences, Immunology, Materials Science, Mathematics, Microbiology, Molecular Biology & Genetics, Neuroscience & Behavior, Pharmacology & Toxicology, Physics, Plant & Animal Science, Psychatry/Psychology, Social Sciences (General), Space Science.

Proquest

Proquest a récemment numérisé les archives complètes de six journaux féminins américains du 19e et 20e siècle (Better Homes & Gardens, Chatelaine, Good Housekeeping, Ladies’ Home

Journal, Parents et Redbook) et propose une base dédiée à leur consultation appelée Women’s Magazine Archive.

Bases, éditeurs et outilsscientifiques

Aviation Week & Space Technology

A l’occasion de ses 100 ans de parution, le magazine a lancé en partenariat avec Boeing un site permettant d’accéder librement à ses archives (soit 4 500 numéros) à l’adresse archive.aviationweek.com.

ORCID

L’identifiant ORCID est un numéro unique attribué à chaque auteur scientifique. Il permet ainsi d’identifier facilement un auteur et évite tout risque

de confusion avec un autre auteur. Un groupe de 7 éditeurs vient d’ailleurs d’annoncer qu’il exigerait des auteurs l’utilisation de l’identifiant ORCID lors de la soumission de tout article. Il s’agit de The American Geophysical Union (AGU), eLife, EMBO, Hindawi, the Institute of Electrical & Electronics Engineers (IEEE) et the Public Library of Science (PLOS). Si tous les éditeurs venaient à utiliser ce modèle, cela offrirait des possibilités de recherche intéressantes aux professionnels de l’information notamment pour l’identification d’experts.

Autres

Depuis le 1er janvier 2016, la ver-sion papier du Journal Officiel n’existe plus. Il est désormais uniquement disponible au format numérique.

INRIA - MOOC Web Sémantique et Web de données À partir du 7 mars 2016 http://mooclab.inria.fr

Journée d’étude Bpi-enssib : Actualités de la recherche des bibliothèques 8 mars 2016 – BPI, Paris http://www.enssib.fr/journee-enssib-bpi-2016

ETD 2016 - XIXe conférence internationale sur les thèses électroniques, consacrée aux données de la recherche des doctorants 11 au 13 juillet 2016 – Université de Lille Sciences humaines http://etd2016.sciencesconf.org/

AGENDA

L'intelligence économique pour les Nuls Eric Delbeque First, octobre 2015, 380 pages, 22.95 € ISBN : 978-2754067539

Big data - Open data : Quelles valeurs ? Quels enjeux ? Sous la direction de : Evelyne Broudoux, Ghislaine Chartron De Boeck Supérieur, octobre 2015, 288 pages, 29.50 € ISBN : 9782807300316

Utiliser Wikipédia comme source d'information fiable Guy Delsaut Editions Klog, janvier 2016, 182 pages, 20 € ISBN : 979-10-92272-12-3

NOUVEAUX OUVRAGES

Page 12: Bases_pour une recherche intelligente d'information

© B

ASES

• N

°312

• F

évrie

r 20

14

12

Quantité Total TTCAbonnement pour un an à la lettre mensuelle BASES(11 numéros par an, 12 pages par numéro)

• France : 245 e TTC (239,96 e HT - TVA 2,10%)

• Etranger (Europe par voie de surface) : 265 e

• Etranger et outre-mer par avion : 275 e

Abonnement groupé à BASES et à NETSOURCES(6 numéros par an, 16 pages par numéro)

• France : 380 e TTC (372,18 e HT - TVA 2,10%)

• Etranger (Europe par voie de surface) : 410 e

• Etranger et outre-mer par avion : 430 e

Offre valable uniquement en complément d’un abonnement• Les onze derniers numéros parus de BASES

(une année) sous forme papier : 120 e TTC au lieu de 245 e TTC • L’accès à la version numérique de BASES

(onze numéros à feuilleter) : 45 e TTC

A retourner à BASES PUBLICATIONS - 27, rue de la Vistule - 75013 PARISTél. : 01 45 82 75 75 • Fax : 01 45 82 46 04 • e-mail : [email protected]

Total TTC

BASES : Commission paritaire 1115 I 87287 - I.S.S.N. 0765-1325 - Édité par BASES PUBLICATIONS - SARL de presse au capital de 10 000 e - RC Paris B 335325007

27, rue de la Vistule - 75013 Paris - Tél : 01 45 82 75 75 - Fax : 01 45 82 46 04 - www.bases-netsources.com - [email protected]

Directeur de la Publication : François LIBMANN - Rédactrice en Chef : Béatrice FOENIx-RIOU

Impression : Dupli-Print, Domont

B O N D E C O M M A N D E

Madame, Monsieur Fonction Entreprise, organisme Adresse

Téléphone E-mail

Joint le règlement de : e

à l’ordre de BASES PUBLICATIONS. Une facture de régularisation sera envoyée par retour.

BULLETIN D’ABONNEMENT

Vous souhaitez optimiser votre utilisation des sourcesd’information électroniques ?

ABONNEZ-VOUS À NETSOURCESRéalisée depuis 1996 par desinternautes exigeants, NETSOURCESvous aidera à optimiser vos recherchessur le Web (visible, invisible, social...).Tous les deux mois, ses articles vousapprendront à élaborer desméthodologies de recherche astucieuseset performantes, à suivre l’évolution desoutils de recherche sur la Toile, à découvrir les nouveauxoutils du Web social et à localiser des ressourcessélectionnées pour leur intérêt, dans tous les domaines...

ABONNEZ-VOUS À BASESRéalisée depuis 1985 par des professionnels del’information, BASES est la lettre mensuelle deréférence sur l’actualité des serveursd’information professionnels et du Web invisible.En vous abonnant à BASES, vous bénéficierez del’expérience et de l’avis d’utilisateurs exigeantsdes bases de données, vous découvrirez des

méthodes d’interrogation performantes, vous suivrezl’évolution du secteur, vous localiserez des ressourcesinsoupçonnées du Web invisible, vous disposerez depanoramas commentés de sources spécialisées...

© tous droits réservés BASES PUBLICATIONS 2012 • N°96 • Janvier / Février 2012

Présentée en décembre 2011 lors

du salon LeWeb, il aura fallu

attendre le 16 février pour que la

nouvelle interface de Twitter soit

déployée sur l’ensemble des

comptes. L’occasion pour nous de

revenir sur cet outil de

microblogging, dont l’usage ne

cesse de croître mais pour lequel

de nombreux professionnels ont

encore des réticences.

Beaucoup craignent en effet – à

juste titre d’ailleurs – d’avoir à

gérer un flot de tweets

surabondant, pour lequel le ratio

nombre d’informations intéressantes /

nombre de tweets reste bien plus faible

que sur d’autres supports, puisque

Twitter est à la fois un support

d’«information» et de «conversation»...

Mais si la veille sur Twitter est

indéniablement chronophage, elle

reste indispensable pour qui veut suivre

en temps réel l’actualité de son

domaine, ou encore pour qui souhaite

développer sa présence sur Internet et

gérer son «e­réputation».

Twitter : une croissance

qui ne se ralentit pas

D’après une étude menée par

Semiocast (http://bfr.li/xaACyJ), l’outil

de microblogging comptait au 1er

janvier 2012 plus de 383 millions

d’utilisateurs dans le monde et 5,2

millions en France – près d’un million de

ces derniers s’étant inscrits au cours du

quatrième trimestre 2011 –.

La croissance de Twitter ne semble pas

se ralentir puisque, si l’on en croit le site

Twopcharts.com, la barre des 500

millions d’utilisateurs vient tout juste

d’être franchie, fin février 2012

(http://goo.gl/moLIG).

Il est vrai qu’avec plus de 980 000

nouveaux twittos enregistrés chaque

jour ces derniers temps et plus de 250

millions de tweets quotidiens échangés

sur le réseau, les chiffres donnent vite le

tourni...

Cela étant, ces chiffres sont à relativiser

car tous les utilisateurs ne sont pas

actifs, loin s’en faut.

....

Béatrice Foenix-Riou

Les atouts de Twitter

pour les veilleurs

WEB SOCIAL

N°96 Janvier / Février 2012

Web social

• Les atouts de Twitter pour les

veilleurs, pp.1­6

Méthodologies de recherche

• Construire sa veille en musique

classique, pp.10­11

Outils de recherche

• Cartons rouges pour Google,

pp.12­13

A Lire

• Deux ouvrages pour les veilleurs,

pp.14­15

­ Développer sa présence sur

Internet

­ Organiser sa veille sur Internet

Sur la Toile

• Bases Publications lance son

blog, p.15

Surf sur le Net

• Cnom : un livre blanc sur la

déontologie médicale, p.8

• SearchCreativeCommons : un

moteur de recherche sur les sites

sous licence CC, p.8

• Un livre blanc sur la veille

Agenda

• Web visible, Web invisible, Web

2.0, p.9

• Veille sur le Net, p.9

S O M M A I R E

A l’heure où le quotidien La Tribune

annonce la disparition de sa version

papier au profit de son édition

numérique, nous avons choisi de nous

pencher sur l’univers nébuleux de la

presse en ligne et des sites

d’actualités, afin d’y voir plus clair sur

les contenus proposés (s’agit­il de

contenu propre, du même contenu

qu’une édition papier…) et les moyens

mis à disposition pour y accéder.

Dans le cadre de cet article, nous

nous limiterons à la presse

française, mais certaines

remarques et constats abordés ici

peuvent tout aussi bien s’appliquer à la

presse internationale.

Il n’est pas rare pour un professionnel de

l’information de croiser des usagers ou

collaborateurs qui ont le sentiment de

pouvoir effectuer toutes les recherches

presse par eux­mêmes en n’interrogeant

que le Web gratuit, un client qui souhaite

limiter sa recherche à la presse web car il

a déjà interrogé la presse papier – ou

l’inverse –, ou bien un prestataire de

Presse française en ligne :

un substitut à la presse

papier ?

© Tous droits réservés BASES PUBLICATIONS 2012

veille qui intègre (soi­disant) la presse

française mais qui, en réalité, ne surveille

que la partie gratuite des sites de presse

ou des sites d’actualités.

Même si le contenu journalistique

disponible gratuitement sur des sites de

presse s’est considérablement

développé au cours des dernières

années, ne risque­t­on pas de passer à

côté d’informations pertinentes et

existe­t­il une valeur ajoutée sur les sites

web des titres de presse par rapport à

l’édition papier ?

Presse en ligne et sites

d’actualités : au bon vouloir

de chaque éditeur…

Quand on cherche à savoir si le contenu

d’un site de presse est l’équivalent de

l’édition papier, il n’existe bien souvent

qu’une seule solution : vérifier

manuellement que certains articles de

l’édition papier se retrouve sur le site web

et vice et versa. Il est en effet assez rare

que les titres de presse affichent

clairement leur politique en la matière.

Carole Tisserand-Barthole

Panorama

• Presse française en ligne :

un substitut à la presse papier ?,

pp.1­4

Web invisible

• Open.EconBiz.de : un portail de

littérature scientifique en

économie, pp.6­7

• Normlex : pour tout savoir sur les

normes internationales du travail,

pp.8­9

• Data­Publica.com : le portail

français des données publiques et

de l’open data, pp.10­11

N°289 • Janvier 2012

S O M M A I R E

© B

ASES

• N

°312

• F

évrie

r 20

14

12

Quantité Total TTCAbonnement pour un an à la lettre mensuelle BASES(11 numéros par an, 12 pages par numéro)

• France : 245 e TTC (239,96 e HT - TVA 2,10%)

• Etranger (Europe par voie de surface) : 265 e

• Etranger et outre-mer par avion : 275 e

Abonnement groupé à BASES et à NETSOURCES(6 numéros par an, 16 pages par numéro)

• France : 380 e TTC (372,18 e HT - TVA 2,10%)

• Etranger (Europe par voie de surface) : 410 e

• Etranger et outre-mer par avion : 430 e

Offre valable uniquement en complément d’un abonnement• Les onze derniers numéros parus de BASES

(une année) sous forme papier : 120 e TTC au lieu de 245 e TTC • L’accès à la version numérique de BASES

(onze numéros à feuilleter) : 45 e TTC

A retourner à BASES PUBLICATIONS - 27, rue de la Vistule - 75013 PARISTél. : 01 45 82 75 75 • Fax : 01 45 82 46 04 • e-mail : [email protected]

Total TTC

BASES : Commission paritaire 1115 I 87287 - I.S.S.N. 0765-1325 - Édité par BASES PUBLICATIONS - SARL de presse au capital de 10 000 e - RC Paris B 335325007

27, rue de la Vistule - 75013 Paris - Tél : 01 45 82 75 75 - Fax : 01 45 82 46 04 - www.bases-netsources.com - [email protected]

Directeur de la Publication : François LIBMANN - Rédactrice en Chef : Béatrice FOENIx-RIOU

Impression : Dupli-Print, Domont

B O N D E C O M M A N D E

Madame, Monsieur Fonction Entreprise, organisme Adresse

Téléphone E-mail

Joint le règlement de : e

à l’ordre de BASES PUBLICATIONS. Une facture de régularisation sera envoyée par retour.

BULLETIN D’ABONNEMENT

Vous souhaitez optimiser votre utilisation des sourcesd’information électroniques ?

ABONNEZ-VOUS À NETSOURCESRéalisée depuis 1996 par desinternautes exigeants, NETSOURCESvous aidera à optimiser vos recherchessur le Web (visible, invisible, social...).Tous les deux mois, ses articles vousapprendront à élaborer desméthodologies de recherche astucieuseset performantes, à suivre l’évolution desoutils de recherche sur la Toile, à découvrir les nouveauxoutils du Web social et à localiser des ressourcessélectionnées pour leur intérêt, dans tous les domaines...

ABONNEZ-VOUS À BASESRéalisée depuis 1985 par des professionnels del’information, BASES est la lettre mensuelle deréférence sur l’actualité des serveursd’information professionnels et du Web invisible.En vous abonnant à BASES, vous bénéficierez del’expérience et de l’avis d’utilisateurs exigeantsdes bases de données, vous découvrirez des

méthodes d’interrogation performantes, vous suivrezl’évolution du secteur, vous localiserez des ressourcesinsoupçonnées du Web invisible, vous disposerez depanoramas commentés de sources spécialisées...

© tous droits réservés BASES PUBLICATIONS 2012 • N°96 • Janvier / Février 2012

Présentée en décembre 2011 lors

du salon LeWeb, il aura fallu

attendre le 16 février pour que la

nouvelle interface de Twitter soit

déployée sur l’ensemble des

comptes. L’occasion pour nous de

revenir sur cet outil de

microblogging, dont l’usage ne

cesse de croître mais pour lequel

de nombreux professionnels ont

encore des réticences.

Beaucoup craignent en effet – à

juste titre d’ailleurs – d’avoir à

gérer un flot de tweets

surabondant, pour lequel le ratio

nombre d’informations intéressantes /

nombre de tweets reste bien plus faible

que sur d’autres supports, puisque

Twitter est à la fois un support

d’«information» et de «conversation»...

Mais si la veille sur Twitter est

indéniablement chronophage, elle

reste indispensable pour qui veut suivre

en temps réel l’actualité de son

domaine, ou encore pour qui souhaite

développer sa présence sur Internet et

gérer son «e­réputation».

Twitter : une croissance

qui ne se ralentit pas

D’après une étude menée par

Semiocast (http://bfr.li/xaACyJ), l’outil

de microblogging comptait au 1er

janvier 2012 plus de 383 millions

d’utilisateurs dans le monde et 5,2

millions en France – près d’un million de

ces derniers s’étant inscrits au cours du

quatrième trimestre 2011 –.

La croissance de Twitter ne semble pas

se ralentir puisque, si l’on en croit le site

Twopcharts.com, la barre des 500

millions d’utilisateurs vient tout juste

d’être franchie, fin février 2012

(http://goo.gl/moLIG).

Il est vrai qu’avec plus de 980 000

nouveaux twittos enregistrés chaque

jour ces derniers temps et plus de 250

millions de tweets quotidiens échangés

sur le réseau, les chiffres donnent vite le

tourni...

Cela étant, ces chiffres sont à relativiser

car tous les utilisateurs ne sont pas

actifs, loin s’en faut.

....

Béatrice Foenix-Riou

Les atouts de Twitter

pour les veilleurs

WEB SOCIAL

N°96 Janvier / Février 2012

Web social

• Les atouts de Twitter pour les

veilleurs, pp.1­6

Méthodologies de recherche

• Construire sa veille en musique

classique, pp.10­11

Outils de recherche

• Cartons rouges pour Google,

pp.12­13

A Lire

• Deux ouvrages pour les veilleurs,

pp.14­15

­ Développer sa présence sur

Internet

­ Organiser sa veille sur Internet

Sur la Toile

• Bases Publications lance son

blog, p.15

Surf sur le Net

• Cnom : un livre blanc sur la

déontologie médicale, p.8

• SearchCreativeCommons : un

moteur de recherche sur les sites

sous licence CC, p.8

• Un livre blanc sur la veille

Agenda

• Web visible, Web invisible, Web

2.0, p.9

• Veille sur le Net, p.9

S O M M A I R E

A l’heure où le quotidien La Tribune

annonce la disparition de sa version

papier au profit de son édition

numérique, nous avons choisi de nous

pencher sur l’univers nébuleux de la

presse en ligne et des sites

d’actualités, afin d’y voir plus clair sur

les contenus proposés (s’agit­il de

contenu propre, du même contenu

qu’une édition papier…) et les moyens

mis à disposition pour y accéder.

Dans le cadre de cet article, nous

nous limiterons à la presse

française, mais certaines

remarques et constats abordés ici

peuvent tout aussi bien s’appliquer à la

presse internationale.

Il n’est pas rare pour un professionnel de

l’information de croiser des usagers ou

collaborateurs qui ont le sentiment de

pouvoir effectuer toutes les recherches

presse par eux­mêmes en n’interrogeant

que le Web gratuit, un client qui souhaite

limiter sa recherche à la presse web car il

a déjà interrogé la presse papier – ou

l’inverse –, ou bien un prestataire de

Presse française en ligne :

un substitut à la presse

papier ?

© Tous droits réservés BASES PUBLICATIONS 2012

veille qui intègre (soi­disant) la presse

française mais qui, en réalité, ne surveille

que la partie gratuite des sites de presse

ou des sites d’actualités.

Même si le contenu journalistique

disponible gratuitement sur des sites de

presse s’est considérablement

développé au cours des dernières

années, ne risque­t­on pas de passer à

côté d’informations pertinentes et

existe­t­il une valeur ajoutée sur les sites

web des titres de presse par rapport à

l’édition papier ?

Presse en ligne et sites

d’actualités : au bon vouloir

de chaque éditeur…

Quand on cherche à savoir si le contenu

d’un site de presse est l’équivalent de

l’édition papier, il n’existe bien souvent

qu’une seule solution : vérifier

manuellement que certains articles de

l’édition papier se retrouve sur le site web

et vice et versa. Il est en effet assez rare

que les titres de presse affichent

clairement leur politique en la matière.

Carole Tisserand-Barthole

Panorama

• Presse française en ligne :

un substitut à la presse papier ?,

pp.1­4

Web invisible

• Open.EconBiz.de : un portail de

littérature scientifique en

économie, pp.6­7

• Normlex : pour tout savoir sur les

normes internationales du travail,

pp.8­9

• Data­Publica.com : le portail

français des données publiques et

de l’open data, pp.10­11

N°289 • Janvier 2012

S O M M A I R E

12

©BASES•N°333•Janvier2016

Quantité Total TTCAbonnement pour un an à la lettre mensuelle BASES(11 numéros par an, 12 pages par numéro)

• France : 245 e TTC (239,96 e HT - TVA 2,10%)

• Etranger (Europe par voie de surface) : 265 e

• Etranger et outre-mer par avion : 275 e

Abonnement groupé à BASES et à NETSOURCES (NETSOURCES : 6 numéros par an, 16 pages par numéro)

• France : 380 e TTC (372,18 e HT - TVA 2,10%)

• Etranger (Europe par voie de surface) : 410 e

• Etranger et outre-mer par avion : 430 e

Offre valable uniquement en complément d’un abonnement• Les onze derniers numéros parus de BASES

(une année) sous forme papier : 120 e TTC au lieu de 245 e TTC • L’accès à la version numérique de BASES

(onze numéros à feuilleter) : 45 e TTC

A retourner à BASES PUBLICATIONS ­ 27, rue de la Vistule ­ 75013 PARISTél. : 01 45 82 75 75 • Fax : 01 45 82 46 04 • e­mail : contact@bases­publications.com

Total TTC

BASES : Commission paritaire 1115 I 87287 - I.S.S.N. 0765-1325 - Édité par BASES PUBLICATIONS - SARL de presse au capital de 10 000 e - RC Paris B

335325007 27, rue de la Vistule - 75013 Paris - Tél : 01 45 82 75 75 - Fax : 01 45 82 46 04 - www.bases-netsources.com - [email protected]

Directeur de la Publication : François LIBMANN - Rédactrice en Chef : Carole TISSERAND-BARTHOLE

Impression : Dupli-Print, Domont

B O N D E C O M M A N D E

Madame, Monsieur Fonction Entreprise, organisme Adresse

Téléphone E­mail

Joint le règlement de : e

à l’ordre de BASES PUBLICATIONS. Une facture de régularisation sera envoyée par retour.