12
Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris Adresse postale : 2, rue Vivienne 75002 Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36 [email protected] http://invisu.inha.fr Les TIC et l’art OpenRefine traitement de données en masse Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016

OpenRefine: traitement de données en masse

Embed Size (px)

Citation preview

Page 1: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

Les TIC et l’art

OpenRefine

traitement de données en masse

Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016

Page 2: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

LOD cloud diagram d’août 2014

L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets collaboratifs d’entrepôts de données sémantiques sur le web

Page 3: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

Qu’est-ce qu’OpenRefine ?

Historique : 2007 mars : Metaweb lance Freebase 2010 : Freebase est proposée avec l’outil de nettoyage et de traitement des données Gridworks (v1.0) 2010 juillet : Google rachète Metaweb 2010 nov : Gridworks devient Google Refine 2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient OpenRefine [2012 : Le contenu de Freebase est transféré sur Wikidata 2014 déc : Google annonce la fermeture de Freebase 2015 : Fermeture progressive de Freebase et des services associés 2016 mai : Fermeture définitive de Freebase …………………..]

Page 4: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

Un tutoriel pas à pas sur OpenRefine : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial

Page 5: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

1. Installation d’OpenRefine : http://openrefine.org/download.html

Page 6: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

2. Récupérer un set de données à nettoyer pour l’atelier : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial

Page 8: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

Où les trouver ? Comment les installer ?

• Sur le site officiel, à la page des

téléchargments -> http://openrefine.org/download.html • sur Github, dans des répertoires

spécifiques (recherche sur « plugin et/ou

extension) -> http://bit.ly/1X9TEx4 -> http://bit.ly/1UEghq1

• Fermer l’application

• Se rendre dans le répertoire où se trouve

l’application

• Dans le dossier /webapp/, créer le dossier

« extensions » si celui-ci n’existe pas

• Télécharger l’extension souhaitée au

format .zip, le dézipper et placer ce

répertoire dans le répertoire

/webapp/extensions

• Relancer l’application

« Augmenter » le comportement d’OpenRefine

Page 9: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

« Augmenter » le comportement d’OpenRefine

Les plugins/extensions les + utiles • Exporter les données en RDF (à partir d’un squelette

issue d’une ontologie par ex.)

• https://github.com/fadmaa/grefine-rdf-

extension/releases

• (ATTENTION: renommer le dossier dezippé en

« rdf-extension » avant de le copier dans le

répertoire /webapp/extensions/)

• Extraction d’entités nommées

• https://github.com/RubenVerborgh/Refine-NER-

Extension

• VIB-BITS: 3 plugins (gestions des actions/historique;

comparaison entre 2 textes; gestions des facettes)

• https://www.bits.vib.be/index.php/software-

overview/openrefine

• Réaliser des statistiques

• https://github.com/sparkica/refine-stats

Des services à paramétrer • La reconciliation avec VIAF

• http://refine.codefork.com/

• Aller dans « Add Standard Service » puis ajouter

le code suivant:

http://refine.codefork.com/reconcile/viaf

Page 10: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

Une utilisation « augmentée » d’OpenRefine

Quelques exemples/exercices

• Utiliser l’API de Google pour géolocaliser des lieux

• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis

• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et

Allegheny.

• Lancer la géolocalisation via « by fetching URL »

• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value,

"url »)

• Extraite les coordonnées géographiques dans une autre colonne

• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York

• Créer une colonne avec pour créer le nom complet

• Filtrer sur les élèves nés à New York

• Procéder à la réconciliation en utilisant le VIAF

• Utiliser l’interface pour valider et choisir la réconciliation

• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF

Page 11: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

OpenRefine & les plugins

• Utiliser l’API de Google pour géolocaliser des lieux

• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis

• cells['Lieu_naissance 1'].value + ", Etats-Unis"

• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny.

• Lancer la géolocalisation via « by fetching URL »

• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url »)

• Extraite les coordonnées géographiques dans une autre colonne

• with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)

• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York

• Créer une colonne avec pour créer le nom complet

• cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value

• Filtrer sur les élèves nés à New York

• Procéder à la réconciliation en utilisant le VIAF

• Utiliser l’interface pour valider et choisir la réconciliation

• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF

• cell.recon.match.id

Quelques exemples/exercices -> réponses

Page 12: OpenRefine: traitement de données en masse

Les TIC et l'art

OpenRefine

9 juin 2016

Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris

Adresse postale : 2, rue Vivienne 75002 Paris

Métro : Bourse, Pyramides Palais royal/Musée du Louvre

Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36

[email protected]

http://invisu.inha.fr

Certains des + d’OpenRefine • Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets

• cell.cross("My Address Book", "friend")[0].cells["address"].value[0]

• Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json

• Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply

• Extraire des données d’une page web

• Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML

Paramétrages pratiques • Paramétrer le nombre de facettes autorisées

• http://127.0.0.1:3333/preferences

• Ajouter ui.browsing.listFacet.limit (ex 10000)

• Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros)

• modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”