Upload
lesticetlart-invisu
View
2.077
Download
2
Embed Size (px)
Citation preview
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Les TIC et l’art
OpenRefine
traitement de données en masse
Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
LOD cloud diagram d’août 2014
L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets collaboratifs d’entrepôts de données sémantiques sur le web
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Qu’est-ce qu’OpenRefine ?
Historique : 2007 mars : Metaweb lance Freebase 2010 : Freebase est proposée avec l’outil de nettoyage et de traitement des données Gridworks (v1.0) 2010 juillet : Google rachète Metaweb 2010 nov : Gridworks devient Google Refine 2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient OpenRefine [2012 : Le contenu de Freebase est transféré sur Wikidata 2014 déc : Google annonce la fermeture de Freebase 2015 : Fermeture progressive de Freebase et des services associés 2016 mai : Fermeture définitive de Freebase …………………..]
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Un tutoriel pas à pas sur OpenRefine : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
1. Installation d’OpenRefine : http://openrefine.org/download.html
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
2. Récupérer un set de données à nettoyer pour l’atelier : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Exercices…
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Où les trouver ? Comment les installer ?
• Sur le site officiel, à la page des
téléchargments -> http://openrefine.org/download.html • sur Github, dans des répertoires
spécifiques (recherche sur « plugin et/ou
extension) -> http://bit.ly/1X9TEx4 -> http://bit.ly/1UEghq1
• Fermer l’application
• Se rendre dans le répertoire où se trouve
l’application
• Dans le dossier /webapp/, créer le dossier
« extensions » si celui-ci n’existe pas
• Télécharger l’extension souhaitée au
format .zip, le dézipper et placer ce
répertoire dans le répertoire
/webapp/extensions
• Relancer l’application
« Augmenter » le comportement d’OpenRefine
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
« Augmenter » le comportement d’OpenRefine
Les plugins/extensions les + utiles • Exporter les données en RDF (à partir d’un squelette
issue d’une ontologie par ex.)
• https://github.com/fadmaa/grefine-rdf-
extension/releases
• (ATTENTION: renommer le dossier dezippé en
« rdf-extension » avant de le copier dans le
répertoire /webapp/extensions/)
• Extraction d’entités nommées
• https://github.com/RubenVerborgh/Refine-NER-
Extension
• VIB-BITS: 3 plugins (gestions des actions/historique;
comparaison entre 2 textes; gestions des facettes)
• https://www.bits.vib.be/index.php/software-
overview/openrefine
• Réaliser des statistiques
• https://github.com/sparkica/refine-stats
Des services à paramétrer • La reconciliation avec VIAF
• http://refine.codefork.com/
• Aller dans « Add Standard Service » puis ajouter
le code suivant:
http://refine.codefork.com/reconcile/viaf
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Une utilisation « augmentée » d’OpenRefine
Quelques exemples/exercices
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et
Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value,
"url »)
• Extraite les coordonnées géographiques dans une autre colonne
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
OpenRefine & les plugins
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• cells['Lieu_naissance 1'].value + ", Etats-Unis"
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url »)
• Extraite les coordonnées géographiques dans une autre colonne
• with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
• cell.recon.match.id
Quelques exemples/exercices -> réponses
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art Accès : 6, rue des Petits-Champs 75002 Paris
Adresse postale : 2, rue Vivienne 75002 Paris
Métro : Bourse, Pyramides Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 89 84 Fax : +33 (0) 1 47 03 86 36
http://invisu.inha.fr
Certains des + d’OpenRefine • Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets
• cell.cross("My Address Book", "friend")[0].cells["address"].value[0]
• Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json
• Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply
• Extraire des données d’une page web
• Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML
Paramétrages pratiques • Paramétrer le nombre de facettes autorisées
• http://127.0.0.1:3333/preferences
• Ajouter ui.browsing.listFacet.limit (ex 10000)
• Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros)
• modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”