14
Des données tabulaires à RDF Des données tabulaires à RDF : l’extraction de données de Google Fusion Tables ? Gianluca Quercini, Chantal Reynaud-Delaître Laboratoire de Recherche en Informatique, Université Paris Sud XI {gianluca.quercini, chantal.reynaud}@lri.fr Résumé : Durant ces dernières années, un volume très important de données RDF, respectant les principes des données liées (LOD) établis par Tim Berners-Lee, ont été publiées. Toutefois, ces données ne représentent qu’une petite partie des données du web déjà disponibles dans d’autres formats, des données qu’il est très difficile de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons une approche d’extraction d’une partie de ces données via Google Fu- sion Tables dans le but de peupler une ontologie d’un domaine donné. Les données collectées sont issues de tableaux conçus par des millions d’internautes. Notre ob- jectif est d’en extraire un sous-ensemble pertinent par rapport à des classes d’une ontologie que nous souhaitons instancier. Ces données seront ensuite représentées en RDF. Une évaluation partielle de notre approche a été effectuée sur des données relatives à des restaurants et des musées. Mots-clés : Annotation sémantique, Données liées (Linked Data), Peuplement d’on- tologie. 1 Introduction Le web sémantique s’est donné comme objectif de dépasser les limites du web actuel et permet, entre autres, d’améliorer l’efficacité de la re- cherche d’information. Les moteurs de recherche actuels sont capables de retourner tout un ensemble de pages web pouvant contenir la réponse à une requête utilisateur (Experian Hitwise US (2010)), mais c’est à l’utilisateur d’étudier chacune de ces pages pour y trouver la réponse recherchée, celle- ci pouvant parfois être obtenue après recoupement d’informations conte- nues dans plusieurs pages. En effet, les moteur de recherche appliquent en- ?. Cette recherche est financée par l’Agence Nationale de la Recherche à travers le projet DataBridges (ANR-11 EITS 003 05)

Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

Des donneacutees tabulaires agrave RDF lrsquoextractionde donneacutees de Google Fusion Tables

Gianluca Quercini Chantal Reynaud-Delaicirctre

Laboratoire de Recherche en Informatique Universiteacute Paris Sud XIgianlucaquercini chantalreynaudlrifr

Reacutesumeacute Durant ces derniegraveres anneacutees un volume tregraves important de donneacutees RDFrespectant les principes des donneacutees lieacutees (LOD) eacutetablis par Tim Berners-Lee onteacuteteacute publieacutees Toutefois ces donneacutees ne repreacutesentent qursquoune petite partie des donneacuteesdu web deacutejagrave disponibles dans drsquoautres formats des donneacutees qursquoil est tregraves difficilede traduire manuellement en RDF eacutetant donneacute leur volume Dans ce papier nouspreacutesentons une approche drsquoextraction drsquoune partie de ces donneacutees via Google Fu-sion Tables dans le but de peupler une ontologie drsquoun domaine donneacute Les donneacuteescollecteacutees sont issues de tableaux conccedilus par des millions drsquointernautes Notre ob-jectif est drsquoen extraire un sous-ensemble pertinent par rapport agrave des classes drsquouneontologie que nous souhaitons instancier Ces donneacutees seront ensuite repreacutesenteacuteesen RDF Une eacutevaluation partielle de notre approche a eacuteteacute effectueacutee sur des donneacuteesrelatives agrave des restaurants et des museacuteesMots-cleacutes Annotation seacutemantique Donneacutees lieacutees (Linked Data) Peuplement drsquoon-tologie

1 Introduction

Le web seacutemantique srsquoest donneacute comme objectif de deacutepasser les limitesdu web actuel et permet entre autres drsquoameacuteliorer lrsquoefficaciteacute de la re-cherche drsquoinformation Les moteurs de recherche actuels sont capables deretourner tout un ensemble de pages web pouvant contenir la reacuteponse agrave unerequecircte utilisateur (Experian Hitwise US (2010)) mais crsquoest agrave lrsquoutilisateurdrsquoeacutetudier chacune de ces pages pour y trouver la reacuteponse rechercheacutee celle-ci pouvant parfois ecirctre obtenue apregraves recoupement drsquoinformations conte-nues dans plusieurs pages En effet les moteur de recherche appliquent en-

Cette recherche est financeacutee par lrsquoAgence Nationale de la Recherche agrave travers leprojet DataBridges (ANR-11 EITS 003 05)

IC 2012

core aujourdrsquohui tregraves souvent des approches baseacutees sur la reconnaissancede mots-cleacutes et lrsquoexploitation drsquoinformations deacutecrivant le contenu seacuteman-tique des pages nrsquoen est encore qursquoagrave ses deacutebuts Knowledge Graph 1 deGoogle en est un exemple (cf le Bourlout (2012))

En 2006 Berners-Lee (2006) a publieacute quatre regravegles tregraves simples connuessous la deacutenomination Principes des donneacutees lieacutees pour aider agrave publierdu contenu dans le cadre du web seacutemantique Ceci a conduit agrave la creacutea-tion du projet Linking Open Data qui est la concreacutetisation la plus visibledu web seacutemantique 2 Ce projet est par nature ouvert Les donneacutees pu-blieacutees correspondent agrave un nombre impressionnant drsquoensembles de donneacuteesRDF provenant drsquoindividus ou drsquoorganisations varieacutees telles que la BBC legouvernement ameacutericain ou la bibliothegraveque du Congregraves Les donneacutees sonttregraves diversifieacutees On y trouve des donneacutees sur des lieux geacuteographiques deslivres des personnes des meacutedicaments de la musique des programmesde teacuteleacutevision ou de radio et ces ensembles de donneacutees sont lieacutes les unsaux autres Toutes ces donneacutees interconnecteacutees dans le cadre du projet Lin-king Open Data correspondent agrave ce qursquoon appelle aujourdrsquohui le LOD quicorrespond de facto au site web officiel des donneacutees

Actuellement le web des donneacutees contient pratiquement 31 milliardsde triplets RDF 2 Il a atteint une masse critique de donneacutees disponibleset librement reacuteutilisables pouvant ecirctre exploiteacutees par des machines pour denouveaux services lieacutes aux eacutevolutions des usages et devenant possibles parla publication des donneacutees publiques Bien qursquoeacutenorme le Web des don-neacutees ne repreacutesente toutefois encore qursquoune partie des donneacutees disponiblesdans les pages du web les donneacutees sur les cineacutemas ou lrsquoactualiteacute en sontainsi deux exemples drsquoensembles de donneacutees absentes Comme le souligneCoetzee et al (2008) les individus et les organisations seront drsquoautant plusprecircts agrave rendre leurs donneacutees disponibles pour des applications du web seacute-mantique qursquoils seront en mesure de voir les avantages apporteacutes agrave la ges-tion des donneacutees et agrave la recherche de reacuteponses aux requecirctes poseacutees sur leweb Toutefois pour cela il est neacutecessaire que les applications du web seacute-mantique disposent drsquoencore plus de donneacutees Ceci montre lrsquourgence drsquoen-richir le web des donneacutees en mettant en place des meacutecanismes drsquoextractionet drsquoannotation automatique des donneacutees agrave partir du web des pages agrave lafaccedilon de DBpedia (Bizer et al (2009)) et Yago (Suchanek et al (2007))

1 httpwwwgooglecominsidesearchfeaturessearchknowledgehtml

2 httpwwww3orgwikiSweoIGTaskForcesCommunityProjectsLinkingOpenData

Des donneacutees tabulaires agrave RDF

mais agrave plus grande eacutechelleCafarella et al (2008) ont montreacute qursquoune grande partie des donneacutees du

web sont repreacutesenteacutees dans des tableaux Du point de vue extraction dedonneacutees les tableaux ont au moins trois atouts par rapport au texte

1 Leur structure est reacuteguliegravere Chaque cellule contient une chaicircne decaractegraveres alpha-numeacuterique repreacutesentant une information atomiqueporteuse de sens En revanche un texte doit ecirctre analyseacute de faccedilon agraverepeacuterer les suites de mots ou expressions conformes agrave certains mo-degraveles

2 Ils mettent en avant lrsquoinformation la plus importante (ex le nom lalocalisation le prix) caracteacuterisant des entiteacutes (ex des restaurants)alors qursquoun texte non structureacute citera ces eacuteleacutements au milieu drsquoautressans les distinguer plus particuliegraverement

3 Ils fournissent des informations par exemple des eacuteleacutements de naturestatistique qursquoon ne trouve geacuteneacuteralement pas dans du texte

En revanche les tableaux ont certains inconveacutenients par rapport au textele plus important eacutetant celui de lrsquoabsence du contexte Ceci rend en parti-culier tregraves difficile la tacircche drsquoannotation

A la diffeacuterence de Cafarella et al (2008) notre objectif nrsquoest pas drsquoiden-tifier des tableaux dans des pages Web Nous exploitons lrsquoensemble detableaux mis agrave disposition dans Google Fusion Tables (GFT) une appli-cation web tregraves inteacuteressante permettant de partager des donneacutees tabulairesvia Internet Il nrsquoy a pas de statistiques officielles sur le nombre de tablesdans GFT Toutefois Google met agrave disposition un moteur de recherchepour chercher les tables dans GFT et dans les sites web Nous avons faitplusieurs requecirctes pour estimer le nombre de tables dans GFT Le reacutesul-tat deacutemontre que Google indexe agrave lrsquoheure actuelle plus de 20 millions detables Dans ce papier nous preacutesentons une approche ayant pour but drsquoex-traire des donneacutees des tableaux GFT et de les traduire en RDF Il srsquoagitde

ndash Identifier des tableaux de GFT contenant des donneacutees de ce domainedrsquointeacuterecirct

ndash Extraire de lrsquoinformation des tableaux preacutealablement seacutelectionneacutes enutilisant lrsquoontologie

ndash Peupler lrsquoontologie avec les donneacutees extraitesCet article est structureacute de la faccedilon suivante La section 2 est un bref

eacutetat de lrsquoart En section 3 nous preacutesentons le contexte du problegraveme crsquoest-agrave-dire lrsquoontologie qui est exploiteacutee et Google Fusion Tables La section 4

IC 2012

est consacreacutee agrave la description de notre approche Nous y deacutecrivons le pro-cessus drsquoidentification des tableaux et drsquoextraction ce qui permet de carac-teacuteriser les donneacutees obtenues de GFT pour peupler lrsquoontologie La section 5preacutesente quelques reacutesultats expeacuterimentaux obtenus par application de notreapproche sur des donneacutees de GFT portant sur des restaurants et des museacuteesCet exemple concernant des points drsquointeacuterecircts (POIs) de la ville concernedes donneacutees qui nous sont utiles dans le cadre du projet ANR DataBridgesdont lrsquoobjectif est drsquointeacutegrer des donneacutees en exploitant les technologies etles modegraveles des donneacutees lieacutees pour des applications en lien avec les villesnumeacuteriques

2 Travaux proches

Pour extraire des donneacutees drsquoun tableau il faut comprendre la signifi-cation de lrsquoinformation qui y est contenue Ce problegraveme a eacuteteacute largementeacutetudieacute

Amin et al (2010) ont proposeacute un algorithme qui eacutetiquette chaque co-lonne drsquoun tableau agrave lrsquoaide drsquoune cateacutegorie de Wikipeacutedia deacutecrivant au mieuxson contenu La cateacutegorie retenue deacutepend des entiteacutes reconnues dans la co-lonne ainsi que de la cateacutegorie eacutetiquetant la colonne preacuteceacutedente

Lrsquoalgorithme proposeacute par Limaye et al (2010) annote un tableau en ty-pant les colonnes (un ou plusieurs types par colonne) en deacutesignant par unerelation binaire chaque couple de colonnes et en affectant un identifiantagrave chaque cellule Les types les relations et les identifiants proviennent deYago une ontologie construite au dessus de Wikipeacutedia et deacutecrite par Sucha-nek et al (2007) Une annotation drsquoune table est un ensemble de variablesaleacuteatoires dont la distribution conjointe est repreacutesenteacutee par un modegravele pro-babiliste graphique Lrsquoalgorithme recherche les valeurs des variables maxi-misant leur probabiliteacute conjointe Venetis et al (2011) adopte une approchesimilaire baseacutee sur le modegravele statistique du maximum de vraisemblanceUn tableau est annoteacute avec des entiteacutes des types et des relations drsquoun ca-talogue obtenu par extraction drsquoinformations de pages web plus riche queYago Cette approche permet ainsi drsquoobtenir de meilleures annotations Leproblegraveme toutefois de ces approches est leur incapaciteacute agrave annoter des ta-bleaux contenant des entiteacutes non reacutepertorieacutees dans les catalogues utiliseacutesLrsquoalgorithme que nous proposons nrsquoest pas baseacute sur un catalogue il peutdonc identifier des entiteacutes non reacutepertorieacutees

Un travail tregraves proche du nocirctre est celui deacutecrit par Guo et al (2011)qui propose un outil appeleacute ITEM pour enrichir des bases de connais-

Des donneacutees tabulaires agrave RDF

sances RDF avec des entiteacutes extraites de GFT Dans un premier tempsles tableaux dont la structure correspond agrave la base de connaissances RDFsont extraits puis les tuples qui ne sont pas dans la base y sont rajouteacutesLa diffeacuterence essentielle avec notre travail porte sur le fait que nous nesupposons pas lrsquoexistence drsquoune base de connaissances RDF pour aider agraveidentifier de nouvelles entiteacutes dans des tableaux GFT Notre algorithme estsuffisamment geacuteneacuteral pour retrouver des reacutefeacuterences agrave des entiteacutes dans destables dont le scheacutema ne correspond pas forceacutement agrave celui drsquoune base deconnaissances

3 Description du contexte

Lrsquoapproche que nous proposons a pour but de peupler une ontologie cette ontologie est utiliseacutee pour guider le processus drsquoidentification et drsquoex-traction des donneacutees Nous la preacutesentons puis nous deacutecrivons Google Fu-sion Tables

31 Lrsquoontologie

Lrsquoontologie agrave peupler est une ontologie OWL Dans lrsquoexemple utiliseacutedans cet article elle deacutefinit les points drsquointeacuterecircts les plus importants drsquouneville ses museacutees ses restaurants ses theacuteacirctres ses stades ses hocirctels et di-vers sites touristiques comme les monuments tours et parcs nationaux (cfFig 1)

Chaque classe est deacutefinie par des attributs qui ne sont pas repreacutesenteacutessur la figure 1 pour plus de clarteacute Par exemple les attributs les plus impor-tants caracteacuterisant les restaurants sont le nom lrsquoadresse le prix moyen lenumeacutero de teacuteleacutephone lrsquoadresse du site web et la cateacutegorie Cette ontologiecomprend eacutegalement des classes drsquoentiteacutes (ex collection artiste) en rela-tion avec les points drsquointeacuterecirct de la ville (ex museacutee) Ces informations sontutiliseacutees pour lrsquoextraction des donneacutees des tableaux sur les restaurants Letravail sur cette ontologie nrsquoest pas encore totalement finaliseacute La figure 1ne correspond donc pas agrave la version finale qui pourra in fine ecirctre pluscomplegravete

32 Google Fusion Tables

Google Fusion Tables est un service drsquointeacutegration et de gestion de don-neacutees baseacute sur le cloud fourni par Google qui permet de partager des

IC 2012

FIGURE 1 ndash Notre ontologie

donneacutees en creacuteant des tableaux via une interface intuitive facile agrave utili-ser (Gonzalez et al (2010)) Les tableaux peuvent ecirctre creacuteeacutes de toute piegravecedans GFT ou provenir de tableurs de Google Docs ou correspondre agrave desfichiers CSV importeacutes ensuite dans GFT

Le but deacuteclareacute de GFT est de permettre agrave ceux qui ont des donneacutees de lesgeacuterer alors qursquoils nrsquoont pas drsquoexpertise en base de donneacutees (Zicari (2011))La faciliteacute drsquoutilisation de GFT devrait encourager le partage de donneacuteesstructureacutees facilitant ainsi leur extraction et leur annotation

Comme les tables drsquoune base de donneacutees relationnelle chaque tableau aun nom unique qui dans GFT est une chaicircne de caractegraveres alpha-numeacuteriqueaffecteacutee automatiquement agrave sa creacuteation Tous les tableaux de GFT sontaccessibles via un navigateur web agrave lrsquoadresse suivante httpwwwgooglecomfusiontablesDataSourcedocid=[tableID]ougrave tableID est lrsquoidentifiant GFT du tableau Chaque colonne a un nom (ouentecircte) et un type (TEXT NUMBER LOCATION ou DATE) Les creacuteateursdes tableaux sont vivement encourageacutes agrave respecter cette repreacutesentation Dece fait la plupart des tableaux GFT ont effectivement un nom et les co-lonnes ont un type deux indicateurs du contenu seacutemantique

Les tableaux de GFT ont principalement trois avantages par rapport auxdonneacutees tabulaires (tableurs tables HTML listes HTML) du web

1 Leur structure est tregraves simple et claire Aucune colonne nrsquoest subdi-

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 2: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

core aujourdrsquohui tregraves souvent des approches baseacutees sur la reconnaissancede mots-cleacutes et lrsquoexploitation drsquoinformations deacutecrivant le contenu seacuteman-tique des pages nrsquoen est encore qursquoagrave ses deacutebuts Knowledge Graph 1 deGoogle en est un exemple (cf le Bourlout (2012))

En 2006 Berners-Lee (2006) a publieacute quatre regravegles tregraves simples connuessous la deacutenomination Principes des donneacutees lieacutees pour aider agrave publierdu contenu dans le cadre du web seacutemantique Ceci a conduit agrave la creacutea-tion du projet Linking Open Data qui est la concreacutetisation la plus visibledu web seacutemantique 2 Ce projet est par nature ouvert Les donneacutees pu-blieacutees correspondent agrave un nombre impressionnant drsquoensembles de donneacuteesRDF provenant drsquoindividus ou drsquoorganisations varieacutees telles que la BBC legouvernement ameacutericain ou la bibliothegraveque du Congregraves Les donneacutees sonttregraves diversifieacutees On y trouve des donneacutees sur des lieux geacuteographiques deslivres des personnes des meacutedicaments de la musique des programmesde teacuteleacutevision ou de radio et ces ensembles de donneacutees sont lieacutes les unsaux autres Toutes ces donneacutees interconnecteacutees dans le cadre du projet Lin-king Open Data correspondent agrave ce qursquoon appelle aujourdrsquohui le LOD quicorrespond de facto au site web officiel des donneacutees

Actuellement le web des donneacutees contient pratiquement 31 milliardsde triplets RDF 2 Il a atteint une masse critique de donneacutees disponibleset librement reacuteutilisables pouvant ecirctre exploiteacutees par des machines pour denouveaux services lieacutes aux eacutevolutions des usages et devenant possibles parla publication des donneacutees publiques Bien qursquoeacutenorme le Web des don-neacutees ne repreacutesente toutefois encore qursquoune partie des donneacutees disponiblesdans les pages du web les donneacutees sur les cineacutemas ou lrsquoactualiteacute en sontainsi deux exemples drsquoensembles de donneacutees absentes Comme le souligneCoetzee et al (2008) les individus et les organisations seront drsquoautant plusprecircts agrave rendre leurs donneacutees disponibles pour des applications du web seacute-mantique qursquoils seront en mesure de voir les avantages apporteacutes agrave la ges-tion des donneacutees et agrave la recherche de reacuteponses aux requecirctes poseacutees sur leweb Toutefois pour cela il est neacutecessaire que les applications du web seacute-mantique disposent drsquoencore plus de donneacutees Ceci montre lrsquourgence drsquoen-richir le web des donneacutees en mettant en place des meacutecanismes drsquoextractionet drsquoannotation automatique des donneacutees agrave partir du web des pages agrave lafaccedilon de DBpedia (Bizer et al (2009)) et Yago (Suchanek et al (2007))

1 httpwwwgooglecominsidesearchfeaturessearchknowledgehtml

2 httpwwww3orgwikiSweoIGTaskForcesCommunityProjectsLinkingOpenData

Des donneacutees tabulaires agrave RDF

mais agrave plus grande eacutechelleCafarella et al (2008) ont montreacute qursquoune grande partie des donneacutees du

web sont repreacutesenteacutees dans des tableaux Du point de vue extraction dedonneacutees les tableaux ont au moins trois atouts par rapport au texte

1 Leur structure est reacuteguliegravere Chaque cellule contient une chaicircne decaractegraveres alpha-numeacuterique repreacutesentant une information atomiqueporteuse de sens En revanche un texte doit ecirctre analyseacute de faccedilon agraverepeacuterer les suites de mots ou expressions conformes agrave certains mo-degraveles

2 Ils mettent en avant lrsquoinformation la plus importante (ex le nom lalocalisation le prix) caracteacuterisant des entiteacutes (ex des restaurants)alors qursquoun texte non structureacute citera ces eacuteleacutements au milieu drsquoautressans les distinguer plus particuliegraverement

3 Ils fournissent des informations par exemple des eacuteleacutements de naturestatistique qursquoon ne trouve geacuteneacuteralement pas dans du texte

En revanche les tableaux ont certains inconveacutenients par rapport au textele plus important eacutetant celui de lrsquoabsence du contexte Ceci rend en parti-culier tregraves difficile la tacircche drsquoannotation

A la diffeacuterence de Cafarella et al (2008) notre objectif nrsquoest pas drsquoiden-tifier des tableaux dans des pages Web Nous exploitons lrsquoensemble detableaux mis agrave disposition dans Google Fusion Tables (GFT) une appli-cation web tregraves inteacuteressante permettant de partager des donneacutees tabulairesvia Internet Il nrsquoy a pas de statistiques officielles sur le nombre de tablesdans GFT Toutefois Google met agrave disposition un moteur de recherchepour chercher les tables dans GFT et dans les sites web Nous avons faitplusieurs requecirctes pour estimer le nombre de tables dans GFT Le reacutesul-tat deacutemontre que Google indexe agrave lrsquoheure actuelle plus de 20 millions detables Dans ce papier nous preacutesentons une approche ayant pour but drsquoex-traire des donneacutees des tableaux GFT et de les traduire en RDF Il srsquoagitde

ndash Identifier des tableaux de GFT contenant des donneacutees de ce domainedrsquointeacuterecirct

ndash Extraire de lrsquoinformation des tableaux preacutealablement seacutelectionneacutes enutilisant lrsquoontologie

ndash Peupler lrsquoontologie avec les donneacutees extraitesCet article est structureacute de la faccedilon suivante La section 2 est un bref

eacutetat de lrsquoart En section 3 nous preacutesentons le contexte du problegraveme crsquoest-agrave-dire lrsquoontologie qui est exploiteacutee et Google Fusion Tables La section 4

IC 2012

est consacreacutee agrave la description de notre approche Nous y deacutecrivons le pro-cessus drsquoidentification des tableaux et drsquoextraction ce qui permet de carac-teacuteriser les donneacutees obtenues de GFT pour peupler lrsquoontologie La section 5preacutesente quelques reacutesultats expeacuterimentaux obtenus par application de notreapproche sur des donneacutees de GFT portant sur des restaurants et des museacuteesCet exemple concernant des points drsquointeacuterecircts (POIs) de la ville concernedes donneacutees qui nous sont utiles dans le cadre du projet ANR DataBridgesdont lrsquoobjectif est drsquointeacutegrer des donneacutees en exploitant les technologies etles modegraveles des donneacutees lieacutees pour des applications en lien avec les villesnumeacuteriques

2 Travaux proches

Pour extraire des donneacutees drsquoun tableau il faut comprendre la signifi-cation de lrsquoinformation qui y est contenue Ce problegraveme a eacuteteacute largementeacutetudieacute

Amin et al (2010) ont proposeacute un algorithme qui eacutetiquette chaque co-lonne drsquoun tableau agrave lrsquoaide drsquoune cateacutegorie de Wikipeacutedia deacutecrivant au mieuxson contenu La cateacutegorie retenue deacutepend des entiteacutes reconnues dans la co-lonne ainsi que de la cateacutegorie eacutetiquetant la colonne preacuteceacutedente

Lrsquoalgorithme proposeacute par Limaye et al (2010) annote un tableau en ty-pant les colonnes (un ou plusieurs types par colonne) en deacutesignant par unerelation binaire chaque couple de colonnes et en affectant un identifiantagrave chaque cellule Les types les relations et les identifiants proviennent deYago une ontologie construite au dessus de Wikipeacutedia et deacutecrite par Sucha-nek et al (2007) Une annotation drsquoune table est un ensemble de variablesaleacuteatoires dont la distribution conjointe est repreacutesenteacutee par un modegravele pro-babiliste graphique Lrsquoalgorithme recherche les valeurs des variables maxi-misant leur probabiliteacute conjointe Venetis et al (2011) adopte une approchesimilaire baseacutee sur le modegravele statistique du maximum de vraisemblanceUn tableau est annoteacute avec des entiteacutes des types et des relations drsquoun ca-talogue obtenu par extraction drsquoinformations de pages web plus riche queYago Cette approche permet ainsi drsquoobtenir de meilleures annotations Leproblegraveme toutefois de ces approches est leur incapaciteacute agrave annoter des ta-bleaux contenant des entiteacutes non reacutepertorieacutees dans les catalogues utiliseacutesLrsquoalgorithme que nous proposons nrsquoest pas baseacute sur un catalogue il peutdonc identifier des entiteacutes non reacutepertorieacutees

Un travail tregraves proche du nocirctre est celui deacutecrit par Guo et al (2011)qui propose un outil appeleacute ITEM pour enrichir des bases de connais-

Des donneacutees tabulaires agrave RDF

sances RDF avec des entiteacutes extraites de GFT Dans un premier tempsles tableaux dont la structure correspond agrave la base de connaissances RDFsont extraits puis les tuples qui ne sont pas dans la base y sont rajouteacutesLa diffeacuterence essentielle avec notre travail porte sur le fait que nous nesupposons pas lrsquoexistence drsquoune base de connaissances RDF pour aider agraveidentifier de nouvelles entiteacutes dans des tableaux GFT Notre algorithme estsuffisamment geacuteneacuteral pour retrouver des reacutefeacuterences agrave des entiteacutes dans destables dont le scheacutema ne correspond pas forceacutement agrave celui drsquoune base deconnaissances

3 Description du contexte

Lrsquoapproche que nous proposons a pour but de peupler une ontologie cette ontologie est utiliseacutee pour guider le processus drsquoidentification et drsquoex-traction des donneacutees Nous la preacutesentons puis nous deacutecrivons Google Fu-sion Tables

31 Lrsquoontologie

Lrsquoontologie agrave peupler est une ontologie OWL Dans lrsquoexemple utiliseacutedans cet article elle deacutefinit les points drsquointeacuterecircts les plus importants drsquouneville ses museacutees ses restaurants ses theacuteacirctres ses stades ses hocirctels et di-vers sites touristiques comme les monuments tours et parcs nationaux (cfFig 1)

Chaque classe est deacutefinie par des attributs qui ne sont pas repreacutesenteacutessur la figure 1 pour plus de clarteacute Par exemple les attributs les plus impor-tants caracteacuterisant les restaurants sont le nom lrsquoadresse le prix moyen lenumeacutero de teacuteleacutephone lrsquoadresse du site web et la cateacutegorie Cette ontologiecomprend eacutegalement des classes drsquoentiteacutes (ex collection artiste) en rela-tion avec les points drsquointeacuterecirct de la ville (ex museacutee) Ces informations sontutiliseacutees pour lrsquoextraction des donneacutees des tableaux sur les restaurants Letravail sur cette ontologie nrsquoest pas encore totalement finaliseacute La figure 1ne correspond donc pas agrave la version finale qui pourra in fine ecirctre pluscomplegravete

32 Google Fusion Tables

Google Fusion Tables est un service drsquointeacutegration et de gestion de don-neacutees baseacute sur le cloud fourni par Google qui permet de partager des

IC 2012

FIGURE 1 ndash Notre ontologie

donneacutees en creacuteant des tableaux via une interface intuitive facile agrave utili-ser (Gonzalez et al (2010)) Les tableaux peuvent ecirctre creacuteeacutes de toute piegravecedans GFT ou provenir de tableurs de Google Docs ou correspondre agrave desfichiers CSV importeacutes ensuite dans GFT

Le but deacuteclareacute de GFT est de permettre agrave ceux qui ont des donneacutees de lesgeacuterer alors qursquoils nrsquoont pas drsquoexpertise en base de donneacutees (Zicari (2011))La faciliteacute drsquoutilisation de GFT devrait encourager le partage de donneacuteesstructureacutees facilitant ainsi leur extraction et leur annotation

Comme les tables drsquoune base de donneacutees relationnelle chaque tableau aun nom unique qui dans GFT est une chaicircne de caractegraveres alpha-numeacuteriqueaffecteacutee automatiquement agrave sa creacuteation Tous les tableaux de GFT sontaccessibles via un navigateur web agrave lrsquoadresse suivante httpwwwgooglecomfusiontablesDataSourcedocid=[tableID]ougrave tableID est lrsquoidentifiant GFT du tableau Chaque colonne a un nom (ouentecircte) et un type (TEXT NUMBER LOCATION ou DATE) Les creacuteateursdes tableaux sont vivement encourageacutes agrave respecter cette repreacutesentation Dece fait la plupart des tableaux GFT ont effectivement un nom et les co-lonnes ont un type deux indicateurs du contenu seacutemantique

Les tableaux de GFT ont principalement trois avantages par rapport auxdonneacutees tabulaires (tableurs tables HTML listes HTML) du web

1 Leur structure est tregraves simple et claire Aucune colonne nrsquoest subdi-

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 3: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

mais agrave plus grande eacutechelleCafarella et al (2008) ont montreacute qursquoune grande partie des donneacutees du

web sont repreacutesenteacutees dans des tableaux Du point de vue extraction dedonneacutees les tableaux ont au moins trois atouts par rapport au texte

1 Leur structure est reacuteguliegravere Chaque cellule contient une chaicircne decaractegraveres alpha-numeacuterique repreacutesentant une information atomiqueporteuse de sens En revanche un texte doit ecirctre analyseacute de faccedilon agraverepeacuterer les suites de mots ou expressions conformes agrave certains mo-degraveles

2 Ils mettent en avant lrsquoinformation la plus importante (ex le nom lalocalisation le prix) caracteacuterisant des entiteacutes (ex des restaurants)alors qursquoun texte non structureacute citera ces eacuteleacutements au milieu drsquoautressans les distinguer plus particuliegraverement

3 Ils fournissent des informations par exemple des eacuteleacutements de naturestatistique qursquoon ne trouve geacuteneacuteralement pas dans du texte

En revanche les tableaux ont certains inconveacutenients par rapport au textele plus important eacutetant celui de lrsquoabsence du contexte Ceci rend en parti-culier tregraves difficile la tacircche drsquoannotation

A la diffeacuterence de Cafarella et al (2008) notre objectif nrsquoest pas drsquoiden-tifier des tableaux dans des pages Web Nous exploitons lrsquoensemble detableaux mis agrave disposition dans Google Fusion Tables (GFT) une appli-cation web tregraves inteacuteressante permettant de partager des donneacutees tabulairesvia Internet Il nrsquoy a pas de statistiques officielles sur le nombre de tablesdans GFT Toutefois Google met agrave disposition un moteur de recherchepour chercher les tables dans GFT et dans les sites web Nous avons faitplusieurs requecirctes pour estimer le nombre de tables dans GFT Le reacutesul-tat deacutemontre que Google indexe agrave lrsquoheure actuelle plus de 20 millions detables Dans ce papier nous preacutesentons une approche ayant pour but drsquoex-traire des donneacutees des tableaux GFT et de les traduire en RDF Il srsquoagitde

ndash Identifier des tableaux de GFT contenant des donneacutees de ce domainedrsquointeacuterecirct

ndash Extraire de lrsquoinformation des tableaux preacutealablement seacutelectionneacutes enutilisant lrsquoontologie

ndash Peupler lrsquoontologie avec les donneacutees extraitesCet article est structureacute de la faccedilon suivante La section 2 est un bref

eacutetat de lrsquoart En section 3 nous preacutesentons le contexte du problegraveme crsquoest-agrave-dire lrsquoontologie qui est exploiteacutee et Google Fusion Tables La section 4

IC 2012

est consacreacutee agrave la description de notre approche Nous y deacutecrivons le pro-cessus drsquoidentification des tableaux et drsquoextraction ce qui permet de carac-teacuteriser les donneacutees obtenues de GFT pour peupler lrsquoontologie La section 5preacutesente quelques reacutesultats expeacuterimentaux obtenus par application de notreapproche sur des donneacutees de GFT portant sur des restaurants et des museacuteesCet exemple concernant des points drsquointeacuterecircts (POIs) de la ville concernedes donneacutees qui nous sont utiles dans le cadre du projet ANR DataBridgesdont lrsquoobjectif est drsquointeacutegrer des donneacutees en exploitant les technologies etles modegraveles des donneacutees lieacutees pour des applications en lien avec les villesnumeacuteriques

2 Travaux proches

Pour extraire des donneacutees drsquoun tableau il faut comprendre la signifi-cation de lrsquoinformation qui y est contenue Ce problegraveme a eacuteteacute largementeacutetudieacute

Amin et al (2010) ont proposeacute un algorithme qui eacutetiquette chaque co-lonne drsquoun tableau agrave lrsquoaide drsquoune cateacutegorie de Wikipeacutedia deacutecrivant au mieuxson contenu La cateacutegorie retenue deacutepend des entiteacutes reconnues dans la co-lonne ainsi que de la cateacutegorie eacutetiquetant la colonne preacuteceacutedente

Lrsquoalgorithme proposeacute par Limaye et al (2010) annote un tableau en ty-pant les colonnes (un ou plusieurs types par colonne) en deacutesignant par unerelation binaire chaque couple de colonnes et en affectant un identifiantagrave chaque cellule Les types les relations et les identifiants proviennent deYago une ontologie construite au dessus de Wikipeacutedia et deacutecrite par Sucha-nek et al (2007) Une annotation drsquoune table est un ensemble de variablesaleacuteatoires dont la distribution conjointe est repreacutesenteacutee par un modegravele pro-babiliste graphique Lrsquoalgorithme recherche les valeurs des variables maxi-misant leur probabiliteacute conjointe Venetis et al (2011) adopte une approchesimilaire baseacutee sur le modegravele statistique du maximum de vraisemblanceUn tableau est annoteacute avec des entiteacutes des types et des relations drsquoun ca-talogue obtenu par extraction drsquoinformations de pages web plus riche queYago Cette approche permet ainsi drsquoobtenir de meilleures annotations Leproblegraveme toutefois de ces approches est leur incapaciteacute agrave annoter des ta-bleaux contenant des entiteacutes non reacutepertorieacutees dans les catalogues utiliseacutesLrsquoalgorithme que nous proposons nrsquoest pas baseacute sur un catalogue il peutdonc identifier des entiteacutes non reacutepertorieacutees

Un travail tregraves proche du nocirctre est celui deacutecrit par Guo et al (2011)qui propose un outil appeleacute ITEM pour enrichir des bases de connais-

Des donneacutees tabulaires agrave RDF

sances RDF avec des entiteacutes extraites de GFT Dans un premier tempsles tableaux dont la structure correspond agrave la base de connaissances RDFsont extraits puis les tuples qui ne sont pas dans la base y sont rajouteacutesLa diffeacuterence essentielle avec notre travail porte sur le fait que nous nesupposons pas lrsquoexistence drsquoune base de connaissances RDF pour aider agraveidentifier de nouvelles entiteacutes dans des tableaux GFT Notre algorithme estsuffisamment geacuteneacuteral pour retrouver des reacutefeacuterences agrave des entiteacutes dans destables dont le scheacutema ne correspond pas forceacutement agrave celui drsquoune base deconnaissances

3 Description du contexte

Lrsquoapproche que nous proposons a pour but de peupler une ontologie cette ontologie est utiliseacutee pour guider le processus drsquoidentification et drsquoex-traction des donneacutees Nous la preacutesentons puis nous deacutecrivons Google Fu-sion Tables

31 Lrsquoontologie

Lrsquoontologie agrave peupler est une ontologie OWL Dans lrsquoexemple utiliseacutedans cet article elle deacutefinit les points drsquointeacuterecircts les plus importants drsquouneville ses museacutees ses restaurants ses theacuteacirctres ses stades ses hocirctels et di-vers sites touristiques comme les monuments tours et parcs nationaux (cfFig 1)

Chaque classe est deacutefinie par des attributs qui ne sont pas repreacutesenteacutessur la figure 1 pour plus de clarteacute Par exemple les attributs les plus impor-tants caracteacuterisant les restaurants sont le nom lrsquoadresse le prix moyen lenumeacutero de teacuteleacutephone lrsquoadresse du site web et la cateacutegorie Cette ontologiecomprend eacutegalement des classes drsquoentiteacutes (ex collection artiste) en rela-tion avec les points drsquointeacuterecirct de la ville (ex museacutee) Ces informations sontutiliseacutees pour lrsquoextraction des donneacutees des tableaux sur les restaurants Letravail sur cette ontologie nrsquoest pas encore totalement finaliseacute La figure 1ne correspond donc pas agrave la version finale qui pourra in fine ecirctre pluscomplegravete

32 Google Fusion Tables

Google Fusion Tables est un service drsquointeacutegration et de gestion de don-neacutees baseacute sur le cloud fourni par Google qui permet de partager des

IC 2012

FIGURE 1 ndash Notre ontologie

donneacutees en creacuteant des tableaux via une interface intuitive facile agrave utili-ser (Gonzalez et al (2010)) Les tableaux peuvent ecirctre creacuteeacutes de toute piegravecedans GFT ou provenir de tableurs de Google Docs ou correspondre agrave desfichiers CSV importeacutes ensuite dans GFT

Le but deacuteclareacute de GFT est de permettre agrave ceux qui ont des donneacutees de lesgeacuterer alors qursquoils nrsquoont pas drsquoexpertise en base de donneacutees (Zicari (2011))La faciliteacute drsquoutilisation de GFT devrait encourager le partage de donneacuteesstructureacutees facilitant ainsi leur extraction et leur annotation

Comme les tables drsquoune base de donneacutees relationnelle chaque tableau aun nom unique qui dans GFT est une chaicircne de caractegraveres alpha-numeacuteriqueaffecteacutee automatiquement agrave sa creacuteation Tous les tableaux de GFT sontaccessibles via un navigateur web agrave lrsquoadresse suivante httpwwwgooglecomfusiontablesDataSourcedocid=[tableID]ougrave tableID est lrsquoidentifiant GFT du tableau Chaque colonne a un nom (ouentecircte) et un type (TEXT NUMBER LOCATION ou DATE) Les creacuteateursdes tableaux sont vivement encourageacutes agrave respecter cette repreacutesentation Dece fait la plupart des tableaux GFT ont effectivement un nom et les co-lonnes ont un type deux indicateurs du contenu seacutemantique

Les tableaux de GFT ont principalement trois avantages par rapport auxdonneacutees tabulaires (tableurs tables HTML listes HTML) du web

1 Leur structure est tregraves simple et claire Aucune colonne nrsquoest subdi-

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 4: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

est consacreacutee agrave la description de notre approche Nous y deacutecrivons le pro-cessus drsquoidentification des tableaux et drsquoextraction ce qui permet de carac-teacuteriser les donneacutees obtenues de GFT pour peupler lrsquoontologie La section 5preacutesente quelques reacutesultats expeacuterimentaux obtenus par application de notreapproche sur des donneacutees de GFT portant sur des restaurants et des museacuteesCet exemple concernant des points drsquointeacuterecircts (POIs) de la ville concernedes donneacutees qui nous sont utiles dans le cadre du projet ANR DataBridgesdont lrsquoobjectif est drsquointeacutegrer des donneacutees en exploitant les technologies etles modegraveles des donneacutees lieacutees pour des applications en lien avec les villesnumeacuteriques

2 Travaux proches

Pour extraire des donneacutees drsquoun tableau il faut comprendre la signifi-cation de lrsquoinformation qui y est contenue Ce problegraveme a eacuteteacute largementeacutetudieacute

Amin et al (2010) ont proposeacute un algorithme qui eacutetiquette chaque co-lonne drsquoun tableau agrave lrsquoaide drsquoune cateacutegorie de Wikipeacutedia deacutecrivant au mieuxson contenu La cateacutegorie retenue deacutepend des entiteacutes reconnues dans la co-lonne ainsi que de la cateacutegorie eacutetiquetant la colonne preacuteceacutedente

Lrsquoalgorithme proposeacute par Limaye et al (2010) annote un tableau en ty-pant les colonnes (un ou plusieurs types par colonne) en deacutesignant par unerelation binaire chaque couple de colonnes et en affectant un identifiantagrave chaque cellule Les types les relations et les identifiants proviennent deYago une ontologie construite au dessus de Wikipeacutedia et deacutecrite par Sucha-nek et al (2007) Une annotation drsquoune table est un ensemble de variablesaleacuteatoires dont la distribution conjointe est repreacutesenteacutee par un modegravele pro-babiliste graphique Lrsquoalgorithme recherche les valeurs des variables maxi-misant leur probabiliteacute conjointe Venetis et al (2011) adopte une approchesimilaire baseacutee sur le modegravele statistique du maximum de vraisemblanceUn tableau est annoteacute avec des entiteacutes des types et des relations drsquoun ca-talogue obtenu par extraction drsquoinformations de pages web plus riche queYago Cette approche permet ainsi drsquoobtenir de meilleures annotations Leproblegraveme toutefois de ces approches est leur incapaciteacute agrave annoter des ta-bleaux contenant des entiteacutes non reacutepertorieacutees dans les catalogues utiliseacutesLrsquoalgorithme que nous proposons nrsquoest pas baseacute sur un catalogue il peutdonc identifier des entiteacutes non reacutepertorieacutees

Un travail tregraves proche du nocirctre est celui deacutecrit par Guo et al (2011)qui propose un outil appeleacute ITEM pour enrichir des bases de connais-

Des donneacutees tabulaires agrave RDF

sances RDF avec des entiteacutes extraites de GFT Dans un premier tempsles tableaux dont la structure correspond agrave la base de connaissances RDFsont extraits puis les tuples qui ne sont pas dans la base y sont rajouteacutesLa diffeacuterence essentielle avec notre travail porte sur le fait que nous nesupposons pas lrsquoexistence drsquoune base de connaissances RDF pour aider agraveidentifier de nouvelles entiteacutes dans des tableaux GFT Notre algorithme estsuffisamment geacuteneacuteral pour retrouver des reacutefeacuterences agrave des entiteacutes dans destables dont le scheacutema ne correspond pas forceacutement agrave celui drsquoune base deconnaissances

3 Description du contexte

Lrsquoapproche que nous proposons a pour but de peupler une ontologie cette ontologie est utiliseacutee pour guider le processus drsquoidentification et drsquoex-traction des donneacutees Nous la preacutesentons puis nous deacutecrivons Google Fu-sion Tables

31 Lrsquoontologie

Lrsquoontologie agrave peupler est une ontologie OWL Dans lrsquoexemple utiliseacutedans cet article elle deacutefinit les points drsquointeacuterecircts les plus importants drsquouneville ses museacutees ses restaurants ses theacuteacirctres ses stades ses hocirctels et di-vers sites touristiques comme les monuments tours et parcs nationaux (cfFig 1)

Chaque classe est deacutefinie par des attributs qui ne sont pas repreacutesenteacutessur la figure 1 pour plus de clarteacute Par exemple les attributs les plus impor-tants caracteacuterisant les restaurants sont le nom lrsquoadresse le prix moyen lenumeacutero de teacuteleacutephone lrsquoadresse du site web et la cateacutegorie Cette ontologiecomprend eacutegalement des classes drsquoentiteacutes (ex collection artiste) en rela-tion avec les points drsquointeacuterecirct de la ville (ex museacutee) Ces informations sontutiliseacutees pour lrsquoextraction des donneacutees des tableaux sur les restaurants Letravail sur cette ontologie nrsquoest pas encore totalement finaliseacute La figure 1ne correspond donc pas agrave la version finale qui pourra in fine ecirctre pluscomplegravete

32 Google Fusion Tables

Google Fusion Tables est un service drsquointeacutegration et de gestion de don-neacutees baseacute sur le cloud fourni par Google qui permet de partager des

IC 2012

FIGURE 1 ndash Notre ontologie

donneacutees en creacuteant des tableaux via une interface intuitive facile agrave utili-ser (Gonzalez et al (2010)) Les tableaux peuvent ecirctre creacuteeacutes de toute piegravecedans GFT ou provenir de tableurs de Google Docs ou correspondre agrave desfichiers CSV importeacutes ensuite dans GFT

Le but deacuteclareacute de GFT est de permettre agrave ceux qui ont des donneacutees de lesgeacuterer alors qursquoils nrsquoont pas drsquoexpertise en base de donneacutees (Zicari (2011))La faciliteacute drsquoutilisation de GFT devrait encourager le partage de donneacuteesstructureacutees facilitant ainsi leur extraction et leur annotation

Comme les tables drsquoune base de donneacutees relationnelle chaque tableau aun nom unique qui dans GFT est une chaicircne de caractegraveres alpha-numeacuteriqueaffecteacutee automatiquement agrave sa creacuteation Tous les tableaux de GFT sontaccessibles via un navigateur web agrave lrsquoadresse suivante httpwwwgooglecomfusiontablesDataSourcedocid=[tableID]ougrave tableID est lrsquoidentifiant GFT du tableau Chaque colonne a un nom (ouentecircte) et un type (TEXT NUMBER LOCATION ou DATE) Les creacuteateursdes tableaux sont vivement encourageacutes agrave respecter cette repreacutesentation Dece fait la plupart des tableaux GFT ont effectivement un nom et les co-lonnes ont un type deux indicateurs du contenu seacutemantique

Les tableaux de GFT ont principalement trois avantages par rapport auxdonneacutees tabulaires (tableurs tables HTML listes HTML) du web

1 Leur structure est tregraves simple et claire Aucune colonne nrsquoest subdi-

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 5: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

sances RDF avec des entiteacutes extraites de GFT Dans un premier tempsles tableaux dont la structure correspond agrave la base de connaissances RDFsont extraits puis les tuples qui ne sont pas dans la base y sont rajouteacutesLa diffeacuterence essentielle avec notre travail porte sur le fait que nous nesupposons pas lrsquoexistence drsquoune base de connaissances RDF pour aider agraveidentifier de nouvelles entiteacutes dans des tableaux GFT Notre algorithme estsuffisamment geacuteneacuteral pour retrouver des reacutefeacuterences agrave des entiteacutes dans destables dont le scheacutema ne correspond pas forceacutement agrave celui drsquoune base deconnaissances

3 Description du contexte

Lrsquoapproche que nous proposons a pour but de peupler une ontologie cette ontologie est utiliseacutee pour guider le processus drsquoidentification et drsquoex-traction des donneacutees Nous la preacutesentons puis nous deacutecrivons Google Fu-sion Tables

31 Lrsquoontologie

Lrsquoontologie agrave peupler est une ontologie OWL Dans lrsquoexemple utiliseacutedans cet article elle deacutefinit les points drsquointeacuterecircts les plus importants drsquouneville ses museacutees ses restaurants ses theacuteacirctres ses stades ses hocirctels et di-vers sites touristiques comme les monuments tours et parcs nationaux (cfFig 1)

Chaque classe est deacutefinie par des attributs qui ne sont pas repreacutesenteacutessur la figure 1 pour plus de clarteacute Par exemple les attributs les plus impor-tants caracteacuterisant les restaurants sont le nom lrsquoadresse le prix moyen lenumeacutero de teacuteleacutephone lrsquoadresse du site web et la cateacutegorie Cette ontologiecomprend eacutegalement des classes drsquoentiteacutes (ex collection artiste) en rela-tion avec les points drsquointeacuterecirct de la ville (ex museacutee) Ces informations sontutiliseacutees pour lrsquoextraction des donneacutees des tableaux sur les restaurants Letravail sur cette ontologie nrsquoest pas encore totalement finaliseacute La figure 1ne correspond donc pas agrave la version finale qui pourra in fine ecirctre pluscomplegravete

32 Google Fusion Tables

Google Fusion Tables est un service drsquointeacutegration et de gestion de don-neacutees baseacute sur le cloud fourni par Google qui permet de partager des

IC 2012

FIGURE 1 ndash Notre ontologie

donneacutees en creacuteant des tableaux via une interface intuitive facile agrave utili-ser (Gonzalez et al (2010)) Les tableaux peuvent ecirctre creacuteeacutes de toute piegravecedans GFT ou provenir de tableurs de Google Docs ou correspondre agrave desfichiers CSV importeacutes ensuite dans GFT

Le but deacuteclareacute de GFT est de permettre agrave ceux qui ont des donneacutees de lesgeacuterer alors qursquoils nrsquoont pas drsquoexpertise en base de donneacutees (Zicari (2011))La faciliteacute drsquoutilisation de GFT devrait encourager le partage de donneacuteesstructureacutees facilitant ainsi leur extraction et leur annotation

Comme les tables drsquoune base de donneacutees relationnelle chaque tableau aun nom unique qui dans GFT est une chaicircne de caractegraveres alpha-numeacuteriqueaffecteacutee automatiquement agrave sa creacuteation Tous les tableaux de GFT sontaccessibles via un navigateur web agrave lrsquoadresse suivante httpwwwgooglecomfusiontablesDataSourcedocid=[tableID]ougrave tableID est lrsquoidentifiant GFT du tableau Chaque colonne a un nom (ouentecircte) et un type (TEXT NUMBER LOCATION ou DATE) Les creacuteateursdes tableaux sont vivement encourageacutes agrave respecter cette repreacutesentation Dece fait la plupart des tableaux GFT ont effectivement un nom et les co-lonnes ont un type deux indicateurs du contenu seacutemantique

Les tableaux de GFT ont principalement trois avantages par rapport auxdonneacutees tabulaires (tableurs tables HTML listes HTML) du web

1 Leur structure est tregraves simple et claire Aucune colonne nrsquoest subdi-

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 6: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

FIGURE 1 ndash Notre ontologie

donneacutees en creacuteant des tableaux via une interface intuitive facile agrave utili-ser (Gonzalez et al (2010)) Les tableaux peuvent ecirctre creacuteeacutes de toute piegravecedans GFT ou provenir de tableurs de Google Docs ou correspondre agrave desfichiers CSV importeacutes ensuite dans GFT

Le but deacuteclareacute de GFT est de permettre agrave ceux qui ont des donneacutees de lesgeacuterer alors qursquoils nrsquoont pas drsquoexpertise en base de donneacutees (Zicari (2011))La faciliteacute drsquoutilisation de GFT devrait encourager le partage de donneacuteesstructureacutees facilitant ainsi leur extraction et leur annotation

Comme les tables drsquoune base de donneacutees relationnelle chaque tableau aun nom unique qui dans GFT est une chaicircne de caractegraveres alpha-numeacuteriqueaffecteacutee automatiquement agrave sa creacuteation Tous les tableaux de GFT sontaccessibles via un navigateur web agrave lrsquoadresse suivante httpwwwgooglecomfusiontablesDataSourcedocid=[tableID]ougrave tableID est lrsquoidentifiant GFT du tableau Chaque colonne a un nom (ouentecircte) et un type (TEXT NUMBER LOCATION ou DATE) Les creacuteateursdes tableaux sont vivement encourageacutes agrave respecter cette repreacutesentation Dece fait la plupart des tableaux GFT ont effectivement un nom et les co-lonnes ont un type deux indicateurs du contenu seacutemantique

Les tableaux de GFT ont principalement trois avantages par rapport auxdonneacutees tabulaires (tableurs tables HTML listes HTML) du web

1 Leur structure est tregraves simple et claire Aucune colonne nrsquoest subdi-

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 7: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

viseacutee en sous-colonnes comme dans les tableurs

2 Les colonnes des tableaux GFT sont tregraves souvent typeacutees ce qui faci-lite leur annotation seacutemantique

3 Une API simple efficace et bien documenteacutee permet drsquointerrogercreacuteer supprimer et modifier des tableaux en utilisant SQL

4 Notre approche

Dans cette section nous deacutetaillons notre approche drsquoidentification destableaux contenant des donneacutees relatives agrave un concept de lrsquoontologie etdrsquoextraction des donneacutees correspondant agrave des valeurs drsquoattributs de ce concepten prenant appui sur un exemple concret drsquoextraction de donneacutees dans GFTportant sur des points drsquointeacuterecircts (POIs) de la ville (des restaurants et desmuseacutees) Comme nous lrsquoavons annonceacute en section 1 notre approche com-porte trois eacutetapes Nous deacutecrivons ci-dessous les deux premiegraveres eacutetapesLrsquoeacutetape de peuplement nrsquoest pas deacutecrit Il srsquoagit drsquoun simple processus detraduction des donneacutees extraites dans le format de lrsquoontologie

41 Lrsquoidentification de tableaux GFT relatives agrave un domaine donneacute

Un des challenges importants dans ce travail drsquoextraction porte sur lrsquoiden-tification des tableaux GFT qui contiennent des donneacutees portant sur desconcepts speacutecifiques dans notre cas sur des restaurants et des museacuteesIl est eacutevidemment impossible drsquoeffectuer ce travail manuellement vu legrand nombre de tableaux auxquels GFT donne accegraves Lrsquoalgorithme quenous proposons permet drsquoautomatiser cette tacircche Le problegraveme agrave reacutesoudreest celui-ci comment peut-on automatiquement deacuteterminer si les donneacuteesdrsquoun tableau concernent des restaurants ou des museacutees Lrsquoapproche adop-teacutee est deacutecrite ci-dessous

GFT contient des millions de tableaux et chaque tableau contient desmilliers de lignes Il est ainsi impossible drsquoanalyser chaque tableau un parun pour seacutelectionner ceux qui sont pertinents par rapport agrave nos besoins Oril se trouve que le moteur de recherche Google indexe les tableaux de GFTIls peuvent alors ecirctre rechercheacutes de la mecircme faccedilon que des pages web Unerecherche sur restaurant retournera tous les tableaux de GFT contenantle mot restaurant Ceci est tregraves inteacuteressant car cela permet drsquoobtenir unepremiegravere seacutelection de tableaux mecircme si cette seacutelection est insuffisante caril ne suffit pas que le mot restaurant soit contenu dans un tableau T pour

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 8: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

que toutes les donneacutees de T portent effectivement sur des restaurants Lescas suivants peuvent se produire

ndash T contient le mot restaurant de faccedilon incidente mais nrsquoa aucune don-neacutee sur des restaurants

ndash T contient des donneacutees sur des restaurants mais eacutegalement sur drsquoautresentiteacutes

ndash T comprend des donneacutees uniquement sur des restaurantsQuoi qursquoil en soit lrsquoalgorithme doit traiter T ligne par ligne pour iden-

tifier et retenir uniquement celles qui ont lrsquoinformation rechercheacuteeNotre approche de seacutelection est baseacutee sur lrsquoobservation suivante Il est

tout aussi difficile pour un humain de comprendre la seacutemantique drsquoun ta-bleau que pour une machine lorsque le contexte nrsquoest pas clair

FIGURE 2 ndash Extrait drsquoun tableau GFT

Soit par exemple lrsquoextrait de tableau GFT de la figure 2 A moins drsquoecirctreincollable sur Vancouver et le Canada il nrsquoest pas eacutevident pour une per-sonne de comprendre que A amp W - 920 Marine Drive (5egraveme ligne 1egraverecolonne) est le nom drsquoun restaurant Dans ce cas lagrave quand une personne necomprend pas agrave quoi reacutefegravere une expression elle utilise tregraves souvent un mo-teur de recherche web pour deacutecouvrir sa (ses) signification(s) possible(s)Sur cet exemple lrsquoeacutetude des premiers reacutesultats retourneacutes indique tregraves clai-rement qursquoil srsquoagit drsquoun restaurant Nous avons deacutecideacute drsquoadopter la mecircme

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 9: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

strateacutegieFormellement le contenu e de chaque cellule T (i j) drsquoun tableau est

soumis agrave un moteur de recherche afin drsquoobtenir une liste de reacutesultats(nousne consideacutererons que les 10 premiers 3) Chaque reacutesultat comporte un liensur une page web un titre et une courte description souvent appeleacutee snip-pet en anglais qui correspond agrave un extrait du contenu de la page geacuteneacute-ralement celui qui contient les mots cleacutes de la requecircte Bien que ces des-criptions soient tregraves courtes (30-40 caractegraveres au plus) elles donnent unebonne ideacutee du contenu de la page web Lrsquoanalyse du texte de ces descrip-tions permet alors de deacuteterminer si la page web deacutecrit une certaine entiteacute(restaurant museacutee ) ou non Le problegraveme consistant agrave deacuteterminer siune expression e est une reacutefeacuterence agrave un restaurant est donc un problegravemede classification binaire Pour chaque description retourneacutee par le moteurde requecirctes nous utilisons un classifieur opeacuterant sur des textes pour deacute-terminer si une description deacutecrit un restaurant Si la majoriteacute des descrip-tions trouveacutees sont consideacutereacutees comme des descriptions de restaurants eest consideacutereacutee comme eacutetant une reacutefeacuterence de restaurant et la iegraveme lignedu tableau est seacutelectionneacutee Nous nrsquoaffectons pas de mesure de pertinenceaux informations classeacutees Nous donnons plus de deacutetail sur le classifieuren section 5

42 Lrsquoextraction de donneacutees des tableaux GFT et le peuplement delrsquoontologie

Apregraves avoir identifieacute les lignes du tableau T qui contiennent des don-neacutees agrave extraire dans notre exemple des donneacutees sur des restaurants il fautseacutelectionner les colonnes qui fournissent des valeurs drsquoattributs ou de pro-prieacuteteacutes sur ces restaurants Nous utilisons ici lrsquoontologie dans laquelle lesrestaurants sont deacutecrits avec un nom une adresse un prix moyen de menuune cateacutegorie un numeacutero de teacuteleacutephone une adresse de site web La re-cherche de mise en correspondance entre ces attributs et les colonnes destableaux est baseacutee sur lrsquoapplication drsquoheuristiques

ndash Lrsquoattribut nom La colonne correspondante est trouveacutee lors de la seacute-lection des lignes contenant des donneacutees sur des restaurants (cf sec-tion 41)

ndash Lrsquoattribut adresse La colonne correspondante est trouveacutee en analy-sant le contenu de chaque colonne dont le type est LOCATION Eacutetant

3 Nous pouvons obtenir des milliers de reacuteponses Nos expeacuterimentations nous ontpermis de fixer agrave 10 le nombre de reacuteponses retenues pour avoir une bonne preacutecision

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 10: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

donneacutee une expression e dans une cellule drsquoune colonne ayant le typeLOCATION nous interrogeons le service web Yahoo PlaceFinderavec e afin de savoir si e correspond agrave une adresse Yahoo PlaceFin-der effectue un geacuteocodage de lrsquoadresse en la convertissant en coor-donneacutees geacuteographiques (latitude longitude)

ndash Les attributs prix moyen et cateacutegorie Les colonnes correspondantessont deacutetermineacutees uniquement agrave partir de leur titre Autrement dit unecolonne intituleacutee prix ou coucirct contiendra tregraves certainement des va-leurs de prix moyen alors qursquoune colonne intituleacutee cateacutegorie type denourriture ou type est consideacutereacutee comme contenant des valeurs decateacutegorie

ndash Les attributs numeacutero de teacuteleacutephone et site web Les colonnes corres-pondantes sont deacutetermineacutees en utilisant des expressions reacuteguliegraverespour identifier les cellules des tableaux contenant des numeacuteros deteacuteleacutephone et des URLs

Mis agrave part les attributs prix moyen et cateacutegorie les colonnes correspon-dantes sont deacutetermineacutees apregraves analyse du contenu des colonnes unique-ment le titre des colonnes nrsquointervient pas Crsquoest un point important Eneffet toutes les colonnes nrsquoont pas toujours de titre bien que dans GFT cesoit relativement rare Les titres quand ils existent sont souvent ambigus etne reflegravetent pas bien le contenu seacutemantique des colonnes Par exemple unecolonne contenant des noms de restaurants peut ecirctre simplement intituleacuteeNom au lieu de Noms de restaurants Les entecirctes peuvent par ailleurs nepas ecirctre en anglais car GFT est utiliseacute au niveau mondial Pour toutes cesraisons nous nous sommes efforceacutes drsquoecirctre le plus possible indeacutependantsdes titres des colonnes Notre approche est encore en cours drsquoameacuteliorationpour que cette indeacutependance soit totale

Une fois les colonnes contenant des valeurs drsquoattributs de lrsquoontologieidentifieacutees les donneacutees des lignes ayant eacuteteacute au preacutealable seacutelectionneacuteessont extraites du tableau et inseacutereacutees dans lrsquoontologie Les donneacutees ob-tenues apregraves extraction sont consultables agrave lrsquoadresse qui suit httpsitesgooglecomsitegquerciniGFT_datardf Cesdonneacutees extraites ont les proprieacuteteacutes suivantes Il srsquoagit pour ce qui concerneles donneacutees lieacutees agrave notre expeacuterimentation de donneacutees portant drsquoune partsur 1500 restaurants et 500 museacutees localiseacutes principalement aux Eacutetats-Uniset en Europe et deacutecrits par leur nom cateacutegorie adresse latitude et longi-tude Ces donneacutees sont issues drsquoun processus totalement automatique ellesne sont donc pas exemptes drsquoerreurs Lrsquoeacutevaluation des erreurs sera partiede notre travail futur

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 11: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

5 Reacutesultats expeacuterimentaux

Cette section preacutesente les reacutesultats expeacuterimentaux obtenus lors de lrsquoex-traction de donneacutees de GFT portant sur des restaurants et des museacutees Cesreacutesultats concernent lrsquoeacutetape principale deacutecrite en section 41 crsquoest-agrave-direlrsquoidentification des lignes drsquoun tableau contenant des donneacutees sur des res-taurants ou des museacutees Cette eacutetape est baseacutee sur lrsquoutilisation drsquoun classi-fieur de textes deacuteterminant quels snippets obtenus en reacuteponse agrave une requecircteposeacutee agrave un moteur de recherche deacutecrivent une certaine entiteacute Notons queDBpedia est utiliseacute pour seacutelectionner les entiteacutes de type restaurant et museacuteeafin de collecter du Web les snippets qui serviront agrave entraicircner le classifieurCela ne signifie pas que le classifieur ne peut reconnaicirctre que les entiteacutespreacutesentes dans DBpedia Au contraire il apprend agrave distinguer les snip-pets qui portent sur un museacutee ou un restaurant des snippets qui portent surdrsquoautres entiteacutes

Le systegraveme drsquoapprentissage utiliseacute pour la classification est de type Ma-chines agrave Vecteurs de Support (SVM Support Vector Machine) (Cortes ampVapnik (1995)) Plus preacuteciseacutement nous avons utiliseacute une Machine agrave Vec-teurs de Support de type C-SVC avec un noyau gaussien Nous avons fixeacutedeux paramegravetres le paramegravetre C (coucirct) de la C-SVC et le paramegravetre γ dunoyau Deux systegravemes noteacutes Crest et Cmus ont eacuteteacute utiliseacutes pour deacutetermi-ner si un snippet deacutecrit un restaurant ou un museacutee respectivement Lrsquoen-semble drsquoentrainement de Crest (resp Cmus) a eacuteteacute constitueacute en collectant300 restaurants (resp museacutees) de DBpedia ainsi que 300 entiteacutes ne corres-pondant pas agrave des restaurants (resp museacutees) Nous avons utiliseacute MicrosoftBing pour obtenir les snippets (10 premiers reacutesultats) Chaque snippet aeacuteteacute converti en un vecteur de valeurs comme cela doit ecirctre fait pour laclassification de type Machines agrave Vecteurs de Support Pour cela les motsvides (stopwords) et les chaicircnes de caractegraveres contenant des chiffres ou descaractegraveres speacuteciaux ont eacuteteacute eacutelimineacutes Les mots restants ont subi une ra-cinisation Chaque eacuteleacutement du vecteur correspondait donc agrave un mot et savaleur agrave la freacutequence relative du mot dans le snippet Les snippets deacutecri-vant des restaurants (resp museacutees) ont eacuteteacute consideacutereacutes comme des exemplespositifs et ceux ne deacutecrivant pas des restaurants (resp museacutees) comme desexemples neacutegatifs Les deux systegravemes de classification ont eacuteteacute entraicircneacutespar validation croiseacutee en 10 blocs La valeur optimale de C a pu alors ecirctreestimeacutee agrave 32 et celle de γ agrave 05

Pour lrsquoeacutevaluation nous avons collecteacute manuellement 30 grands tableauxde GFT Ces tableaux contiennent 16400 cellules 608 cellules contiennentdes reacutefeacuterences agrave des restaurants 288 cellules sont des reacutefeacuterences agrave des mu-

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 12: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

seacutees Nous avons mesureacute la preacutecision le rappel et la F-mesure commesuit Soit Grest (resp Gmus) le nombre de lignes correctement seacutelection-neacutees comme eacutetant des donneacutees sur des restaurants (resp des museacutees) lapreacutecision est le rapport entreGrest (respGmus) et le nombre total de lignesdes tableaux le rappel est le rapport entre Grest (resp Gmus) et le nombrede lignes portant veacuteritablement sur des restaurants (resp des museacutees) laF-mesure est la moyenne quadratique combinant la preacutecision et le rap-pel Nous avons utiliseacute yelpcom un site contenant une base de donneacuteestregraves importante sur les restaurants ameacutericains pour savoir si une entiteacute cor-respondait agrave un restaurant DBpedia a eacuteteacute utiliseacute pour lrsquoidentification desdonneacutees sur les museacutees Les reacutesultats de lrsquoeacutevaluation effectueacutee par un seulutilisateur sont preacutesenteacutes dans le tableau 1

Preacutecision Rappel F-mesureRestaurants 082 074 078

Museacutees 068 057 062

TABLE 1 ndash Reacutesultats expeacuterimentaux

La baisse du rappel et de la preacutecision en ce qui concerne les museacutees estdue au fait qursquoil est plus difficile de deacutefinir des museacutees que des restaurantsUn museacutee peut ecirctre une galerie mais eacutegalement une maison historique unmoulin historique etc Cette deacutefinition est tregraves large et certaines entiteacutesdu monde reacuteel qui devraient ecirctre consideacutereacutees comme des museacutees peuventecirctre sous-repreacutesenteacutees dans lrsquoensemble drsquoapprentissage ce qui expliqueles diffeacuterences de reacutesultats entre les deux systegravemes de classification Crest

et Cmus Crest doit certainement aussi ecirctre impacteacute par cette difficulteacute agravedeacutefinir un concept mais dans une moindre mesure Il srsquoagit drsquoun problegravemeque nous envisageons drsquoeacutetudier plus en profondeur

6 Conclusion

Dans cet article nous avons preacutesenteacute une approche drsquoextraction de don-neacutees de Google Fusion Tables dans lrsquoobjectif de peupler une ontologie etde convertir les donneacutees obtenues en RDF de faccedilon agrave les publier et agrave fairequelles puissent ecirctre exploiteacutees par les applications du web seacutemantique

Lrsquoaspect le plus complexe de notre approche consiste agrave deacuteterminer quelleslignes doivent ecirctre extraites des tableaux de GFT Nous avons montreacute quececi pouvait ecirctre effectueacute en soumettant le contenu des cellules agrave un moteur

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 13: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

Des donneacutees tabulaires agrave RDF

de recherche Les reacutesultats de nos premiegraveres expeacuterimentations sont encou-rageants mecircme srsquoils doivent encore ecirctre ameacutelioreacutes pour eacuteliminer complegrave-tement le bruit

Reacutefeacuterences

AMIN M S BHATTACHARJEE A amp JAMIL H (2010) Wikipedia Driven Au-tonomous Label Assignment in Wrapper Induced Tables with Missing ColumnNames In Proceedings of the 2010 ACM Symposium on Applied ComputingSAC rsquo10 p 1656ndash1660 New York NY USA ACM

BERNERS-LEE T (2006) Linked Data - Design Issues Retrieved July 27httpwwww3orgDesignIssuesLinkedDatahtml

BIZER C LEHMANN J KOBILAROV G AUER S BECKER C CYGANIAKR amp HELLMANN S (2009) DBpedia - A Crystallization Point for the Web ofData Web Semant 7 154ndash165

CAFARELLA M J HALEVY A ZHANG Y WANG D Z amp WU E (2008)WebTables Exploring the Power of Tables on the Web Proc VLDB Endow1(1) 538ndash549

COETZEE P HEATH T amp MOTTA E (2008) SparqPlug Generating LinkedData from Legacy HTML SPARQL and the DOM In Linked Data on theWeb

CORTES C amp VAPNIK V (1995) Support-Vector Networks Mach Learn 20273ndash297

EXPERIAN HITWISE US (2010) Bing - Rising Success (rate)httpweblogshitwisecombill-tancer201001bing_rising_success_ratehtml

GONZALEZ H HALEVY A Y JENSEN C S LANGEN A MADHAVAN JSHAPLEY R SHEN W amp GOLDBERG-KIDON J (2010) Google FusionTables Web-centered Data Management and Collaboration In SIGMOD 2010p 1061ndash1066 New York NY USA ACM

GUO X CHEN Y CHEN J amp DU X (2011) ITEM Extract and IntegrateEntities from Tabular Data to RDF knowledge base In Proceedings of the13th Asia-Pacific Web Conference on Web Technologies and Applications AP-Webrsquo11 p 400ndash411 Berlin Heidelberg Springer-Verlag

LE BOURLOUT E (2012) Knowledge Graph Google fait un pas vers le Webseacutemantique Trouveacute en ligne le 18052012

LIMAYE G SARAWAGI S amp CHAKRABARTI S (2010) Annotating and Sear-ching Web Tables Using Entities Types and Relationships Proc VLDB En-dow 3 1338ndash1347

SUCHANEK F M KASNECI G amp WEIKUM G (2007) Yago a Core of Se-mantic Knowledge In Proceedings of the 16th International Conference onWorld Wide Web WWW rsquo07 p 697ndash706 New York NY USA ACM

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion
Page 14: Des données tabulaires à RDF : l’extraction de données de Google … · 2012-06-18 · de traduire manuellement en RDF étant donné leur volume. Dans ce papier, nous présentons

IC 2012

VENETIS P HALEVY A MADHAVAN J PASCA M SHEN W WU F MIAOG amp WU C (2011) Recovering Semantics of Tables on the Web Proc VLDBEndow 4 528ndash538

ZICARI R V (2011) Google Fusion Tables Interview with Alon Y Ha-levy Retrieved online at httpwwwodbmsorgblog201108google-fusion-tables-interview-with-alon-y-halevy

  • Introduction
  • Travaux proches
  • Description du contexte
    • Lontologie
    • Google Fusion Tables
      • Notre approche
        • Lidentification de tableaux GFT relatives agrave un domaine donneacute
        • Lextraction de donneacutees des tableaux GFT et le peuplement de lontologie
          • Reacutesultats expeacuterimentaux
          • Conclusion