Upload
conference-ic-2009
View
1.061
Download
1
Embed Size (px)
DESCRIPTION
Présentation de Raphaël Troncy à la conférence IC 2009
Citation preview
IC 2009: Vendredi 29 Mai 2009 1
Explorer des actualités multimédia dans le web de données
Raphaël Troncy, <[email protected]>CWI, Interactive Information Access
IC 2009: Vendredi 29 Mai 2009 2
•
Search Paradigm : mots clés, liens vers des
ressources, pertinence
•
Assistant Paradigm : expression d'un besoin, explorer
des options, faire un choix, complétion de la tâche
IC 2009: Vendredi 29 Mai 2009 3
IC 2009: Vendredi 29 Mai 2009 4
IC 2009: Vendredi 29 Mai 2009 5
IC 2009: Vendredi 29 Mai 2009 6
IC 2009: Vendredi 29 Mai 2009 7
IC 2009: Vendredi 29 Mai 2009 8
Information Overload
IC 2009: Vendredi 29 Mai 2009 9
Workflow des actualités: un problème d'interopérabilité
•
Pas d'intégration des médias (dépêche, photo, vidéo, μ-blog)
•
Peu (ou pas) de contexte dans la présentation•
Problèmes d'interopérabilités
Schéma NAR
Vocabulaires contrôlés
Schéma diffuseur
NewsCodesVocabulaire utilisateur
IC 2009: Vendredi 29 Mai 2009 10
Représenter pour présenter
•
Objectif (à
long terme) :–
Fournir un environnement pour chercher et naviguer des actualités multimédia contextualisées
•
Requiert l'intégration des :–
Données : pluri media, différente forme, sources variées
–
Métadonnées : intégration, alignement de schémas
•
Influence et implications des interfaces:–
Comment représenter sémantiquement des métadonnées pour le multimédia pour faciliter la présentation des informations ?
–
en d'autres mots ... quelles contraintes les interfaces utilisateurs posent sur la modélisation des métadonnées ?
IC 2009: Vendredi 29 Mai 2009 11
Formats pour les actualités et le multimédia
News Architecture
NewsML
G2
EventsML
G2
SportsML
G2
IC 2009: Vendredi 29 Mai 2009 12
Construire des ontologies et des schémas pour le Web Sémantique•
Méthodologies et outils pour construire des ontologies:–
à
partir de corpus de texte, de schémas relationnels
•
ʺSKOS-ificationʺ
de thésaurus dans le domaine patrimonial:–
préparation, conversion syntactique et sémantique, standardisation
Manque de guides de bonnes pratiques pourmodéliser des ontologies à partir de UML,intégrer des ontologies avec de multiples thésaurus,
tout en prenant les interfaces utilisateurs en compte
IC 2009: Vendredi 29 Mai 2009 13
Construire une infrastructure sémantique pour les actualités
1 2 3 4
Modéliser l'ontologie NAR La lier avec
d'autres ontologiesObtenir des
thésaurus SKOSEnrichir les
métadonnées
IC 2009: Vendredi 29 Mai 2009 14
TextPhoto
GraphicsAnimation
AudioVideo
Composite
TextPhoto
...Person
Organisation….
Composite
PersonOrganisation
Geopolitical AreaPoint of Interest
Event...
PersonOrganisation
Geopolitical AreaPoint of Interest
Event…
Composite
Etape 1: Modéliser l'ontologie NAR
met l'accent sur la réutilisation de types XML, ce qui entraîne des répétitions et des structures XML imbriquées
trop complexes
IC 2009: Vendredi 29 Mai 2009 15
Etape 1: Modéliser l'ontologie NAR
•
Aplatir la structure XML
PhotoNewsItem
NewsItem
IC 2009: Vendredi 29 Mai 2009 16
Etape 1: Modéliser l'ontologie NAR
•
Avoir des identifiants uniques–
Utilisation d'URI déréférençable
pour n'importe quelle
ressource (les items d'actualités et le vocabulaire)–
Utilisation d'URI pour tout type de fragment
http://www.youtube.com/watch?v=1bibCui3lFM#t=1m45s
•
Modéliser la provenance des informations–
Réification RDF: les triplets réifiés ne sont pas assertés
–
Graphes nommés
{<> nar:subject cat:11002000} dc:creator team:md ;dc:modified ‘‘2005-11-11T08:00:00Z’’.
IC 2009: Vendredi 29 Mai 2009 17
Etape 2: Lier avec d'autres ontologies
foaf:Person
≈ nar:Person
dc:Subject
≈ nar:Subject
sioc:Item
≈ nar:Item
geo:lat geo:long
+
IC 2009: Vendredi 29 Mai 2009 18
Etape 3: Obtenir des thésaurus SKOS
IC 2009: Vendredi 29 Mai 2009 19
Etape 3: Obtenir des thésaurus SKOS
IC 2009: Vendredi 29 Mai 2009 20
Etape 4: Enrichir les métadonnées
•
Concepts/Entités qui sont le sujet des actualités–
Thèmes
–
Personne / Organisation–
Géopolitiques
–
Points d'intérêt–
Evénements
–
Produits et artefacts
IC 2009: Vendredi 29 Mai 2009 21
Etape 4: Enrichir les métadonnées
Ontologie NAR NewsCodes Thésaurus
Reconnaissance d'entités nommées
Ontologies de domaine
IC 2009: Vendredi 29 Mai 2009 22
Etape 4: Enrichir les métadonnées
Ontologie NAR NewsCodes Thésaurus
Ontologies de domaine
Détection de Concepts
IC 2009: Vendredi 29 Mai 2009 23
Disambiguation
•
IdentityRank
–
Ij
: entité
nommée j de l'item I–
lambda: normalisation,
–
Ci
: ensemble des instances candidates co-occurrent avec i, –
alphaij
: poids entre i et j–
E: personnalisation, cohérence sémantique du corpus
•
Calcul du poids alpha:–
fij
: fréquence de co-occurence entre i et j
IC 2009: Vendredi 29 Mai 2009 24
Le Web de données
dbpedia:Zidane
foaf:depictsnar:location
geonames:2950159
nar:subject
nc:15054000
events:id
wp:2006_FIFA_Wolrd_Cup#Final
IC 2009: Vendredi 29 Mai 2009 25
Semantic Search of Multimedia News
Description Nombre de triplets RDF
General Ontologies: NAR, DC, FOAF 7,336
Domain Specific Ontologies: football 104,358
Thesauri: newscodes 34,903
DBpedia, Geonames 53,468
AFP News Feed (June/July 2006) 804,446
AFP Photos (June/July 2006) 61,311
INA Broadcast Video (June/July 2006) 1,932
Total 1,067,754Powered by ClioPatria
1.0 alpha 3
IC 2009: Vendredi 29 Mai 2009 26
IC 2009: Vendredi 29 Mai 2009 27
IC 2009: Vendredi 29 Mai 2009 28
IC 2009: Vendredi 29 Mai 2009 29
Présenter les actualités
•
Dimensions utilisées pour naviguer dans une base de dépêches d'actualités
–
When
time
10/07/2006–
Where
location
Paris
–
What
is depicted
J. Chirac, Z. Zidane–
Why
event
WC 2006
–
Who
photographer
Bertrand Guay, AFP
Metadata
IC 2009: Vendredi 29 Mai 2009 30
ABC Event Model
IC 2009: Vendredi 29 Mai 2009 31
CIDOC CRM Event Model
IC 2009: Vendredi 29 Mai 2009 32
CultureSampo
Event Model
IC 2009: Vendredi 29 Mai 2009 33
Framenet
Event Model
IC 2009: Vendredi 29 Mai 2009 34
Motools
Event Model
IC 2009: Vendredi 29 Mai 2009 35
Towards an Linked Events Model?
IC 2009: Vendredi 29 Mai 2009 36
IC 2009: Vendredi 29 Mai 2009 37
IC 2009: Vendredi 29 Mai 2009 38
IC 2009: Vendredi 29 Mai 2009 39
Conclusion
•
Une méthodologie en 4 étapes pour construire une infrastructure sémantique pour les actualités–
UML-2-OWL: aplatir la structure XML, identifier toutes les ressources
–
SKOS-ifier
les thésaurus existants et utiliser le Web de Données
–
Réutiliser ce qui existe ... et exposer ce que vous faites
•
Enrichir les métadonnées par l'analyse d'image et le traitement de la langue naturelle–
Fournit de nouvelles dimensions (facettes) pour explorer les données
IC 2009: Vendredi 29 Mai 2009 40
Perspectives
• Modélisation–
un modèle centré
évènement
• Qualité
des données– reconnaissance d'entités nommées (Calais),– désambigüisation– segmentation de vidéos, clustering
visuel
•Interfaces utilisateurs–Yahoo! Search
BOSS
IC 2009: Vendredi 29 Mai 2009 41
Remerciements
•
Données:
•
Equipe:
•
Plus d'info: http://newsml.cwi.nl