41
IC 2009: Vendredi 29 Mai 2009 1 Explorer des actualités multimédia dans le web de données Raphaël Troncy, <[email protected] > CWI, Interactive Information Access

Explorer des actualités multimédia dans le Web de données

Embed Size (px)

DESCRIPTION

Présentation de Raphaël Troncy à la conférence IC 2009

Citation preview

Page 1: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 1

Explorer des actualités multimédia dans le web de données

Raphaël Troncy, <[email protected]>CWI, Interactive Information Access

Page 2: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 2

Search Paradigm : mots clés, liens vers des

ressources, pertinence

Assistant Paradigm : expression d'un besoin, explorer

des options, faire un choix, complétion de la tâche

Page 3: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 3

Page 4: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 4

Page 5: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 5

Page 6: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 6

Page 7: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 7

Page 8: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 8

Information Overload

Page 9: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 9

Workflow des actualités: un problème d'interopérabilité

Pas d'intégration des médias (dépêche, photo, vidéo, μ-blog)

Peu (ou pas) de contexte dans la présentation•

Problèmes d'interopérabilités

Schéma NAR

Vocabulaires contrôlés

Schéma diffuseur

NewsCodesVocabulaire utilisateur

Page 10: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 10

Représenter pour présenter

Objectif (à

long terme) :–

Fournir un environnement pour chercher et naviguer des actualités multimédia contextualisées

Requiert l'intégration des :–

Données : pluri media, différente forme, sources variées

Métadonnées : intégration, alignement de schémas

Influence et implications des interfaces:–

Comment représenter sémantiquement des métadonnées pour le multimédia pour faciliter la présentation des informations ?

en d'autres mots ... quelles contraintes les interfaces utilisateurs posent sur la modélisation des métadonnées ?

Page 11: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 11

Formats pour les actualités et le multimédia

News Architecture

NewsML

G2

EventsML

G2

SportsML

G2

Page 12: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 12

Construire des ontologies et des schémas pour le Web Sémantique•

Méthodologies et outils pour construire des ontologies:–

à

partir de corpus de texte, de schémas relationnels

ʺSKOS-ificationʺ

de thésaurus dans le domaine patrimonial:–

préparation, conversion syntactique et sémantique, standardisation

Manque de guides de bonnes pratiques pourmodéliser des ontologies à partir de UML,intégrer des ontologies avec de multiples thésaurus,

tout en prenant les interfaces utilisateurs en compte

Page 13: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 13

Construire une infrastructure sémantique pour les actualités

1 2 3 4

Modéliser l'ontologie NAR La lier avec

d'autres ontologiesObtenir des

thésaurus SKOSEnrichir les

métadonnées

Page 14: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 14

TextPhoto

GraphicsAnimation

AudioVideo

Composite

TextPhoto

...Person

Organisation….

Composite

PersonOrganisation

Geopolitical AreaPoint of Interest

Event...

PersonOrganisation

Geopolitical AreaPoint of Interest

Event…

Composite

Etape 1: Modéliser l'ontologie NAR

met l'accent sur la réutilisation de types XML, ce qui entraîne des répétitions et des structures XML imbriquées

trop complexes

Page 15: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 15

Etape 1: Modéliser l'ontologie NAR

Aplatir la structure XML

PhotoNewsItem

NewsItem

Page 16: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 16

Etape 1: Modéliser l'ontologie NAR

Avoir des identifiants uniques–

Utilisation d'URI déréférençable

pour n'importe quelle

ressource (les items d'actualités et le vocabulaire)–

Utilisation d'URI pour tout type de fragment

http://www.youtube.com/watch?v=1bibCui3lFM#t=1m45s

Modéliser la provenance des informations–

Réification RDF: les triplets réifiés ne sont pas assertés

Graphes nommés

{<> nar:subject cat:11002000} dc:creator team:md ;dc:modified ‘‘2005-11-11T08:00:00Z’’.

Page 17: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 17

Etape 2: Lier avec d'autres ontologies

foaf:Person

≈ nar:Person

dc:Subject

≈ nar:Subject

sioc:Item

≈ nar:Item

geo:lat geo:long

+

Page 18: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 18

Etape 3: Obtenir des thésaurus SKOS

Page 19: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 19

Etape 3: Obtenir des thésaurus SKOS

Page 20: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 20

Etape 4: Enrichir les métadonnées

Concepts/Entités qui sont le sujet des actualités–

Thèmes

Personne / Organisation–

Géopolitiques

Points d'intérêt–

Evénements

Produits et artefacts

Page 21: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 21

Etape 4: Enrichir les métadonnées

Ontologie NAR NewsCodes Thésaurus

Reconnaissance d'entités nommées

Ontologies de domaine

Page 22: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 22

Etape 4: Enrichir les métadonnées

Ontologie NAR NewsCodes Thésaurus

Ontologies de domaine

Détection de Concepts

Page 23: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 23

Disambiguation

IdentityRank

Ij

: entité

nommée j de l'item I–

lambda: normalisation,

Ci

: ensemble des instances candidates co-occurrent avec i, –

alphaij

: poids entre i et j–

E: personnalisation, cohérence sémantique du corpus

Calcul du poids alpha:–

fij

: fréquence de co-occurence entre i et j

Page 24: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 24

Le Web de données

dbpedia:Zidane

foaf:depictsnar:location

geonames:2950159

nar:subject

nc:15054000

events:id

wp:2006_FIFA_Wolrd_Cup#Final

Page 25: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 25

Semantic Search of Multimedia News

Description Nombre de triplets RDF

General Ontologies: NAR, DC, FOAF 7,336

Domain Specific Ontologies: football 104,358

Thesauri: newscodes 34,903

DBpedia, Geonames 53,468

AFP News Feed (June/July 2006) 804,446

AFP Photos (June/July 2006) 61,311

INA Broadcast Video (June/July 2006) 1,932

Total 1,067,754Powered by ClioPatria

1.0 alpha 3

Page 26: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 26

Page 27: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 27

Page 28: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 28

Page 29: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 29

Présenter les actualités

Dimensions utilisées pour naviguer dans une base de dépêches d'actualités

When

time

10/07/2006–

Where

location

Paris

What

is depicted

J. Chirac, Z. Zidane–

Why

event

WC 2006

Who

photographer

Bertrand Guay, AFP

Metadata

Page 30: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 30

ABC Event Model

Page 31: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 31

CIDOC CRM Event Model

Page 32: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 32

CultureSampo

Event Model

Page 33: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 33

Framenet

Event Model

Page 34: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 34

Motools

Event Model

Page 35: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 35

Towards an Linked Events Model?

Page 36: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 36

Page 37: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 37

Page 38: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 38

Page 39: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 39

Conclusion

Une méthodologie en 4 étapes pour construire une infrastructure sémantique pour les actualités–

UML-2-OWL: aplatir la structure XML, identifier toutes les ressources

SKOS-ifier

les thésaurus existants et utiliser le Web de Données

Réutiliser ce qui existe ... et exposer ce que vous faites

Enrichir les métadonnées par l'analyse d'image et le traitement de la langue naturelle–

Fournit de nouvelles dimensions (facettes) pour explorer les données

Page 40: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 40

Perspectives

• Modélisation–

un modèle centré

évènement

• Qualité

des données– reconnaissance d'entités nommées (Calais),– désambigüisation– segmentation de vidéos, clustering

visuel

•Interfaces utilisateurs–Yahoo! Search

BOSS

Page 41: Explorer des actualités multimédia dans le Web de données

IC 2009: Vendredi 29 Mai 2009 41

Remerciements

Données:

Equipe:

Plus d'info: http://newsml.cwi.nl