Upload
gilles-hubert
View
95
Download
0
Embed Size (px)
Citation preview
GillesHubertMaîtredeconférences–HDR
UniversitéPaulSaba<erIRIT/IRIS
SéminaireUPPA25avril2016
Plan 1. Ac<vitésderecherche
2. RIcontextuelle• RIséman<que• Priseencomptedel’u<lisateur• RIgéographique• Sugges<oncontextuelle• …
3. Explora<ondemassesdedonnées• Scientométrie• Sugges<ond’expert
Ac<vitésderecherche G.HubertThéma<ques
2 2
Recherched’informa<on(RI)etExplora<ondemassesdedonnées
RIContextuelle
Informa<on
Système
U<lisateur
Matériel OLAP Scientométrie
Explora<ondemassesdedonnées
Axe 1 Axe 2
3
Axe1:RIcontextuelle
1. Principes
2. RIséman<que 3. Priseencomptedel’u<lisateur
4. RIgéographique
5. Sugges<oncontextuelle
6. RIflux
G.Hubert
Recherched’informa<onProcessusdeRIenU
Requête
Représenta<onrequête
Représenta<ondocument
DocumentDocument
Document
Appariement
Indexa<on Indexa<on
Listededocumentses<més
per<nents
4
Évalua<onenRI:exempleTRECText Retrieval Conference (TREC)
Organisé par le NIST (USA) depuis1992 Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI
Un ensemble de documents (Collection) Un ensemble de besoins d’information (Topics/Queries) Un ensemble de jugements de pertinence (Qrels)
Différentes tâches « tracks »: AdHoc, Robust, Web…
Mesures d’évaluation
5
relevant, retrieved (True positive)
irrelevant, retrieved (False positive)
relevant, not retrieved (False negative)
irrelevant, not retrieved (True negative)
A
C
B
D
Document collection
System output: retrieved documents
Information need: relevant documents
precision =A
A + B
recall =A
A + C
AP (Average Precision), MAP (Mean Average Precision), P@5 (Precision at 5 retrieved documents) …
TRECPrincipes des campagnes
6
52 November 2007/Vol. 50, No. 11 COMMUNICATIONS OF THE ACM
was the subject of an entire bookInformation Retrieval Experiment,edited by Karen Spärck Jones ofCambridge University [4]. Begin-ning in 1992, the Text REtrievalConference (TREC, trec.nist.gov/) [6] has represented a mod-ern manifestation of the Cranfieldmethodology, attesting to thepower of experimentation. Thestate of the art in retrieval systemeffectiveness has doubled sinceTREC began, and most commer-cial retrieval systems, includingmany Web search engines, featuretechnology originally developedthrough TREC.
The fundamental goal of aretrieval system is to help its usersfind information contained inlarge stores of free text. Naturallanguage is rich and complex, butresearchers and authors easilyexpress the same concept inwidely different ways. Algorithmsmust be efficient in light of howmuch text must be searched. Thesituation is further complicated bythe fact that different informa-tion-seeking tasks are best sup-ported in different ways, anddifferent individual users have dif-ferent opinions as to what infor-mation must be retrieved.
The core of the Cranfieldmethodology is to abstract awayfrom the details of particular tasks and users to abenchmark task called a “test collection.” A test col-lection consists of three components: a set of docu-ments; a set of information need statements called“topics”; and relevance judgments, a mapping ofwhich documents should be retrieved for which top-ics. The abstracted retrieval task is to rank the docu-ment set for each topic such that relevant documentsare ranked above nonrelevant documents. The Cran-
field methodology facilitates research by providing aconvenient paradigm for comparing retrieval tech-nologies in a laboratory setting. The methodology isuseful since the ability to perform the abstract taskwell is necessary (though not sufficient) to support arange of information-seeking tasks.
The original Cranfield experiments created a testcollection of 1,400 documents and a set of 225requests. Many retrieval experiments have been run inthe years following the Cranfield tests (several othertest collections were also built), but by 1990 there wasgrowing dissatisfaction with the methodology. Whilesome research groups did use the same test collec-tions, there was no concerted effort to work with thesame data, use the same evaluation measures, or com-pare results across systems to consolidate findings.The available test collections contained so few docu-ments that operators of commercial retrieval systemswere unconvinced that the techniques developedthrough test collections would scale to their muchlarger and growing document sets. Some experi-menters even questioned whether test collections hadoutlived their usefulness.
In 1991, the National Institute of Standards andTechnology (NIST, www.nist.gov) was asked by theDefense Advanced Research Projects Agency
A VARIETY OF COLLECTIONS HAS BEEN CONSTRUCTED, including for languages other than English, media other than text, andtasks that range from answer finding to text categorization.
Voorhees fig 1 (11/07)
retrievalalgorithm 1
retrievalalgorithm 2
retrievalalgorithm k
ranked resultsset 1
ranked resultsset 2
ranked resultsset k
document set
top X top X top X
human assessors
informationneeds
(”topics”)
documentpools
TR
EC
participants
. . .
...
relevancejudgments
evaluationscores
ranked resultsset
Processing in a typicalTREC track. Organizersrelease document and
topic sets to partici-pants who use theirretrieval systems to
rank the documents foreach topic. Ranked
results are returned toNIST where pools are
created for humanassessors. The
assessors judge eachdocument in a pool to
produce relevance judgments, which canthen be used to scorethe output of both theparticipant result sets
and any subsequentresults created through
the same topic and document sets.
(Voorhees,2007)
Recherched’informa<oncontextuelleNo<ondecontexteenRI
CommentprendreencomptelecontextedansleprocessusdeRI?Q1 : Retrouver des éléments correspondant au contexte Q2 : Retrouver le contexte correspondant aux éléments
Informa<on
U<lisateurs
MatérielOu<lslogiciels
7
RIContextuellePriseencompteducontextedanslecasQ1
Requête
Représenta<onrequête
Représenta<ondocument
DocumentDocument
Document
Appariement
Indexa<on Indexa<on
Listededocumentses<mésper<nents
Listededocumentses<mésper<nents
Re-ordonancement
Contexte
8
9
Axe1:RIcontextuelle
1. Principes
2. RIséman<que 3. Priseencomptedel’u<lisateur
4. Sugges<oncontextuelle
5. RIgéographique
6. RIflux
7. NouveauxmodèlesdeRI
G.Hubert
RIcontextuelle G.HubertThéma<que:RIséman<queProbléma<que
Insuffisances de l’approche « sacs de mots » en RI pour des domaines spécifiques (ex. diagnostic automobile)
Ques<on=«Fuméenoireaudémarraged’unevoiturediesel»Requête«sacsdemots»={fumée,noire,démarrage,voiture,diesel}
Approche:Exploita<ondesreprésenta<onsdudomaineHiérarchies de concepts
Requête={C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)} Ontologies de domaine
Requête=C41(voiture diesel) C53 (fumée noire) C85 (au démarrage)
ProjetsEuropéens IRAIA, e-Stage, WS-Talk ANR DynamO
10
affecter survenir
Cadre:représenta<onsdudomaine
Probléma<quesétudiéesIndexation, interrogation suivant des hiérarchies de concepts Indexation, interrogation sémantique suivant des ontologies
Con<bu<onsHiérarchies de concepts
ModèledeRIpourl’indexa<onetlarecherched’informa<onparconceptsettextelibre
Ontologies Modèled’indexa<onséman<quedynamiqueetmesuredesimilaritéséman<que
11 11
hiérarchiesdeconcepts ontologies
C4: Social indicators in industry C5: Productivity indices
C41: Number of employees C3 C1 C2
C11
C12
RIséman<que G.Hubert
12
RIséman<que
Contribu<on:exploita<ondeshiérarchiesdeconcepts
Modèle de RI Unitéd’informa<on:UIi=(li,{(c1,w1),…,(cj,wj)})Besoind’informa<on:BIk={(cm,wm),…,(cn,wn)}
Indexation suivant des hiérarchies de concepts
BI=termesdécrivantledocument,UI=termesdécrivantleconceptAppariement
12
G.Hubert
… The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. …..
C4: Social indicators in industry C5: Productivity indices
C41: Number of employees C42:Volume of work done
C51: Productivity by employee
ScoreIC(D64,C41)=0,85
ScoreIC(D64,C51)=0,20
D64
),(),(),(),( ikiUICc
kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟⎠
⎞⎜⎝
⎛⋅= ∑
∈
CNCDN
i i
CiDiIC cff
fCDScore
,
,,),( ϕ⋅⎟⎟
⎠
⎞⎜⎜⎝
⎛⋅= ∑
D document C concept
Dif , Fréquence du terme ti dans D Cif , Fréquence du terme ti dans C
icf Nombre total de concepts contenant ti CDN , Nombre de termes communs à D et C
CN Nombre de termes distincts dans C ϕ Réel positif ≥ 1
13
Contribu<on:exploita<ondeshiérarchiesdeconceptsRecherche combinant concepts et texte libre
13
… The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. …..
C4: Social indicators in industry C5: Productivity indices
C41: Number of employees C42: Volume of work done
C51: Productivity by employee
«Analyses according to age»
… This exploratory study focuses on a sample of West Midlands-based businesses that are located within the area known as the Central Technology Belt and examines the effect of the age and size of businesses (measured in number of employees) on their managerial capability. …..
+
CombinaisonderésultatsCombSUM(FoxetShaw,1994)
Document11Document88….
QC
QT
D64
D88
ScoreRC(QC,D64)=0,55
ScoreRC(QC,D88)=0,75
ScoreTL(QT,D88)=0,65
ScoreTL(QT,D64)=0,15
RIséman<que G.Hubert
14
Contribu<on:exploita<ondesontologiesModèle d’indexation sémantique dynamique
Mesure de similarité sémantique : ProxiGénéa Similaritéentregraphesd’annota<onsSimilaritéentreconcepts
14
RIséman<que G.Hubert
15
Axe1:RIcontextuelle
1. Principes
2. RIséman<que 3. Priseencomptedel’u<lisateur
4. RIgéographique
5. Sugges<oncontextuelle
6. RIflux
G.Hubert
RIcontextuelle G.HubertThéma<que:Priseencomptedel’u<lisateurProbléma<que
Rela<onsentreélémentsdecontexteetsystème?
Approche:Cadred’évalua<ond’interfacesderes<tu<on
Probléma<queInsuffisances de l’expression des besoins par mots-clés
Ques<on=«I’mlookingforfundingofresearchprojectsintheDigitalLibrarydomain»Requête«sacsdemots»={research,project,funding,digital,library}
Approche1:Naviga<onApproche2:Exploita<ondesopérateursderequêtesdisponiblesdanslesmoteursderecherche
Guillemets,opérateursd’obliga<on(+),opérateursdepondéra<on(^),opérateursbooléens,opérateursdeproximité…
Requête={project, +research, funding^4, "digital library"} 16
Probléma<que:rela<onsentreélémentsdecontexteetsystème?Contribu<on:évalua<ondel’adéqua<ond’interfacederes<tu<on(IRI)àunscénariodeRI
Caractérisation des scénarios de RI Triplet<U<lisateur,Système,Tâche>Critèresrela<fsàl’u<lisateur,
• ausystèmeetàlatâche
Définition d’un cadre d’évaluation Critèresd’évalua<onJeuxd’essaiRésultatsd’évalua<onExploita<ondesrésultats
17 17
VSEJeuxd’essai
Résultats d’évaluation
Arbre de décisionArbre de décisionArbre de décision
Résultats d’évaluation
VSE
Priseencomptedel’u<lisateur G.Hubert
Probléma<que:Expressiondubesoind’informa<onApprocheparnaviga<on
Formulation de requête en navigant dans un graphe de termes Graphe issus des requêtes précédemment soumises par les utilisateurs
19 19
Priseencomptedel’u<lisateur G.Hubert
Approche:Exploita<ondesopérateursderequêtesdisponiblesdanslesmoteursderecherche
Question = « I’m looking for funding of research projects in the Digital Library domain » Requête « sacs de mots » = {research, project, funding, digital, library} Guillemets,opérateursd’obliga<on(+),opérateursdepondéra<on(^),opérateursbooléens,opérateursdeproximité…
Requête={project, +research, funding^4, "digital library »}
ÉtudesopérateursU<lisa<onenbaisse,caractéris<quesméconnus,pasd’améliora<onobservée
Ques<onsderechercheL’u<lisa<ond’opérateursdanslesrequêtesaméliore-t-ellelesrésultats?
Quelsgainspossibles?Maîtrisablesparlesu<lisateurs?
JCase1:Cequelesconcepteursespèreraient
20
Priseencomptedel’u<lisateur G.Hubert
n Effetsdesopérateurssurl’efficacité(effec<veness)
21
Usagedesopérateurs
¨ EastmanandJansen(2003):étudesurdesrequêtesavecopérateurs
n U<lisateursréels:AOL,GoogleetMSNSearchn Requêtesavecopérateurs:AND,OR,MUSTAPPEARetPHRASEM Pasd’améliora<onsignifica<veP@10M Étudesur20%desrequêtes(experts,besoinscomplexes)
Priseencomptedel’u<lisateur G.Hubert
¨ Qu’enest-ildes80%derequêtesrestants?!n U<lisateursclassiquesn Requêtesclassiques(sansopérateurs)
20%
80%
22
Méthodologie
Regularquery V1:Queryvariantwithoperators
ü ü ü ü ü
ü ü
<
V3V2
V4VN. . .
Priseencomptedel’u<lisateur G.Hubert
23
Expérimenta<onsn Collec<onsdeteststandards
¨ TREC-7¨ TREC-8
n Operateurs¨ Mustappear(+)¨ Termboos<ng(^N)
n Généra<ondevariantes¨ Mustappear‘+’only¨ Boost‘^’onlywithweights^10,^20,^30,^40,and^50¨ Both‘+’and‘^’
n Moteurderecherche¨ Terrieravecdifférentsmodèles:BM25,DFR_BM25,InL2,PL2,TF_IDF
Variant# QueryvariantsgeneratedwithpreOpsandpostOps
1 encryp<on equipment export
2 encryp<on +equipment +export… … … …
124 encryp<on +equipment export^10… … … …
338 encryp<on^30 equipment^40 export^50
Priseencomptedel’u<lisateur G.Hubert
24
ConclusionsetPerspec<vesn Gainspossiblesaveclesopérateurs
q TREC-7:+35,1%q TREC-8:+24,3%
⇒ Lesu<lisateursdevraientu<liserdesopérateursplussouvent
⇒ Reformula<onautoma<quederequête?
n Q2:Lesu<lisateursparviennent-ilsàformulerdesrequêtesavecopérateursquiconduisentàungain?
n Requêtesavecdesdimensionsspa<o-temporelles?
Priseencomptedel’u<lisateur G.Hubert
25
Axe1:RIcontextuelle
1. Principes
2. RIséman<que 3. Priseencomptedel’u<lisateur
4. Sugges<oncontextuelle
5. RIgéographique 6. RIflux
G.Hubert
TRECContextualSugges<onTrack2012Trouverdesélémentscorrespondantaucontexte(Q1)Éléments=Sugges<ons
Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5 heures en voiture max.)
Collec<on=OpenWeb(Websites)Contexte=
Données spatiotemporelles
Préférences utilisateur
27
<contextnumber=”1”><city>Portland</city><state>Oregon</state><lat>45.5</lat><long>-122.7</long><day>weekday</day><<me>evening</<me><season>fall</season></context>
<examplenumber=”1”><<tle>DogfishHeadAlehouse</<tle><descrip<on>Cra�BrewedAlesandtastywoodgrilledfood</descrip<on><url>h�p://www.dogfishalehouse.com/</url></example><examplenumber=”2”><<tle>TheFlamingPit</<tle><descrip<on>TheFlamingPitRestaurantandPianoLounge,homeofTyroneDeMonke.</descrip<on><url>h�p://www.flamingpitrestaurant.com/</url></example>
<profilenumber=”1”><examplenumber=”1”ini<al=”1”final=”1”/><examplenumber=”2”ini<al=”0”final=”-1”/></profile>
TRECContextualSugges<onTrack2012Deuxsous-tâches
S1 : Suggestions correspondant aux données spatio-temporelles Listedesugges<onspourchaquecontexte
S2 : S1 + préférences utilisateur Listedesugges<onspourchaqueprofil(u<lisateur)etchaquecontexte
Suggestion = Titre + Description + Url
2 “runs” maximum Notre participation
Team:G.Cabanac&G.Hubert(IRIT–Univ.ofToulouse)2 runs soumis pour la sous-tâche S2
<context2012groupid=”waterloo”runid=”watcs12a”><sugges<onprofile=”1”context=”1”rank=”1”><<tle>DeschutesBreweryPortlandPublicHouse</<tle><descrip<on>DeschutesBrewery’sdis<nctNorthwestbrewpubinPortland’sPearlDistricthasbecomeaconvivialgatheringspotofbeerandfoodloverssinceit’s2008opening.</descrip<on><url>h�p://www.deschutesbrewery.com</url></sugges<on>etc.</context2012>
28
TRECContextualSugges<onTrack2012:Notreapproche
SRIcontextuel2012
Inputdata Internalprocess
Externalresource
Intermediatedata
Database
Contexti Placeselec<on GooglePlacesAPI
Placesets
Placequery
Contextuallistofplaces
Placedescrip<onenrichment
Contextuallistof
detailedplaces
Bing Google
Useri
Contextprocessing
Outputdata
Personaliza<on
Personalizedsugges<ons
Examples
Profilei Preferencedefini<on
Posi<ve
preferencesi
Nega<ve
preferencesi
Preferenceprocessing
29
TRECContextualSugges<onTrack2012:Notreapproche
Donnéesspa<o-temporelles
Préférencesu<lisateurApproche Gros grain : iritSplit3CPv1
Fusiondesdescrip<onsdesexemplesavecini<aletfinal=1->Pref+(P)Fusiondesdescrip<onsdesexemplesavecini<alandfinal=-1->Pref-(P)score(P,r)=cosine(Pref+(P),R)−cosine(Pref−(P),R)
Approche Grain fin : iritSplit3CPv2 Exemplededescrip<onavecini<aletfinal=1->Pref+l(P)Exemplededescrip<onavecini<aletfinal=-1->Pref-m(P)score(P,r)=max(cosine(Pref+l(P),r))−max(cosine(Pref−m(P),r))
30
TRECContextualSugges<onTrack2012:RésultatsÉvalua<ons
Pour chaque profil et chaque contexte Différentes dimensions : W (Website), G (Geographical), T (Temporal), and D (Description), et combinaisons (WGT et GT) Deux mesures : P@5 et MRR (Mean Reciprocal Rank)
31
iritSplit3CPv1
iritSplit3CPv2
TRECContextualSugges<onTrack2013Contexte=
Données spatiales seulement
Préférences utilisateur
{"1":{"lat":"40.71427","city":"NewYorkCity","state":"NY","long":"-74.00597”},…}
{"1":{"url":h�p://www.freshrestaurants.ca,"descrip<on":"Ourveganmenuboastsanarrayofexo<cstarters,mul<-layeredsalads,fillingwraps,highproteinburgersandoursignatureFreshbowls.”,"<tle":"FreshonBloor”},“2":{"url":h�p://www.flamingpitrestaurant.com/,"descrip<on":"TheFlamingPitRestaurantandPianoLounge,homeofTyroneDeMonke.”,"<tle":"TheFlamingPit”},…}
{"1":[{"a�rac<on_id":1,"website":1,"descrip<on":0},...],"2":[{"a�rac<on_id":1,"website":4,"descrip<on":3},…],”3":[{"a�rac<on_id":1,"website":-1,"descrip<on":2},…],…}
35
TRECContextualSugges<onTrack2013Deuxsous-tâches
Open Web Mêmeques<on:Suggérerdesélémentscorrespondantaucontexte(Q1)Lieuxàvisiter(restaurants…)autourdel’u<lisateur(5heuresenvoiture)Collec<on=OpenWeb(Websites)
ClueWeb ClueWeb12(mêmeques<onqueOpenWeb)ClueWeb12Contextualsugges<onsubcollec<on
Ensembles de documents ClueWeb12 par contexte Question: Personalisation par profil utilisateur
2«runs»maximumNotrepar<cipa<on
Team: G. Cabanac, G. Hubert & K. Pinel-Sauvagnat (IRIT – Univ. of Toulouse) C. Sallaberry (LIUPPA – Univ. of Pau)
D. Palacio (GeoComp – Univ. of Zurich) 1 « run » Open Web 1 « run » ClueWeb (Sous-collection Contextual suggestion)
36
TRECContextualSugges<onTrack2013:Notreapproche
SRIContextuel2013
Useri&
Personalized&sugges0ons&
Preference&processing&
Ranking&
Retrieval&
Place&filtering&&&descrip0on&enrichment&
list&of&places&
1&
2&
3&
4&
Categories&of&interesti&
Nega0ve&preferencesi&
Posi0ve&preferencesi&
Examples&
Profilei&
L,&T,&W&
T&
B&
Contexti&
Input&data& Output&data& Process&Intermediate&data&
Personalized&sugges0ons&
Preference&processing&
Useri&
Ranking&&&refinement&
Context&processing&
Place&filtering&&&descrip0on&enrichment&
Contextual&list&of&places&
1&
2&
3&
4&
Contexti&
Categories&of&interesti&
Nega0ve&preferencesi&
Posi0ve&preferencesi&
Examples&
Profilei&
Predefined&categories&
L,&T,&W&
GP&
GN,&Y,&P,&GG,&B&
a)& b)&
W:&WordNet& GP:&Google&Places& Y:&Yahoo!&BOSS&Geo& B:&Bing&T:&Terrier& P:&PostGis&GN:&Geonames& GG:&Gisgraphy&L:&Lucene&
37 OpenWeb ClueWeb
Exempledesugges<onen2012
Title:OakleyPubandGrill
Descrip<onOakleyPubandGrill-LocatedinOakleySquare,Cincinna<,Ohio.Localpubwithpleasantatmoshpereandgreatfood.Voted#1BestBurgerinCincinna<.Outdoor...PUBandGRILLOAKLEYOAKLEYOakleyPubandGrill~3924IsabellaAvenue~Cincinna<,Ohio45209OnOakleySquare~(513)531-2500www.oakleypub.comUsedwithpermission…
URL:h�p://oakleypubandgrill.com/
38
Exempledesugges<onen2013
Title:Cel<cMistPub
Descrip<on:Placetypes:bar,establishment.Thisplaceisabout.3KmWestfromhere(2minbycarwithnotraffic).Address:117South7thStreet,Springfield.Thereare11POIsaround:2Hotels,3Libraries,3Parks,1PostOffice,2Religious.Snippet:LocatedinSpringfield,ILtheCel<cMistisyourhomeawayfromhomewithover16importedbeersontapandafriendlystaffreadytoserveyou…
URL:h�p://www.cel<cmistpub.com/
39
RésultatsfinalsOpenWeb
40
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScoreUDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.59551 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.55882 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016
Table 1: P@5, TBG, and MRR rankings for all open web runs.
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScorebaselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569
Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.
RésultatsfinalsClueWeb
41
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScoreUDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.59551 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.55882 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016
Table 1: P@5, TBG, and MRR rankings for all open web runs.
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScorebaselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569
Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.
AnalysedesrésultatsPremièreédi<on(2012)
Tous les participants ont découvert les principes de la tâche Pires évaluations : Descriptions des suggestions
Secondeédi<on(2013)OpenWeb
Focaliséesurlesdescrip<onsdessugges<onsChangementsdanslesjugementsdeper<nence
ClueWeb Incompréhensiondesdirec<vesoupasassezdeprécisions
TravauxfutursTravailler sur les limites des outils/services en ligne Gérer des collections plus volumineuses : ClueWeb12 (870 millions de pages, ~27TB)
Nextedi<onofTRECContextualSugges<onTrack2014Contexts outside USA
FutureworkExperiment framework variants on 2013 data Replace limited online tools/services Process larger collection: ClueWeb12 (870 millions pages, ~27TB)
42
43
Axe1:RIcontextuelle
1. Principes
2. RIséman<que 3. Priseencomptedel’u<lisateur
4. Sugges<oncontextuelle
5. RIgéographique
6. RIflux
G.Hubert
RIcontextuelle G.HubertThéma<que:RIgéographiqueProblème
Limites de l’approche « sacs de mots » pour l’information géographique Besoin=«ConcertautourdeMarseilleauprintemps2012»Requête«sacsdemots»={Concert,Marseille,printemps,2012}
ApprochePrise en compte des 3 dimensions de l’information géographique : thématique, spatiale, temporelle
Requête=«ConcertautourdeMarseilleprintemps2012»
Contribu<onsModèle de RI géographique Cadres d’évaluations
SRIG SREN
44 44
45
SRIgéographiquen 3dimensionsàtraiter
¨ Théma<que,spa<al,temporel
n 1indexpardimension¨ Théma<que sacdemots,racinisa<on,modèlevectoriel…¨ Spa<al détec<ond’en<tésspa<ales,englobant/englobé…¨ Temporel détec<ond’expressionstemporelles…
n Étatdel’art:Interroga<onparfiltragessuccessifs¨ parexemple,prioritéauthéma<quepuisfiltragesurlesautresdimensions
n Probléma<que:performancesdesSRIgéo.vsSRIthéma<que?
n Hypothèse:SRIgéographiquemeilleurqueSRIthéma<que
RIgéographique G.Hubert
46
ÉvaluerunsystèmedeRIn Système=efficiency+effecCveness
n Évalua<ondel’effecCveness
tempsdecalcul volumedestockage qualité
Li�ératureRIgéo. Li�ératureRIthém.
thématique
Trec,Clef…
Bucheretal.(2005)GeoClef
spatial
temporel
TempEval
Cadred’évalua<on
proposé
RIgéographique G.Hubert
47
Cadred’évalua<onpourles3dimensionsn ExtensionducadreTREC
¨ Collec<ondetestn ≥25Topicsn Corpusn Qrelsgraduelsn +Ressourcesgéographiques
¨ ÀproposdesQrels…n per<nence(doc,topic)∈{0;1;2;3;4}n Principe:«plusilyadedimensionssa<sfaites,mieuxc’est»
¨ Mesuresurqrelsgraduels:NormalizedDiscountedCumula<veGain
traitantdes3dimensions
aucunedimension
3dimensionstopic:«thermalismeàGavarnie»doc:thermalisme+BobnéàGavarnie
3dimensions+global=
topicsa<sfaitJ
RIgéographique G.Hubert
48
Étudedecas:lacollec<onMIDR_2010n Obten<ondesqrels:12volontaires(merci!)
31topics
5645documents=
passages
Qrelsjugementdeper<nence
{0;1;2;3;4}
Cartepourrepérage
RIgéographique G.Hubert
49
Étudedecas:lesystèmePIVn Indexa<on:unindexpardimension
¨ Théma<que=SRITerrierSpa<al=carroyagesTemporel=carroyages
n Interroga<on¨ Res<tu<onpourchaqueindex¨ CombinaisondesrésultatsavecCombMNZ[Fox&Shaw,1993;Lee1997]
CombMNZ
RIgéographique G.Hubert
50
Analysedesdonnéesrecueilliesn Évalua<ond’unSRI
¨ ListeRésultats×QrelsNDCG(topic)
n Résultat:SRIgéographiqueestleplusperformant
trec_eval
Hypothèseü
RIgéographique G.Hubert
51
Perspec<ves
n Analysesplusfinesparrequête
n Collec<onsenanglais
n Généralisa<onàd’autresdimensions:confiance,fraîcheur…
n Per<nencegraduellepardimension
n Mesuredel’apportdechaquedimension
RIgéographique G.Hubert
RIcontextuelle G.HubertThéma<que:RIfluxProblèmes
Identification de données « utiles/intéressantes » pour un utilisateur Volume instantané de données Obsolescence des données
ApprocheFiltrage contextuel des tweets
Contribu<onsModèle de RI contextuelle pour les flux Participation à TREC Microblog 2015 Projet FUI ACOVAS
52 52
TRECMicroblog2015Filtrage temps-réel
Supervisiondesfluxdesmessagespostésdanslesréseauxsociauxtraitantunsujetpar<culier
Synthèsedufluxd’informa<onpubliéedanslesréseauxsociaux;
Obteniruneinforma<onactualiséeaufildetemps.
53 53
RIflux G.Hubert
ApprocheFiltrage temps-réel
Plusieurs niveaux de filtrage Contenu textuel Caractéristiques externes : hashtag, mention, image, url…
Acceptation par étape sur le contenu
Système de score par caractéristique ⇒ score global par Tweet
Acceptation finale par profil(s)
Contrainte Exécution < 1 min
54 54
RIflux G.Hubert
ApprocheTraitement du contenu textuel
Traitementsclassiques(Non-English,stopwords,casse,tokenisa<on,racinisa<on)2étapes~2seuils(scoredesimilarité)/définisparexpérience:
Contenu // titre Contenu // titre + description
Système de score Caractéris<quesdecontenuCaractéris<quesd’en<tésCaractéris<quesu<lisateur
Scores de caractéristiques Seuils fixés par des expériences préalables Score global de similarité par tweet
55 55
RIflux G.Hubert
Siok
Siok
56
● Tempsderéponse○ <9secondesSGA○ <7minutesSGB
● Varia<ondesseuils
● Efficacité(effec<veness)
RIflux G.Hubert
Approche/Résultats
58
Perspec<ves
n Ajustementautoma<quedesseuils
n Besoinsd’informa<oncomplexes
n Intégra<onautresdimensionscontextuelles(spa<ale…)
n Obsolescencedesdonnées
RIflux G.Hubert
Explora<ondemassesdedonnées G.HubertProbléma<ques
Limites OLAP Commentcomparerdesdonnéesdeniveauxdegranularitésdifférents?
Limites des approches bibliométriques et scientométriques habituelles en Sociologie des Sciences Questions
Commentévoluentlescollabora<onsdeschercheursaucoursdeleurcarrière?Quelsexpertspourrenouveleruncomitédeprogramme?
ApprocheExtensions OLAP Extraction d’informations bibliographiques (DBLP) Analyse de réseaux de co-signature
Contr<bu<onsNouvel opérateur OLAP - Blend Méthode d’analyse bibliométrique (Projet ANR RésoCit) Modèle de suggestion d’experts
60 60
Modèledesugges<ond’expertsApproche
Modélisation d’espace de recherche : graphe hétérogène
Trois types de nœuds
62 62
Conférencedonnée
Ar<cles
Experts
Quatre types de liens Lienentreconférenceetunar<clepublié
Liendecita<on
Lienentrel’ar<cleetl’auteur
Lienentreconférenceetpar<cipa<onàunCP
Sugges<ond’expert G.Hubert
Approche
Proximité entre conférence et expert-candidat basée sur tous les chemins entre eux
Trois types de nœuds
63 63
1.AE:Expertcommeauteurexterne-3typesdesegment
2.AI:Expertcommeauteurinterne-2typesdesegment
3.CP:Expertcommeauteurexterne-3typesdesegment
Sugges<ond’expert G.Hubert
Approche
Force des quatre types de lien Laforceduliendecita<ond’ar<cledcitantcitedcité:
Laforcedulienentreconférenceetsonar<clesd:
Laforcedulienentrel’ar<cledetsonauteurc:
Laforceduliendepar<cipa<ondel’expertcaucomitédeprogramme:
64 64
Sugges<ond’expert G.Hubert
ApprocheForce des chemins : somme des forces normalisées des liens qui constituent le chemin
Cheminauteurexterne(AE)
Cheminauteurinterne(AI)
CheminmembreCP(CP)
Force des chemins : somme des forces normalisées des liens qui
où
65 65
Sugges<ond’expert G.Hubert
66
Perspec<ves
n Intégrerd’autresinforma<ons
q Affilia<ons,localisa<ons,co-signaturesconférencesextérieurs…
n Temporalitédesdonnées
q Périodesdevaliditédesthéma<ques,affilia<ons…
n Sugges<onmul<-critère
q Défini<ond’uncomitérépondantàunensembledecritères
n Évalua<on
q JugementsdeprésidentsdeCP
Sugges<ond’expert G.Hubert