Core Techs Et Lucene

Preview:

DESCRIPTION

Présentation Lucene, recherche sémantique et typologique.

Citation preview

Lucene :Recherche sémantique et typologique

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Plan de la présentation :

1. Lucene et la recherche sémantique

2. Typologie documentaire et recherche

3. Trustin : l’application de recherche en ASP

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

1. Lucene et la recherche sémantique

a. Rappels : Lucene, l’outil de recherche opensource en Java

• Lucene est né en 2001 au sein de la communauté Apache

• Système de recherche et d’indexation entièrement écrit en Java

• Les points forts de Lucene :

• Performance reconnue de l’index

• Un modèle applicatif ergonomique

• Une capacité d’intégration exemplaire

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

1. Lucene et la recherche sémantique

b. Structure et fonctionnement de Lucene

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

DB

Index

File System

web

GatherData

IndexDocuments

Search Index

User

Get Users’Query

PresentSearch Results

Lu

cen

eA

pp

lica

tion

1. Lucene et la recherche sémantique

• Une phase de structuration :

• Une phase d’indexation :

• Analyzer : fournit la méthode d’indexation

• Indexer : ajoute le contenu à l’index

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

b. Structure et fonctionnement de Lucene

Document

Field

1. Lucene et la recherche sémantique

c. Application de recherche

• Query : modélise la requête de l’utilisateur, utilisation de syntaxe booléenne, etc

• Analyzer : méthode de parsing de la requête

• IndexSearcher : effectue la recherche sur l’index

• Hit : Un résultat de recherche

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

2. Typologie documentaire et recherche

a. Référentiel documentaire

• Un référentiel documentaire est un ensemble de contenus produit par un groupe d’entités sur une thématique commune

• La typologie des documents du référentiel est hétérogène

• Le sens d’un terme est lié à sa position au sein de la structure du document

• Il est nécessaire de trouver un modèle capable de lier la position structurelle d’un terme (typologie) à son sens (sémantique)

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

2. Typologie documentaire et recherche

b. Introduire la notion de typologie dans Lucene

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Documents

XMLDescriptor

Content

Structure

Document

Field

2. Typologie documentaire et recherche

c. Pondération de la pertinence des résultats de recherche

• Introduire un coefficient de pondération supplémentaire dans le taux de pertinence calculé par Lucene

• En identifiant les zones de contenu où la recherche doit être effectuée : descripteur XML

• Produire un « ranking » de termes par zone : statistique

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

3. Trustin : l’application de recherche en ASP

a. Externalisation des application de recherche

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

DescripteursXML

CrawlerTrustin

Référentiel documentaire

Index

Applicationde recherche

Résultatsde recherche

Trustin SI externe

3. Trustin : l’application de recherche en ASP

b. Les fonctionnalités de Trustin

• Suggestion automatique de rechercheEx : création ? création d’entreprise OU création artistique

• SiglaisonEx : CDI ? Contrat à Durée Indéterminée

OU Contrat Développement Innovation

• Stemmatisation :Ex : Commerce ? Commerce ET Commercial(e)

ET Commercialisation, etc

• Correction orthographique

• Indexation multi-format : XML, HTML, PDF, Word, Excel, PowerPoint, Ooo

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

3. Trustin : l’application de recherche en ASP

c. Développement de Trustin

• Cofinancé par Oséo

• Ouverture prochaine à la communauté

• lsicard@core-techs.fr

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Merci de votre attention

Questions ?

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique