Click here to load reader

Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

  • View
    275

  • Download
    1

Embed Size (px)

Text of Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch

  • Besoin derien envie deSearch

    OLIVIERTAVARDFRANCELABS

    TELECOMVALLEYTECHCONF SEARCH31/05/16

  • Limportance businessdusearchExempledueCommerce 96%desvisiteursdunsitedee-commerceconsidrentlutilisationdunmoteurde

    rechercheinternecommefaisantpartiedeleurprocessusdachat. 73%desvisiteurs dunsitedeCommerce quittent lesiteauboutdedeux minutessils ne

    trouvent pasce quils cherchent

    Exempleenterprise search Uningnieur passe9hparsemainechercherdesdocuments (source: IDC)

  • Rappel((trs)rapide)Un moteur de recherche est un outil qui permet:

    De crer un index partir de documents

    Index

  • Index

  • Rappel((trs)rapide)Un moteur de recherche est un outil qui permet:

    De crer un index partir de documents

    Deffectuer des recherches dans cet index

    Index

  • Rappel((trs)rapide)

    Index

    coquilles

    saint

    Jacques

    .

    Document Requte

    coquilles saint jacques

    Coquilles saint-jacques

    coquilles saint jacques

    Coquilles SaintJacques

    Analyser Analyser

    Indexation Requte

    Match!

  • Fonctionnalits deSearch:trouver en de2min

    Facettes:

    Permet auclientdaffinersa recherche,etdetrouver sonproduit enmoins de2minutes.

  • Fonctionnalits deSearch:trouver en de2min

    Facettes:destypesvaris etconfigurables:

    Catgorie

    Fentre deprix

    Couleur

    Taille

  • Fonctionnalits deSearch:trouver en de2min

    Autocompletion:

    Permet deguiderleclientlors desa requte

  • Fonctionnalits deSearch:suggrer desachats

    Suggestions:

    Proposedesalternatives

  • Fonctionnalits deSearch:Moteur derecommandationsRecommandations: Ex:CarrierBuilder

    Gnredessuggestionsdepostessuivantunprofilutilisateur

  • Fonctionnalits deSearch:Analyse deslogs

  • Fonctionnalits deSearch:Golocalisation

  • Recoder sonmoteur derecherche ?Non!Pourquoinepaslefairesoi-mmeavecunebonnevieillerequtesql ?Moteurderecherche: Rsultatsscors

    Optimispour rcuprerundocpartirdesoncontenu

    Nonrelationnel, structurenonfixe

    Possibilitsdutiliserdesfonctionnalits spcifiquesausearch

  • Lestechnos derecherche opensourcelesplusconnuesApacheLucene

    ApacheSolr

    ElasticSearch

  • Lucene?Cr en 2000parDougCutting.Versionactuelle:Lucene 6.0.1(Mai2016)

    Projet delafondationApachedepuis 2001

    Librairie derecherche full-text

    Rapide,fiable,customisable,flexible

    100 %java(pasdedpendences)

  • Solr ?Lucene embarqu dans une webapp

    Moteur derecherche fulltextscalable

    Cr en2004parYonik Seeley CENTNetworks

    En2010,fusiondesprojets Lucene :tous lesdeux souslafondationApache

    VersionActuelle :Solr 6.0.1(Mai2016)

  • ElasticSearch ?Bas sur Lucene

    Moteur derecherche fulltextorient analyticsscalable

    Elasticsearch at cr parShayBanon en2004

    Licence Apache2.0

    Versionactuelle :2.3.3(Mai2016)

  • Moteur derecherche etBigDataScalabilit

    Haute disponibilit

    Consistance

    Simplicit

    Elasticit

  • Moteur de recherche et Big Data Les shardsSharding : Un shard est un morceau dindex

    Une recherche distribue se fait sur tous les shards (donc lindex complet)

    Utile pour grer un gros index

    Shard3

    Queries

    Shard1 Shard2Aggregatedqueries

    Subqueries

  • Moteur de recherche et Big Data : Leaders/Replicas

    Leaders et replicas pour la rplication: Pas de matre/esclave mais des leaders/replicas (un replica peut devenir un

    leader)

    Un leader et ses replicas contiennent le mme shard

    Utile pour grer une grosse charge de requtes et pour la haute disponibilit

    Leader Shard 1

    Replica2 Shard

    2

    Replica1 Shard 1

    Load Balancer

    Queries Queries Queries

  • Moteur de recherche et Big Data Illustration

    On veut rpartir lindex sur 2 shards

    On veut un rplica par shard

    Do 4 machinesINDEX

  • Diffrences Solr et ElasticSearch 95% des fonctionnalits en commun

    Quelques diffrences : ElasticSearch

    Percolator

    Elastic soriente vers Analytics

    Outils ES puissants mais peuvent tre payants : Kibana, LogStash, Marvel, Shield

    Solr Historiquement : focus sur fonctionnalits, cloud aprs

    Cross data center replication Solr 6

    Outils Solr : quivalents de ceux dES peuvent tre moins complets mais en licence Apache : console admin, LogStash for Solr, Banana

  • Clusters de serveurs

  • Cest lheure du quizQuelle est la version actuelle de Lucene/Solr ? A) 2.3.3

    B) 42

    C) 6.0.1

    Rpondez vite en tweetant sur @TechConfQuiz

  • Ecosytme - CrawlerRoles : Connection au systme externe

    Crawl des donnes

    Gre les autorisations Early Binding Late Binding

  • Ecosytme - CrawlerRoles : Push or pull mode

    Extraction du contenu (Tika)

    Crawling normal ou delta

    Attention limpact sur le systme crawl Throttling

    Scheduling

  • Ecosytme - CrawlerDifferents Crawlers

    Aperture File, Web

    Nutch Web

    DIH DB, XML

    Beats LogStash

    Framework Apache Manifold CF

  • Ecosytme - CrawlerScnario de moteur de recherche fdr : 1re source : crawl de fichiers avec autorisation

    Environnement : File Share Windows

    Active Directory

    2e source de donnes : crawl dun CMS interne

    Phase de recherche fdre en respectant les autorisations

  • Ecosytme - CrawlerScnario de moteur de recherche pour lindexation de logs: Parsing de fichiers de logs avec LogStash

    Indexation dans ElasticSearch

    Visualisation avec Kibana

  • Use casesSolr BOX:

    Index de 10 To 10 Mds docs

    100 M requtes / jour Documents bureautique

    ElasticSearch Verizon

    500 milliards docs

    Logs

  • CONTACT

    Nhsitez pas nous contacter pour toute demande dinformation

    Notre site web : www.francelabs.com

    Email: [email protected]: 09 72 43 72 85Fax: 09 72 29 28 14

    Adresse: France Labs

    CEEI Nice Premium1 boulevard Matre Maurice Slama

    06200 Nice, FranceTwitter : francelabs

Search related