SlideShare a Scribd company logo
1 of 49
Download to read offline
Fouillez facilement dans
votre système Big Data
Olivier TAVARD
01/07/14
SophiaConf
A propos de moi :
 Cofondateur de la société France Labs
 Développeur (principalement Java)
 Formateur en technologies de moteurs de recherche
(Solr, Elasticsearch)
A propos de France Labs :
 Startup créée en 2011
 Experts en technos de search (consulting)
 Partenaire officiel de LucidWorks
 Editeur de la solution Datafari
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
Hadoop
Créé par Doug Cutting en 2004
A l’origine pour Lucene : Projet Nutch
Framework open source
Inspiré par les papiers sur Google Map Reduce
et Google File System
Hadoop
Traiter des grands volumes de données en un
minimum de temps
Stocker des immenses volumes de données
Fonctionne sur machines de configuration faible et
peu coûteuses
Hadoop
Architecture (très) simplifiée de Hadoop v1
Nœud 1 Nœud 3Nœud 2 Nœud 4
Couche Traitement (MapReduce)
Couche Stockage (HDFS)
Hadoop
Couche stockage (HDFS)
 Système de fichier distribué
 Utilise les disques « normaux » de chacun
des nœuds…
…pour donner l’impression de n’utiliser
qu’un seul énorme disque
 Fiable (données répliquées 3 fois)
Hadoop
Couche traitement (MapReduce)
 Hadoop exécute des jobs Map Reduce
 Un algorithme doit donc implémenter:
• Un mapper
• Un reducer
 Pour être executé de manière distribuée par
Hadoop en tant que job
Clé1 : Val1
Clé2 : Val2
Clé3 : Val3
Clé4 : Val4
Hadoop
Mapper
 Prend des données en entrée
 Et les transforme en paire de clé valeur
Mapper
Clé 1 : Val2
Clé 2 : Val2
Clé 1 : Val3
Clé 2 : Val4
Reducer
 Combine les valeurs ayant la même clé
Clé1 : Val5
Clé2 : Val6
Reducer
Hadoop
Hadoop
Un exemple simple?
 On a en entrée plusieurs textes
 On veut compter le nombre d’occurrences
des mots
 De manière distribuée
 En utilisant un job Map Reduce
Datafari
Datafari est notre
solution open source de
recherche d'entreprises,
basée sur Lucene, Solr,
et le framework de
connecteurs Apache
ManifoldCF.
Solr
Apache Solr est une
couche web open source
basée sur la librairie de
recherche Apache
Lucene. Elle ajoute des
fonctionnalités de
serveur web, du
faceting.
Lucene
Apache Lucene est un
moteur de recherche et
d'indexation, en open
source.
Apache : 4
Solr : 2
Lucene : 3
…
Apache : 1
Apache : 1
Solr : 1
Lucene : 1
…
Apache : 1
Solr : 1
Lucene : 1
…
Apache : 1
Lucene : 1
…
Hadoop
Datafari
Datafari est notre
solution open source de
recherche d'entreprises,
basée sur Lucene, Solr,
et le framework de
connecteurs Apache
ManifoldCF.
Solr
Apache Solr est une
couche web open source
basée sur la librairie de
recherche Apache
Lucene. Elle ajoute des
fonctionnalités de
serveur web, du
faceting.
Lucene
Apache Lucene est un
moteur de recherche et
d'indexation, en open
source.
Reducer
Mapper
Mapper
Mapper
Hadoop 2
HDFS 2 :
 Haute disponibilité NameNode
 Support de NFS
Hadoop 2
YARN
 Gestion jobs et ressources
Ecosytème
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
La recherche est un oignon matriciel!
Un outil qui permet:
 De créer un index à partir de documents
INDEX
A quoi ça ressemble ?
Facettes
Spellcheck
Autocomplete
Géolocalisation
Highlighting
More Like This
 Obtenir des documents similaires à un document
 Similarité textuelle
Autres fonctionnalités
Business Intelligence (BI)/Marketing
Analyse de logs (for devops)
Solr Cloud
Solr Cloud permet la mise à l’échelle:
 Architecture flexible en cluster de serveurs
 Volumétrie élevée
 Montée en charge
 Tolérance aux pannes
Tester Solr
Démo !
https://www.youtube.com/watch?v=asVQ
OkJPZzc
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
Projets liés
1999
2002
2004
2010
2005
Exemples de scénarios Big Data
 Text mining
 Création et analyse de graphes
 Reconnaissance de patterns
 Moteurs de recommandations, ciblage publicité
 Analyse de menaces, surveillances de marchés
Hadoop pour les recommandations
Hadoop pour les recommandations
Lucene pour la recherche d’utilisateurs
Exemples d’utilisation d’Hadoop
Netflix
• Site de streaming légal de vidéos
• Avant Hadoop :
- Logs étaient traités pendant la nuit
- Importés dans une BDD
- Analyse/BI
- => Il fallait plus de 24h pour traiter une journée de logs
• Avec Hadoop :
- En seulement une heure de jobs Hadoop les données sont traitées
- Traite quotidiennement 1 To de données par jour approximativement
• Solr
- Recherche de contenus par l’utilisateur
Exemples d’utilisation Big Data
Amazon CloudSearch
• Utilisation de Solr depuis Mars 2014
• Scalable
• Performant
Scénario : analyse de tickets de caisse
 Que faire des données brutes ?
 Comment les analyser, les traiter ?
 Comment rechercher dedans ?
 => Solution : Hadoop et Solr !
Hadoop et Solr indépendants
 Traitements et calculs sur Hadoop (ex : Pig)
• Import d’un CSV avec Pig
• Opérations : analyse, calculs panier moyen, TVA etc…
 Export des données d’Hadoop
• Génération d’un fichier XML avec Pig
 Indexation dans un Solr standalone (ex : DIH)
• Utilisation d’une contribution de Solr : DIH
1er niveau d’intégration
Index Solr
Avantages :
 Si cluster Solr déjà présent, ajout d’un index Solr
dédié
 Mature
Inconvénients:
 Réplication de HDFS vers système de fichiers du
Solr
1er niveau d’intégration
Stockage de l’index de Solr sur HDFS
 Lancement de Solr avec utilisation de HDFS
2e niveau niveau d’intégration
Avantages :
 Tolérance aux pannes
 Gain espace disque (cluster Hadoop déjà existant
avec HDFS)
2e niveau niveau d’intégration
Création de l’index Solr à l’aide de jobs Map
Reduce
 Travail en cours
(https://issues.apache.org/jira/browse/SOLR-1045)
 Contrib expérimentale fournie avec Solr
 Avantages :
• Augmentation des performance d’indexation sur de gros
volumes de données
• Très utile si indexes déjà construits par HDFS
Différents niveau d’intégration
Fonctionnalité de Search basée sur Solr
intégrée par plusieurs distributions
 MapR
 Cloudera Search
 Hortonworks
 Lucidworks
Solr
Rappels sur Hadoop
Présentation (rapide) de Solr
Intégration d’Hadoop et de Solr
Démo
Work in progress
Scénario des tickets de caisse
Etape 1 : import dans Pig des tickets en CSV
Etape 2 : opérations sur les données avec Pig
Etape 3 : indexation des données en Solr
Etape 4 : recherche sur ces données avec Solr
Work in progress
Solr directement couplé avec Hadoop
Démo !
Site web : www.francelabs.com
Email : contact@francelabs.com
Twitter : @Francelabs #Datafari

More Related Content

What's hot

Spark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairSpark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
 
Finist JUG - Elasticsearch
Finist JUG - ElasticsearchFinist JUG - Elasticsearch
Finist JUG - ElasticsearchDavid Pilato
 
Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Alexis Seigneurin
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Normandy JUG - Elasticsearch
Normandy JUG - ElasticsearchNormandy JUG - Elasticsearch
Normandy JUG - ElasticsearchDavid Pilato
 
Nantes JUG - Elasticsearch
Nantes JUG - ElasticsearchNantes JUG - Elasticsearch
Nantes JUG - ElasticsearchDavid Pilato
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
Spark Streaming
Spark StreamingSpark Streaming
Spark StreamingPALO IT
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctionsMICHRAFY MUSTAFA
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big DataAmal Abid
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6Amal Abid
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : CassandraLilia Sfaxi
 

What's hot (20)

Spark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclairSpark, ou comment traiter des données à la vitesse de l'éclair
Spark, ou comment traiter des données à la vitesse de l'éclair
 
Finist JUG - Elasticsearch
Finist JUG - ElasticsearchFinist JUG - Elasticsearch
Finist JUG - Elasticsearch
 
Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Normandy JUG - Elasticsearch
Normandy JUG - ElasticsearchNormandy JUG - Elasticsearch
Normandy JUG - Elasticsearch
 
Nantes JUG - Elasticsearch
Nantes JUG - ElasticsearchNantes JUG - Elasticsearch
Nantes JUG - Elasticsearch
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctions
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Elastic serach
Elastic serachElastic serach
Elastic serach
 
Annexe Big Data
Annexe Big DataAnnexe Big Data
Annexe Big Data
 
Cours Big Data Chap6
Cours Big Data Chap6Cours Big Data Chap6
Cours Big Data Chap6
 
Spark - Ippevent 19-02-2015
Spark - Ippevent 19-02-2015Spark - Ippevent 19-02-2015
Spark - Ippevent 19-02-2015
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Chapitre 3 spark
Chapitre 3 sparkChapitre 3 spark
Chapitre 3 spark
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
BigData_TP4 : Cassandra
BigData_TP4 : CassandraBigData_TP4 : Cassandra
BigData_TP4 : Cassandra
 

Viewers also liked

Apprendre Solr en deux heures
Apprendre Solr en deux heuresApprendre Solr en deux heures
Apprendre Solr en deux heuresSaïd Radhouani
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014francelabs
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearchBesoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearchfrancelabs
 
Presentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGPresentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGfrancelabs
 
Moteurs de recherche : un oeil sous le capot avec Elastic Search
Moteurs de recherche : un oeil sous le capot avec Elastic SearchMoteurs de recherche : un oeil sous le capot avec Elastic Search
Moteurs de recherche : un oeil sous le capot avec Elastic SearchAudrey Neveu
 
Integrate ManifoldCF with Solr
Integrate ManifoldCF with SolrIntegrate ManifoldCF with Solr
Integrate ManifoldCF with Solrfrancelabs
 
Hadoop and Pig at Twitter__HadoopSummit2010
Hadoop and Pig at Twitter__HadoopSummit2010Hadoop and Pig at Twitter__HadoopSummit2010
Hadoop and Pig at Twitter__HadoopSummit2010Yahoo Developer Network
 
Practical Hadoop using Pig
Practical Hadoop using PigPractical Hadoop using Pig
Practical Hadoop using PigDavid Wellman
 
Apache NiFi in the Hadoop Ecosystem
Apache NiFi in the Hadoop EcosystemApache NiFi in the Hadoop Ecosystem
Apache NiFi in the Hadoop EcosystemBryan Bende
 
Hadoop Pig: MapReduce the easy way!
Hadoop Pig: MapReduce the easy way!Hadoop Pig: MapReduce the easy way!
Hadoop Pig: MapReduce the easy way!Nathan Bijnens
 
Big Data, Hadoop, Hortonworks and Microsoft HDInsight
Big Data, Hadoop, Hortonworks and Microsoft HDInsightBig Data, Hadoop, Hortonworks and Microsoft HDInsight
Big Data, Hadoop, Hortonworks and Microsoft HDInsightHortonworks
 
Spark Streaming
Spark StreamingSpark Streaming
Spark StreamingEdureka!
 
Hadoop and pig at twitter (oscon 2010)
Hadoop and pig at twitter (oscon 2010)Hadoop and pig at twitter (oscon 2010)
Hadoop and pig at twitter (oscon 2010)Kevin Weil
 
Practical Kerberos with Apache HBase
Practical Kerberos with Apache HBasePractical Kerberos with Apache HBase
Practical Kerberos with Apache HBaseJosh Elser
 
Tackling big data with hadoop and open source integration
Tackling big data with hadoop and open source integrationTackling big data with hadoop and open source integration
Tackling big data with hadoop and open source integrationDataWorks Summit
 
Apache Phoenix Query Server
Apache Phoenix Query ServerApache Phoenix Query Server
Apache Phoenix Query ServerJosh Elser
 
Interface fonctionnelle, Lambda expression, méthode par défaut, référence de...
Interface fonctionnelle, Lambda expression, méthode par défaut,  référence de...Interface fonctionnelle, Lambda expression, méthode par défaut,  référence de...
Interface fonctionnelle, Lambda expression, méthode par défaut, référence de...MICHRAFY MUSTAFA
 
Scala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and ImplementationsScala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and ImplementationsMICHRAFY MUSTAFA
 
"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013
"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013
"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013Kai Wähner
 

Viewers also liked (20)

Apprendre Solr en deux heures
Apprendre Solr en deux heuresApprendre Solr en deux heures
Apprendre Solr en deux heures
 
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearchBesoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
 
Presentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUGPresentation Lucene / Solr / Datafari - Nantes JUG
Presentation Lucene / Solr / Datafari - Nantes JUG
 
Moteurs de recherche : un oeil sous le capot avec Elastic Search
Moteurs de recherche : un oeil sous le capot avec Elastic SearchMoteurs de recherche : un oeil sous le capot avec Elastic Search
Moteurs de recherche : un oeil sous le capot avec Elastic Search
 
Integrate ManifoldCF with Solr
Integrate ManifoldCF with SolrIntegrate ManifoldCF with Solr
Integrate ManifoldCF with Solr
 
Hadoop and Pig at Twitter__HadoopSummit2010
Hadoop and Pig at Twitter__HadoopSummit2010Hadoop and Pig at Twitter__HadoopSummit2010
Hadoop and Pig at Twitter__HadoopSummit2010
 
Practical Hadoop using Pig
Practical Hadoop using PigPractical Hadoop using Pig
Practical Hadoop using Pig
 
Apache NiFi in the Hadoop Ecosystem
Apache NiFi in the Hadoop EcosystemApache NiFi in the Hadoop Ecosystem
Apache NiFi in the Hadoop Ecosystem
 
Hadoop Pig: MapReduce the easy way!
Hadoop Pig: MapReduce the easy way!Hadoop Pig: MapReduce the easy way!
Hadoop Pig: MapReduce the easy way!
 
Big Data, Hadoop, Hortonworks and Microsoft HDInsight
Big Data, Hadoop, Hortonworks and Microsoft HDInsightBig Data, Hadoop, Hortonworks and Microsoft HDInsight
Big Data, Hadoop, Hortonworks and Microsoft HDInsight
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
 
Hadoop and pig at twitter (oscon 2010)
Hadoop and pig at twitter (oscon 2010)Hadoop and pig at twitter (oscon 2010)
Hadoop and pig at twitter (oscon 2010)
 
Practical Kerberos with Apache HBase
Practical Kerberos with Apache HBasePractical Kerberos with Apache HBase
Practical Kerberos with Apache HBase
 
Tackling big data with hadoop and open source integration
Tackling big data with hadoop and open source integrationTackling big data with hadoop and open source integration
Tackling big data with hadoop and open source integration
 
Apache Phoenix Query Server
Apache Phoenix Query ServerApache Phoenix Query Server
Apache Phoenix Query Server
 
Interface fonctionnelle, Lambda expression, méthode par défaut, référence de...
Interface fonctionnelle, Lambda expression, méthode par défaut,  référence de...Interface fonctionnelle, Lambda expression, méthode par défaut,  référence de...
Interface fonctionnelle, Lambda expression, méthode par défaut, référence de...
 
Scala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and ImplementationsScala: Pattern matching, Concepts and Implementations
Scala: Pattern matching, Concepts and Implementations
 
"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013
"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013
"Big Data beyond Apache Hadoop - How to Integrate ALL your Data" - JavaOne 2013
 

Similar to Solr + Hadoop - Fouillez facilement dans votre système Big Data

code4lib 2011 : choses vues et entendues par l'ABES
code4lib 2011 : choses vues et entendues par l'ABEScode4lib 2011 : choses vues et entendues par l'ABES
code4lib 2011 : choses vues et entendues par l'ABESABES
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr francelabs
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Applications Open Source pour Entreprise
Applications Open Source pour EntrepriseApplications Open Source pour Entreprise
Applications Open Source pour EntrepriseXWiki
 
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureTIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureThe Incredible Automation Day
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
 
Marseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France LabsMarseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France Labsfrancelabs
 
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"ABES
 
Découvrir Drupal, le CMS Open Source de référence
Découvrir Drupal, le CMS Open Source de référenceDécouvrir Drupal, le CMS Open Source de référence
Découvrir Drupal, le CMS Open Source de référenceLINAGORA
 
Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...
Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...
Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...Vanessa David
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étagesSemWebPro
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES
 

Similar to Solr + Hadoop - Fouillez facilement dans votre système Big Data (20)

code4lib 2011 : choses vues et entendues par l'ABES
code4lib 2011 : choses vues et entendues par l'ABEScode4lib 2011 : choses vues et entendues par l'ABES
code4lib 2011 : choses vues et entendues par l'ABES
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Applications Open Source pour Entreprise
Applications Open Source pour EntrepriseApplications Open Source pour Entreprise
Applications Open Source pour Entreprise
 
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft AzureTIAD 2016 : Accenture Devops Platform dans Microsoft Azure
TIAD 2016 : Accenture Devops Platform dans Microsoft Azure
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
 
Marseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France LabsMarseille JUG Novembre 2013 Lucene Solr France Labs
Marseille JUG Novembre 2013 Lucene Solr France Labs
 
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
Jabes 2011 - Ateliers "Sudoc, Calames, thèses.fr et le web de données"
 
Ldap.16
Ldap.16Ldap.16
Ldap.16
 
Drupagora linagora-20111110
Drupagora linagora-20111110Drupagora linagora-20111110
Drupagora linagora-20111110
 
Hadoop
HadoopHadoop
Hadoop
 
Découvrir Drupal, le CMS Open Source de référence
Découvrir Drupal, le CMS Open Source de référenceDécouvrir Drupal, le CMS Open Source de référence
Découvrir Drupal, le CMS Open Source de référence
 
Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...
Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...
Blend web mix 2015 - Rencontre entre un gestionnaire de contenu et un framewo...
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)
 

Solr + Hadoop - Fouillez facilement dans votre système Big Data

  • 1. Fouillez facilement dans votre système Big Data Olivier TAVARD 01/07/14 SophiaConf
  • 2. A propos de moi :  Cofondateur de la société France Labs  Développeur (principalement Java)  Formateur en technologies de moteurs de recherche (Solr, Elasticsearch) A propos de France Labs :  Startup créée en 2011  Experts en technos de search (consulting)  Partenaire officiel de LucidWorks  Editeur de la solution Datafari
  • 3. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  • 4. Hadoop Créé par Doug Cutting en 2004 A l’origine pour Lucene : Projet Nutch Framework open source Inspiré par les papiers sur Google Map Reduce et Google File System
  • 5. Hadoop Traiter des grands volumes de données en un minimum de temps Stocker des immenses volumes de données Fonctionne sur machines de configuration faible et peu coûteuses
  • 6. Hadoop Architecture (très) simplifiée de Hadoop v1 Nœud 1 Nœud 3Nœud 2 Nœud 4 Couche Traitement (MapReduce) Couche Stockage (HDFS)
  • 7. Hadoop Couche stockage (HDFS)  Système de fichier distribué  Utilise les disques « normaux » de chacun des nœuds… …pour donner l’impression de n’utiliser qu’un seul énorme disque  Fiable (données répliquées 3 fois)
  • 8. Hadoop Couche traitement (MapReduce)  Hadoop exécute des jobs Map Reduce  Un algorithme doit donc implémenter: • Un mapper • Un reducer  Pour être executé de manière distribuée par Hadoop en tant que job
  • 9. Clé1 : Val1 Clé2 : Val2 Clé3 : Val3 Clé4 : Val4 Hadoop Mapper  Prend des données en entrée  Et les transforme en paire de clé valeur Mapper
  • 10. Clé 1 : Val2 Clé 2 : Val2 Clé 1 : Val3 Clé 2 : Val4 Reducer  Combine les valeurs ayant la même clé Clé1 : Val5 Clé2 : Val6 Reducer Hadoop
  • 11. Hadoop Un exemple simple?  On a en entrée plusieurs textes  On veut compter le nombre d’occurrences des mots  De manière distribuée  En utilisant un job Map Reduce Datafari Datafari est notre solution open source de recherche d'entreprises, basée sur Lucene, Solr, et le framework de connecteurs Apache ManifoldCF. Solr Apache Solr est une couche web open source basée sur la librairie de recherche Apache Lucene. Elle ajoute des fonctionnalités de serveur web, du faceting. Lucene Apache Lucene est un moteur de recherche et d'indexation, en open source.
  • 12. Apache : 4 Solr : 2 Lucene : 3 … Apache : 1 Apache : 1 Solr : 1 Lucene : 1 … Apache : 1 Solr : 1 Lucene : 1 … Apache : 1 Lucene : 1 … Hadoop Datafari Datafari est notre solution open source de recherche d'entreprises, basée sur Lucene, Solr, et le framework de connecteurs Apache ManifoldCF. Solr Apache Solr est une couche web open source basée sur la librairie de recherche Apache Lucene. Elle ajoute des fonctionnalités de serveur web, du faceting. Lucene Apache Lucene est un moteur de recherche et d'indexation, en open source. Reducer Mapper Mapper Mapper
  • 13. Hadoop 2 HDFS 2 :  Haute disponibilité NameNode  Support de NFS
  • 14. Hadoop 2 YARN  Gestion jobs et ressources
  • 16. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  • 17. La recherche est un oignon matriciel!
  • 18. Un outil qui permet:  De créer un index à partir de documents INDEX
  • 19. A quoi ça ressemble ?
  • 24. Highlighting More Like This  Obtenir des documents similaires à un document  Similarité textuelle Autres fonctionnalités
  • 26. Analyse de logs (for devops)
  • 27. Solr Cloud Solr Cloud permet la mise à l’échelle:  Architecture flexible en cluster de serveurs  Volumétrie élevée  Montée en charge  Tolérance aux pannes
  • 29. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  • 31. Exemples de scénarios Big Data  Text mining  Création et analyse de graphes  Reconnaissance de patterns  Moteurs de recommandations, ciblage publicité  Analyse de menaces, surveillances de marchés
  • 32. Hadoop pour les recommandations
  • 33. Hadoop pour les recommandations
  • 34. Lucene pour la recherche d’utilisateurs
  • 35. Exemples d’utilisation d’Hadoop Netflix • Site de streaming légal de vidéos • Avant Hadoop : - Logs étaient traités pendant la nuit - Importés dans une BDD - Analyse/BI - => Il fallait plus de 24h pour traiter une journée de logs • Avec Hadoop : - En seulement une heure de jobs Hadoop les données sont traitées - Traite quotidiennement 1 To de données par jour approximativement • Solr - Recherche de contenus par l’utilisateur
  • 36. Exemples d’utilisation Big Data Amazon CloudSearch • Utilisation de Solr depuis Mars 2014 • Scalable • Performant
  • 37. Scénario : analyse de tickets de caisse  Que faire des données brutes ?  Comment les analyser, les traiter ?  Comment rechercher dedans ?  => Solution : Hadoop et Solr !
  • 38. Hadoop et Solr indépendants  Traitements et calculs sur Hadoop (ex : Pig) • Import d’un CSV avec Pig • Opérations : analyse, calculs panier moyen, TVA etc…  Export des données d’Hadoop • Génération d’un fichier XML avec Pig  Indexation dans un Solr standalone (ex : DIH) • Utilisation d’une contribution de Solr : DIH 1er niveau d’intégration
  • 40. Avantages :  Si cluster Solr déjà présent, ajout d’un index Solr dédié  Mature Inconvénients:  Réplication de HDFS vers système de fichiers du Solr 1er niveau d’intégration
  • 41. Stockage de l’index de Solr sur HDFS  Lancement de Solr avec utilisation de HDFS 2e niveau niveau d’intégration
  • 42. Avantages :  Tolérance aux pannes  Gain espace disque (cluster Hadoop déjà existant avec HDFS) 2e niveau niveau d’intégration
  • 43. Création de l’index Solr à l’aide de jobs Map Reduce  Travail en cours (https://issues.apache.org/jira/browse/SOLR-1045)  Contrib expérimentale fournie avec Solr  Avantages : • Augmentation des performance d’indexation sur de gros volumes de données • Très utile si indexes déjà construits par HDFS Différents niveau d’intégration
  • 44. Fonctionnalité de Search basée sur Solr intégrée par plusieurs distributions  MapR  Cloudera Search  Hortonworks  Lucidworks Solr
  • 45. Rappels sur Hadoop Présentation (rapide) de Solr Intégration d’Hadoop et de Solr Démo
  • 46. Work in progress Scénario des tickets de caisse Etape 1 : import dans Pig des tickets en CSV Etape 2 : opérations sur les données avec Pig Etape 3 : indexation des données en Solr Etape 4 : recherche sur ces données avec Solr
  • 48. Solr directement couplé avec Hadoop Démo !
  • 49. Site web : www.francelabs.com Email : contact@francelabs.com Twitter : @Francelabs #Datafari