SlideShare a Scribd company logo
1 of 19
Download to read offline
Bringing Entreprise Search in
the Big Data era with PCU
Unified, search-first Machine Learning
platform targeted at business applications
PCU @ POSS 2017
Marc Dutoo, Smile
Dematerialization track
PCU
1
2
● Why Big Data for Entreprise Search
● Demo !
● PCU introduction
● Questions
PCU
Plateforme de Connaissances Unifiée
Overview
The speaker
● Marc Dutoo, R&D projects lead at Smile, the leading EU Open Source service provider
● PCU project coordinator, Data / API / Cloud expert
Why Entreprise
Search and Big Data
PCU @ POSS 2017
PCU
3
4
PCU
Plateforme de Connaissances Unifiée
Digital Entreprise ?
Entreprise Search, a powerful
asset to make your
documents go digital !
=
images courtesy LinkedIn.com
But out of fashion ?
PCU Entreprise Search
Big Data
by
+
https://www.smile.eu/fr/technologies/pcu-enterprise-search
Demo !
PCU @ POSS 2017
PCU
7
8
PCU
Plateforme de Connaissances Unifiée
Entreprise Search (démo)
PCU Architecture
Apache
Log
Connecteur
File
Connecteur
File
Connecteur
Web
Connecteur
Web
Connecteur
Application
Connecteur
Application
Connecteur
Log
Connecteur
Log
File entity
Product entity
Apache log
Append (delta)
content
Enterprise search
Direct or async. Spark ETL indexing
Checks
Trigger
event/alert
prediction
File
ecommerce
Reco
REST
Reco
REST
Vues
360
Vues
360
IndexingRESTIndexingREST
Topic Kafka streaming job
incl. cleaning
ElasticSearch
Distributed file
system
Meta
modèle
Meta
modèle
ES Proxy
Content
stream
Smart search engine
REST
Smart search engine
REST
ML batch jobs
10
PCU
Plateforme de Connaissances Unifiée
Entreprise Search (WP7), avec Spark ETL
indexing (WP2) (démo)
● Entreprise Search : “qui peut le plus peut le moins”
○ le produit d’appel “pied dans la porte” de PCU pour élargir son
audience au-delà des early adopters
● … MAIS pas seulement !
○ plus tard, il héritera des fonctionnalités de recherche intelligentes
mises au point pour le e-commerce (en “trickle-down”)
○ dès à présent, il bénéficie de l’intégralité de l’architecture de PCU,
qu’il valide
■ pipeline d’indexation alternatif sur YAML-configured
Spark ETL :
● à la volée (mode streaming), configuration simple (YAML)
● asynchrone et scalable grâce à Kafka (files partitionnées)
● transformation de données en Spark (tout comme le ML)
Tomorrow : PCU
Introduction
PCU @ POSS 2017
PCU
11
12
PCU
Plateforme de Connaissances Unifiée
PCU - the problem
(Big)
Data
=
images courtesy thinglink.com, lebigdata.fr, webengage.com, toptal.com, mattturk.com
Data scientist Devops Machine Learning
BUT you need...
… how can (very) small companies take advantage of it ?
13
● 6 partners, 36 man-year over 2017-2019, sponsored by the French
ministry of Industry & région Île de France
● In order to democratize Big Data, so that every company will be able to
add value to its own core business thanks to its existing data
○ The Big Data / Machine Learning / semantic module to enrich any business
application
○ … Unified, search-first Machine Learning platform targeted at
business applications.
● As showcased in 2 use cases :
○ E-commerce (up to digital in store) & B2B
○ Enterprise search
● Thanks to:
○ A factory of Machine Learning and Semantics-enriched search engines
○ state-of-the-art and new algorithms analyzing user behaviour
○ end-to-end event-driven data processing workflow
○ an open source, best-of-breed, unified, flexible and extensible approach
PCU
Plateforme de Connaissances Unifiée
Factsheet - Unified Knowledge Platform
14
Smile : coordinator, architecture, ecommerce
Paris 13 : Machine Learning, semantics
ESILV : pipeline, semantics
Proxem : text & opinion mining, B2B
Wallix : enterprise search experience
Armadillo : integration & mgmt API & UI
PCU
Plateforme de Connaissances Unifiée
Partners and stakeholders
Financial sponsors : BPI, IDF
Cluster : System@tic
Overall architecture
Collect Learn Reference Publish
Deploy, Manage, Monitor
15
>>
>
>>
>
>>
>
PCU
Plateforme de Connaissances Unifiée
16
● Generic platform
○ Unified, flexible, extensible, best-of-breed-based, API-managed
○ Along with a set of standard connectors, data pipeline elements,
and Machine Learning (ML) and text mining algorithms
● Use cases and products
○ E-commerce (product, deployed at Smile early adopter customers),
B2B (deployed at Smile & Proxem)
○ Enterprise Search (product, deployed at each partner's)
● Open Source Ecosystem
○ Ties with integrated technical components' communities as well as
derived business-specific products
○ Home of platform examples, tryout and adoption
PCU
Plateforme de Connaissances Unifiée
Target outputs
17
● Business requirements, up to Machine Learning prototypes
○ Search, Ecommerce (B2C), CRM (B2B), including 10GB+ data sets
○ Data analysis, up to ML prototypes on Spark + Jupyter : reco, coocs...
● Architecture and development
○ State of the art, POCs (ElasticSearch, Solr, Spark), technical architecture
○ Semantic platform architecture, topic detection algorithm
○ YAML-configured ETL pipeline on Spark (prototype)
○ 360 View & A/B testing prototypes
○ Enterprise search demo (API, indexing, crawler, metadata extractor, UI)
● Project setup
○ Collaboration, communication
○ Tools : Github, first shared data and Big Data / ML components Cloud,
Spark Machine Learning dockerized environment...
PCU
Plateforme de Connaissances Unifiée
Year 1 outputs
18
Questions ?
https://pcu-consortium.github.io/
https://twitter.com/PCUConsortium
Contact : marc.dutoo@smile.fr
https://www.smile.eu/fr/technologies/pcu-enterprise-search
Thanks for
your attention !
https://www.smile.eu/fr/technologies/pcu-enterprise-search
19
PCU
Plateforme de Connaissances Unifiée
Vue d’ensemble des Work Packages
techniques
WP1 : Architecture
WP2 : Valorisation WP3: Utilisation
WP4 : Catalogue
WP5 : Client
WP6 : Omnicanal WP7 : Recherche
Messagerie Système de fichier
Machine Learning
analyse sémantique
Recherche
Vues
Alerte
Analytiques
Recherche
Vues
Mobile
Vues B2B B2C
Beacon
Campagne
Connecteurs
Vues
Sécurité
Conclusion
Revue an 1
PCU
20
21
PCU
Plateforme de Connaissances Unifiée
Conclusion
● Fait en 2017 :
○ Besoins prototypés
○ Architecture et fondations R&D
○ Prototypes techniques v1
○ Solution Entreprise Search v1
● Prévu en 2018 :
○ Gestion des modèles de données et configuration générique et
dynamique
○ Refactoring du framework de connecteurs
○ Algorithmes recherche sémantique, NLP, recommandation

More Related Content

Similar to Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source Summit 2017

Digital workspace : la réalité
Digital workspace : la réalitéDigital workspace : la réalité
Digital workspace : la réalitéThomas Gennburg
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
PCU@Documation 2017 -Flyer
PCU@Documation 2017 -FlyerPCU@Documation 2017 -Flyer
PCU@Documation 2017 -FlyerRania Soussi
 
CMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigDataCMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigDataSmile I.T is open
 
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise   nouvelle expérience de travail - microsoft franceUsages 2 0 en entreprise   nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft franceThomas Kerjean
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...Paris Open Source Summit
 
Présentation programme OREE
Présentation programme OREEPrésentation programme OREE
Présentation programme OREECYB@RDECHE
 
Présentation Ozwillo aux Interconnectés
Présentation Ozwillo aux InterconnectésPrésentation Ozwillo aux Interconnectés
Présentation Ozwillo aux InterconnectésOzwillo
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Nuxeo
 
Be Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovationBe Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovationPatrick Chanezon
 
Plateforme digitale services et technologies
Plateforme digitale   services et technologiesPlateforme digitale   services et technologies
Plateforme digitale services et technologiesWilliam Poos
 
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...Karim Gmir
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - LilleSoft Computing
 
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?IRSST
 
Livre blanc des Big Data
Livre blanc des Big DataLivre blanc des Big Data
Livre blanc des Big DataYann Gourvennec
 
Livre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdfLivre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdfMarina Lapaquette
 

Similar to Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source Summit 2017 (20)

Digital workspace : la réalité
Digital workspace : la réalitéDigital workspace : la réalité
Digital workspace : la réalité
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
PCU@Documation 2017 -Flyer
PCU@Documation 2017 -FlyerPCU@Documation 2017 -Flyer
PCU@Documation 2017 -Flyer
 
Offre onepoint medias
Offre onepoint mediasOffre onepoint medias
Offre onepoint medias
 
CMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigDataCMSday 2013 - OpenData, BigData
CMSday 2013 - OpenData, BigData
 
ML Ops a Survey
ML Ops a SurveyML Ops a Survey
ML Ops a Survey
 
Présentation 6 IT 2016
Présentation 6 IT 2016Présentation 6 IT 2016
Présentation 6 IT 2016
 
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise   nouvelle expérience de travail - microsoft franceUsages 2 0 en entreprise   nouvelle expérience de travail - microsoft france
Usages 2 0 en entreprise nouvelle expérience de travail - microsoft france
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
Présentation programme OREE
Présentation programme OREEPrésentation programme OREE
Présentation programme OREE
 
Présentation Ozwillo aux Interconnectés
Présentation Ozwillo aux InterconnectésPrésentation Ozwillo aux Interconnectés
Présentation Ozwillo aux Interconnectés
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
 
Be Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovationBe Googley, a corporate culture for innovation
Be Googley, a corporate culture for innovation
 
CV Fabrice
CV FabriceCV Fabrice
CV Fabrice
 
Plateforme digitale services et technologies
Plateforme digitale   services et technologiesPlateforme digitale   services et technologies
Plateforme digitale services et technologies
 
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
Benchmark des solutions IoT et intégration d'une plateforme à un progiciel de...
 
Big Data by Soft Computing - Lille
Big Data by Soft Computing - LilleBig Data by Soft Computing - Lille
Big Data by Soft Computing - Lille
 
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
 
Livre blanc des Big Data
Livre blanc des Big DataLivre blanc des Big Data
Livre blanc des Big Data
 
Livre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdfLivre blanc-big-data-jems.-teaserpdf
Livre blanc-big-data-jems.-teaserpdf
 

More from Marc Dutoo

OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...
OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...
OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...Marc Dutoo
 
Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017
Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017
Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017Marc Dutoo
 
PCU@RISE 2017 - Building a thesaurus for product search
PCU@RISE 2017 - Building a thesaurus for product searchPCU@RISE 2017 - Building a thesaurus for product search
PCU@RISE 2017 - Building a thesaurus for product searchMarc Dutoo
 
OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...
OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...
OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...Marc Dutoo
 
OCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platform
OCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platformOCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platform
OCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platformMarc Dutoo
 
OCCIware@OW2con 2016
OCCIware@OW2con 2016OCCIware@OW2con 2016
OCCIware@OW2con 2016Marc Dutoo
 
EclipseCon 2016 - OCCIware : one Cloud API to rule them all
EclipseCon 2016 - OCCIware : one Cloud API to rule them allEclipseCon 2016 - OCCIware : one Cloud API to rule them all
EclipseCon 2016 - OCCIware : one Cloud API to rule them allMarc Dutoo
 
OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...
OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...
OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...Marc Dutoo
 
OCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demo
OCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demoOCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demo
OCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demoMarc Dutoo
 
OCCIware & Linked Data prototype OW2Con@POSS
OCCIware & Linked Data prototype OW2Con@POSSOCCIware & Linked Data prototype OW2Con@POSS
OCCIware & Linked Data prototype OW2Con@POSSMarc Dutoo
 
OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015
OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015
OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015Marc Dutoo
 
EasySOA business case and real world use case 20130220
EasySOA business case and real world use case 20130220EasySOA business case and real world use case 20130220
EasySOA business case and real world use case 20130220Marc Dutoo
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendMarc Dutoo
 
OW2Con2012 Scarbo2 SOA-Consistent BPM
OW2Con2012 Scarbo2 SOA-Consistent BPMOW2Con2012 Scarbo2 SOA-Consistent BPM
OW2Con2012 Scarbo2 SOA-Consistent BPMMarc Dutoo
 
EclipseConEurope2012 SOA - Models As Operational Documentation
EclipseConEurope2012 SOA - Models As Operational DocumentationEclipseConEurope2012 SOA - Models As Operational Documentation
EclipseConEurope2012 SOA - Models As Operational DocumentationMarc Dutoo
 
EclipseConEurope2012 SOA - Talend with EasySOA
EclipseConEurope2012 SOA - Talend with EasySOAEclipseConEurope2012 SOA - Talend with EasySOA
EclipseConEurope2012 SOA - Talend with EasySOAMarc Dutoo
 
Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)
Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)
Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)Marc Dutoo
 
Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...
Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...
Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...Marc Dutoo
 
From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012
From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012
From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012Marc Dutoo
 
SOA facile en 10 pratiques avec EasySOA - Alpes JUG
SOA facile en 10 pratiques avec EasySOA - Alpes JUGSOA facile en 10 pratiques avec EasySOA - Alpes JUG
SOA facile en 10 pratiques avec EasySOA - Alpes JUGMarc Dutoo
 

More from Marc Dutoo (20)

OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...
OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...
OCCIware @ Paris Open Source Summit 2017 - a standard, extensible Cloud consu...
 
Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017
Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017
Model and pilot all cloud layers with OCCIware - Eclipse Day Lyon 2017
 
PCU@RISE 2017 - Building a thesaurus for product search
PCU@RISE 2017 - Building a thesaurus for product searchPCU@RISE 2017 - Building a thesaurus for product search
PCU@RISE 2017 - Building a thesaurus for product search
 
OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...
OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...
OCCIware@CloudExpoLondon2017 - an extensible, standard XaaS Cloud consumer pl...
 
OCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platform
OCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platformOCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platform
OCCIware@POSS 2016 - an extensible, standard XaaS cloud consumer platform
 
OCCIware@OW2con 2016
OCCIware@OW2con 2016OCCIware@OW2con 2016
OCCIware@OW2con 2016
 
EclipseCon 2016 - OCCIware : one Cloud API to rule them all
EclipseCon 2016 - OCCIware : one Cloud API to rule them allEclipseCon 2016 - OCCIware : one Cloud API to rule them all
EclipseCon 2016 - OCCIware : one Cloud API to rule them all
 
OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...
OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...
OCCIware Cloud Expo London 2016 - Docker Studio, Studio Factory, erocci bus &...
 
OCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demo
OCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demoOCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demo
OCCIware @ Cloud Computing World 2016 - year 1 milestone & Linked Data demo
 
OCCIware & Linked Data prototype OW2Con@POSS
OCCIware & Linked Data prototype OW2Con@POSSOCCIware & Linked Data prototype OW2Con@POSS
OCCIware & Linked Data prototype OW2Con@POSS
 
OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015
OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015
OCCIware - A Framework for Everything as a Service - Cloud Expo London 2015
 
EasySOA business case and real world use case 20130220
EasySOA business case and real world use case 20130220EasySOA business case and real world use case 20130220
EasySOA business case and real world use case 20130220
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
 
OW2Con2012 Scarbo2 SOA-Consistent BPM
OW2Con2012 Scarbo2 SOA-Consistent BPMOW2Con2012 Scarbo2 SOA-Consistent BPM
OW2Con2012 Scarbo2 SOA-Consistent BPM
 
EclipseConEurope2012 SOA - Models As Operational Documentation
EclipseConEurope2012 SOA - Models As Operational DocumentationEclipseConEurope2012 SOA - Models As Operational Documentation
EclipseConEurope2012 SOA - Models As Operational Documentation
 
EclipseConEurope2012 SOA - Talend with EasySOA
EclipseConEurope2012 SOA - Talend with EasySOAEclipseConEurope2012 SOA - Talend with EasySOA
EclipseConEurope2012 SOA - Talend with EasySOA
 
Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)
Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)
Service Integration Goes Social - Solutions Linux 2012 (OW2 Track)
 
Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...
Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...
Scripts, Apps, APIs : les nouveaux champs de bataille de l'Open Source à l'èr...
 
From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012
From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012
From Eclipse to Document Management - Eclipse DemoCamp Grenoble 2012
 
SOA facile en 10 pratiques avec EasySOA - Alpes JUG
SOA facile en 10 pratiques avec EasySOA - Alpes JUGSOA facile en 10 pratiques avec EasySOA - Alpes JUG
SOA facile en 10 pratiques avec EasySOA - Alpes JUG
 

Bringing Entreprise Search in the Big Data era with PCU - Paris Open Source Summit 2017

  • 1. Bringing Entreprise Search in the Big Data era with PCU Unified, search-first Machine Learning platform targeted at business applications PCU @ POSS 2017 Marc Dutoo, Smile Dematerialization track PCU 1
  • 2. 2 ● Why Big Data for Entreprise Search ● Demo ! ● PCU introduction ● Questions PCU Plateforme de Connaissances Unifiée Overview The speaker ● Marc Dutoo, R&D projects lead at Smile, the leading EU Open Source service provider ● PCU project coordinator, Data / API / Cloud expert
  • 3. Why Entreprise Search and Big Data PCU @ POSS 2017 PCU 3
  • 4. 4 PCU Plateforme de Connaissances Unifiée Digital Entreprise ? Entreprise Search, a powerful asset to make your documents go digital ! = images courtesy LinkedIn.com But out of fashion ? PCU Entreprise Search Big Data by + https://www.smile.eu/fr/technologies/pcu-enterprise-search
  • 5. Demo ! PCU @ POSS 2017 PCU 7
  • 6. 8 PCU Plateforme de Connaissances Unifiée Entreprise Search (démo)
  • 7. PCU Architecture Apache Log Connecteur File Connecteur File Connecteur Web Connecteur Web Connecteur Application Connecteur Application Connecteur Log Connecteur Log File entity Product entity Apache log Append (delta) content Enterprise search Direct or async. Spark ETL indexing Checks Trigger event/alert prediction File ecommerce Reco REST Reco REST Vues 360 Vues 360 IndexingRESTIndexingREST Topic Kafka streaming job incl. cleaning ElasticSearch Distributed file system Meta modèle Meta modèle ES Proxy Content stream Smart search engine REST Smart search engine REST ML batch jobs
  • 8. 10 PCU Plateforme de Connaissances Unifiée Entreprise Search (WP7), avec Spark ETL indexing (WP2) (démo) ● Entreprise Search : “qui peut le plus peut le moins” ○ le produit d’appel “pied dans la porte” de PCU pour élargir son audience au-delà des early adopters ● … MAIS pas seulement ! ○ plus tard, il héritera des fonctionnalités de recherche intelligentes mises au point pour le e-commerce (en “trickle-down”) ○ dès à présent, il bénéficie de l’intégralité de l’architecture de PCU, qu’il valide ■ pipeline d’indexation alternatif sur YAML-configured Spark ETL : ● à la volée (mode streaming), configuration simple (YAML) ● asynchrone et scalable grâce à Kafka (files partitionnées) ● transformation de données en Spark (tout comme le ML)
  • 9. Tomorrow : PCU Introduction PCU @ POSS 2017 PCU 11
  • 10. 12 PCU Plateforme de Connaissances Unifiée PCU - the problem (Big) Data = images courtesy thinglink.com, lebigdata.fr, webengage.com, toptal.com, mattturk.com Data scientist Devops Machine Learning BUT you need... … how can (very) small companies take advantage of it ?
  • 11. 13 ● 6 partners, 36 man-year over 2017-2019, sponsored by the French ministry of Industry & région Île de France ● In order to democratize Big Data, so that every company will be able to add value to its own core business thanks to its existing data ○ The Big Data / Machine Learning / semantic module to enrich any business application ○ … Unified, search-first Machine Learning platform targeted at business applications. ● As showcased in 2 use cases : ○ E-commerce (up to digital in store) & B2B ○ Enterprise search ● Thanks to: ○ A factory of Machine Learning and Semantics-enriched search engines ○ state-of-the-art and new algorithms analyzing user behaviour ○ end-to-end event-driven data processing workflow ○ an open source, best-of-breed, unified, flexible and extensible approach PCU Plateforme de Connaissances Unifiée Factsheet - Unified Knowledge Platform
  • 12. 14 Smile : coordinator, architecture, ecommerce Paris 13 : Machine Learning, semantics ESILV : pipeline, semantics Proxem : text & opinion mining, B2B Wallix : enterprise search experience Armadillo : integration & mgmt API & UI PCU Plateforme de Connaissances Unifiée Partners and stakeholders Financial sponsors : BPI, IDF Cluster : System@tic
  • 13. Overall architecture Collect Learn Reference Publish Deploy, Manage, Monitor 15 >> > >> > >> > PCU Plateforme de Connaissances Unifiée
  • 14. 16 ● Generic platform ○ Unified, flexible, extensible, best-of-breed-based, API-managed ○ Along with a set of standard connectors, data pipeline elements, and Machine Learning (ML) and text mining algorithms ● Use cases and products ○ E-commerce (product, deployed at Smile early adopter customers), B2B (deployed at Smile & Proxem) ○ Enterprise Search (product, deployed at each partner's) ● Open Source Ecosystem ○ Ties with integrated technical components' communities as well as derived business-specific products ○ Home of platform examples, tryout and adoption PCU Plateforme de Connaissances Unifiée Target outputs
  • 15. 17 ● Business requirements, up to Machine Learning prototypes ○ Search, Ecommerce (B2C), CRM (B2B), including 10GB+ data sets ○ Data analysis, up to ML prototypes on Spark + Jupyter : reco, coocs... ● Architecture and development ○ State of the art, POCs (ElasticSearch, Solr, Spark), technical architecture ○ Semantic platform architecture, topic detection algorithm ○ YAML-configured ETL pipeline on Spark (prototype) ○ 360 View & A/B testing prototypes ○ Enterprise search demo (API, indexing, crawler, metadata extractor, UI) ● Project setup ○ Collaboration, communication ○ Tools : Github, first shared data and Big Data / ML components Cloud, Spark Machine Learning dockerized environment... PCU Plateforme de Connaissances Unifiée Year 1 outputs
  • 16. 18 Questions ? https://pcu-consortium.github.io/ https://twitter.com/PCUConsortium Contact : marc.dutoo@smile.fr https://www.smile.eu/fr/technologies/pcu-enterprise-search Thanks for your attention ! https://www.smile.eu/fr/technologies/pcu-enterprise-search
  • 17. 19 PCU Plateforme de Connaissances Unifiée Vue d’ensemble des Work Packages techniques WP1 : Architecture WP2 : Valorisation WP3: Utilisation WP4 : Catalogue WP5 : Client WP6 : Omnicanal WP7 : Recherche Messagerie Système de fichier Machine Learning analyse sémantique Recherche Vues Alerte Analytiques Recherche Vues Mobile Vues B2B B2C Beacon Campagne Connecteurs Vues Sécurité
  • 19. 21 PCU Plateforme de Connaissances Unifiée Conclusion ● Fait en 2017 : ○ Besoins prototypés ○ Architecture et fondations R&D ○ Prototypes techniques v1 ○ Solution Entreprise Search v1 ● Prévu en 2018 : ○ Gestion des modèles de données et configuration générique et dynamique ○ Refactoring du framework de connecteurs ○ Algorithmes recherche sémantique, NLP, recommandation