SlideShare a Scribd company logo
1 of 30
Download to read offline
Spark
Summit
Europe, a
wrap-up
Jean Georges Perrin
@jgperrin
TASM, Durham, NC
December 12th 2017
And the State of our community
JGP • Jean Georges Perrin
๏ @jgperrin
๏ Chapel Hill, NC
๏ I 🏗 SW • Since 1983
๏ #Knowledge = 

𝑓 ( ∑ (#SmallData, #BigData), #DataScience)

& #Software 
๏ #IBMChampion x9 • #KeepLearning
๏ @ http://jgp.net
DiffTool is now DataQ
๏ Dhiraj Peechara presented DiffTool
๏ Now DataQ
๏ Now Open Source
๏ http://dataq.io
http://bit.ly/spark-clego
Title Text
Links (they gotta make ‘em shorter)
๏ https://databricks.com/blog/2017/12/06/spark-summit-is-
becoming-the-spark-ai-summit.html
๏ https://databricks.com/sparkaisummit/north-america
Latest versions
๏ Spark 2.2.1 released (Dec 01, 2017)
๏ Spark 2.1.2 released (Oct 09, 2017)
Quick Survey
๏ Introduction
๏ Who is a Java developer?
๏ Who uses Spark?
๏ Who uses Python with Spark?
๏ Who uses Scala with Spark?
๏ Who uses Java with Spark?
On Facebook too
facebook.com/TriangleSpark
Spark+Java book
๏ Spark with lots of Java examples
๏ Written by me
๏ Available in MEAP early 2018
Speakers
๏ Jean Georges Perrin - Oplo
๏ Ian Pointer - TASM founder
๏ Scott Gerard - IBM Research
Spark Summit Dublin
Logistics
๏ October 24-26 2017
๏ The Convention Center Dublin, Ireland
๏ About 1200 attendees
๏ 3 tutorials
๏ 5 tracks on day 1: developer, data science, technical deep dives, and
data engineering
๏ 6 tracks on day 2: developer, Spark ecosystem, AI, sponsored
sessions, research, and enterprise
๏ Introduced levels: beginner, intermediate, and advanced
Title Text
Title Text
Title Text
Title Text
Title Text
Title Text
Irish food is easy
Title Text
Title Text
Title Text
Spark Bench
Title Text
Title Text
All the videos are on YouTube
Press
Printed in EU - Imprimé en UE - BELGIQUE 7 € - Canada 9,80 $ CAN - SUISSE 13,10 FS - DOM Surf 7,50 € - TOM 1020 XPF - MAROC 55 DH
PROGRAMMEZ!
#213 - décembre 2017
le magazine des développeurs
©Bliznetsov
Les développeurs vont nous sauver...
ChromeLes outils méconnus des Devtools
enfinonl’espère
Défi JediJe code mon IDE !
CYBERGUERRE
Le top 10des erreursJava
3’:HIKONB=^U[ZUY:?a@m@b@d@k";
M04319-213-F:6,50E-RD
C# 7.2 / C# 8.0
Toutes les nouveautés
# 213
conférence8
La surveillance est omniprésente, mais aucun
nouvel outil n’est réellement sorti du lot.
Cependant, Michael McCune de RedHat a mon-
tré une interface entre Spark et Prometheus. Luca
a également expliqué comment accéder facile-
ment au journal de Spark, en utilisant Spark, avec
un dataframe.
La science des données est également très vivan-
te, au sein de nombreuses sociétés comme Shell,
Hotels.com… De plus en plus de trucs et astuces
y compris quelques livres sont publiés... Et cer-
tains conférenciers font preuve d’autopromotion
pas très subtile - et non, je ne pense pas à toi,
Holden. Tous ces signes montrent clairement que
le produit mûrit et que les utilisateurs sont plus
exigeants : on passe de l’expérimentation à l’ex-
ploitation.
Communauté
La communauté se renforce également avec l’ai-
de de mon ami Jules Damji (@2twitme). Nous
allons essayer de rendre l’année prochaine enco-
re plus intéressante pour cette communauté en
pleine croissance. J’en appelle aux utilisateurs
français : contactez-moi, organisons-nous ! Pour
Databricks, comme pour IBM, les deux princi-
paux contributeurs de Spark : il faut désormais
encourager cette communauté à grandir. Les
membres des Meetups dans le monde ont
presque doublé depuis le Spark Summit de San
S
park franchit une nouvelle étape : de plus
en plus d’utilisateurs s’intéressent au moni-
toring, à l’optimisation, à l’extension de la
plateforme... Pour moi, c’est un signe clair que
notre projet Apache préféré gagne en maturité.
Maturité
De nombreuses sessions ont porté sur les bench-
marks et les performances, y compris une
nouvelle version de Spark Bench, construite et ou-
verte par IBM et l’équipe d’Emily Curtin
(@emilymaycurtin), d’Atlanta, GA, (ATL compte
beaucoup pour Emily). C’est un outil impression-
nant qui permet de tester différentes
configurations (et variantes de configuration)
d’Apache Spark. L’outil permet de s’assurer « au-
tomagiquement » de la configuration optimale de
la charge de travail pour Spark. Je dois absolu-
ment réussir à convaincre mon « Product Owner »
d’allouer du temps pour implémenter Spark
Bench sur notre projet.
J’ai assisté aux sessions de Luca Canali
(@LucaCanaliDB) et de Jakub Wozniak du CERN.
L’équipe du CERN a donné plusieurs sessions sur
comment optimiser, passer en production, définir
l’architecture et benchmarker Spark... tout en uti-
lisant Java. Oui, en production avec Spark et Java.
Leur but est de traiter 900 Go de données par
jour et ce n’est qu’une première étape, sachant
que les expériences peuvent générer plus d’un
mais ajouter tous les algorithmes. La contribution
de votre humble serviteur, avec une conférence
intitulée « Étendre l’ingestion d’Apache Spark :
construire sa propre source de données avec
Java », est également à placer dans le domaine
général de l’extensibilité du produit.
Écosystème
L’écosystème est en train de mûrir : de plus en
plus de produits apparaissent comme Databricks
Delta annoncé par Matei Zaharia (@matei_zaha-
ria), précédé il y a quelques mois par IBM Event
Store, et le support commercial de GridGain pour
Apache Ignite : tous les trois dans le domaine des
bases de données mémoire se connectant à
Spark (ok, je sursimplifie). Il apparaît de plus en
plus, dans certains scénarios, d’avoir une base de
données plus proche du moteur. Et Matei d’ajou-
ter :
Cette année, lors de Spark Summit Europe, les
participants étaient très intéressés par la perfor-
mance et la facilité de gestion des données de
notre nouveau produit, Delta. Au lieu d’avoir à
connecter un bus de message, comme par
exemple Apache Kafka, un Data Lake (par
exemple S3) ou un entrepôt de données, les utili-
sateurs peuvent désormais télécharger leurs
données via Delta et obtenir automatiquement
l’évolutivité et le faible coût d’exploitation
d’Amazon S3. [..] Cela économise énormément
Fin octobre, juste avant leur fête sacrée d’Halloween,
les Irlandais recevaient Spark Summit Europe 2017. Le
3e sommet de l’année et premier (en 2017) en Europe,
a réuni sur 3 jours, 102 conférenciers et 1200 visiteurs.
Apache Spark : vers une maturité méritée
Jean Georges
Perrin lors de sa
conférence sur
l’extensibilité de
Spark.
©Databaricks
• Jean Georges Perrin
(@jgperrin) est un architecte freelance (data and software architect).
Auparavant, Jean Georges a fondé et dirigé plusieurs startups dans le
domaine d'Internet, du Web, des outils de développements, des outils
e-marketing… Il a été le premier français (ex-aequo) à être nommé
IBM Champion en 2009. Il vit aujourd'hui en Caroline du Nord.
Logicielprofessionnel.Logicielprofessionnel.Documentnoncontractuel.
008_009_213 23/11/17 08:58 Page8
Thanks
@jgperrin
Backup
No more slides
You’re on your own!

More Related Content

Similar to Spark Summit Europe Wrap Up and TASM State of the Community

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France
 
Présentation_Spark.pptx
Présentation_Spark.pptxPrésentation_Spark.pptx
Présentation_Spark.pptxboulonvert
 
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017) Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017) univalence
 
Projet COLSA - Story-board v1
Projet COLSA  - Story-board v1Projet COLSA  - Story-board v1
Projet COLSA - Story-board v1Frédéric Sagez
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
Big Data Viz (and much more!) with Apache Zeppelin
Big Data Viz (and much more!) with Apache ZeppelinBig Data Viz (and much more!) with Apache Zeppelin
Big Data Viz (and much more!) with Apache ZeppelinBruno Bonnin
 
Infrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiInfrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiFrédéric FAURE
 
Global Azure Bootcamp 2016 - Lyon : DevOps Datascience
Global Azure Bootcamp 2016 - Lyon : DevOps Datascience Global Azure Bootcamp 2016 - Lyon : DevOps Datascience
Global Azure Bootcamp 2016 - Lyon : DevOps Datascience FactoVia
 
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]ANEO
 
Embarquer une base de données locale dans vos logiciels et applications mobiles
Embarquer une base de données locale dans vos logiciels et applications mobilesEmbarquer une base de données locale dans vos logiciels et applications mobiles
Embarquer une base de données locale dans vos logiciels et applications mobilespprem
 
MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...
MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...
MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...Patrick Guimonet
 
Back from MS Ignite 2019 content service projet cortex
Back from MS Ignite 2019 content service projet cortexBack from MS Ignite 2019 content service projet cortex
Back from MS Ignite 2019 content service projet cortexSébastien Paulet
 
Normandy JUG - Elasticsearch
Normandy JUG - ElasticsearchNormandy JUG - Elasticsearch
Normandy JUG - ElasticsearchDavid Pilato
 
Javascript as a first programming language : votre IC prête pour la révolution !
Javascript as a first programming language : votre IC prête pour la révolution !Javascript as a first programming language : votre IC prête pour la révolution !
Javascript as a first programming language : votre IC prête pour la révolution !VISEO
 
Créer une IA capable de reconnaître des fleurs (ou autres)
Créer une IA capable de reconnaître des fleurs (ou autres)Créer une IA capable de reconnaître des fleurs (ou autres)
Créer une IA capable de reconnaître des fleurs (ou autres)Olivier Eeckhoutte
 
Introduction au numérique par #Hackerschool
Introduction au numérique par #HackerschoolIntroduction au numérique par #Hackerschool
Introduction au numérique par #HackerschoolAnthony Le Goff
 
Syllabus advanced big data with spark
Syllabus advanced big data with sparkSyllabus advanced big data with spark
Syllabus advanced big data with sparkDr Hajji Hicham
 
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Jean-Pierre Riehl
 
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...AZUG FR
 
Suivre l'évolution du covid19 sur RaspberryPi avec la suite Elastic
Suivre l'évolution du covid19 sur RaspberryPi avec la suite ElasticSuivre l'évolution du covid19 sur RaspberryPi avec la suite Elastic
Suivre l'évolution du covid19 sur RaspberryPi avec la suite ElasticIdriss Neumann
 

Similar to Spark Summit Europe Wrap Up and TASM State of the Community (20)

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Présentation_Spark.pptx
Présentation_Spark.pptxPrésentation_Spark.pptx
Présentation_Spark.pptx
 
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017) Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017)
 
Projet COLSA - Story-board v1
Projet COLSA  - Story-board v1Projet COLSA  - Story-board v1
Projet COLSA - Story-board v1
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Big Data Viz (and much more!) with Apache Zeppelin
Big Data Viz (and much more!) with Apache ZeppelinBig Data Viz (and much more!) with Apache Zeppelin
Big Data Viz (and much more!) with Apache Zeppelin
 
Infrastructure - Monitoring - Cacti
Infrastructure - Monitoring - CactiInfrastructure - Monitoring - Cacti
Infrastructure - Monitoring - Cacti
 
Global Azure Bootcamp 2016 - Lyon : DevOps Datascience
Global Azure Bootcamp 2016 - Lyon : DevOps Datascience Global Azure Bootcamp 2016 - Lyon : DevOps Datascience
Global Azure Bootcamp 2016 - Lyon : DevOps Datascience
 
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
Tech daysRetour d’expérience Big Compute & HPC sur Windows Azure [TechDays 2014]
 
Embarquer une base de données locale dans vos logiciels et applications mobiles
Embarquer une base de données locale dans vos logiciels et applications mobilesEmbarquer une base de données locale dans vos logiciels et applications mobiles
Embarquer une base de données locale dans vos logiciels et applications mobiles
 
MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...
MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...
MWCP19 Retour d’Ignite : les nouveautés autour des Content Services et du Pro...
 
Back from MS Ignite 2019 content service projet cortex
Back from MS Ignite 2019 content service projet cortexBack from MS Ignite 2019 content service projet cortex
Back from MS Ignite 2019 content service projet cortex
 
Normandy JUG - Elasticsearch
Normandy JUG - ElasticsearchNormandy JUG - Elasticsearch
Normandy JUG - Elasticsearch
 
Javascript as a first programming language : votre IC prête pour la révolution !
Javascript as a first programming language : votre IC prête pour la révolution !Javascript as a first programming language : votre IC prête pour la révolution !
Javascript as a first programming language : votre IC prête pour la révolution !
 
Créer une IA capable de reconnaître des fleurs (ou autres)
Créer une IA capable de reconnaître des fleurs (ou autres)Créer une IA capable de reconnaître des fleurs (ou autres)
Créer une IA capable de reconnaître des fleurs (ou autres)
 
Introduction au numérique par #Hackerschool
Introduction au numérique par #HackerschoolIntroduction au numérique par #Hackerschool
Introduction au numérique par #Hackerschool
 
Syllabus advanced big data with spark
Syllabus advanced big data with sparkSyllabus advanced big data with spark
Syllabus advanced big data with spark
 
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
 
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
GAB 2017 PARIS - Azure Data Lake La Big Data 2.0 par Jean-Pierre Riehl et Fab...
 
Suivre l'évolution du covid19 sur RaspberryPi avec la suite Elastic
Suivre l'évolution du covid19 sur RaspberryPi avec la suite ElasticSuivre l'évolution du covid19 sur RaspberryPi avec la suite Elastic
Suivre l'évolution du covid19 sur RaspberryPi avec la suite Elastic
 

More from Jean-Georges Perrin

It's painful how much data rules the world
It's painful how much data rules the worldIt's painful how much data rules the world
It's painful how much data rules the worldJean-Georges Perrin
 
The road to AI is paved with pragmatic intentions
The road to AI is paved with pragmatic intentionsThe road to AI is paved with pragmatic intentions
The road to AI is paved with pragmatic intentionsJean-Georges Perrin
 
Spark hands-on tutorial (rev. 002)
Spark hands-on tutorial (rev. 002)Spark hands-on tutorial (rev. 002)
Spark hands-on tutorial (rev. 002)Jean-Georges Perrin
 
Spark Summit 2017 - A feedback for TASM
Spark Summit 2017 - A feedback for TASMSpark Summit 2017 - A feedback for TASM
Spark Summit 2017 - A feedback for TASMJean-Georges Perrin
 
HTML (or how the web got started)
HTML (or how the web got started)HTML (or how the web got started)
HTML (or how the web got started)Jean-Georges Perrin
 
2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...
2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...
2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...Jean-Georges Perrin
 
Vision stratégique de l'utilisation de l'(Open)Data dans l'entreprise
Vision stratégique de l'utilisation de l'(Open)Data dans l'entrepriseVision stratégique de l'utilisation de l'(Open)Data dans l'entreprise
Vision stratégique de l'utilisation de l'(Open)Data dans l'entrepriseJean-Georges Perrin
 
Informix is not for legacy applications
Informix is not for legacy applicationsInformix is not for legacy applications
Informix is not for legacy applicationsJean-Georges Perrin
 
GreenIvory : products and services
GreenIvory : products and servicesGreenIvory : products and services
GreenIvory : products and servicesJean-Georges Perrin
 
GreenIvory : produits & services
GreenIvory : produits & servicesGreenIvory : produits & services
GreenIvory : produits & servicesJean-Georges Perrin
 
A la découverte des nouvelles tendances du web (Mulhouse Edition)
A la découverte des nouvelles tendances du web (Mulhouse Edition)A la découverte des nouvelles tendances du web (Mulhouse Edition)
A la découverte des nouvelles tendances du web (Mulhouse Edition)Jean-Georges Perrin
 
MashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvory
MashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvoryMashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvory
MashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvoryJean-Georges Perrin
 
MashupXFeed et le référencement - Workshop Activis - Greenivory
MashupXFeed et le référencement - Workshop Activis - GreenivoryMashupXFeed et le référencement - Workshop Activis - Greenivory
MashupXFeed et le référencement - Workshop Activis - GreenivoryJean-Georges Perrin
 

More from Jean-Georges Perrin (20)

It's painful how much data rules the world
It's painful how much data rules the worldIt's painful how much data rules the world
It's painful how much data rules the world
 
Apache Spark v3.0.0
Apache Spark v3.0.0Apache Spark v3.0.0
Apache Spark v3.0.0
 
Big data made easy with a Spark
Big data made easy with a SparkBig data made easy with a Spark
Big data made easy with a Spark
 
Why i love Apache Spark?
Why i love Apache Spark?Why i love Apache Spark?
Why i love Apache Spark?
 
Big Data made easy with a Spark
Big Data made easy with a SparkBig Data made easy with a Spark
Big Data made easy with a Spark
 
The road to AI is paved with pragmatic intentions
The road to AI is paved with pragmatic intentionsThe road to AI is paved with pragmatic intentions
The road to AI is paved with pragmatic intentions
 
Spark hands-on tutorial (rev. 002)
Spark hands-on tutorial (rev. 002)Spark hands-on tutorial (rev. 002)
Spark hands-on tutorial (rev. 002)
 
Spark Summit 2017 - A feedback for TASM
Spark Summit 2017 - A feedback for TASMSpark Summit 2017 - A feedback for TASM
Spark Summit 2017 - A feedback for TASM
 
HTML (or how the web got started)
HTML (or how the web got started)HTML (or how the web got started)
HTML (or how the web got started)
 
2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...
2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...
2CRSI presentation for ISC-HPC: When High-Performance Computing meets High-Pe...
 
Vision stratégique de l'utilisation de l'(Open)Data dans l'entreprise
Vision stratégique de l'utilisation de l'(Open)Data dans l'entrepriseVision stratégique de l'utilisation de l'(Open)Data dans l'entreprise
Vision stratégique de l'utilisation de l'(Open)Data dans l'entreprise
 
Informix is not for legacy applications
Informix is not for legacy applicationsInformix is not for legacy applications
Informix is not for legacy applications
 
Vendre des produits techniques
Vendre des produits techniquesVendre des produits techniques
Vendre des produits techniques
 
Vendre plus sur le web
Vendre plus sur le webVendre plus sur le web
Vendre plus sur le web
 
Vendre plus sur le Web
Vendre plus sur le WebVendre plus sur le Web
Vendre plus sur le Web
 
GreenIvory : products and services
GreenIvory : products and servicesGreenIvory : products and services
GreenIvory : products and services
 
GreenIvory : produits & services
GreenIvory : produits & servicesGreenIvory : produits & services
GreenIvory : produits & services
 
A la découverte des nouvelles tendances du web (Mulhouse Edition)
A la découverte des nouvelles tendances du web (Mulhouse Edition)A la découverte des nouvelles tendances du web (Mulhouse Edition)
A la découverte des nouvelles tendances du web (Mulhouse Edition)
 
MashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvory
MashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvoryMashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvory
MashupXFeed et la stratégie éditoriale - Workshop Activis - GreenIvory
 
MashupXFeed et le référencement - Workshop Activis - Greenivory
MashupXFeed et le référencement - Workshop Activis - GreenivoryMashupXFeed et le référencement - Workshop Activis - Greenivory
MashupXFeed et le référencement - Workshop Activis - Greenivory
 

Recently uploaded

Mes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensMes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensErol GIRAUDY
 
The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)IES VE
 
KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311Erol GIRAUDY
 
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapInstallation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapMaxime Huran 🌈
 
Les Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleLes Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleErol GIRAUDY
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Infopole1
 

Recently uploaded (6)

Mes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examensMes succès sur Microsoft LEARN et examens
Mes succès sur Microsoft LEARN et examens
 
The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)The Importance of Indoor Air Quality (French)
The Importance of Indoor Air Quality (French)
 
KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311KIT-COPILOT and more Article du 20240311
KIT-COPILOT and more Article du 20240311
 
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en BootstrapInstallation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
Installation de Sylius 2.0 et découverte du nouveau backoffice en Bootstrap
 
Les Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence ArtificielleLes Metiers de l'Intelligence Artificielle
Les Metiers de l'Intelligence Artificielle
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
 

Spark Summit Europe Wrap Up and TASM State of the Community

  • 1. Spark Summit Europe, a wrap-up Jean Georges Perrin @jgperrin TASM, Durham, NC December 12th 2017
  • 2. And the State of our community
  • 3. JGP • Jean Georges Perrin ๏ @jgperrin ๏ Chapel Hill, NC ๏ I 🏗 SW • Since 1983 ๏ #Knowledge = 
 𝑓 ( ∑ (#SmallData, #BigData), #DataScience)
 & #Software  ๏ #IBMChampion x9 • #KeepLearning ๏ @ http://jgp.net
  • 4. DiffTool is now DataQ ๏ Dhiraj Peechara presented DiffTool ๏ Now DataQ ๏ Now Open Source ๏ http://dataq.io
  • 7. Links (they gotta make ‘em shorter) ๏ https://databricks.com/blog/2017/12/06/spark-summit-is- becoming-the-spark-ai-summit.html ๏ https://databricks.com/sparkaisummit/north-america
  • 8. Latest versions ๏ Spark 2.2.1 released (Dec 01, 2017) ๏ Spark 2.1.2 released (Oct 09, 2017)
  • 9. Quick Survey ๏ Introduction ๏ Who is a Java developer? ๏ Who uses Spark? ๏ Who uses Python with Spark? ๏ Who uses Scala with Spark? ๏ Who uses Java with Spark?
  • 11. Spark+Java book ๏ Spark with lots of Java examples ๏ Written by me ๏ Available in MEAP early 2018
  • 12. Speakers ๏ Jean Georges Perrin - Oplo ๏ Ian Pointer - TASM founder ๏ Scott Gerard - IBM Research
  • 14. Logistics ๏ October 24-26 2017 ๏ The Convention Center Dublin, Ireland ๏ About 1200 attendees ๏ 3 tutorials ๏ 5 tracks on day 1: developer, data science, technical deep dives, and data engineering ๏ 6 tracks on day 2: developer, Spark ecosystem, AI, sponsored sessions, research, and enterprise ๏ Introduced levels: beginner, intermediate, and advanced
  • 26. Title Text All the videos are on YouTube
  • 27. Press Printed in EU - Imprimé en UE - BELGIQUE 7 € - Canada 9,80 $ CAN - SUISSE 13,10 FS - DOM Surf 7,50 € - TOM 1020 XPF - MAROC 55 DH PROGRAMMEZ! #213 - décembre 2017 le magazine des développeurs ©Bliznetsov Les développeurs vont nous sauver... ChromeLes outils méconnus des Devtools enfinonl’espère Défi JediJe code mon IDE ! CYBERGUERRE Le top 10des erreursJava 3’:HIKONB=^U[ZUY:?a@m@b@d@k"; M04319-213-F:6,50E-RD C# 7.2 / C# 8.0 Toutes les nouveautés # 213 conférence8 La surveillance est omniprésente, mais aucun nouvel outil n’est réellement sorti du lot. Cependant, Michael McCune de RedHat a mon- tré une interface entre Spark et Prometheus. Luca a également expliqué comment accéder facile- ment au journal de Spark, en utilisant Spark, avec un dataframe. La science des données est également très vivan- te, au sein de nombreuses sociétés comme Shell, Hotels.com… De plus en plus de trucs et astuces y compris quelques livres sont publiés... Et cer- tains conférenciers font preuve d’autopromotion pas très subtile - et non, je ne pense pas à toi, Holden. Tous ces signes montrent clairement que le produit mûrit et que les utilisateurs sont plus exigeants : on passe de l’expérimentation à l’ex- ploitation. Communauté La communauté se renforce également avec l’ai- de de mon ami Jules Damji (@2twitme). Nous allons essayer de rendre l’année prochaine enco- re plus intéressante pour cette communauté en pleine croissance. J’en appelle aux utilisateurs français : contactez-moi, organisons-nous ! Pour Databricks, comme pour IBM, les deux princi- paux contributeurs de Spark : il faut désormais encourager cette communauté à grandir. Les membres des Meetups dans le monde ont presque doublé depuis le Spark Summit de San S park franchit une nouvelle étape : de plus en plus d’utilisateurs s’intéressent au moni- toring, à l’optimisation, à l’extension de la plateforme... Pour moi, c’est un signe clair que notre projet Apache préféré gagne en maturité. Maturité De nombreuses sessions ont porté sur les bench- marks et les performances, y compris une nouvelle version de Spark Bench, construite et ou- verte par IBM et l’équipe d’Emily Curtin (@emilymaycurtin), d’Atlanta, GA, (ATL compte beaucoup pour Emily). C’est un outil impression- nant qui permet de tester différentes configurations (et variantes de configuration) d’Apache Spark. L’outil permet de s’assurer « au- tomagiquement » de la configuration optimale de la charge de travail pour Spark. Je dois absolu- ment réussir à convaincre mon « Product Owner » d’allouer du temps pour implémenter Spark Bench sur notre projet. J’ai assisté aux sessions de Luca Canali (@LucaCanaliDB) et de Jakub Wozniak du CERN. L’équipe du CERN a donné plusieurs sessions sur comment optimiser, passer en production, définir l’architecture et benchmarker Spark... tout en uti- lisant Java. Oui, en production avec Spark et Java. Leur but est de traiter 900 Go de données par jour et ce n’est qu’une première étape, sachant que les expériences peuvent générer plus d’un mais ajouter tous les algorithmes. La contribution de votre humble serviteur, avec une conférence intitulée « Étendre l’ingestion d’Apache Spark : construire sa propre source de données avec Java », est également à placer dans le domaine général de l’extensibilité du produit. Écosystème L’écosystème est en train de mûrir : de plus en plus de produits apparaissent comme Databricks Delta annoncé par Matei Zaharia (@matei_zaha- ria), précédé il y a quelques mois par IBM Event Store, et le support commercial de GridGain pour Apache Ignite : tous les trois dans le domaine des bases de données mémoire se connectant à Spark (ok, je sursimplifie). Il apparaît de plus en plus, dans certains scénarios, d’avoir une base de données plus proche du moteur. Et Matei d’ajou- ter : Cette année, lors de Spark Summit Europe, les participants étaient très intéressés par la perfor- mance et la facilité de gestion des données de notre nouveau produit, Delta. Au lieu d’avoir à connecter un bus de message, comme par exemple Apache Kafka, un Data Lake (par exemple S3) ou un entrepôt de données, les utili- sateurs peuvent désormais télécharger leurs données via Delta et obtenir automatiquement l’évolutivité et le faible coût d’exploitation d’Amazon S3. [..] Cela économise énormément Fin octobre, juste avant leur fête sacrée d’Halloween, les Irlandais recevaient Spark Summit Europe 2017. Le 3e sommet de l’année et premier (en 2017) en Europe, a réuni sur 3 jours, 102 conférenciers et 1200 visiteurs. Apache Spark : vers une maturité méritée Jean Georges Perrin lors de sa conférence sur l’extensibilité de Spark. ©Databaricks • Jean Georges Perrin (@jgperrin) est un architecte freelance (data and software architect). Auparavant, Jean Georges a fondé et dirigé plusieurs startups dans le domaine d'Internet, du Web, des outils de développements, des outils e-marketing… Il a été le premier français (ex-aequo) à être nommé IBM Champion en 2009. Il vit aujourd'hui en Caroline du Nord. Logicielprofessionnel.Logicielprofessionnel.Documentnoncontractuel. 008_009_213 23/11/17 08:58 Page8
  • 30. No more slides You’re on your own!