Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Spark Summit Europe Wrap Up and TASM State of the Community

44 views

Published on

On 12/12, we held our Spark meetup at IBM, called Winter 3x30. Those are the slides I used for both introducing the state of our community, TASM (Triangle Apache Spark Meetup) as well as a Spark Summit Europe Wrap Up.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Spark Summit Europe Wrap Up and TASM State of the Community

  1. 1. Spark Summit Europe, a wrap-up Jean Georges Perrin @jgperrin TASM, Durham, NC December 12th 2017
  2. 2. And the State of our community
  3. 3. JGP • Jean Georges Perrin ๏ @jgperrin ๏ Chapel Hill, NC ๏ I 🏗 SW • Since 1983 ๏ #Knowledge = 
 𝑓 ( ∑ (#SmallData, #BigData), #DataScience)
 & #Software  ๏ #IBMChampion x9 • #KeepLearning ๏ @ http://jgp.net
  4. 4. DiffTool is now DataQ ๏ Dhiraj Peechara presented DiffTool ๏ Now DataQ ๏ Now Open Source ๏ http://dataq.io
  5. 5. http://bit.ly/spark-clego
  6. 6. Title Text
  7. 7. Links (they gotta make ‘em shorter) ๏ https://databricks.com/blog/2017/12/06/spark-summit-is- becoming-the-spark-ai-summit.html ๏ https://databricks.com/sparkaisummit/north-america
  8. 8. Latest versions ๏ Spark 2.2.1 released (Dec 01, 2017) ๏ Spark 2.1.2 released (Oct 09, 2017)
  9. 9. Quick Survey ๏ Introduction ๏ Who is a Java developer? ๏ Who uses Spark? ๏ Who uses Python with Spark? ๏ Who uses Scala with Spark? ๏ Who uses Java with Spark?
  10. 10. On Facebook too facebook.com/TriangleSpark
  11. 11. Spark+Java book ๏ Spark with lots of Java examples ๏ Written by me ๏ Available in MEAP early 2018
  12. 12. Speakers ๏ Jean Georges Perrin - Oplo ๏ Ian Pointer - TASM founder ๏ Scott Gerard - IBM Research
  13. 13. Spark Summit Dublin
  14. 14. Logistics ๏ October 24-26 2017 ๏ The Convention Center Dublin, Ireland ๏ About 1200 attendees ๏ 3 tutorials ๏ 5 tracks on day 1: developer, data science, technical deep dives, and data engineering ๏ 6 tracks on day 2: developer, Spark ecosystem, AI, sponsored sessions, research, and enterprise ๏ Introduced levels: beginner, intermediate, and advanced
  15. 15. Title Text
  16. 16. Title Text
  17. 17. Title Text
  18. 18. Title Text
  19. 19. Title Text
  20. 20. Title Text
  21. 21. Irish food is easy
  22. 22. Title Text
  23. 23. Title Text
  24. 24. Title Text Spark Bench
  25. 25. Title Text
  26. 26. Title Text All the videos are on YouTube
  27. 27. Press Printed in EU - Imprimé en UE - BELGIQUE 7 € - Canada 9,80 $ CAN - SUISSE 13,10 FS - DOM Surf 7,50 € - TOM 1020 XPF - MAROC 55 DH PROGRAMMEZ! #213 - décembre 2017 le magazine des développeurs ©Bliznetsov Les développeurs vont nous sauver... ChromeLes outils méconnus des Devtools enfinonl’espère Défi JediJe code mon IDE ! CYBERGUERRE Le top 10des erreursJava 3’:HIKONB=^U[ZUY:?a@m@b@d@k"; M04319-213-F:6,50E-RD C# 7.2 / C# 8.0 Toutes les nouveautés # 213 conférence8 La surveillance est omniprésente, mais aucun nouvel outil n’est réellement sorti du lot. Cependant, Michael McCune de RedHat a mon- tré une interface entre Spark et Prometheus. Luca a également expliqué comment accéder facile- ment au journal de Spark, en utilisant Spark, avec un dataframe. La science des données est également très vivan- te, au sein de nombreuses sociétés comme Shell, Hotels.com… De plus en plus de trucs et astuces y compris quelques livres sont publiés... Et cer- tains conférenciers font preuve d’autopromotion pas très subtile - et non, je ne pense pas à toi, Holden. Tous ces signes montrent clairement que le produit mûrit et que les utilisateurs sont plus exigeants : on passe de l’expérimentation à l’ex- ploitation. Communauté La communauté se renforce également avec l’ai- de de mon ami Jules Damji (@2twitme). Nous allons essayer de rendre l’année prochaine enco- re plus intéressante pour cette communauté en pleine croissance. J’en appelle aux utilisateurs français : contactez-moi, organisons-nous ! Pour Databricks, comme pour IBM, les deux princi- paux contributeurs de Spark : il faut désormais encourager cette communauté à grandir. Les membres des Meetups dans le monde ont presque doublé depuis le Spark Summit de San S park franchit une nouvelle étape : de plus en plus d’utilisateurs s’intéressent au moni- toring, à l’optimisation, à l’extension de la plateforme... Pour moi, c’est un signe clair que notre projet Apache préféré gagne en maturité. Maturité De nombreuses sessions ont porté sur les bench- marks et les performances, y compris une nouvelle version de Spark Bench, construite et ou- verte par IBM et l’équipe d’Emily Curtin (@emilymaycurtin), d’Atlanta, GA, (ATL compte beaucoup pour Emily). C’est un outil impression- nant qui permet de tester différentes configurations (et variantes de configuration) d’Apache Spark. L’outil permet de s’assurer « au- tomagiquement » de la configuration optimale de la charge de travail pour Spark. Je dois absolu- ment réussir à convaincre mon « Product Owner » d’allouer du temps pour implémenter Spark Bench sur notre projet. J’ai assisté aux sessions de Luca Canali (@LucaCanaliDB) et de Jakub Wozniak du CERN. L’équipe du CERN a donné plusieurs sessions sur comment optimiser, passer en production, définir l’architecture et benchmarker Spark... tout en uti- lisant Java. Oui, en production avec Spark et Java. Leur but est de traiter 900 Go de données par jour et ce n’est qu’une première étape, sachant que les expériences peuvent générer plus d’un mais ajouter tous les algorithmes. La contribution de votre humble serviteur, avec une conférence intitulée « Étendre l’ingestion d’Apache Spark : construire sa propre source de données avec Java », est également à placer dans le domaine général de l’extensibilité du produit. Écosystème L’écosystème est en train de mûrir : de plus en plus de produits apparaissent comme Databricks Delta annoncé par Matei Zaharia (@matei_zaha- ria), précédé il y a quelques mois par IBM Event Store, et le support commercial de GridGain pour Apache Ignite : tous les trois dans le domaine des bases de données mémoire se connectant à Spark (ok, je sursimplifie). Il apparaît de plus en plus, dans certains scénarios, d’avoir une base de données plus proche du moteur. Et Matei d’ajou- ter : Cette année, lors de Spark Summit Europe, les participants étaient très intéressés par la perfor- mance et la facilité de gestion des données de notre nouveau produit, Delta. Au lieu d’avoir à connecter un bus de message, comme par exemple Apache Kafka, un Data Lake (par exemple S3) ou un entrepôt de données, les utili- sateurs peuvent désormais télécharger leurs données via Delta et obtenir automatiquement l’évolutivité et le faible coût d’exploitation d’Amazon S3. [..] Cela économise énormément Fin octobre, juste avant leur fête sacrée d’Halloween, les Irlandais recevaient Spark Summit Europe 2017. Le 3e sommet de l’année et premier (en 2017) en Europe, a réuni sur 3 jours, 102 conférenciers et 1200 visiteurs. Apache Spark : vers une maturité méritée Jean Georges Perrin lors de sa conférence sur l’extensibilité de Spark. ©Databaricks • Jean Georges Perrin (@jgperrin) est un architecte freelance (data and software architect). Auparavant, Jean Georges a fondé et dirigé plusieurs startups dans le domaine d'Internet, du Web, des outils de développements, des outils e-marketing… Il a été le premier français (ex-aequo) à être nommé IBM Champion en 2009. Il vit aujourd'hui en Caroline du Nord. Logicielprofessionnel.Logicielprofessionnel.Documentnoncontractuel. 008_009_213 23/11/17 08:58 Page8
  28. 28. Thanks @jgperrin
  29. 29. Backup
  30. 30. No more slides You’re on your own!

×