Полет на Zeppelin с Apache Spark™ и Cassandra™

© 2020 DataStax.© 2020 DataStax.
Полет на Zeppelin
с Apache Spark™ и Cassandra™
Alex Ott

© 2020 DataStax.
Ø Ядерный физик по образованию
Ø Более 20 лет опыта разработки ПО на разных языках
Ø Области интересов – big data, machine learning, NLP, …
Ø Principal Solutions Architect @ DataStax
Ø Apache Zeppelin Committer, плюс много других OSS проектов
Ø Контакты:
Øhttps://github.com/alexott/
Øhttps://twitter.com/alexott_en
Øhttp://alexott.blogspot.com/
Обо мне

© 2020 DataStax.
Ø Apache Zeppelin
Ø Apache Spark
Ø Apache Cassandra
Ø Комбинируем все вместе
О чем пойдет речь

© 2020 DataStax.
Apache Zeppelin
https://zeppelin.apache.org/

© 2020 DataStax.
Ø Многопользовательская среда для интерактивной разработки/
анализа данных
Ø Доступ через браузер, интерактивное обновление данных
Ø Блокнот (notebook) может использовать любое количество
интерпретаторов
Ø Поддержка разных языков программирования
Ø Большое количество интерпретаторов для работы с разными базами
данных и прочих технологий
Ø Отображение данных в разных видах, с возможностью расширения
Ø Версионирование блокнотов (Git, S3, GCS, MongoDB, …)
Что это такое?

© 2020 DataStax.
Ø Apache Spark (Scala, Python, SQL)
Ø Flink (SQL, Scala, Python)
Ø Apache Cassandra
Ø Elasticsearch
Ø KSQL
Ø Google BigQuery
Ø JDBC
Ø Apache Beam
Ø SparQL
Интерпретеры для разных технологий
Ø MongoDB
Ø InfluxDB
Ø Ignite
Ø Pig
Ø Neo4j
Ø Hazelcast Jet
Ø HDFS
Ø Apache Mahout
Ø…

© 2020 DataStax.
Ø Scala
Ø Python/IPython
Ø Kotlin
Ø Groovy
Разные языки программирования
ØJava
Ø R
Ø Shell
Ø Интерфейс к Jupyter

© 2020 DataStax.
Разные интерпретаторы в одном блокноте

© 2020 DataStax.
Разное представление результатов
Ø Вывод результатов в виде:
Ø Текста
Ø Таблиц (разделённых TAB)
Ø HTML
Ø JSON
Ø Сеть
Ø Angular backend/frontend APIs для реализации дополнительной
функциональности
Ø Динамическое обновление данных (в некоторых интерпретаторах)

© 2020 DataStax.
Разное представление результатов

© 2020 DataStax.
Дополнительные способы визуализации

© 2020 DataStax.
Ø Специальные функции для взаимодействия с Zeppelin
Ø z.show(…) для показа содержимого переменных
Ø z.put/z.get для обмена данными между интерпретаторами в блокноте
Ø z.input/z.select/z.checkbox – создание интерактивных форм
Ø интерполяция переменных (в некоторых интерпретаторах)
Zeppelin Context

© 2020 DataStax.
Ø Изменения сделанные в блокноте, сразу видны для всех
Ø Можно установить права доступа к блокноту
Ø Поддержка форм для ввода данных
Ø Можно опубликовать отдельный параграф с результатами
Совместная работа и публикация

© 2020 DataStax.
Развертывается как:
Ø Дистрибутив в виде тарболла
Ø Docker image
Ø Поддержка Kubernetes (в версии 0.9.0)
Настройка:
Ø UI для настройки интерпретаторов
Ø Настройка через REST API
Развертывание и настройка

© 2020 DataStax.
Ø Аутентификация через Apache Shiro
Ø Права доступа к блокнотам (изменение, чтение, выполнение)
Ø Права доступа к интерпретаторам
Ø Совместный или отдельный контекст интерпретаторов
Ø Аутентификация для источников данных (частичная поддержка)
Ø Дополнительная настройка HTTP заголовков для безопасности
Безопасность

© 2020 DataStax.
Apache Spark
https://spark.apache.org/

© 2020 DataStax.
Ø Фреймворк для эффективной распределённой обработки данных
Ø Поддерживает большое количество источников данных:
Ø форматы файлов: CSV, JSON, Parquet, …
Ø базы данных и т.п.: JDBC, Cassandra, Kafka, …
Ø Пакетная и потоковая обработка данных
Ø Spark SQL позволяет выполнять SQL запросы на данных из любого
источника
Ø Поддерживает программирование на Scala, Java, Python, R
Что такое Apache Spark

© 2020 DataStax.
Ø Разные режимы развертывания:
Ø Локальный – для небольших экспериментов
Ø Встроенный кластер
Ø Apache Mesos
Ø Kubernetes
Ø Облачные платформы: AWS EMR (Elastic Map Reduce), …
Ø Databricks (AWS или Azure)
Режимы развертывания

© 2020 DataStax.
Архитектура

© 2020 DataStax.
Apache Cassandra
https://cassandra.apache.org/

© 2020 DataStax.
Ø Распределенная (в том числе и географически), масштабируемая,
производительная, отказоустойчивая база данных
Ø Активно используется в проектах где нужна высокая
производительность с низким временем ответа и большим
количеством данных (Apple, Netflix, Spotify, …)
Ø Нет единой точки отказа
Ø Данные автоматически реплицируются
Ø Cassandra Query Language (CQL) - похож на SQL (эта похожесть
часто является источником проблем)
Ø Регулируемая консистентность данных
Что такое Apache Cassandra

© 2020 DataStax.
Комбинируем все вместе

© 2020 DataStax.
Zeppelin + Cassandra
https://zeppelin.apache.org/docs/0.9.0-preview1/interpreter/cassandra.html

© 2020 DataStax.
Ø Доступен с версии 0.6
Ø Поддержка всех команд CQL
Ø Поддержка команд cqlsh: DESCRIBE, HELP, …
Ø Поддержка batch statements
Ø Поддержка подготовленных запросов (prepared statements)
Ø Возможность изменения поведения отдельных команд с помощью
параметров (consistency level, timestamp, fetch size, …)
Интерпретатор для Cassandra

© 2020 DataStax.
Ø Настройка:
Ø Аутентификации
Ø Consistency levels
Ø Различных политик (балансирование нагрузки, повторение, и т.п.
Ø …
Ø Поддержка DataStax Java driver 4.x в версии 0.9.0 (еще нет в
preview1)
Ø Работа с Cassandra & DSE, включая типы данных DSE
Ø Поддержка DataStax Astra (Cassandra as a service)
Ø Стабильность и производительность
Интерпретатор для Cassandra

© 2020 DataStax.
Ø Интерпретатор Spark выбран по умолчанию
Ø Задачи Spark могут выполняться в любом поддерживаемом режиме
Ø Позволяет работать со Spark используя Scala, Python/IPython, R,
Kotlin, Spark SQL
Ø Поддержка Dataframe в z.show
Spark в Zeppelin

© 2020 DataStax.
Ø Поддерживает оба API:
Ø Dataframe/Datasets (рекомендуется)
Ø RDD - немного больше функциональности, но низкоуровневый
Ø Поддержка Spark SQL
Ø Разные языки программирования:
Ø Scala & Java - RDD и Dataframes
Ø Python, R, .Net – только Dataframes
Ø Множество оптимизаций для эффективного чтения данных из Cassandra
Ø Predicates pushdown – чтение только нужных данных из Cassandra
Ø join с данными в Cassandra по первичному ключу или ключу партиционирования
Spark Cassandra Connector (SCC)

© 2020 DataStax.
Ø Создание таблиц на основе структуры Dataframe/Dataset
Ø Доступ к метаданным (TTL & WriteTime)
Ø Удаление данных на основе данных в RDD
Ø Изменение коллекций – добавление/удаление элементов
(только в RDD API)
Ø Возможность одновременной работы с несколькими кластерами
Cassandra (очень удобно для миграции данных)
Spark Cassandra Connector

© 2020 DataStax.
Ø Теперь доступно вся функциональность, которая раньше была только в
коммерческой версии:
Ø Эффективный join Dataframe с данными в Cassandra (DSE Direct Join)
Ø Поддержка типов данных DSE (geo-spatial)
Ø Spark Structured Streaming
Ø Дополнительные оптимизации
Ø Новая функциональность:
Ø Поддержка DataStax Astra
Ø Поддержка работы с TTL/WriteTime в Dataframe API
Ø Оптимизация запросов с IN на primary/partition keys
Ø Улучшенная поддержка контейнеров (Kubernetes, Mesos)
Spark Cassandra Connector 2.5.0

© 2020 DataStax.
Традиционный синтаксис:
val data = spark.read.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "…", "keyspace" -> "…")).load()
или упрощенный:
import org.apache.spark.sql.cassandra._
val data = spark.read.cassandraFormat("tbl", "ks").load()
Dataframe API (чтение данных)

© 2020 DataStax.
Традиционный синтаксис:
data.write.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "…", "keyspace" -> "…"))
.mode("append").save()
или упрощенный:
import org.apache.spark.sql.cassandra._
data.write.cassandraFormat("tbl", "ks").mode("append").save()
Dataframe API (запись данных)

© 2020 DataStax.
Ø Необходимо импортировать com.datastax.spark.connector._
Ø Чтение данных
val data = sc.cassandraTable("keyspace", "table")
Ø Запись данных:
data.saveToCassandra("keyspace", "table")
Ø join с данными в Cassandra:
data.joinWithCassandraTable("keyspace","table")
Ø удаление данных из Cassandra:
data.deleteFromCassandra("keyspace", "table")
RDD API

© 2020 DataStax.
Ø DataStax Community: https://community.datastax.com
Ø Cassandra. The Definitive Guide, 3ed:
https://www.datastax.com/resources/ebook/oreilly-cassandra-definitive-
guide
Ø Spark Cassandra Connector (SCC):
https://github.com/datastax/spark-cassandra-connector
Ø Анонс версии 2.5.0 SCC: https://www.datastax.com/blog/2020/05/advanced-
apache-cassandra-analytics-now-open-all
Ø Репозиторий с блокнотами: https://github.com/alexott/zeppelin-demos
Дополнительная информация

Полет на Zeppelin с Apache Spark™ и Cassandra™

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Полет на Zeppelin с Apache Spark™ и Cassandra™

Similar to Полет на Zeppelin с Apache Spark™ и Cassandra™ (20)

Recently uploaded

Recently uploaded (20)

Полет на Zeppelin с Apache Spark™ и Cassandra™