2. Обо мне
● Андрей Панфилов
● Java-разработчик
● Интересуюсь: BigData, ФП
3. Проблематика
● $600 стоимость диска на который поместится вся музыка
в мире
● 5B мобильников использовалось в 2010
● 30B расшариваний всякой фигни в Facebook каждый
месяц в 2011-м году
● 40% прогнозируемого роста данных во всём мире в год
VS 5% роста ИТ-расходов во всём мире (2011 год)
● 235 терабайт данных собрано Библиотекой Конгресса
США в апреле 2011-го
● 15 из 17 секторов экономики в США имеют больше
данных, хранящихся на компанию, чем Библиотека
Конгресса США
http://bit.ly/big-data-mk-2011
4. MapReduce история вопроса
● 2004: Опубликована работа “MapReduce: Simplified Data
Processing on Large Clusters” (Джеффри Дин и Санжай
Гемават)
● 2005: Начат проект Hadoop (Дуг Каттинг и Майк
Кафарелла)
● 2005 - 2006: Hadoop развивался усилиями двух
разработчиков — Каттинга и Майка Кафареллы в режиме
частичной занятости, сначала в рамках проекта Nutch,
затем — проекта Lucene.
● 2006: Yahoo пригласила Каттинга возглавить команду
разработки (выделение Hadoop в отдельный проект).
● 2008: Yahoo запустила кластер на 10K ядер,
управляемую средствами Hadoop.
http://ru.wikipedia.org/wiki/Hadoop
6. Apache Hadoop
● Java based open source framework
● Common (утилиты), HDFS, MapReduce
● http://en.wikipedia.org/wiki/Hadoop
7. Cascading
Cascading is a data processing API
and processing query planner used
for defining, sharing, and executing
data-processing workflows on a single
computing
node
or
distributed
computing cluster.
http://docs.cascading.org/cascading/2.0/userguide/htmlsingle/
9. Cascading с разных точек зрения
● бизнеса: управление бизнес процессами для оркестрации
потоков выполнения (аля BPM / BPEL)
● системного интегратора: система интеграции гетерогенных
источников данных и платформ вычисления
● data scientist: направленный ациклический граф
подчиняющийся закону Амдала*
● data architect: физический план управления большими
потоками данных
● архитектора: язык паттернов, похожий на план водопровода
или проектирование принципиальных схем устройств
● разработчика: связывающий API для скалы, кложура, пайтона,
руби, джава
● админа: JAR файл (лежит в Maven Repo)
http://www.slideshare.net/pacoid/cascading-for-the-impatient
10. *для любознательных
Закон Амдала:
В случае, когда задача разделяется на
несколько частей, суммарное время её
выполнения на параллельной системе не
может быть меньше времени выполнения
самого длинного фрагмента.
11. История
● Крис Венсель (Chris Wensel)
● Начал разработку Cascading’а в начале
2008 (запись в блоге)
● Основал компанию Concurrent в
середине 2008
● В 2011 Concurrent получила инвестиции
для дальнейшего развития Cascading’а
● 2008 20 KLOC
● 2013 106 KLOC
● 3 контрибьютера
12. Общие сведения
● open source https://github.
com/cwensel/cascading
● лицензия Apache License 2.0
● коммерческая поддержка http://www.
concurrentinc.com/support/
15. Основные понятия
Набор разных pipe’ов позволяет
производить над данными следующие
операции*:
●
●
●
●
split
merge
group by
join
* Для каждого кортежа или для группы кортежей.
18. Основные понятия: tuples
● Аналог: строка в таблице базы данных.
● В каскадинге для кортежей есть
специальный тип: cascading.tuple.
Tuple
● Внутри это List<Object> elements;
20. Основные понятия: fields
● Определяет имя элемента кортежа.
● В каскадинге для полей есть специальный
тип: cascading.tuple.Fields
● Поле может быть строкой, целым
числом или специальным значением из
предопределённого множества.
● Специальные значения нужны для
выполнения шаблонных операций.
22. Основные понятия: pipes
● Это узел в котором может что-то
происходить с кортежами (в документации нет
чёткого определения pipe’а).
● В каскадинге для pipe’ов есть
специальный тип: cascading.pipe.
Pipe
23. Основные понятия: pipes
Типы pipe’ов:
● Класс Pipe: нужен для создания и
именования пайпа (планировщик использует
имена для соединения с tap’ами).
● Подкласс SubAssembly: повторное
использование сборок pipe’ов.
● Шесть основных подклассов: Each,
Merge, GroupBy, Every, CoGroup,
HashJoin.
24. Основные понятия: pipes
Each:
● операции основанные на содержимом
кортежа: анализ, трансформация или
фильтрация
● оперирует конкретным кортежем из потока
● применяет функции или фильтры такие как
условная замена определённых значений
полей, удаление кортежей значение полей
которых выходит за заданные пределы…
● откалывание отдельной ветки потока данных
● удаление ненужных полей из потока данных
25. Основные понятия: pipes
Merge:
● слияние нескольких потоков данных в один
● принимает несколько потоков с идентичными
полями
● отдаёт один поток с кортежами из входных
потоков в произвольном порядке
26. Основные понятия: pipes
GroupBy:
● группирует кортежи потока данных по общим
значениям указанных полей
● если на вход подать несколько потоков, то
перед группировкой происходит слияние
(наборы полей потоков должны быть
одинаковые)
● обычно группировку делают перед
операциями “aggregator” или “buffer”
● по сути сортирует все кортежи в группы (в
группах кортежи в произвольном порядке)
27. Основные понятия: pipes
Every:
● оперирует сгруппированными кортежами
● используется для применения операций
“aggregator” или “buffer”
● используется только после GroupBy или
CoGroup
● можно несколько операций “aggregator”
ставить подряд (для “buffer” не работает)
28. Основные понятия: pipes
CoGroup:
● выполняет операцию join на нескольких
входных потоках данных или на самом себе
● похож на SQL join (тоже может быть inner,
outer, left, или right)
● отдаёт поток данных сгруппированный по
указанным полям
● выходной поток данных содержит все поля
входных потоков
● входные потоки не могут содержать
одинаковые имена полей
29. Основные понятия: pipes
HashJoin:
● выполняет операцию “join” на нескольких
входных потоках данных или на самом себе
● похож на SQL join (тоже может быть inner,
outer, left, или right)
● отдаёт поток данных в произвольном прядке
● если не нужна группировка, быстрее чем
CoGroup (при условии нескольких маленьких
входных потоков и не более одного большого)
34. Паттерны работы с потоками
Split:
● Разделение данных из одного
потока на несколько потоков.
● К одному Pipe’у присоединяется
несколько последующих Pipe’ов.
35. Паттерны работы с потоками
Merge:
● Слияние нескольких потоков
данных в один.
● Несколько Pipe’ов
присоединяются к Pipe’у типа
Merge или GroupBy.
36. Паттерны работы с потоками
Join:
● Комбинирование данных из
нескольких потоков с разными
полями по общим полям (аналог
SQL join).
● Несколько Pipe’ов
присоединяются к Pipe’у типа
HashJoin или CoGroup.
40. Основные понятия: flow
● Важный момент: flow -- это информация
о том где брать данные, как
обрабатывать и куда складывать
результат.
● Где и куда должны существовать в
момент выполнения.
● После создания, flow нужно выполнить в
одной из платформ.
● Flow можно соединять в цепочки.
43. Основные понятия: function
● Ожидает на вход один кортеж.
● Хороший тон: указать набор
входных и выходных полей.
● Возвращает ноль или больше
кортежей.
● Используется с пайпом Each,
который может следовать после
пайпа любого типа.
45. Основные понятия: filter
● Ожидает на вход один кортеж.
● Возвращает true или false
(выбрасываем кортеж из потока
или нет).
● Используется с pipe’ом Each,
который может следовать после
pipe’а любого типа.
46. Основные понятия: aggregator
● Ожидает на вход группу кортежей
(вывод pipe’а GroupBy или
CoGroup).
● Возвращает ноль или несколько
кортежей для каждой входной
группы кортежей.
● Примеры: Average, Count, First,
Last, Max, Min, Sum
47. Основные понятия: buffer
● Ожидает на вход группу кортежей
(вывод pipe’а GroupBy или
CoGroup).
● Возвращает ноль или несколько
кортежей для каждой входной группы
кортежей.
● Получает всю группу кортежей сразу
(доступ через итератор).
● Удобно для вставки кортежа в
группу.
49. Тестирование
● Юнит-тесты для функций, фильтров,
агрегаторов и буфферов (cascading.
CascadingTestCase).
● cascading.operation.Debug -фильтр, печатает кортеж в stdout или
stderr.
● запуск в локальном режиме.
● пишите логи (в коде своих операций)
50. Debug
● в локальном режиме:
https://github.com/ScaleUnlimited/cascading.utils
final FlowRunner runner = new FlowRunner();
runner.addFlow(flow);
runner.complete();
● One node Hadoop cluster:
export HADOOP_OPTS = "-agentlib:
jdwp=transport=dt_socket,server=y,suspend=y,
address=8788"
hadoop jar your-casc.jar <параметры>
53. Особенности работы с данными
● файлы: лучше мало больших, чем
много маленьких.
● S3 + много маленьких -> s3distcp.
54. Ещё один шаг вперёд
● Cascading -- это высокоуровневый API
● Меньше кода и проще проектировать
сложную обработку данных (по
сравнению с обычным MapReduce)
● Следующий логичный шаг -- DSL
● Выразительный
● Гибкий
● Правильная идеология
58. Datalog
● Декларативный логический язык
программирования.
● Синтаксически является подмножеством
Пролога.
● Часто используется как язык запросов к
дедуктивным базам данных (более
выразительный чем SQL).
59. Datalog
1
2
3
4
5
6
родил(Авраам,Исаак).
родил(Исаак,Иаков).
предок(X,Y) :- родил(X,Y).
предок(X,Y) :родил(X,Z),предок(Z,Y).
?- предок(Авраам,X).
1 - Авраам родитель Исаака; 2 - Исаак родитель Иакова; 3, 4, 5 - правила
определения предков; структура правила: <голова> :- <тело>; 3 - X предок
Y’а если известно что X родитель Y’а; 4, 5 - X предок Y’а если известно
что X родитель Z’а и Z предок Y’а; 6 - запрос “найти всех людей у кого в
предках Авраам”, результат: Исаак и Иаков.
60. История
● Натан Марц (Nathan Marz)
● Первый коммит в гитхабе весной 2010
(пруф)
●
●
●
●
Прародитель
2010 1 KLOC
2013 9 KLOC
29 контрибьютеров
61. Общие сведения
● open source https://github.
com/nathanmarz/cascalog
● лицензия Apache License 2.0
● коммерческая поддержка не нашёл
69. Проблемы cascalog’а
● Высокий порог вхождения (clojure).
● Мало документации.
● В Украине практически нет людей с
опытом использования сабжа.
● Нет формальной грамматики
описывающей язык запросов.
70. Сообщество
● Гугл группа cascalog’а.
● Гугл-группа cascading’а.
● Как ни странно на stackoverflow.com
практически ничего нет о сабжах.
● Митапы в Сан-Франциско и Лондоне.