Apache Hive

•

2 likes•942 views

Anatoliy Nikulin

Apache Hive Лучше день потерять, но потом за пять минут долететь

Software

Hive
Лучше день потерять потом за пять минут долететьАнатолий Никулин

Что такое Hive
● Система управления большими наборами данных.
● Используется для создания выборок с помощью SQL-подобного языка (HQL)
● В качестве источников данных можно использовать структурированные и не
структурированные хранилища:
○ SQL: MySQL, PostgreSQL (обычный коннектор, ничего интересного)
○ NoSQL:
■ HBase
была первой, она вдохновила людей на создание Hive
■ MongoDB
MongoDB коннектор для Hadoop реализован в виде Hadoop совместимой файловой системы. Данные из Монги могут
читаться и обрабатываться c помощью Hadoop MapReduce.
○ File Systems: HDFS, S3

Hive это уноквазифантазия.
● Абстракция над хранилищами данных
● Унифицирующая работу с данными
● Но на самом деле, адски облегчает работу с M/R. Это основной use-case

CREATE EXTERNAL TABLE win_bids_log (
date_field string,
request_id string,
user_ssp_id string,
dsp_id string,
win_price int
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY 't'
LOCATION 'hdfs://categorizer-hadoop-1:
/analytical_engine/logs/';
HQL синтаксис
select dsp_id, count(dsp_id), sum(win_price)
from win_bids_log group by dsp_id;

Всякие штучки
Hive умеет работать:
● с текстовыми файлами (можно задать разграничительный символ)
● с сжатыми текстовыми файлами (Gzip, Bzip)
● с массивами, словарями, объединениями (union)
● имеет огромное количество встроенных функций для работы с:
○ коллекциями, датами, строками, JSON-ми
○ математические функции (округление, логарифмы корни, тригонометрия)
○ функции аггрегации (sum, min, max, avg...)
● Если всего перечисленного выше, не хватило, то можно использовать кастомные
функции а так же мэпперы и редьюсеры (python, java)

Кто использует и где
● Все кто плотно работает с Mapreduce в целом.
● Все кто плотно работает с HBase
● Все кто использует Amazon EMR
● Там, где не хочется писать M/R на Java
○ Это долго. (юнит-тесты, сборка, деплой, поддержка вендорозависимых
зависимостей)

Viewers also liked

Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...Anatoliy Nikulin

Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли в пяти минутахAnatoliy Nikulin

Hive vs PigAnatoliy Nikulin

Архитектура продукта Thumbtack RTB BidderAnatoliy Nikulin

HBase insideAnatoliy Nikulin

Building a Self-Service Hadoop Platform at Linkedin with AzkabanDataWorks Summit

Конференция Юкон. Процессинг данных на лямбда архитектуре.Anatoliy Nikulin

NoSQL thumbtack experience, Анатолий НикулинAnatoliy Nikulin

AzkabanAnatoliy Nikulin

Hadoop presentationVlad Orlov

Azkaban and Pig at LinkedInRussell Jurney

Hadoop ecosystem framework n hadoop in live environmentDelhi/NCR HUG

Interactive workflow management using Azkabandatamantra

SQL to Hive Cheat SheetHortonworks

Azkaban - WorkFlow Scheduler/Automation EnginePraveen Thirukonda

A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...SlideShare

Viewers also liked (16)

Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...

Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли в пяти минутах

Hive vs Pig

Архитектура продукта Thumbtack RTB Bidder

HBase inside

Building a Self-Service Hadoop Platform at Linkedin with Azkaban

Конференция Юкон. Процессинг данных на лямбда архитектуре.

NoSQL thumbtack experience, Анатолий Никулин

Azkaban

Hadoop presentation

Azkaban and Pig at LinkedIn

Hadoop ecosystem framework n hadoop in live environment

Interactive workflow management using Azkaban

SQL to Hive Cheat Sheet

Azkaban - WorkFlow Scheduler/Automation Engine

A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...

Similar to Apache Hive

NoSQL: issues and progress, current status and prospectsAndrei Nikolaenko

Лекция 2. Основы HadoopTechnopark

Apache HadoopIvan Blinkov

DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov

Cостав дистрибутва Hortonworks data platform 2.3Евгений Плакса

Nosql and MongodbEduard Antsupov

DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people

Hadoop > cascading -> cascalog (very short)Andrew Panfilov

Кластер БГУИР: расширенные возможностиAlexey Demidchuk

Практика миграции реляционных баз данных в экосистему HadoopYury Petrov

ADD2010: Обработка большого объема данных на платформеApache Hadoop Vladimir Klimontovich

Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Ontico

СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark

Windows Azure - BigData and HadoopAlexey Bokov

С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo). Badoo Development

С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)Ontico

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov

Лекция 14. Hadoop в Поиске Mail.RuTechnopark

Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin

Lapan 20.04 hadoop h-basekuchinskaya

Similar to Apache Hive (20)

NoSQL: issues and progress, current status and prospects

Лекция 2. Основы Hadoop

Apache Hadoop

DBD lection 4. Big Data, NoSQL. In Russian.

Cостав дистрибутва Hortonworks data platform 2.3

Nosql and Mongodb

DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...

Hadoop > cascading -> cascalog (very short)

Кластер БГУИР: расширенные возможности

Практика миграции реляционных баз данных в экосистему Hadoop

ADD2010: Обработка большого объема данных на платформеApache Hadoop

Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)

СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"

Windows Azure - BigData and Hadoop

С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo).

С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Лекция 14. Hadoop в Поиске Mail.Ru

Модернизация хранилища данных для использования передовой аналитики

Lapan 20.04 hadoop h-base

Apache Hive

1. Hive Лучше день потерять потом за пять минут долететьАнатолий Никулин

2. Что такое Hive ● Система управления большими наборами данных. ● Используется для создания выборок с помощью SQL-подобного языка (HQL) ● В качестве источников данных можно использовать структурированные и не структурированные хранилища: ○ SQL: MySQL, PostgreSQL (обычный коннектор, ничего интересного) ○ NoSQL: ■ HBase была первой, она вдохновила людей на создание Hive ■ MongoDB MongoDB коннектор для Hadoop реализован в виде Hadoop совместимой файловой системы. Данные из Монги могут читаться и обрабатываться c помощью Hadoop MapReduce. ○ File Systems: HDFS, S3

3. Hive это уноквазифантазия. ● Абстракция над хранилищами данных ● Унифицирующая работу с данными ● Но на самом деле, адски облегчает работу с M/R. Это основной use-case

5. CREATE EXTERNAL TABLE win_bids_log ( date_field string, request_id string, user_ssp_id string, dsp_id string, win_price int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't' LOCATION 'hdfs://categorizer-hadoop-1: /analytical_engine/logs/'; HQL синтаксис select dsp_id, count(dsp_id), sum(win_price) from win_bids_log group by dsp_id;

6. Всякие штучки Hive умеет работать: ● с текстовыми файлами (можно задать разграничительный символ) ● с сжатыми текстовыми файлами (Gzip, Bzip) ● с массивами, словарями, объединениями (union) ● имеет огромное количество встроенных функций для работы с: ○ коллекциями, датами, строками, JSON-ми ○ математические функции (округление, логарифмы корни, тригонометрия) ○ функции аггрегации (sum, min, max, avg...) ● Если всего перечисленного выше, не хватило, то можно использовать кастомные функции а так же мэпперы и редьюсеры (python, java)

7. Кто использует и где ● Все кто плотно работает с Mapreduce в целом. ● Все кто плотно работает с HBase ● Все кто использует Amazon EMR ● Там, где не хочется писать M/R на Java ○ Это долго. (юнит-тесты, сборка, деплой, поддержка вендорозависимых зависимостей)

Apache Hive

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

Similar to Apache Hive

Similar to Apache Hive (20)

Apache Hive