Геопортал инфраструктуры пространственных данных Российской Федерации
Big Data и ArcGIS
1. Big Data и ArcGIS*
* - Big data is like teenage sex: everyone
talks about it, nobody really knows
how to do it, everyone thinks everyone
else is doing it, so everyone claims
they are doing it...
- Dan Ariely
2. Что такое Big Data?
Определяющие характеристики для больших данных отмечают «три V»: объём
(volume, в смысле величины физического объёма), скорость (velocity в смыслах как
скорости прироста, так и необходимости высокоскоростной обработки и получения
результатов), многообразие (variety, в смысле возможности одновременной
обработки различных типов структурированных и полуструктурированных данных).
4. Что такое Hadoop?
• Библиотека/фреймворк
• Распределенные
вычисления
• Очень большие наборы
данных
• Устойчивость к сбоям
5. MapReduce
• Hadoop —разработан в
рамках вычислительной
парадигмы MapReduce ,
согласно которой
приложение разделяется
на большое количество
одинаковых
элементарных заданий
(map), выполнимых на
узлах кластера и
естественным образом
сводимых в конечный
результат (reduce).
7. Компоненты
• Hadoop MapReduce — программный каркас для
программирования распределённых вычислений в
рамках парадигмы MapReduce.
• YARN (англ. Yet Another Resource Negotiator — «ещё
один ресурсный посредник») — модуль,
отвечающий за управление ресурсами кластеров и
планирование заданий.
• HDFS (Hadoop Distributed File System) — файловая
система, предназначенная для хранения файлов
больших размеров, поблочно распределённых
между узлами вычислительного кластера.
9. Big Data и ArcGIS
• Big Data Хранение
– IBM Netezza 7.0
– Netezza Spatial Esri Package
– Teradata
– Windows Azure SQL Database
• Big Data Анализ
– GIS Tools for Hadoop
10. GIS Tools for Hadoop
http://esri.github.io/gis-tools-for-hadoop/
11. GIS Tools for Hadoop
ESRI Geometry
API for Java
Geoprocessing
Tools for Hadoop
Spatial framework
for Hadoop
12. GIS Tools For Hadoop
• Geometry API
– Point / Line / Polygon
– Operations - Contains,
Intersect, Buffer
– I/O - WKT, GeoJSON, Shape
• Hive Spatial UDF
– ST_POINT, ST_CONTAINS
• GeoProcessing Extensions