SlideShare a Scribd company logo
1 of 12
Download to read offline
DMSaaS
Анализ данных как услуга
          Выполнил студент 2 курса магистратуры
          Математического факультета
          464 группы
          Нуждин Павел Вячеславович

          Научный руководитель:
          к.ф.м.н. Жилин С.И.
Определение проблемы
●   Исследователи в различных областях
    используют методы анализа данных.
●   Для решения некоторых задач необходимо:
     –   обработать большой объем данных;
     –   выполнить большой объем вычислений.
●   Существуют алгоритмы, которые могут быть
    эффективно распараллелены.                 Y =b0 b1 X 1b 2 X 2...b N X N
                                                       M
●   Как правило, у исследователя есть список        ∑k =1 Y k −Y k 2  min
                                                                

    задач, некоторые из которых могут быть
    решены параллельно.
●   Многие исследователи не готовы решать
    возникающие специфические проблемы.

                                                                                   2
Инструменты для анализа данных
●   Cуществуют инструменты, реализующее методы анализа данных (R
    Project, Weka, JHepWork, Matlab, Orange, Apache Mahout);
●   Среди инструментов для анализа данных можно найти инструменты с
    графическим интерфейсом;
●   Особое место занимают инструменты, в которых задачи
    представлены в виде потока данных dataflow (Knime, RapidMiner,
    Taverna).

                            матрица
                   чтение
                   данных              A
                                                       C
                                            С = AB
                                       B

                            матрица
                   чтение
                   данных

                                                                      3
Облачные вычисления
Технология распределенной обработки данных, в которой которой
компьютерные ресурсы представляются как Интернет-сервис:


                        IaaS       Infrastructure-as-a-Service



                        PaaS       Platform-as-a-Service



                        SaaS       Software-as-a-Service




                                                                 4
Требования к сервису
                для анализа данных
    Сервис с графическим интерфейсом для решения задач анализа
    данных в виде потоковых сценариев должен позволять:
●   управлять наборами данных;
●   управлять потоковыми сценариями;
●   выполнять потоковый сценарий и получать результаты решения задач;
●   импортировать и экспортировать данные в стандартные форматы;
●   визуализировать данные и результаты решения задач сценария;
●   организовывать групповую работу с разделением прав.
    Задачи сценариев могут быть с:
●   последовательной реализацией;
●   распределенной реализацией в моделях: передача сообщений (MPI),
    параллельность по данным (MapReduce).



                                                                        5
Концептуальная идея


                           Фреймворк 1




                  Фреймворк 2




Клиент 1
                     ...                 Клиент K


                                                    6
Подсистемы

Веб-приложение       Ядро




                                Менеджер
                   Хранилище
                               вычислений

   Клиент



                                 Сервер
                               вычислений


                                            7
Технологии
    Веб-приложение:
●   JavaScript, CSS, HTML5.
●   Веб-сервер Apache Tomcat.
    Ядро, менеджер вычислений, сервер вычислений, хранилище —
    RESTful веб-сервисы:
●   MySQL.
●   Java EE Enterprise JavaBeans (EJB) — серверные компоненты
    содержащие бизнес-логику либо являющиеся представлением
    объектов БД;
●   Java EE Persistence API (JPA) — интерфейс для доступа к БД;
●   Java EE RESTful Web Services (JAX-RS) — серверные компоненты с HTTP-
    интерфейсом;.
●   Сервер приложений GlassFish.
●   Apache Hadoop
                                                                           8
REST
●   Архитектурный стиль для создания распределенных систем (Stateless,
    Cacheable, Layered system, Uniform interface).
●   Цели:
      – масштабируемость;
      – общность интерфейсов;
      – независимое развертывание компонентов;
      – поддержка промежуточных компонентов;
●   Появление тесно связано с HTTP.
●   RESTful веб-сервисы — веб-сервисы в HTTP + REST:
      – общий путь для всех ресурсов (http://a.com/resources/…);
      – поддержка Internet Media Types (JSON, XML, …);
      – использование HTTP методов (GET, POST, PUT, DELETE);
      – использование гиперссылок;


                                                                         9
Проектные решения
                       Задача
●   Шаблон задачи — собранная в JAR программ на Java, в состав которой
    входят классы, наследуемые от базовых классов DMSaaS.



                 DMSaaS

      базовые    DataTableReadable
      классы     DataTableWritable         Значения          Экземпляры
                         ...               параметров        DataTable




      классы
                                                    Задача

    Шаблон задачи
    (JAR)

                                                                          10
Проектные решения
                Коллективная работа
●   Группа — связанный общими ресурсами (данные, шаблоны задач,
    фреймворки для распределенных вычислений) список пользователей.
●   Публичная группа:
          – члены получают ресурсы владельца группы;
          – любой может присоединиться / самоисключиться;
●   Закрытая группа:
          – члены группы получают ресурсы друг друга;
          – присоединение только по приглашениям;
          – владелец может исключать членов группы;
          – любой может самоисключиться.
●   Готовность:
          – добавление / удаление / получение групп;
          – включение в открытую группу;
          – cамоисключение из группы;
          – приглашение/исключение из группы;
          – поделиться ресурсами;
                                                                      11
апрель

More Related Content

Viewers also liked

RapidMiner: Learning Schemes In Rapid Miner5
RapidMiner:   Learning Schemes In Rapid Miner5RapidMiner:   Learning Schemes In Rapid Miner5
RapidMiner: Learning Schemes In Rapid Miner5Rapidmining Content
 
RapidMiner: Advanced Processes And Operators
RapidMiner:  Advanced Processes And OperatorsRapidMiner:  Advanced Processes And Operators
RapidMiner: Advanced Processes And OperatorsRapidmining Content
 
RapidMiner: Word Vector Tool And Rapid Miner
RapidMiner:   Word Vector Tool And Rapid MinerRapidMiner:   Word Vector Tool And Rapid Miner
RapidMiner: Word Vector Tool And Rapid MinerRapidmining Content
 
RapidMiner: Data Mining And Rapid Miner
RapidMiner:  Data Mining And Rapid MinerRapidMiner:  Data Mining And Rapid Miner
RapidMiner: Data Mining And Rapid MinerRapidmining Content
 
RapidMiner: Introduction To Rapid Miner
RapidMiner: Introduction To Rapid MinerRapidMiner: Introduction To Rapid Miner
RapidMiner: Introduction To Rapid MinerRapidmining Content
 

Viewers also liked (8)

RapidMiner: Learning Schemes In Rapid Miner5
RapidMiner:   Learning Schemes In Rapid Miner5RapidMiner:   Learning Schemes In Rapid Miner5
RapidMiner: Learning Schemes In Rapid Miner5
 
Rapidminer: Important Elements
Rapidminer: Important ElementsRapidminer: Important Elements
Rapidminer: Important Elements
 
RAPIDMINER: Rapidminerproducts
RAPIDMINER: RapidminerproductsRAPIDMINER: Rapidminerproducts
RAPIDMINER: Rapidminerproducts
 
RapidMiner: Advanced Processes And Operators
RapidMiner:  Advanced Processes And OperatorsRapidMiner:  Advanced Processes And Operators
RapidMiner: Advanced Processes And Operators
 
Rapidminer: Modelling Data
Rapidminer:  Modelling DataRapidminer:  Modelling Data
Rapidminer: Modelling Data
 
RapidMiner: Word Vector Tool And Rapid Miner
RapidMiner:   Word Vector Tool And Rapid MinerRapidMiner:   Word Vector Tool And Rapid Miner
RapidMiner: Word Vector Tool And Rapid Miner
 
RapidMiner: Data Mining And Rapid Miner
RapidMiner:  Data Mining And Rapid MinerRapidMiner:  Data Mining And Rapid Miner
RapidMiner: Data Mining And Rapid Miner
 
RapidMiner: Introduction To Rapid Miner
RapidMiner: Introduction To Rapid MinerRapidMiner: Introduction To Rapid Miner
RapidMiner: Introduction To Rapid Miner
 

Similar to апрель

Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
 
Windows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopWindows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopAlexey Bokov
 
Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?aragozin
 
What's new in Visual Studio 2012
What's new in Visual Studio 2012What's new in Visual Studio 2012
What's new in Visual Studio 2012InTRUEdeR
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)Irina Fedulova
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамIForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамSECL
 
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStackSergey Lukjanov
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)Andrew Panfilov
 
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Антон Шестаков
 
SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?
SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?
SQL Server Analysis Services 2014: табличная модель - альтернатива кубам? Andrey Korshikov
 
Архитектура программных систем на Node.js
Архитектура программных систем на Node.jsАрхитектура программных систем на Node.js
Архитектура программных систем на Node.jsTimur Shemsedinov
 

Similar to апрель (20)

Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
томск
томсктомск
томск
 
Умник
УмникУмник
Умник
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
 
Windows Azure - BigData and Hadoop
Windows Azure - BigData and HadoopWindows Azure - BigData and Hadoop
Windows Azure - BigData and Hadoop
 
Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?
 
What's new in Visual Studio 2012
What's new in Visual Studio 2012What's new in Visual Studio 2012
What's new in Visual Studio 2012
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)HPC vs Big Data (Russian version)
HPC vs Big Data (Russian version)
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Apache Hadoop
Apache HadoopApache Hadoop
Apache Hadoop
 
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамIForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектам
 
Cassandra db
Cassandra dbCassandra db
Cassandra db
 
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)
 
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
 
SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?
SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?
SQL Server Analysis Services 2014: табличная модель - альтернатива кубам?
 
Архитектура программных систем на Node.js
Архитектура программных систем на Node.jsАрхитектура программных систем на Node.js
Архитектура программных систем на Node.js
 

апрель

  • 1. DMSaaS Анализ данных как услуга Выполнил студент 2 курса магистратуры Математического факультета 464 группы Нуждин Павел Вячеславович Научный руководитель: к.ф.м.н. Жилин С.И.
  • 2. Определение проблемы ● Исследователи в различных областях используют методы анализа данных. ● Для решения некоторых задач необходимо: – обработать большой объем данных; – выполнить большой объем вычислений. ● Существуют алгоритмы, которые могут быть эффективно распараллелены. Y =b0 b1 X 1b 2 X 2...b N X N M ● Как правило, у исследователя есть список ∑k =1 Y k −Y k 2  min  задач, некоторые из которых могут быть решены параллельно. ● Многие исследователи не готовы решать возникающие специфические проблемы. 2
  • 3. Инструменты для анализа данных ● Cуществуют инструменты, реализующее методы анализа данных (R Project, Weka, JHepWork, Matlab, Orange, Apache Mahout); ● Среди инструментов для анализа данных можно найти инструменты с графическим интерфейсом; ● Особое место занимают инструменты, в которых задачи представлены в виде потока данных dataflow (Knime, RapidMiner, Taverna). матрица чтение данных A C С = AB B матрица чтение данных 3
  • 4. Облачные вычисления Технология распределенной обработки данных, в которой которой компьютерные ресурсы представляются как Интернет-сервис: IaaS Infrastructure-as-a-Service PaaS Platform-as-a-Service SaaS Software-as-a-Service 4
  • 5. Требования к сервису для анализа данных Сервис с графическим интерфейсом для решения задач анализа данных в виде потоковых сценариев должен позволять: ● управлять наборами данных; ● управлять потоковыми сценариями; ● выполнять потоковый сценарий и получать результаты решения задач; ● импортировать и экспортировать данные в стандартные форматы; ● визуализировать данные и результаты решения задач сценария; ● организовывать групповую работу с разделением прав. Задачи сценариев могут быть с: ● последовательной реализацией; ● распределенной реализацией в моделях: передача сообщений (MPI), параллельность по данным (MapReduce). 5
  • 6. Концептуальная идея Фреймворк 1 Фреймворк 2 Клиент 1 ... Клиент K 6
  • 7. Подсистемы Веб-приложение Ядро Менеджер Хранилище вычислений Клиент Сервер вычислений 7
  • 8. Технологии Веб-приложение: ● JavaScript, CSS, HTML5. ● Веб-сервер Apache Tomcat. Ядро, менеджер вычислений, сервер вычислений, хранилище — RESTful веб-сервисы: ● MySQL. ● Java EE Enterprise JavaBeans (EJB) — серверные компоненты содержащие бизнес-логику либо являющиеся представлением объектов БД; ● Java EE Persistence API (JPA) — интерфейс для доступа к БД; ● Java EE RESTful Web Services (JAX-RS) — серверные компоненты с HTTP- интерфейсом;. ● Сервер приложений GlassFish. ● Apache Hadoop 8
  • 9. REST ● Архитектурный стиль для создания распределенных систем (Stateless, Cacheable, Layered system, Uniform interface). ● Цели: – масштабируемость; – общность интерфейсов; – независимое развертывание компонентов; – поддержка промежуточных компонентов; ● Появление тесно связано с HTTP. ● RESTful веб-сервисы — веб-сервисы в HTTP + REST: – общий путь для всех ресурсов (http://a.com/resources/…); – поддержка Internet Media Types (JSON, XML, …); – использование HTTP методов (GET, POST, PUT, DELETE); – использование гиперссылок; 9
  • 10. Проектные решения Задача ● Шаблон задачи — собранная в JAR программ на Java, в состав которой входят классы, наследуемые от базовых классов DMSaaS. DMSaaS базовые DataTableReadable классы DataTableWritable Значения Экземпляры ... параметров DataTable классы Задача Шаблон задачи (JAR) 10
  • 11. Проектные решения Коллективная работа ● Группа — связанный общими ресурсами (данные, шаблоны задач, фреймворки для распределенных вычислений) список пользователей. ● Публичная группа: – члены получают ресурсы владельца группы; – любой может присоединиться / самоисключиться; ● Закрытая группа: – члены группы получают ресурсы друг друга; – присоединение только по приглашениям; – владелец может исключать членов группы; – любой может самоисключиться. ● Готовность: – добавление / удаление / получение групп; – включение в открытую группу; – cамоисключение из группы; – приглашение/исключение из группы; – поделиться ресурсами; 11