SlideShare a Scribd company logo
1 of 14
«НЕДЕЛЯ НАУКИ СПбГПУ»
             3-8 декабря 2012 года




        Облачная система
интеллектуального анализа данных
                                         Вязьмина А.Н.*, Жилин С.И.*,
                                     Киргизов С.С.**, Ледомский П.А.*,
                                        Мусиенко Н.П.*, Нуждин П.В.*,
                                                          Пятков В.Д.*

          * Алтайский Государственный Университет, Барнаул, Россия
                ** Университет Пьера и Мари Кюри, Париж, Франция



                 Декабрь 2012г. Санкт-Петербург
Формулировка проблемы
• Потребность в интеллектуальной обработке
  данных:
  – бизнес аналитика;
  – финансовая аналитика;
  – наука (медицина, гномика, биология).
• Аппаратная и программная поддержка:
  – наличие ресурсов у конкретного аналитика;
  – обработка больших объёмов данных;
  – обмен результатами анализа.

                                                2
Интерфейс и потоковая модель




        Потоковая модель представления сценария используется
        в продуктах: RapidMiner, KNIME, Weka, Taverna и др.
                                                         3
Функциональные требования
• Проектирования сценария анализа данных в
  виде графа.
• Параллельное вычисление сценария.
• Интеграции библиотек решения задач
  большого объёма данных.
• Групповая работа.
• Расширение функционала сервиса
  пользовательскими
  программами
  обработки данных.

                                             5
Функциональные требования
• Обработка данных на любом оборудовании
  из любой точки мира.
                              Service



• Хранение и обработка данных
  предоставленных пользователем



                                        6
Устройство
                HTTP
  Client side   (Rest)      Core


HTML5

                                             HTTP        Calculation
                           Strorage
                                             (Rest)       Manager




                                                      Calculation Server



     Hadoop
                               Calculation
                                  Node
                                                                           7
Веб-интерфейс
   Выполнение




                Core



                       8
Планировщик потокового сценария
                     Calculation
                      Manager




 Направление потока вычислений
                                   9
Подсистема вычисления

                         Calculation Server


Java Вычислители                                             Python Вычислители
                              Sockets




                                         Scala Вычислители
                   R Вычислители

                                   Strorage
                                                                           10
Хранение данных
• Бинарные данные с возможностью
  произвольного доступа.
• Табличные данные с объявленной
  структурой с возможностью быстрого
  доступа к записи по порядковому номеру.

            Binary Data                Binary Data
                                          (Spec)
    FS
                          Data Table
                                       Binary Data
                                       (Data Table)
                                                      11
Пример решения задачи


                     Набор данных Iris


 Набор данных Iris




                                         12
Расширение функциональности
                            CustomNode.java                            ModuleMetaData.xml
                                                               <root>
public class CustomNode extends TemplateLocal {                    <mainClass>
              @Override                                                my.namespace.CustomNode
              public Properties makeProperties() {…}               </mainClass>
              @Override                                        </root>
              public Ports makePorts() {…}
              @Override
              public TaskPropertyNotValidEx validateProperty(name, property) {…}
            @Override
            public TaskConnectionNotValidEx validateConnection(connection, workflow) {…}
            @Override
            public Status calculate(Properties properties,
                        Map<String, DataReadable> dataByProperty,
                        Map<String, DataTableReadable> inputData,
                        Map<String, ModelReadable> inputModel,
                        Map<String, DataTableWritable> outputData,
                        Map<String, ModelWritable> outputModel,
                        StatusCalculating status) {…}
}                                                                                            13
Результаты и перспективы
• Поддержка любых устройств в любой точке
  мира.
• Открытое API для доступа к сервису.
• Предоставление доступа к данным любому
  пользователю.
• Простое потоковое представление сценария.
• Возможность расширения функциональными
  модулями на любом популярном языке (Java,
  R, Python).

                                              14
Спасибо за внимание!
   vldpyatkov@gmail.com




                          15

More Related Content

Similar to неделя науки

Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
GRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeGRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeARCCN
 
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаковIBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаковMaxim Zinal
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
Новое поколение серверов Dell
Новое поколение серверов DellНовое поколение серверов Dell
Новое поколение серверов DellMUK
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)
Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)
Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)Ontico
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov
 
кри 2014 elastic search рациональный подход к созданию собственной системы а...
кри 2014 elastic search  рациональный подход к созданию собственной системы а...кри 2014 elastic search  рациональный подход к созданию собственной системы а...
кри 2014 elastic search рациональный подход к созданию собственной системы а...Vyacheslav Nikulin
 
Новые возможности платформы Oracle 12c для хранилищ данных
Новые возможности платформы Oracle 12c для хранилищ данныхНовые возможности платформы Oracle 12c для хранилищ данных
Новые возможности платформы Oracle 12c для хранилищ данныхAndrey Akulov
 
технологическая презентация Gpu digital lab
технологическая презентация Gpu digital labтехнологическая презентация Gpu digital lab
технологическая презентация Gpu digital laboleg gubanov
 
CLI203 - VDI project Architecture
CLI203 - VDI project ArchitectureCLI203 - VDI project Architecture
CLI203 - VDI project ArchitectureSergey Khalyapin
 
Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данныхAlex Polorotov
 

Similar to неделя науки (20)

апрель
апрельапрель
апрель
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
GRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeGRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network Initiative
 
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаковIBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Новое поколение серверов Dell
Новое поколение серверов DellНовое поколение серверов Dell
Новое поколение серверов Dell
 
Diplom 1
Diplom 1Diplom 1
Diplom 1
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)
Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)
Осваиваем Tarantool 1.6 / Евгений Шадрин (Sberbank Digital Ventures)
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
кри 2014 elastic search рациональный подход к созданию собственной системы а...
кри 2014 elastic search  рациональный подход к созданию собственной системы а...кри 2014 elastic search  рациональный подход к созданию собственной системы а...
кри 2014 elastic search рациональный подход к созданию собственной системы а...
 
Новые возможности платформы Oracle 12c для хранилищ данных
Новые возможности платформы Oracle 12c для хранилищ данныхНовые возможности платформы Oracle 12c для хранилищ данных
Новые возможности платформы Oracle 12c для хранилищ данных
 
технологическая презентация Gpu digital lab
технологическая презентация Gpu digital labтехнологическая презентация Gpu digital lab
технологическая презентация Gpu digital lab
 
CLI203 - VDI project Architecture
CLI203 - VDI project ArchitectureCLI203 - VDI project Architecture
CLI203 - VDI project Architecture
 
DSL без купюр
DSL без купюрDSL без купюр
DSL без купюр
 
Present diplom
Present diplomPresent diplom
Present diplom
 
Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данных
 

неделя науки

  • 1. «НЕДЕЛЯ НАУКИ СПбГПУ» 3-8 декабря 2012 года Облачная система интеллектуального анализа данных Вязьмина А.Н.*, Жилин С.И.*, Киргизов С.С.**, Ледомский П.А.*, Мусиенко Н.П.*, Нуждин П.В.*, Пятков В.Д.* * Алтайский Государственный Университет, Барнаул, Россия ** Университет Пьера и Мари Кюри, Париж, Франция Декабрь 2012г. Санкт-Петербург
  • 2. Формулировка проблемы • Потребность в интеллектуальной обработке данных: – бизнес аналитика; – финансовая аналитика; – наука (медицина, гномика, биология). • Аппаратная и программная поддержка: – наличие ресурсов у конкретного аналитика; – обработка больших объёмов данных; – обмен результатами анализа. 2
  • 3. Интерфейс и потоковая модель Потоковая модель представления сценария используется в продуктах: RapidMiner, KNIME, Weka, Taverna и др. 3
  • 4. Функциональные требования • Проектирования сценария анализа данных в виде графа. • Параллельное вычисление сценария. • Интеграции библиотек решения задач большого объёма данных. • Групповая работа. • Расширение функционала сервиса пользовательскими программами обработки данных. 5
  • 5. Функциональные требования • Обработка данных на любом оборудовании из любой точки мира. Service • Хранение и обработка данных предоставленных пользователем 6
  • 6. Устройство HTTP Client side (Rest) Core HTML5 HTTP Calculation Strorage (Rest) Manager Calculation Server Hadoop Calculation Node 7
  • 7. Веб-интерфейс Выполнение Core 8
  • 8. Планировщик потокового сценария Calculation Manager Направление потока вычислений 9
  • 9. Подсистема вычисления Calculation Server Java Вычислители Python Вычислители Sockets Scala Вычислители R Вычислители Strorage 10
  • 10. Хранение данных • Бинарные данные с возможностью произвольного доступа. • Табличные данные с объявленной структурой с возможностью быстрого доступа к записи по порядковому номеру. Binary Data Binary Data (Spec) FS Data Table Binary Data (Data Table) 11
  • 11. Пример решения задачи Набор данных Iris Набор данных Iris 12
  • 12. Расширение функциональности CustomNode.java ModuleMetaData.xml <root> public class CustomNode extends TemplateLocal { <mainClass> @Override my.namespace.CustomNode public Properties makeProperties() {…} </mainClass> @Override </root> public Ports makePorts() {…} @Override public TaskPropertyNotValidEx validateProperty(name, property) {…} @Override public TaskConnectionNotValidEx validateConnection(connection, workflow) {…} @Override public Status calculate(Properties properties, Map<String, DataReadable> dataByProperty, Map<String, DataTableReadable> inputData, Map<String, ModelReadable> inputModel, Map<String, DataTableWritable> outputData, Map<String, ModelWritable> outputModel, StatusCalculating status) {…} } 13
  • 13. Результаты и перспективы • Поддержка любых устройств в любой точке мира. • Открытое API для доступа к сервису. • Предоставление доступа к данным любому пользователю. • Простое потоковое представление сценария. • Возможность расширения функциональными модулями на любом популярном языке (Java, R, Python). 14
  • 14. Спасибо за внимание! vldpyatkov@gmail.com 15