Основы OLAP. Вебинар Workaround в SoftengiSoftengi
16 декабря 2014 года сообщество Workaround в Softengi провело первый вебинар "Основы OLAP", докладчиком которого был Юрий Марков, архитектор решений с 15-летним опытом в ИТ.
О чем:
Данные != Информация
Хранилища информации как источник информации для принятия решений
Архитектура хранилищ данных
Реализация OLAP на примере Microsoft SQL Server
Для кого: разработчики баз данных, аналитики, IT-специалисты.
Организатор: семинары Workaround в Softengi. Стартовали в феврале 2014 года как закрытые Архитектурные семинары для сотрудников (https://www.youtube.com/user/softengi ). В октябре 2014 года стали открытыми семинарами Workaround (он же «костыль» или обходной прием) для разработчиков и архитекторов ПО.
This presentation was created by me for the course of Information technology in 2012. It contains detailed description of OLAP technology and basic description of OLTP technology.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Основы OLAP. Вебинар Workaround в SoftengiSoftengi
16 декабря 2014 года сообщество Workaround в Softengi провело первый вебинар "Основы OLAP", докладчиком которого был Юрий Марков, архитектор решений с 15-летним опытом в ИТ.
О чем:
Данные != Информация
Хранилища информации как источник информации для принятия решений
Архитектура хранилищ данных
Реализация OLAP на примере Microsoft SQL Server
Для кого: разработчики баз данных, аналитики, IT-специалисты.
Организатор: семинары Workaround в Softengi. Стартовали в феврале 2014 года как закрытые Архитектурные семинары для сотрудников (https://www.youtube.com/user/softengi ). В октябре 2014 года стали открытыми семинарами Workaround (он же «костыль» или обходной прием) для разработчиков и архитекторов ПО.
This presentation was created by me for the course of Information technology in 2012. It contains detailed description of OLAP technology and basic description of OLTP technology.
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Learning schemes are machine learning algorithms that can automatically discover hypotheses from data to make predictions on new data. They learn models from a training dataset and apply those models to unlabeled data to predict labels. RapidMiner includes many common learning schemes directly as well as integrating all of Weka's learning algorithms. Examples of learning schemes in RapidMiner are AdaBoost, additive regression, agglomerative clustering, bagging, basic rule learner, Bayesian boosting, and CHAID.
RapidMiner 5 provides important elements for setting up a new local repository including starting the RapidMiner executable, selecting "New Local Repository" when prompted, and giving the address for the new repository. It also allows generating test data without any initial data and has three perspectives for the welcome screen, design, and results. The document encourages reaching out to support or visiting the website for any additional questions.
RapidMiner offers several products for data analytics including a Community Edition, Enterprise Edition, and Enterprise Analytics Server. The Community Edition is open source but provides limited support, while the Enterprise Edition offers various paid versions with support and maintenance. RapidMiner also provides extensions that add functionality for tasks like text processing, parallel processing, and working with time series data.
This document discusses advanced processes and operators in RapidMiner including feature selection, splitting processes, OLAP operators, post processing operators, and preprocessing operators. Feature selection uses the backward elimination algorithm to test which attributes are relevant for building a better model. Processes can be split into learning and applying sections. OLAP operators support tasks like grouping, aggregation, and pivoting for multidimensional analysis. Post processing operators perform actions after modeling like cost-sensitive threshold selection. Preprocessing operators generate new features or clean data by imputing missing values.
RapidMiner allows modeling data using various operators by first retrieving data from a repository, selecting a data model, inserting a new operator, applying the model by running the process, and viewing results and exploring the model. More questions can be directed to support@dataminingtools.net or by visiting www.dataminingtools.net.
1. The Word & Web Vector Tool is a Java library that creates word vector representations of text documents to support text processing applications.
2. To install the Word Vector tool, download the archive and put it in the lib/plugins directory of a RapidMiner installation.
3. The tool bridges gaps between sophisticated linguistic packages and partial text/information retrieval solutions by providing a simple yet extensible pure Java library that can be invoked from any Java application.
RapidMiner offers many machine learning algorithms including support vector machines, decision trees, rule learners, lazy learners, Bayesian learners, and logistic regression. It also supports association rule mining and clustering. Specific algorithms include decision trees similar to C4.5, neural networks using backpropagation, and Bayesian Boosting which trains an ensemble of classifiers. RapidMiner also provides techniques for preprocessing data like feature selection, discretization, normalization, and sampling as well as validation and genetic algorithms for feature selection.
RapidMiner is an environment for machine learning and data mining processes that follows a modular operator concept. It introduces transparent data handling and process modeling to ease configuration for end users. Additionally, its clear interfaces and scripting language based on XML make it an integrated developer environment for data mining and machine learning. To get started with RapidMiner, users download the file for their system from the website, install it by accepting the license agreement and specifying the installation directory, then launch it by double clicking the desktop icon.
Druid is one useful and popular tool in the Big Data world. It is this OLAP system that allows you to efficiently process, store and query data. Which confirms the demand for Druid among tools in the Big Data processing environment.
With Vladimir Iordanov we will talk about how Druid works, what it consists of and what its capabilities are. Vladimir will introduce us to the Druid components, talk about the cluster architecture, how data processing is going on.
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
Публикуем небольшую часть раздаточных материалов нашего семинара «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ», который прошел 24-25 апреля 2014 г. в Москве. Подробнее о семинаре, отзывы участников семинара см. здесь: http://analytikaplus.ru/?page_id=2122
BigData Dive in Minsk / Altoros conference /
Windows Azure and BigData- autoscale, Linux, HDInsigh.
Options for developers and startups - BizSpark, msdn subscriptions, seed fund
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
Alexey Zinoviev Алексей Зиновьев рассказывает о выборе одной из следующих баз данных CouchDB, Neo4j, Mongo, Cassandra, HBase, Riak на Happydev 2013
Article "Choice of NoSQL database for your project: Don't bite off more than you can chew" presented on HappyDev 2013 (IT-conference in Omsk) by Alexey Zinoviev
The main idea of this article is comparison of the most popular NoSQL databases: CouchDB, Cassandra, Mongodb, Riak, Neo4j, HBase
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамSECL
На протяжении 11 лет работы я наблюдаю, как создаются и умирают большие проекты. Для себя я понял, что есть правильные подходы, которые приводят к успеху и неправильные, которые на разных этапах "валят" проект.
В этом докладе я расскажу, что важнее, идея или реализация; какие ресурсы нужны для больших проектов, в том числе финансовые; какая команда понадобится; как правильно сделать UX / UI проектирование; как правильно выбрать технологии и продумать архитектуру; как работать с мобильными технологиями; какие сервера вам понадобятся на старте и почему; как получить первых посетителей и выстроить первые продажи, также много другой полезной информации.
Если когда-либо создавали или планируете создавать серьезный интернет-проект - доклад обязателен для вас!
Learning schemes are machine learning algorithms that can automatically discover hypotheses from data to make predictions on new data. They learn models from a training dataset and apply those models to unlabeled data to predict labels. RapidMiner includes many common learning schemes directly as well as integrating all of Weka's learning algorithms. Examples of learning schemes in RapidMiner are AdaBoost, additive regression, agglomerative clustering, bagging, basic rule learner, Bayesian boosting, and CHAID.
RapidMiner 5 provides important elements for setting up a new local repository including starting the RapidMiner executable, selecting "New Local Repository" when prompted, and giving the address for the new repository. It also allows generating test data without any initial data and has three perspectives for the welcome screen, design, and results. The document encourages reaching out to support or visiting the website for any additional questions.
RapidMiner offers several products for data analytics including a Community Edition, Enterprise Edition, and Enterprise Analytics Server. The Community Edition is open source but provides limited support, while the Enterprise Edition offers various paid versions with support and maintenance. RapidMiner also provides extensions that add functionality for tasks like text processing, parallel processing, and working with time series data.
This document discusses advanced processes and operators in RapidMiner including feature selection, splitting processes, OLAP operators, post processing operators, and preprocessing operators. Feature selection uses the backward elimination algorithm to test which attributes are relevant for building a better model. Processes can be split into learning and applying sections. OLAP operators support tasks like grouping, aggregation, and pivoting for multidimensional analysis. Post processing operators perform actions after modeling like cost-sensitive threshold selection. Preprocessing operators generate new features or clean data by imputing missing values.
RapidMiner allows modeling data using various operators by first retrieving data from a repository, selecting a data model, inserting a new operator, applying the model by running the process, and viewing results and exploring the model. More questions can be directed to support@dataminingtools.net or by visiting www.dataminingtools.net.
1. The Word & Web Vector Tool is a Java library that creates word vector representations of text documents to support text processing applications.
2. To install the Word Vector tool, download the archive and put it in the lib/plugins directory of a RapidMiner installation.
3. The tool bridges gaps between sophisticated linguistic packages and partial text/information retrieval solutions by providing a simple yet extensible pure Java library that can be invoked from any Java application.
RapidMiner offers many machine learning algorithms including support vector machines, decision trees, rule learners, lazy learners, Bayesian learners, and logistic regression. It also supports association rule mining and clustering. Specific algorithms include decision trees similar to C4.5, neural networks using backpropagation, and Bayesian Boosting which trains an ensemble of classifiers. RapidMiner also provides techniques for preprocessing data like feature selection, discretization, normalization, and sampling as well as validation and genetic algorithms for feature selection.
RapidMiner is an environment for machine learning and data mining processes that follows a modular operator concept. It introduces transparent data handling and process modeling to ease configuration for end users. Additionally, its clear interfaces and scripting language based on XML make it an integrated developer environment for data mining and machine learning. To get started with RapidMiner, users download the file for their system from the website, install it by accepting the license agreement and specifying the installation directory, then launch it by double clicking the desktop icon.
Druid is one useful and popular tool in the Big Data world. It is this OLAP system that allows you to efficiently process, store and query data. Which confirms the demand for Druid among tools in the Big Data processing environment.
With Vladimir Iordanov we will talk about how Druid works, what it consists of and what its capabilities are. Vladimir will introduce us to the Druid components, talk about the cluster architecture, how data processing is going on.
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
Публикуем небольшую часть раздаточных материалов нашего семинара «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ», который прошел 24-25 апреля 2014 г. в Москве. Подробнее о семинаре, отзывы участников семинара см. здесь: http://analytikaplus.ru/?page_id=2122
BigData Dive in Minsk / Altoros conference /
Windows Azure and BigData- autoscale, Linux, HDInsigh.
Options for developers and startups - BizSpark, msdn subscriptions, seed fund
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
Alexey Zinoviev Алексей Зиновьев рассказывает о выборе одной из следующих баз данных CouchDB, Neo4j, Mongo, Cassandra, HBase, Riak на Happydev 2013
Article "Choice of NoSQL database for your project: Don't bite off more than you can chew" presented on HappyDev 2013 (IT-conference in Omsk) by Alexey Zinoviev
The main idea of this article is comparison of the most popular NoSQL databases: CouchDB, Cassandra, Mongodb, Riak, Neo4j, HBase
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
IForum 2016: Никита Семенов. Серьезный подход к серьезным проектамSECL
На протяжении 11 лет работы я наблюдаю, как создаются и умирают большие проекты. Для себя я понял, что есть правильные подходы, которые приводят к успеху и неправильные, которые на разных этапах "валят" проект.
В этом докладе я расскажу, что важнее, идея или реализация; какие ресурсы нужны для больших проектов, в том числе финансовые; какая команда понадобится; как правильно сделать UX / UI проектирование; как правильно выбрать технологии и продумать архитектуру; как работать с мобильными технологиями; какие сервера вам понадобятся на старте и почему; как получить первых посетителей и выстроить первые продажи, также много другой полезной информации.
Если когда-либо создавали или планируете создавать серьезный интернет-проект - доклад обязателен для вас!
Обзор подходов к построению прикладных программных систем на Node.js, анализ и сравнение архитектурных принципов развертывания высоконагруженных прикладных облачных сервисов, масштабирование, тенденции и перспективы в разработке приложений, обзор проблем платформы Node.js и пути их решения.
1. DMSaaS
Анализ данных как услуга
Выполнил студент 2 курса магистратуры
Математического факультета
464 группы
Нуждин Павел Вячеславович
Научный руководитель:
к.ф.м.н. Жилин С.И.
2. Определение проблемы
● Исследователи в различных областях
используют методы анализа данных.
● Для решения некоторых задач необходимо:
– обработать большой объем данных;
– выполнить большой объем вычислений.
● Существуют алгоритмы, которые могут быть
эффективно распараллелены. Y =b0 b1 X 1b 2 X 2...b N X N
M
● Как правило, у исследователя есть список ∑k =1 Y k −Y k 2 min
задач, некоторые из которых могут быть
решены параллельно.
● Многие исследователи не готовы решать
возникающие специфические проблемы.
2
3. Инструменты для анализа данных
● Cуществуют инструменты, реализующее методы анализа данных (R
Project, Weka, JHepWork, Matlab, Orange, Apache Mahout);
● Среди инструментов для анализа данных можно найти инструменты с
графическим интерфейсом;
● Особое место занимают инструменты, в которых задачи
представлены в виде потока данных dataflow (Knime, RapidMiner,
Taverna).
матрица
чтение
данных A
C
С = AB
B
матрица
чтение
данных
3
4. Облачные вычисления
Технология распределенной обработки данных, в которой которой
компьютерные ресурсы представляются как Интернет-сервис:
IaaS Infrastructure-as-a-Service
PaaS Platform-as-a-Service
SaaS Software-as-a-Service
4
5. Требования к сервису
для анализа данных
Сервис с графическим интерфейсом для решения задач анализа
данных в виде потоковых сценариев должен позволять:
● управлять наборами данных;
● управлять потоковыми сценариями;
● выполнять потоковый сценарий и получать результаты решения задач;
● импортировать и экспортировать данные в стандартные форматы;
● визуализировать данные и результаты решения задач сценария;
● организовывать групповую работу с разделением прав.
Задачи сценариев могут быть с:
● последовательной реализацией;
● распределенной реализацией в моделях: передача сообщений (MPI),
параллельность по данным (MapReduce).
5
8. Технологии
Веб-приложение:
● JavaScript, CSS, HTML5.
● Веб-сервер Apache Tomcat.
Ядро, менеджер вычислений, сервер вычислений, хранилище —
RESTful веб-сервисы:
● MySQL.
● Java EE Enterprise JavaBeans (EJB) — серверные компоненты
содержащие бизнес-логику либо являющиеся представлением
объектов БД;
● Java EE Persistence API (JPA) — интерфейс для доступа к БД;
● Java EE RESTful Web Services (JAX-RS) — серверные компоненты с HTTP-
интерфейсом;.
● Сервер приложений GlassFish.
● Apache Hadoop
8
9. REST
● Архитектурный стиль для создания распределенных систем (Stateless,
Cacheable, Layered system, Uniform interface).
● Цели:
– масштабируемость;
– общность интерфейсов;
– независимое развертывание компонентов;
– поддержка промежуточных компонентов;
● Появление тесно связано с HTTP.
● RESTful веб-сервисы — веб-сервисы в HTTP + REST:
– общий путь для всех ресурсов (http://a.com/resources/…);
– поддержка Internet Media Types (JSON, XML, …);
– использование HTTP методов (GET, POST, PUT, DELETE);
– использование гиперссылок;
9
10. Проектные решения
Задача
● Шаблон задачи — собранная в JAR программ на Java, в состав которой
входят классы, наследуемые от базовых классов DMSaaS.
DMSaaS
базовые DataTableReadable
классы DataTableWritable Значения Экземпляры
... параметров DataTable
классы
Задача
Шаблон задачи
(JAR)
10
11. Проектные решения
Коллективная работа
● Группа — связанный общими ресурсами (данные, шаблоны задач,
фреймворки для распределенных вычислений) список пользователей.
● Публичная группа:
– члены получают ресурсы владельца группы;
– любой может присоединиться / самоисключиться;
● Закрытая группа:
– члены группы получают ресурсы друг друга;
– присоединение только по приглашениям;
– владелец может исключать членов группы;
– любой может самоисключиться.
● Готовность:
– добавление / удаление / получение групп;
– включение в открытую группу;
– cамоисключение из группы;
– приглашение/исключение из группы;
– поделиться ресурсами;
11