1. Автоматизация обработки
неконсолидированных разнородных
массивов данных в целях
маркетинговых исследований товарных
рынков
Студент Москвин Д.А.
Научный руководитель профессор Ботвин Г.А.
Экономический факультет СПбГУ
«Бизнес-Информатика»
29.05.2016
1 июня 2016 г.
2. Цель работы
Разработать алгоритм автоматизации обработки, хранения и предоставления
изначально слабоструктурированных массивов данных индустриального рынка в
целях маркетинговых исследований с использованием таких программных продуктов
как MS Excel и Tableau.
Экономический факультет СПбГУ
«Бизнес-Информатика»
2
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
3. Задачи
1) Ознакомиться со спецификой новой предметной области на базе исследований,
проведенных ИА «Инфолайн-Аналитика», выделить ключевые информационные
ресурсы, являющиеся основанием маркетинговых исследований по
индустриальному рынку
2) Подготовить данные к анализу, в том числе разработать макрос в MS Excel,
который способен вычленять из текстовых данных искомые числовые значения
3) Разработать аналитический план работы с полученными данными, включающий
в себя перечень возможных гипотез, строящихся на основании задействованных
переменных
4) Создать бизнес-приложение в BI-системе Tableau, являющееся демонстрацией
результатов исследования с автоматически обновляющейся базой для публикации в
сети Интернет
Экономический факультет СПбГУ
«Бизнес-Информатика»
3
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
4. Ориентация исследования
• Менеджмент и отдел маркетинга производителей – для оценки конкурентного
окружения;
• Специалисты отдела продаж и отдела по работе с клиентами организаций,
осуществляющих поставки металлоконструкций и сопутствующих объектов
производства – для активизации сбыта и поиска новых клиентов;
• Специалисты отделов закупок строительных фирм – для повышения
эффективности закупочной деятельности;
• Банковские структуры, инвестиционные компании и частные инвесторы – для
формирования и улучшения стратегии инвестирования в промышленность
строительных материалов.
Экономический факультет СПбГУ
«Бизнес-Информатика»
4
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
5. Предметная область
Данные, предоставленные ИА «Инфолайн-Аналитика:
• Таблица 113 x 217000 таможенных транзакций внешнеторгового
оборота металлопродукции*
• Таблица Excel 31 x 519 производители металлоконструкций
Экономический факультет СПбГУ
«Бизнес-Информатика»
5
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
Индустриальный рынок металлоконструкций и сэндвич-панелей РФ
6. Алгоритм обработки
1. Для каждого вида источников информации выделить приоритетные части
2. Устранить ошибки в переменных
3. Проанализировать выбранные переменные на предмет информативности
4. Определить ключевые переменные для создания лучших фильтров
5. Разработать аналитический план работы с данными
6. Осуществить консолидацию всех данных в одном программном продукте
7. Подготовить типовые элементы отчетов с возможностью доработки
Экономический факультет СПбГУ
«Бизнес-Информатика»
6
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
7. Заполнение ключевых сущностей
исследования
Название поля Описание Формат Вид данных
УНИ-регион отправления Для российских компаний определяется по первым
трем цифрам почтового индекса. Для зарубежных
компаний – не заполняется
String Челябинская область
УНИ-Страна получения Определяется по коду страны (есть в исходной
выборке), подгружается из базы международных
кодов стран
String Россия
УНИ-Таможенная стоимость Берется из исходной выгрузки. Если этих данных
нет, то тогда рассчитывается как статистическая
стоимость из исходной выгрузки, умноженная на
курс доллара на момент составления декларации.
Если и этих данных нет, то оценивается
Number (Decimal) 72190
Экономический факультет СПбГУ
«Бизнес-Информатика»
7
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
8. Причины выбора Tableau
Экономический факультет СПбГУ
«Бизнес-Информатика»
8
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
Целостность видения
Совершенствоплатформы
• 1 место по одному из критериев
Gartner
• Несколько лет в списках
лидеров
• Простота визуализации
• Простота публикации
результатов работы
The 2016 Gartner BI Magic Quadrant
9. Проблемы консолидации данных
Экономический факультет СПбГУ
«Бизнес-Информатика»
9
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
Ключевые сущности:
• База таможенных транзакций внешнеторгового
оборота металлопродукции
• База данных «Топ 400 производителей
металлоконструкций»
Справочники:
• База почтовых кодов России
• База кодов стран
• Курс доллара за заявленный период
• База таможенных органов
• База таможенных режимов
• База условий поставки
• Пропуски
• Ошибки заполнения
• Неструктурированность
данных
10. Экономический факультет СПбГУ
«Бизнес-Информатика»
10
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
Консолидация данных в Tableau
ERD-диаграмма связи с таблицей
Таможня МК и СП 2004-2009
Организация связей справочников
с основной таблицей
11. Разработка гипотез
• Определить самые проходимые таможенные органы, интерпретировать результаты
Чем интересна гипотеза:
Данный вопрос может заинтересовать дистрибьюторов рынка металлоконструкций, так
как формирование складских помещений и логистики на основании проходимых
объемов может быть целесообразным. Также по данному показателю можно
формировать команды и/или заниматься расширением таможен, ведь их
загруженность может быть весьма динамичной
• Определить динамику цен металлопродукции и проверить гипотезу взаимосвязи с
курсом доллара
Чем интересна гипотеза:
Прогнозирование цен на металлоконструкции
Экономический факультет СПбГУ
«Бизнес-Информатика»
11
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
12. Загруженность таможенных органов
Создаем справочник таможенных органов
1. Формирование списка объектов
2. Удаление дубликатов и ошибок
3. Вычленение адресов объектов
4. Объединение с ключевой сущностью
5. Нанесение на карту
6. Формирование ТОП проходимости таможенных органов
7. Создание дашбордов
8. Поверхностная интерпретация результатов
Экономический факультет СПбГУ
«Бизнес-Информатика»
12
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
14. Связь цены на металлоконструкции с
курсом доллара
1. Определить предпосылки гипотезы
2. Организовать справочник курса доллара за 2004-2009
3. Устранить пропуски
4. Посмотреть динамику курса доллара и цены на МК
5. Построить диаграмму рассеивания*
6. Регрессионный анализ
7. Создание дашбордов
8. Интерпретация результатов
Экономический факультет СПбГУ
«Бизнес-Информатика»
14
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
16. Ссылка на работу: https://public.tableau.com/profile/dmitry2592#!/
Экономический факультет СПбГУ
«Бизнес-Информатика»
16
Автоматизация обработки неконсолидированных разнородных массивов
данных в целях маркетинговых исследований товарных рынков1 июня 2016
Публикация работы в сети Интернет
17. Автоматизация обработки
неконсолидированных разнородных
массивов данных в целях
маркетинговых исследований товарных
рынков
Студент Москвин Д.А.
Научный руководитель к.т.н. Ботвин Г.А.
Экономический факультет СПбГУ
«Бизнес-Информатика»
29.05.2016
1 июня 2016 г.