SlideShare a Scribd company logo
1 of 5
Конкурс для молодежи
YOUTH DATASCIENCE CHALLENGE 2018
Сроки: 24.08.2018-20.09.2018
О конкурсе:
ЮНИСЕФ уже 70 лет занимается инновациями для детей. Инновации поддерживают
организации в более 135 страновых отделениях в поиске решений для наиболее
уязвимых детей в мире. Инновации в ЮНИСЕФ определяются как «выполнение чего-то
нового или другого, что повышает ценность». Инновации - это межсекторальная
функция, которая повышает эффективность программ и развития, а также управление и
ориентируется во всех контекстах Принципами инноваций ЮНИСЕФ
(http://www.unicefstories.org/principles/). ЮНИСЕФ занимается тестированием и
расширением новых партнерств, технологий и сотрудничества в некоторых наиболее
сложных в мире операционных средах.
Роль данных для детей, которая рассматривается как основа разработки политики в
отношении фактических данных для детей, была подкреплена новыми обязательствами
в отношении целей устойчивого развития (ЦУР), ориентированныхна детей. В повестке
дня ЦУР содержится призыв к новым путям выявлениянаиболее уязвимых детей с более
широким признанием взаимосвязи нищеты, здоровья, образования и других аспектов
благосостояния детей. С этой целью ЮНИСЕФ определяет данные для детей, как
данные для детей и о них: благосостояние и перспективы детей и их семей, условия их
жизни и способ достижения или невозможности их охвата услугами и системами.
Пространство данных в Казахстане становится все более сложным, поскольку многие
типы и формы данных генерируются государством и частным сектором, а также самим
населением посредством ускоренного использования технологий. В то же время
директивные органы на национальном и местном уровнях требуют доступа к точным,
своевременным данным и анализу, чтобы информировать программы и бюджеты,
ориентированныена конкретные результаты, в соответствии с национальной стратегией
«Пять институциональныхреформ». Наличие данных, доступность и анализ политики в
государственном секторе по-прежнему являются областью для улучшения с
ограничениями, обусловленными отраслевыми «узковедомственными» системами.
ЮНИСЕФ считает, что необходимо изменить статус сбора, анализа и распространения
данных в Казахстане, а текущие реформы государственного управления и инициативы
по цифровизации предоставляют возможность переосмыслить, как лучшие данные
могут способствовать улучшению политики для детей.
В партнерстве с Казахстанским Британским Техническим университетом,
Университетом Нархоза и Международным университетом информационных
технологий, ЮНИСЕФ создал научный центр данных (Data Science Hub (DSH)) в
Казахстане, который будет работать вместе над поиском решений в области науки о
данных, чтобы лучше решать самые насущные проблемы, с которыми сталкиваются
дети во всем мире..
Этот центр станет эталоном - механизм его работы может стать примером для других
организаций (как частных, так и общественных), которые будут тиражировать этот опыт
по всей стране.
Основная задача DSH - улучшить мониторинг благосостояния детей в Казахстане с
использованием данных и обработки данных, а также проверить инновационные
подходы к мониторингу прогресса ЦУР для детей.
DSH позволит получить соответствующие знания и разработать университеты,
которые подходят к сбору, объединению и анализу данных из разных источников, а
также для запуска перспективныхпроектов в рамках ЦУР.
DSH будет использовать наборы данных и варианты использования из ЮНИСЕФ в
процессе обучения и для постановки задач для технологических стартапов.
Цель и задачи
Задача, Youth data science challenge, заключается в демонстрации того, как молодежь
может использовать мощь «больших данных» для мониторинга прогресса для каждого
ребенка с использованием инновационных решений в области данных для целей
устойчивого развития (ЦУР). В мероприятии соберутся молодые ученые и
исследователи, которые реализуют проекты по анализу данных и визуализации в
отношении индикаторов ЦУР, ориентированных на детей, и исследуют потенциал
новых источников данных (открытые данные / большие данные) для обоснованной
политики и принятия решений.
Ожидаемые результаты
● Продвигать публичный дискурс о роли данных в анализе политики и
осуществлении политики для устранения неравенства, с которым сталкиваются
дети в Казахстане
● Повысить осведомленность о новаторствах в использовании данныхи
возможности использования больших данных для социального блага
● Консолидация сети молодых ученых и исследователей данных, представителей
государственного и корпоративного секторов в поисках инновационных
решений в области данных, которые помогают детям
Формат мероприятия
Youth Data science challenge будет проводиться в режиме онлайн. Конкурс состоит из
двух частей:
1. Research work (white paper) and submission Исследовательская работа
(технический документ) и представление/подача
2. Презентация на мероприятии Data for children (необязательно для этого этапа)
25 лучших молодых ученых примут участие в главном мероприятии «Data for children»,
которое пройдет 6 октября 2018 года в Астане, Казахстан. Лучшие 15 команд представят
свои результаты в форме публичной презентации (продолжительность 15-20 минут) на
мероприятии Data for children. Общественный форум будет состоять из двух сессий,
включая инновации ЮНИСЕФ и инновации данных для поддержки прогресса для
каждого ребенка.
Объем исследования:
● Сравнительный анализ и определения источников данных (открытые /
закрытые данные / открытые государственные данные) - понять, что доступно,
включая такие кластеры баз данных, такие как электронные правительства;
Министерство юстиции и законодательные базы данных; финансовые
базы данных, включая расходы бюджета; базы данных экономики,
образования; гео-пространственные базы данных;
● Дезагрегированный анализ - город/село; пол; возраст; административно-
территориальное расположение
● Выводы и визуализация данных
● Рекомендации для государственной политики и управления данными для
более эффективного мониторинга ЦУР.
Участники будут работать по следующим индикаторами ЦУР:
3.b.1 Доля населения, охваченного всеми вакцинами, включенными в их национальную
программу
– DTP3 Дифтерия-столбняк-коклюш 3 (%)
4.2.2 Уровень вовлеченности в организованном обучении за год до официального
возраста поступления в начальную школу
16.2.1 Доля детей в возрасте 1-14 лет, которые подвергались физическому наказанию и
/ или психологическому насилию лицами, осуществляющими уход за последний месяц
(%)
3.6.1. Смертность в результате дорожно-транспортныхтравм.
1.2.1 Дети, живущие за национальной чертой бедности (%)
Белая книга/Технический документ
Технический документ (исследовательская работа) должен состоять из подробного
описания следующих этапов:
● Понимание проблемы (Оценка: 5%)
● Сбор данных (15%)
Вот несколько способов самостоятельно получить некоторые данные:
- Подключение к базам данных: поиск частных или публичных баз данных
- Использование API: подумайте об API для всех инструментов и
собранных данных. Если вы не эксперт-кодер,то
http://www.dataiku.com/dss/plugins/ даст вам много возможностей для
получения внешних данных!
- Ищите открытые данные: открытые данные, кластеры наборов данных
как e-gov; наборы данных Министерство юстиции и законодательные
наборы данных; финансовые наборы данных, включая расходы бюджета;
наборы данных экономики, наборы данных образования;
геопространственные наборы данных. Проверьте kaggle.com, или
https://github.com/awesomedata/awesome-public-datasets с
множеством наборов данных для примера
● Подготовка данных (20%). Исследуйте и очищайте данные
Часто упоминается как очистка данных или перетасовка данных. Получив
данные, ученые должны очистить и переформатировать данные, вручную
отредактировав их в электронной таблице или написав код. Например:
- Убрать выбросы по количественным переменным.
- Заменить пропущенные значения, сделав экстраполяцию или
интерполяцию.
- Создание общего datamart, то есть объединение нескольких таблиц
воедино.
● Гипотеза и моделирование (20%).
Это основная деятельность проекта в области науки о данных, которая требует
написания, выполнения и совершенствование программ для анализа и получения
значимой информации из данных. Часто эти программы написаны на таких
языках, как Python, R, Java. Различные методы машинного обучения
применяются к данным для определения модели машинного обучения, которая
наилучшим образом соответствует потребностям бизнеса.
- Посмотрите примеры реализации проектов на kaggle.com, крайне
рекомендуется перед реализацией модели сделать exploratory data analysis,
это поможет вам лучше понять данные.
- Задумайтесь о том, чтобы доказать не волатильны ли результаты вашей
модели, возможно вам поможет cross-validation и похожие методы.
- Рекомендуется начать с простых моделей машинного обучения,
(Regression, Decision Tree, Random Forest), попробовать несколько
Boosting алгоритмов (xgboost, adaboost, lgbm etc) с grid search для тюнинга
параметров и поиска лучших параметров, в конце желательно
попробовать сделать ансамбль моделей, априори это увеличивает
эффективность вашей модели, но опасайтесь переобучения.
● Найдите идеи и визуализируйте (15%)
- Ищите вдохновения с таких сайтов как pudding, visme, kaggle и т.д.
- Для Python и R есть возможность реализовать динамические графики,
будет большим плюсом если вы воспользуетесь ими, например, такие
пакеты, программы и дополнения как: leaflet, plotly, shiny, power bi,
tableau, falcon и т.д.
- Визуализация поможет вам легко объяснить свою идею судьям и другим
желающим.
● Развертывание машинного обучения
● Рекомендации для государственной политики и управления данными для
более эффективного мониторинга ЦУР (25%)
- Вы можете применить Power BI, он очень простой и удобный для
реализации BI отчетов, где можно вести мониторинг ЦУР. Также вы
можете посмотреть аналоги Tableau и т.д.
Развертывание проекта:
После выполнения этапа «Найдите идеи и визуализируйте», разверните свой проект
локально, затем загрузите исходные файлы и использованный набор данных в
Kaggle.com. В White Paper обязательно добавьте ссылку на вашу работу в Kaggle.
Для этого вам необходимо:
- Зарегистрироваться на сайте https://www.kaggle.com/.
- Перейти в раздел Kernels -> New Kernel
- Выбрать Notebook.
- Инструкцию по реализации Kernels в kaggle вы можете найти здесь.
- В Kaggle заливаете свое решение для того, чтобы проверить ваш код на
правильность.
- Если вы используете сторонние программы такие как Power BI, то вы можете
отправить их с исходными материалами.
- Успешно скомпилировав свой код, перейдите в свой профиль, нажмите на
Kernels, выберите свой Kernels и скопируйте ее ссылку в адресной строке.
Обязательно добавьте ссылку в White Paper.
Квалификационные требования:
● Участники должны быть зачислены в бакалавриат или магистратуру по
компьютерным наукам или окончили обучение в течение последних двух лет
на момент подачи заявки на участие.
● Хорошая академическая успеваемость
● Подтвержденный опыт в области computer science
● Подтвержденный интерес к инновациям и технологиям для развития
● Опыт в следующем: Python/R/Java, SQL/NoSQL
Для подачи заявки:
До 20 сентября 2018 года через ссылку http://datahub.com.kz/datasciencechallenge
необходимо отправить:
● Работа (исследования и рекомендации в формате белой книги) должна быть
представлена в виде PDF файлов не более 4 мегабайт и менее 10 страниц.
● Исходные коды и используемый в проекте набор данных
● Короткий 2-минутный видеоролико себе (ссылку на видео)
● Публичная презентация (продолжительность 15-20 минут, необязательная
для этого этапа)
● Части исследований, если они используются в социальных сетях,
должны сопровождаться следующими хэштегами: #ForEveryChild,
#Innovation, #Datahub

More Related Content

Similar to Competition

Дизайн-мышление и развитие бизнеса
Дизайн-мышление и развитие бизнесаДизайн-мышление и развитие бизнеса
Дизайн-мышление и развитие бизнесаUNDP Moldova
 
политика
политикаполитика
политикаakpomah
 
обоснование нирм
обоснование нирмобоснование нирм
обоснование нирмtiskovich
 
Бюллетень "Инфошкола". Выпуск 21
Бюллетень "Инфошкола". Выпуск 21Бюллетень "Инфошкола". Выпуск 21
Бюллетень "Инфошкола". Выпуск 21Moscow IT Department
 
Электронный бюллетень «Инфошкола» 21-й выпуск
Электронный бюллетень «Инфошкола» 21-й выпуск Электронный бюллетень «Инфошкола» 21-й выпуск
Электронный бюллетень «Инфошкола» 21-й выпуск Елена Никонова
 
Презентация социального проекта Образовательный Акмеологический Центр “Цветок...
Презентация социального проекта Образовательный Акмеологический Центр “Цветок...Презентация социального проекта Образовательный Акмеологический Центр “Цветок...
Презентация социального проекта Образовательный Акмеологический Центр “Цветок...Серафим Погребнов
 
консультация (использование икт в работе психолога)
консультация (использование икт в работе психолога)консультация (использование икт в работе психолога)
консультация (использование икт в работе психолога)ostolga
 
Данные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮДанные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮThe Eureka Innovative Educational Network
 
Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...
Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...
Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...Исследовательская группа ЦИРКОН
 
оценка проектов и программ в сфере детства.базы инструментов и показателей
оценка проектов и программ в сфере детства.базы инструментов и показателейоценка проектов и программ в сфере детства.базы инструментов и показателей
оценка проектов и программ в сфере детства.базы инструментов и показателейЭволюция и Филантропия
 
новый русский
новый русскийновый русский
новый русскийdavidovanat
 
Бизнес-тренер - будущее профессии
Бизнес-тренер - будущее профессииБизнес-тренер - будущее профессии
Бизнес-тренер - будущее профессииSvetlana Larina
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power pointMaria16011972
 
2012-12 Отчет о конкурсе социальной рекламы
2012-12 Отчет о конкурсе социальной рекламы2012-12 Отчет о конкурсе социальной рекламы
2012-12 Отчет о конкурсе социальной рекламыАлександр Филюрин
 
Intro to Data Mining and Machine Learning
Intro to Data Mining and Machine LearningIntro to Data Mining and Machine Learning
Intro to Data Mining and Machine LearningDmitrii Ignatov
 
Digital branding прилжоение растишка мои достижения
Digital branding прилжоение растишка мои достиженияDigital branding прилжоение растишка мои достижения
Digital branding прилжоение растишка мои достиженияDigital Branding
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big DataAndrey Kazakevich
 

Similar to Competition (20)

Дизайн-мышление и развитие бизнеса
Дизайн-мышление и развитие бизнесаДизайн-мышление и развитие бизнеса
Дизайн-мышление и развитие бизнеса
 
НКО Лаб: Грантовые конкурсы частных фондов: приоритетные направления
НКО Лаб: Грантовые конкурсы частных фондов: приоритетные направленияНКО Лаб: Грантовые конкурсы частных фондов: приоритетные направления
НКО Лаб: Грантовые конкурсы частных фондов: приоритетные направления
 
политика
политикаполитика
политика
 
обоснование нирм
обоснование нирмобоснование нирм
обоснование нирм
 
Бюллетень "Инфошкола". Выпуск 21
Бюллетень "Инфошкола". Выпуск 21Бюллетень "Инфошкола". Выпуск 21
Бюллетень "Инфошкола". Выпуск 21
 
Электронный бюллетень «Инфошкола» 21-й выпуск
Электронный бюллетень «Инфошкола» 21-й выпуск Электронный бюллетень «Инфошкола» 21-й выпуск
Электронный бюллетень «Инфошкола» 21-й выпуск
 
Презентация социального проекта Образовательный Акмеологический Центр “Цветок...
Презентация социального проекта Образовательный Акмеологический Центр “Цветок...Презентация социального проекта Образовательный Акмеологический Центр “Цветок...
Презентация социального проекта Образовательный Акмеологический Центр “Цветок...
 
консультация (использование икт в работе психолога)
консультация (использование икт в работе психолога)консультация (использование икт в работе психолога)
консультация (использование икт в работе психолога)
 
Данные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮДанные в образовательной деятельности. Петряева ЕЮ
Данные в образовательной деятельности. Петряева ЕЮ
 
Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...
Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...
Текущее состояние и перспективы медиаграмотности населения РФ на основе нацио...
 
оценка проектов и программ в сфере детства.базы инструментов и показателей
оценка проектов и программ в сфере детства.базы инструментов и показателейоценка проектов и программ в сфере детства.базы инструментов и показателей
оценка проектов и программ в сфере детства.базы инструментов и показателей
 
обоснование темы опубл
обоснование темы опублобоснование темы опубл
обоснование темы опубл
 
новый русский
новый русскийновый русский
новый русский
 
Бизнес-тренер - будущее профессии
Бизнес-тренер - будущее профессииБизнес-тренер - будущее профессии
Бизнес-тренер - будущее профессии
 
презентация Microsoft office power point
презентация Microsoft office power pointпрезентация Microsoft office power point
презентация Microsoft office power point
 
2012-12 Отчет о конкурсе социальной рекламы
2012-12 Отчет о конкурсе социальной рекламы2012-12 Отчет о конкурсе социальной рекламы
2012-12 Отчет о конкурсе социальной рекламы
 
Intro to Data Mining and Machine Learning
Intro to Data Mining and Machine LearningIntro to Data Mining and Machine Learning
Intro to Data Mining and Machine Learning
 
Digital branding прилжоение растишка мои достижения
Digital branding прилжоение растишка мои достиженияDigital branding прилжоение растишка мои достижения
Digital branding прилжоение растишка мои достижения
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
 
для выступления
для выступлениядля выступления
для выступления
 

Competition

  • 1. Конкурс для молодежи YOUTH DATASCIENCE CHALLENGE 2018 Сроки: 24.08.2018-20.09.2018 О конкурсе: ЮНИСЕФ уже 70 лет занимается инновациями для детей. Инновации поддерживают организации в более 135 страновых отделениях в поиске решений для наиболее уязвимых детей в мире. Инновации в ЮНИСЕФ определяются как «выполнение чего-то нового или другого, что повышает ценность». Инновации - это межсекторальная функция, которая повышает эффективность программ и развития, а также управление и ориентируется во всех контекстах Принципами инноваций ЮНИСЕФ (http://www.unicefstories.org/principles/). ЮНИСЕФ занимается тестированием и расширением новых партнерств, технологий и сотрудничества в некоторых наиболее сложных в мире операционных средах. Роль данных для детей, которая рассматривается как основа разработки политики в отношении фактических данных для детей, была подкреплена новыми обязательствами в отношении целей устойчивого развития (ЦУР), ориентированныхна детей. В повестке дня ЦУР содержится призыв к новым путям выявлениянаиболее уязвимых детей с более широким признанием взаимосвязи нищеты, здоровья, образования и других аспектов благосостояния детей. С этой целью ЮНИСЕФ определяет данные для детей, как данные для детей и о них: благосостояние и перспективы детей и их семей, условия их жизни и способ достижения или невозможности их охвата услугами и системами. Пространство данных в Казахстане становится все более сложным, поскольку многие типы и формы данных генерируются государством и частным сектором, а также самим населением посредством ускоренного использования технологий. В то же время директивные органы на национальном и местном уровнях требуют доступа к точным, своевременным данным и анализу, чтобы информировать программы и бюджеты, ориентированныена конкретные результаты, в соответствии с национальной стратегией «Пять институциональныхреформ». Наличие данных, доступность и анализ политики в государственном секторе по-прежнему являются областью для улучшения с ограничениями, обусловленными отраслевыми «узковедомственными» системами. ЮНИСЕФ считает, что необходимо изменить статус сбора, анализа и распространения данных в Казахстане, а текущие реформы государственного управления и инициативы по цифровизации предоставляют возможность переосмыслить, как лучшие данные могут способствовать улучшению политики для детей. В партнерстве с Казахстанским Британским Техническим университетом, Университетом Нархоза и Международным университетом информационных технологий, ЮНИСЕФ создал научный центр данных (Data Science Hub (DSH)) в Казахстане, который будет работать вместе над поиском решений в области науки о данных, чтобы лучше решать самые насущные проблемы, с которыми сталкиваются дети во всем мире.. Этот центр станет эталоном - механизм его работы может стать примером для других организаций (как частных, так и общественных), которые будут тиражировать этот опыт по всей стране. Основная задача DSH - улучшить мониторинг благосостояния детей в Казахстане с использованием данных и обработки данных, а также проверить инновационные подходы к мониторингу прогресса ЦУР для детей. DSH позволит получить соответствующие знания и разработать университеты, которые подходят к сбору, объединению и анализу данных из разных источников, а также для запуска перспективныхпроектов в рамках ЦУР.
  • 2. DSH будет использовать наборы данных и варианты использования из ЮНИСЕФ в процессе обучения и для постановки задач для технологических стартапов. Цель и задачи Задача, Youth data science challenge, заключается в демонстрации того, как молодежь может использовать мощь «больших данных» для мониторинга прогресса для каждого ребенка с использованием инновационных решений в области данных для целей устойчивого развития (ЦУР). В мероприятии соберутся молодые ученые и исследователи, которые реализуют проекты по анализу данных и визуализации в отношении индикаторов ЦУР, ориентированных на детей, и исследуют потенциал новых источников данных (открытые данные / большие данные) для обоснованной политики и принятия решений. Ожидаемые результаты ● Продвигать публичный дискурс о роли данных в анализе политики и осуществлении политики для устранения неравенства, с которым сталкиваются дети в Казахстане ● Повысить осведомленность о новаторствах в использовании данныхи возможности использования больших данных для социального блага ● Консолидация сети молодых ученых и исследователей данных, представителей государственного и корпоративного секторов в поисках инновационных решений в области данных, которые помогают детям Формат мероприятия Youth Data science challenge будет проводиться в режиме онлайн. Конкурс состоит из двух частей: 1. Research work (white paper) and submission Исследовательская работа (технический документ) и представление/подача 2. Презентация на мероприятии Data for children (необязательно для этого этапа) 25 лучших молодых ученых примут участие в главном мероприятии «Data for children», которое пройдет 6 октября 2018 года в Астане, Казахстан. Лучшие 15 команд представят свои результаты в форме публичной презентации (продолжительность 15-20 минут) на мероприятии Data for children. Общественный форум будет состоять из двух сессий, включая инновации ЮНИСЕФ и инновации данных для поддержки прогресса для каждого ребенка. Объем исследования: ● Сравнительный анализ и определения источников данных (открытые / закрытые данные / открытые государственные данные) - понять, что доступно, включая такие кластеры баз данных, такие как электронные правительства; Министерство юстиции и законодательные базы данных; финансовые
  • 3. базы данных, включая расходы бюджета; базы данных экономики, образования; гео-пространственные базы данных; ● Дезагрегированный анализ - город/село; пол; возраст; административно- территориальное расположение ● Выводы и визуализация данных ● Рекомендации для государственной политики и управления данными для более эффективного мониторинга ЦУР. Участники будут работать по следующим индикаторами ЦУР: 3.b.1 Доля населения, охваченного всеми вакцинами, включенными в их национальную программу – DTP3 Дифтерия-столбняк-коклюш 3 (%) 4.2.2 Уровень вовлеченности в организованном обучении за год до официального возраста поступления в начальную школу 16.2.1 Доля детей в возрасте 1-14 лет, которые подвергались физическому наказанию и / или психологическому насилию лицами, осуществляющими уход за последний месяц (%) 3.6.1. Смертность в результате дорожно-транспортныхтравм. 1.2.1 Дети, живущие за национальной чертой бедности (%) Белая книга/Технический документ Технический документ (исследовательская работа) должен состоять из подробного описания следующих этапов: ● Понимание проблемы (Оценка: 5%) ● Сбор данных (15%) Вот несколько способов самостоятельно получить некоторые данные: - Подключение к базам данных: поиск частных или публичных баз данных - Использование API: подумайте об API для всех инструментов и собранных данных. Если вы не эксперт-кодер,то http://www.dataiku.com/dss/plugins/ даст вам много возможностей для получения внешних данных! - Ищите открытые данные: открытые данные, кластеры наборов данных как e-gov; наборы данных Министерство юстиции и законодательные наборы данных; финансовые наборы данных, включая расходы бюджета; наборы данных экономики, наборы данных образования; геопространственные наборы данных. Проверьте kaggle.com, или https://github.com/awesomedata/awesome-public-datasets с множеством наборов данных для примера ● Подготовка данных (20%). Исследуйте и очищайте данные Часто упоминается как очистка данных или перетасовка данных. Получив данные, ученые должны очистить и переформатировать данные, вручную отредактировав их в электронной таблице или написав код. Например: - Убрать выбросы по количественным переменным.
  • 4. - Заменить пропущенные значения, сделав экстраполяцию или интерполяцию. - Создание общего datamart, то есть объединение нескольких таблиц воедино. ● Гипотеза и моделирование (20%). Это основная деятельность проекта в области науки о данных, которая требует написания, выполнения и совершенствование программ для анализа и получения значимой информации из данных. Часто эти программы написаны на таких языках, как Python, R, Java. Различные методы машинного обучения применяются к данным для определения модели машинного обучения, которая наилучшим образом соответствует потребностям бизнеса. - Посмотрите примеры реализации проектов на kaggle.com, крайне рекомендуется перед реализацией модели сделать exploratory data analysis, это поможет вам лучше понять данные. - Задумайтесь о том, чтобы доказать не волатильны ли результаты вашей модели, возможно вам поможет cross-validation и похожие методы. - Рекомендуется начать с простых моделей машинного обучения, (Regression, Decision Tree, Random Forest), попробовать несколько Boosting алгоритмов (xgboost, adaboost, lgbm etc) с grid search для тюнинга параметров и поиска лучших параметров, в конце желательно попробовать сделать ансамбль моделей, априори это увеличивает эффективность вашей модели, но опасайтесь переобучения. ● Найдите идеи и визуализируйте (15%) - Ищите вдохновения с таких сайтов как pudding, visme, kaggle и т.д. - Для Python и R есть возможность реализовать динамические графики, будет большим плюсом если вы воспользуетесь ими, например, такие пакеты, программы и дополнения как: leaflet, plotly, shiny, power bi, tableau, falcon и т.д. - Визуализация поможет вам легко объяснить свою идею судьям и другим желающим. ● Развертывание машинного обучения ● Рекомендации для государственной политики и управления данными для более эффективного мониторинга ЦУР (25%) - Вы можете применить Power BI, он очень простой и удобный для реализации BI отчетов, где можно вести мониторинг ЦУР. Также вы можете посмотреть аналоги Tableau и т.д. Развертывание проекта: После выполнения этапа «Найдите идеи и визуализируйте», разверните свой проект локально, затем загрузите исходные файлы и использованный набор данных в Kaggle.com. В White Paper обязательно добавьте ссылку на вашу работу в Kaggle.
  • 5. Для этого вам необходимо: - Зарегистрироваться на сайте https://www.kaggle.com/. - Перейти в раздел Kernels -> New Kernel - Выбрать Notebook. - Инструкцию по реализации Kernels в kaggle вы можете найти здесь. - В Kaggle заливаете свое решение для того, чтобы проверить ваш код на правильность. - Если вы используете сторонние программы такие как Power BI, то вы можете отправить их с исходными материалами. - Успешно скомпилировав свой код, перейдите в свой профиль, нажмите на Kernels, выберите свой Kernels и скопируйте ее ссылку в адресной строке. Обязательно добавьте ссылку в White Paper. Квалификационные требования: ● Участники должны быть зачислены в бакалавриат или магистратуру по компьютерным наукам или окончили обучение в течение последних двух лет на момент подачи заявки на участие. ● Хорошая академическая успеваемость ● Подтвержденный опыт в области computer science ● Подтвержденный интерес к инновациям и технологиям для развития ● Опыт в следующем: Python/R/Java, SQL/NoSQL Для подачи заявки: До 20 сентября 2018 года через ссылку http://datahub.com.kz/datasciencechallenge необходимо отправить: ● Работа (исследования и рекомендации в формате белой книги) должна быть представлена в виде PDF файлов не более 4 мегабайт и менее 10 страниц. ● Исходные коды и используемый в проекте набор данных ● Короткий 2-минутный видеоролико себе (ссылку на видео) ● Публичная презентация (продолжительность 15-20 минут, необязательная для этого этапа) ● Части исследований, если они используются в социальных сетях, должны сопровождаться следующими хэштегами: #ForEveryChild, #Innovation, #Datahub