1. Конкурс для молодежи
YOUTH DATASCIENCE CHALLENGE 2018
Сроки: 24.08.2018-20.09.2018
О конкурсе:
ЮНИСЕФ уже 70 лет занимается инновациями для детей. Инновации поддерживают
организации в более 135 страновых отделениях в поиске решений для наиболее
уязвимых детей в мире. Инновации в ЮНИСЕФ определяются как «выполнение чего-то
нового или другого, что повышает ценность». Инновации - это межсекторальная
функция, которая повышает эффективность программ и развития, а также управление и
ориентируется во всех контекстах Принципами инноваций ЮНИСЕФ
(http://www.unicefstories.org/principles/). ЮНИСЕФ занимается тестированием и
расширением новых партнерств, технологий и сотрудничества в некоторых наиболее
сложных в мире операционных средах.
Роль данных для детей, которая рассматривается как основа разработки политики в
отношении фактических данных для детей, была подкреплена новыми обязательствами
в отношении целей устойчивого развития (ЦУР), ориентированныхна детей. В повестке
дня ЦУР содержится призыв к новым путям выявлениянаиболее уязвимых детей с более
широким признанием взаимосвязи нищеты, здоровья, образования и других аспектов
благосостояния детей. С этой целью ЮНИСЕФ определяет данные для детей, как
данные для детей и о них: благосостояние и перспективы детей и их семей, условия их
жизни и способ достижения или невозможности их охвата услугами и системами.
Пространство данных в Казахстане становится все более сложным, поскольку многие
типы и формы данных генерируются государством и частным сектором, а также самим
населением посредством ускоренного использования технологий. В то же время
директивные органы на национальном и местном уровнях требуют доступа к точным,
своевременным данным и анализу, чтобы информировать программы и бюджеты,
ориентированныена конкретные результаты, в соответствии с национальной стратегией
«Пять институциональныхреформ». Наличие данных, доступность и анализ политики в
государственном секторе по-прежнему являются областью для улучшения с
ограничениями, обусловленными отраслевыми «узковедомственными» системами.
ЮНИСЕФ считает, что необходимо изменить статус сбора, анализа и распространения
данных в Казахстане, а текущие реформы государственного управления и инициативы
по цифровизации предоставляют возможность переосмыслить, как лучшие данные
могут способствовать улучшению политики для детей.
В партнерстве с Казахстанским Британским Техническим университетом,
Университетом Нархоза и Международным университетом информационных
технологий, ЮНИСЕФ создал научный центр данных (Data Science Hub (DSH)) в
Казахстане, который будет работать вместе над поиском решений в области науки о
данных, чтобы лучше решать самые насущные проблемы, с которыми сталкиваются
дети во всем мире..
Этот центр станет эталоном - механизм его работы может стать примером для других
организаций (как частных, так и общественных), которые будут тиражировать этот опыт
по всей стране.
Основная задача DSH - улучшить мониторинг благосостояния детей в Казахстане с
использованием данных и обработки данных, а также проверить инновационные
подходы к мониторингу прогресса ЦУР для детей.
DSH позволит получить соответствующие знания и разработать университеты,
которые подходят к сбору, объединению и анализу данных из разных источников, а
также для запуска перспективныхпроектов в рамках ЦУР.
2. DSH будет использовать наборы данных и варианты использования из ЮНИСЕФ в
процессе обучения и для постановки задач для технологических стартапов.
Цель и задачи
Задача, Youth data science challenge, заключается в демонстрации того, как молодежь
может использовать мощь «больших данных» для мониторинга прогресса для каждого
ребенка с использованием инновационных решений в области данных для целей
устойчивого развития (ЦУР). В мероприятии соберутся молодые ученые и
исследователи, которые реализуют проекты по анализу данных и визуализации в
отношении индикаторов ЦУР, ориентированных на детей, и исследуют потенциал
новых источников данных (открытые данные / большие данные) для обоснованной
политики и принятия решений.
Ожидаемые результаты
● Продвигать публичный дискурс о роли данных в анализе политики и
осуществлении политики для устранения неравенства, с которым сталкиваются
дети в Казахстане
● Повысить осведомленность о новаторствах в использовании данныхи
возможности использования больших данных для социального блага
● Консолидация сети молодых ученых и исследователей данных, представителей
государственного и корпоративного секторов в поисках инновационных
решений в области данных, которые помогают детям
Формат мероприятия
Youth Data science challenge будет проводиться в режиме онлайн. Конкурс состоит из
двух частей:
1. Research work (white paper) and submission Исследовательская работа
(технический документ) и представление/подача
2. Презентация на мероприятии Data for children (необязательно для этого этапа)
25 лучших молодых ученых примут участие в главном мероприятии «Data for children»,
которое пройдет 6 октября 2018 года в Астане, Казахстан. Лучшие 15 команд представят
свои результаты в форме публичной презентации (продолжительность 15-20 минут) на
мероприятии Data for children. Общественный форум будет состоять из двух сессий,
включая инновации ЮНИСЕФ и инновации данных для поддержки прогресса для
каждого ребенка.
Объем исследования:
● Сравнительный анализ и определения источников данных (открытые /
закрытые данные / открытые государственные данные) - понять, что доступно,
включая такие кластеры баз данных, такие как электронные правительства;
Министерство юстиции и законодательные базы данных; финансовые
3. базы данных, включая расходы бюджета; базы данных экономики,
образования; гео-пространственные базы данных;
● Дезагрегированный анализ - город/село; пол; возраст; административно-
территориальное расположение
● Выводы и визуализация данных
● Рекомендации для государственной политики и управления данными для
более эффективного мониторинга ЦУР.
Участники будут работать по следующим индикаторами ЦУР:
3.b.1 Доля населения, охваченного всеми вакцинами, включенными в их национальную
программу
– DTP3 Дифтерия-столбняк-коклюш 3 (%)
4.2.2 Уровень вовлеченности в организованном обучении за год до официального
возраста поступления в начальную школу
16.2.1 Доля детей в возрасте 1-14 лет, которые подвергались физическому наказанию и
/ или психологическому насилию лицами, осуществляющими уход за последний месяц
(%)
3.6.1. Смертность в результате дорожно-транспортныхтравм.
1.2.1 Дети, живущие за национальной чертой бедности (%)
Белая книга/Технический документ
Технический документ (исследовательская работа) должен состоять из подробного
описания следующих этапов:
● Понимание проблемы (Оценка: 5%)
● Сбор данных (15%)
Вот несколько способов самостоятельно получить некоторые данные:
- Подключение к базам данных: поиск частных или публичных баз данных
- Использование API: подумайте об API для всех инструментов и
собранных данных. Если вы не эксперт-кодер,то
http://www.dataiku.com/dss/plugins/ даст вам много возможностей для
получения внешних данных!
- Ищите открытые данные: открытые данные, кластеры наборов данных
как e-gov; наборы данных Министерство юстиции и законодательные
наборы данных; финансовые наборы данных, включая расходы бюджета;
наборы данных экономики, наборы данных образования;
геопространственные наборы данных. Проверьте kaggle.com, или
https://github.com/awesomedata/awesome-public-datasets с
множеством наборов данных для примера
● Подготовка данных (20%). Исследуйте и очищайте данные
Часто упоминается как очистка данных или перетасовка данных. Получив
данные, ученые должны очистить и переформатировать данные, вручную
отредактировав их в электронной таблице или написав код. Например:
- Убрать выбросы по количественным переменным.
4. - Заменить пропущенные значения, сделав экстраполяцию или
интерполяцию.
- Создание общего datamart, то есть объединение нескольких таблиц
воедино.
● Гипотеза и моделирование (20%).
Это основная деятельность проекта в области науки о данных, которая требует
написания, выполнения и совершенствование программ для анализа и получения
значимой информации из данных. Часто эти программы написаны на таких
языках, как Python, R, Java. Различные методы машинного обучения
применяются к данным для определения модели машинного обучения, которая
наилучшим образом соответствует потребностям бизнеса.
- Посмотрите примеры реализации проектов на kaggle.com, крайне
рекомендуется перед реализацией модели сделать exploratory data analysis,
это поможет вам лучше понять данные.
- Задумайтесь о том, чтобы доказать не волатильны ли результаты вашей
модели, возможно вам поможет cross-validation и похожие методы.
- Рекомендуется начать с простых моделей машинного обучения,
(Regression, Decision Tree, Random Forest), попробовать несколько
Boosting алгоритмов (xgboost, adaboost, lgbm etc) с grid search для тюнинга
параметров и поиска лучших параметров, в конце желательно
попробовать сделать ансамбль моделей, априори это увеличивает
эффективность вашей модели, но опасайтесь переобучения.
● Найдите идеи и визуализируйте (15%)
- Ищите вдохновения с таких сайтов как pudding, visme, kaggle и т.д.
- Для Python и R есть возможность реализовать динамические графики,
будет большим плюсом если вы воспользуетесь ими, например, такие
пакеты, программы и дополнения как: leaflet, plotly, shiny, power bi,
tableau, falcon и т.д.
- Визуализация поможет вам легко объяснить свою идею судьям и другим
желающим.
● Развертывание машинного обучения
● Рекомендации для государственной политики и управления данными для
более эффективного мониторинга ЦУР (25%)
- Вы можете применить Power BI, он очень простой и удобный для
реализации BI отчетов, где можно вести мониторинг ЦУР. Также вы
можете посмотреть аналоги Tableau и т.д.
Развертывание проекта:
После выполнения этапа «Найдите идеи и визуализируйте», разверните свой проект
локально, затем загрузите исходные файлы и использованный набор данных в
Kaggle.com. В White Paper обязательно добавьте ссылку на вашу работу в Kaggle.
5. Для этого вам необходимо:
- Зарегистрироваться на сайте https://www.kaggle.com/.
- Перейти в раздел Kernels -> New Kernel
- Выбрать Notebook.
- Инструкцию по реализации Kernels в kaggle вы можете найти здесь.
- В Kaggle заливаете свое решение для того, чтобы проверить ваш код на
правильность.
- Если вы используете сторонние программы такие как Power BI, то вы можете
отправить их с исходными материалами.
- Успешно скомпилировав свой код, перейдите в свой профиль, нажмите на
Kernels, выберите свой Kernels и скопируйте ее ссылку в адресной строке.
Обязательно добавьте ссылку в White Paper.
Квалификационные требования:
● Участники должны быть зачислены в бакалавриат или магистратуру по
компьютерным наукам или окончили обучение в течение последних двух лет
на момент подачи заявки на участие.
● Хорошая академическая успеваемость
● Подтвержденный опыт в области computer science
● Подтвержденный интерес к инновациям и технологиям для развития
● Опыт в следующем: Python/R/Java, SQL/NoSQL
Для подачи заявки:
До 20 сентября 2018 года через ссылку http://datahub.com.kz/datasciencechallenge
необходимо отправить:
● Работа (исследования и рекомендации в формате белой книги) должна быть
представлена в виде PDF файлов не более 4 мегабайт и менее 10 страниц.
● Исходные коды и используемый в проекте набор данных
● Короткий 2-минутный видеоролико себе (ссылку на видео)
● Публичная презентация (продолжительность 15-20 минут, необязательная
для этого этапа)
● Части исследований, если они используются в социальных сетях,
должны сопровождаться следующими хэштегами: #ForEveryChild,
#Innovation, #Datahub