SlideShare a Scribd company logo
1 of 37
Download to read offline
OPEN DATA WORKSHOP
Обработка в Open Refine и визуализация в Google Fusion
для активистов и журналистов
Виталий Власов
Urban Data Hackathon, Bishkek, 2016
ПРОБЛЕМЫ ПРИ РАБОТЕ С
ДАННЫМИ
• Не в машиночитаемом формате (html, doc, pdf)
• «Грязные» данные: не нормализированные данные (одни и те же данные
записаны в разной форме) и пр.
• Отсутствие геокоординат (или разные системы) в датасетах с адресами
• Отсутствие технической поддержки
• Несвоевременное обновление данных
• Недостаточный уровень детализации данных
• Отсутствие актуальных наборов данных
• Использование латиницы вместо кириллицы
ФУНКЦИИ OPEN REFINE
- Преобразование данных к нужному формату
- Предварительная обработка. Нахождение ошибок и опечаток
- Получение представления о массиве данных
Установка:
1. Скачать OpenRefine: http://openrefine.org/
2. Запустить установщик
3. Открыть браузер и перейти по ссылке: http://127.0.0.1:3333
http://data.gov.spb.ru/datasets/69/
ЗАГРУЗКА МАССИВА
ДАННЫХ
Создаем новый проект
Загрузка исходного массива
Настройка импорта файла. Выбор типа файла
Изменение имени проекта
Настройка кодировки
Настройка кодировки
Настройка дополнительных параметров
ПРЕДВАРИТЕЛЬНАЯ
ОЧИСТКА ДАННЫХ
количество
строк в файле
количество
отображаемых
строк
название
столбца
Основные элементы страницы
Изменение наименований столбцов
Удаление столбцов
Преобразование в числовой формат
Удаление пробелов: value.replace(" ", "")
Разделение колонок на две
Преобразование в формат дат
Фасеты
ИЗУЧЕНИЕ ДАННЫХ
Использование фасетов для изучения встречающихся значений
Текстовые фасеты
Использование фасетов для изучения встречающихся значений
Временные фасеты
Использование фасетов для изучения встречающихся значений
Числовые фасеты
Использование кластеризации
GOOGLE FUSION
• https://www.google.com/fusiontables/data?
dsrcid=implicit&pli=1
• Интерактивные диаграммы
• Визуализация данных на карте
• Встраивание на сайте (iframe)
http://data.un.org/Data.aspx?d=UNAIDS&f=inID%3a7
Виталий Власов
inxaoc@gmail.com
Open City Foundation
@OpenCityRu

More Related Content

Viewers also liked

Lyft meeting rev 1.28
Lyft meeting rev 1.28Lyft meeting rev 1.28
Lyft meeting rev 1.28Erik Koral
 
Vývojářské Nástroje a Techniky
Vývojářské Nástroje a TechnikyVývojářské Nástroje a Techniky
Vývojářské Nástroje a TechnikyMartin Maly
 
La experiencia de las concesiones hospitalarias y las posibilidades de partne...
La experiencia de las concesiones hospitalarias y las posibilidades de partne...La experiencia de las concesiones hospitalarias y las posibilidades de partne...
La experiencia de las concesiones hospitalarias y las posibilidades de partne...Ignacio Riesgo
 
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...Eurofinsa
 
Lesson intro. Introduction to Open Data
Lesson intro. Introduction to Open DataLesson intro. Introduction to Open Data
Lesson intro. Introduction to Open DataIrina Radchenko
 

Viewers also liked (8)

Lyft meeting rev 1.28
Lyft meeting rev 1.28Lyft meeting rev 1.28
Lyft meeting rev 1.28
 
Vývojářské Nástroje a Techniky
Vývojářské Nástroje a TechnikyVývojářské Nástroje a Techniky
Vývojářské Nástroje a Techniky
 
La experiencia de las concesiones hospitalarias y las posibilidades de partne...
La experiencia de las concesiones hospitalarias y las posibilidades de partne...La experiencia de las concesiones hospitalarias y las posibilidades de partne...
La experiencia de las concesiones hospitalarias y las posibilidades de partne...
 
Become a citizen data scientist
Become a citizen data scientistBecome a citizen data scientist
Become a citizen data scientist
 
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
 
El Pensamiento Complejo
El Pensamiento Complejo El Pensamiento Complejo
El Pensamiento Complejo
 
Wiki conference - 2016
Wiki conference - 2016Wiki conference - 2016
Wiki conference - 2016
 
Lesson intro. Introduction to Open Data
Lesson intro. Introduction to Open DataLesson intro. Introduction to Open Data
Lesson intro. Introduction to Open Data
 

Similar to Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data Hackathon Bishkek 2016

SharePoint 2010 in four easy steps (SharePoint Conference Russia)
SharePoint 2010 in four easy steps (SharePoint Conference Russia)SharePoint 2010 in four easy steps (SharePoint Conference Russia)
SharePoint 2010 in four easy steps (SharePoint Conference Russia)Ilia Sotnikov
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиBadoo Development
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.mikhaelsmirnov
 
1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet PortalIrina Zimitskaya
 
DE-Group.Microsoft SharePoint
DE-Group.Microsoft SharePointDE-Group.Microsoft SharePoint
DE-Group.Microsoft SharePointDE-Group
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноEugenia Korshunova (Pavlova)
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMarina Payvina
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopAndrey Orlov
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы HadoopTechnopark
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovIlya Gershanov
 
SharePoint Introduction
SharePoint IntroductionSharePoint Introduction
SharePoint IntroductionVitaly Baum
 
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ..."Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...Vitaly Vlasov
 
Data Pools - средство управления тестовыми данными
Data Pools - средство управления тестовыми даннымиData Pools - средство управления тестовыми данными
Data Pools - средство управления тестовыми даннымиSQALab
 
Евгений Аралов
Евгений АраловЕвгений Аралов
Евгений АраловSEO.UA
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхIrina Radchenko
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облакахPavel Mezentsev
 
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...Iuliia Usatiuk
 
Verification based on open data arrays [RUS]
Verification based on open data arrays [RUS]Verification based on open data arrays [RUS]
Verification based on open data arrays [RUS]Mikhail Vink
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытMarina Payvina
 

Similar to Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data Hackathon Bishkek 2016 (20)

SharePoint 2010 in four easy steps (SharePoint Conference Russia)
SharePoint 2010 in four easy steps (SharePoint Conference Russia)SharePoint 2010 in four easy steps (SharePoint Conference Russia)
SharePoint 2010 in four easy steps (SharePoint Conference Russia)
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитики
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal
 
DE-Group.Microsoft SharePoint
DE-Group.Microsoft SharePointDE-Group.Microsoft SharePoint
DE-Group.Microsoft SharePoint
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
SharePoint Introduction
SharePoint IntroductionSharePoint Introduction
SharePoint Introduction
 
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ..."Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
 
Data Pools - средство управления тестовыми данными
Data Pools - средство управления тестовыми даннымиData Pools - средство управления тестовыми данными
Data Pools - средство управления тестовыми данными
 
Евгений Аралов
Евгений АраловЕвгений Аралов
Евгений Аралов
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данных
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облаках
 
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
 
Verification based on open data arrays [RUS]
Verification based on open data arrays [RUS]Verification based on open data arrays [RUS]
Verification based on open data arrays [RUS]
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 

More from Vitaly Vlasov

Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Vitaly Vlasov
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямVitaly Vlasov
 
Как делать презентацию?
Как делать презентацию?Как делать презентацию?
Как делать презентацию?Vitaly Vlasov
 
Open Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesOpen Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesVitaly Vlasov
 
Intorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterIntorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterVitaly Vlasov
 
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarOpen Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarVitaly Vlasov
 
Startup Class - Business Model Canvas
Startup Class - Business Model CanvasStartup Class - Business Model Canvas
Startup Class - Business Model CanvasVitaly Vlasov
 
Startup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыStartup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыVitaly Vlasov
 
Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Vitaly Vlasov
 
Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Vitaly Vlasov
 
Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Vitaly Vlasov
 
Презентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиПрезентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиVitaly Vlasov
 
Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Vitaly Vlasov
 
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: ВведениеVitaly Vlasov
 
Презентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйПрезентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйVitaly Vlasov
 
Case for open data in transit
Case for open data in  transitCase for open data in  transit
Case for open data in transitVitaly Vlasov
 
Local open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкLocal open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкVitaly Vlasov
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в СШАVitaly Vlasov
 
Social media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPISocial media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPIVitaly Vlasov
 
Social media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterSocial media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterVitaly Vlasov
 

More from Vitaly Vlasov (20)

Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
 
Как делать презентацию?
Как делать презентацию?Как делать презентацию?
Как делать презентацию?
 
Open Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesOpen Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examples
 
Intorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterIntorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for Piter
 
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarOpen Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
 
Startup Class - Business Model Canvas
Startup Class - Business Model CanvasStartup Class - Business Model Canvas
Startup Class - Business Model Canvas
 
Startup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыStartup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работы
 
Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Презентация проекта "Liveable City"
Презентация проекта "Liveable City"
 
Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...
 
Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)
 
Презентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиПрезентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской Области
 
Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"
 
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
 
Презентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйПрезентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ый
 
Case for open data in transit
Case for open data in  transitCase for open data in  transit
Case for open data in transit
 
Local open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкLocal open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский язык
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в США
 
Social media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPISocial media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPI
 
Social media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterSocial media marketing в Facebook и Twitter
Social media marketing в Facebook и Twitter
 

Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data Hackathon Bishkek 2016