SlideShare a Scribd company logo
1 of 18
Download to read offline
Clean	
  Up	
  Your	
  Dirty	
  Data	
  Using	
  
2	
  
OpenRefine	
  –	
  сервис	
  для	
  обработки	
  и	
  очистки	
  данных	
  
•  Получение	
  
представления	
  о	
  
больших	
  
массивах	
  данных;	
  
•  Нахождение	
  
ошибок	
  и	
  
опечаток	
  
•  Переработка	
  
данных	
  в	
  нужные	
  
форматы.	
  
hGp://openrefine.org/	
  
3	
  
Кейс	
  1.	
  Общее	
  представление	
  о	
  массиве	
  данных	
  
Количество	
  строк	
   Названия	
  столбцов	
  
Импорт,	
  экспорт	
  проектов	
  
Гос.	
  контракты	
  Ленинградской	
  области	
  за	
  март	
  и	
  май	
  2014	
  года	
  
4	
  
Построение	
  фасетов	
  
Значения,	
  встречающиеся	
  в	
  столбце	
  
Построение	
  фасетов	
  
Сортировка	
  по	
  количеству	
  
5	
  
Изменение	
  наименований	
  и	
  удаление	
  столбцов	
  
Изменение	
  наименования	
  столбца	
   Удаление	
  столбца	
  
6	
  
Работа	
  с	
  датами	
  
Преобразование	
  текстовых	
  значений	
  в	
  даты	
   Исследование	
  дат	
  
Пример:	
  даты	
  публикации	
  контрактов	
  
Выходные	
   Время	
  
публикации	
  
Март	
   Май	
  
7	
  
Работа	
  с	
  персональными	
  данными	
  
Исходные	
  столбцы	
  
Пример:	
  Ф.И.О.	
  генеральных	
  директоров	
  
Ошибки	
  в	
  заполнении	
  данных	
  
Построение	
  фасетов	
  
Объединение	
  столбцов	
  
value	
  +	
  "	
  "	
  +	
  cells["First	
  Name"].value	
  +	
  "	
  "	
  +	
  cells["Middle	
  Name"].value	
  
(Объединяем	
  столбцы	
  с	
  фамилией,	
  именем	
  и	
  отчеством	
  в	
  один	
  столбец)	
  
Количество	
  
вариантов	
  
8	
  
Работа	
  с	
  персональными	
  данными.	
  Исправляем	
  ошибки	
  
Массовое	
  редактирование	
  ячеек	
  
Кластеризация	
  данных	
  
9	
  
Работа	
  с	
  номерами	
  телефонов	
  
Фасеты	
  и	
  кластеризация	
  (fingerprint)	
  
2206	
  вариантов	
  
Кластеризация	
  (ngram-­‐fingerprint)	
  
2170	
  вариантов	
  
10	
  
Кейс	
  2.	
  Преобразовываем	
  текстовые	
  данные	
  в	
  таблицу	
  
Пример	
  данных:	
   Шаг	
  1.	
  Создаем	
  новый	
  проект	
  
Шаг	
  2.	
  Делим	
  данные	
  на	
  несколько	
  столбцов	
  
В	
  качестве	
  разделителя	
  используем:	
  ‘	
  (‘	
  
11	
  
Кейс	
  2.	
  Преобразовываем	
  текстовые	
  данные	
  в	
  таблицу	
  
Шаг	
  3.	
  Удаляем	
  лишние	
  символы	
  
Делим	
  вторую	
  колонку	
  на	
  две,	
  
используя	
  в	
  качестве	
  разделителя:	
  ‘)	
  ’	
  
Выбираем	
  меню	
  столбца,	
  содержащего	
  
лишние	
  символы	
  
Вводим	
  нужную	
  функцию	
  
replace(value,	
  /d+(.	
  )/,	
  "")	
  
С	
  помощью	
  функции	
  replace	
  
мы	
  заменяем	
  выражение	
  “/
d+(.	
  )”	
  на	
  выражение:	
  “”	
  
Выражение	
  “/d+(.	
  )”	
  означает	
  
последовательность	
  символов:	
  
«любая	
  цифра	
  с	
  точкой	
  и	
  
пробелом»,	
  например	
  «1.	
  »	
  или	
  
«2.	
  ».	
  
Выражение	
  “”	
  означает	
  
отсутствие	
  символов.	
  
Результат:	
  из	
  требуемого	
  
столбца	
  удаляются	
  все	
  цифры	
  с	
  
точками	
  и	
  пробелами	
  
Для	
  составления	
  выражений	
  читаем	
  
раздел	
  Help,	
  синтаксис	
  языка	
  GREL	
  и	
  
регулярные	
  выражения.	
  
12	
  
Кейс	
  2.	
  Преобразовываем	
  текстовые	
  данные	
  в	
  таблицу	
  
Шаг	
  4.	
  Переименовываем	
  столбцы	
  
Меню	
  колонки:	
  	
  
Edit	
  column	
  >	
  Rename	
  column	
  
replace(value,	
  "	
  	
  ",	
  "	
  ")	
  
Шаг	
  5.	
  Удаляем	
  двойные	
  пробелы	
  (при	
  необходимости)	
  
Меню	
  колонки:	
  	
  
Edit	
  cells	
  >	
  Transform	
  
Шаг	
  6.	
  Добавляем	
  порядковые	
  номера	
  
строк	
  и	
  меняем	
  порядок	
  столбцов	
  
Меню	
  колонки:	
  	
  
Edit	
  column	
  >	
  Add	
  column	
  based	
  on	
  this	
  column	
   row.index+1	
  
Меню	
  колонки:	
  	
  
Edit	
  column	
  >	
  Move	
  column	
  to	
  beginning	
  
Шаг	
  7.	
  Экспортируем	
  
результат	
  
13	
  
Кейс	
  3.	
  Преобразовываем	
  данные	
  бюджета	
  
•  Большое	
  количество	
  
строк,	
  не	
  содержащих	
  
новой	
  информации;	
  
•  Формат	
  данных	
  не	
  удобен	
  
как	
  для	
  изучения	
  
пользователями,	
  так	
  и	
  для	
  
автоматизированной	
  
обработки	
  
Исходные	
  данные:	
  
14	
  
Кейс	
  3.	
  Преобразовываем	
  данные	
  бюджета	
  
Результат:	
  
•  Массив	
  данных	
  не	
  содержит	
  лишней	
  и	
  дублирующейся	
  информации;	
  
•  Формат	
  данных	
  совместим	
  с	
  форматом	
  сервиса	
  OpenSpending;	
  
•  Данные	
  могут	
  быть	
  подвергнуты	
  автоматизированной	
  обработке;	
  
•  Данные	
  могут	
  быть	
  изучены	
  (самостоятельно	
  пользователем	
  или	
  с	
  
помощью	
  сервисов	
  визуализации)	
  без	
  предварительной	
  обработки.	
  
15	
  
Кейс	
  3.	
  Преобразовываем	
  данные	
  бюджета	
  
Шаг	
  1.	
  Импорт	
  файла	
  
-­‐  Выбираем	
  название	
  
проекта;	
  
-­‐  Устанавливаем	
  
количество	
  верхних	
  
строк,	
  которые	
  не	
  
должны	
  быть	
  
импортированы;	
  
-­‐  Выбираем	
  строки	
  
для	
  названия	
  
столбцов.	
  	
  
16	
  
Кейс	
  3.	
  Преобразовываем	
  данные	
  бюджета	
  
Шаг	
  2.	
  Удаление	
  лишних	
  строк,	
  использование	
  star	
  
17	
  
Кейс	
  3.	
  Преобразовываем	
  данные	
  бюджета	
  
Шаг	
  3.	
  Добавляем	
  столбцы	
  
Шаг	
  4.	
  Массовое	
  изменение	
  ячеек	
  
Спасибо	
  за	
  внимание!	
  
Ольга	
  Пархимович	
  
olya.parkhimovich@gmail.com	
  
@OpenDataRu,	
  @k0shk	
  

More Related Content

What's hot

Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Gleb Zakhodiakin
 
Робота в Excel Excel 2007
Робота в Excel Excel 2007 Робота в Excel Excel 2007
Робота в Excel Excel 2007 irina tolstikova
 
электронная таблица
электронная таблицаэлектронная таблица
электронная таблицаmontrucchio
 
MS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текста
MS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текстаMS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текста
MS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текстаНиколай Колдовский
 
Знакомство с табличным процессором Excel
Знакомство с табличным процессором ExcelЗнакомство с табличным процессором Excel
Знакомство с табличным процессором Excelmetodkopilka
 
0011
00110011
0011JIuc
 
0013
00130013
0013JIuc
 
контрольная работа заоч_1
контрольная работа заоч_1контрольная работа заоч_1
контрольная работа заоч_1Vladimir Burdaev
 
Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)s-lana
 

What's hot (16)

Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.Визуализация данных на географических картах в Tableau. Следующий уровень.
Визуализация данных на географических картах в Tableau. Следующий уровень.
 
Access 2
Access 2Access 2
Access 2
 
Sql
SqlSql
Sql
 
Мультимедийные руководства
Мультимедийные руководстваМультимедийные руководства
Мультимедийные руководства
 
Робота в Excel Excel 2007
Робота в Excel Excel 2007 Робота в Excel Excel 2007
Робота в Excel Excel 2007
 
Access 01
Access 01Access 01
Access 01
 
электронная таблица
электронная таблицаэлектронная таблица
электронная таблица
 
MS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текста
MS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текстаMS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текста
MS Word 2013 - от новичка до профессионала. Занятие 5. Управление потоком текста
 
Знакомство с табличным процессором Excel
Знакомство с табличным процессором ExcelЗнакомство с табличным процессором Excel
Знакомство с табличным процессором Excel
 
11 класс
11 класс11 класс
11 класс
 
0011
00110011
0011
 
9946
99469946
9946
 
0013
00130013
0013
 
контрольная работа заоч_1
контрольная работа заоч_1контрольная работа заоч_1
контрольная работа заоч_1
 
Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)
 
9инф1
9инф19инф1
9инф1
 

Similar to CityCamp & Hack 2014: Использование Open Refine для очистки и преобразования данных

Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данныхAlex Polorotov
 
паттерны проектирования источников данных
паттерны проектирования источников данныхпаттерны проектирования источников данных
паттерны проектирования источников данныхVitaliy Trenkenshu
 
11 ms acces_приемы работыt
11 ms acces_приемы работыt11 ms acces_приемы работыt
11 ms acces_приемы работыtEvgeniy Golendyhin
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 классinnaivarlak
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 классinnaivarlak
 
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excelKirrrr123
 
Spreadsheets - что нужно знать QA-менеджеру
Spreadsheets -  что нужно знать QA-менеджеруSpreadsheets -  что нужно знать QA-менеджеру
Spreadsheets - что нужно знать QA-менеджеруDzmitry Yashyn
 
лабораторная работа №4
лабораторная работа №4лабораторная работа №4
лабораторная работа №4Zhanna Kazakova
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»АНАЛИТИКА ПЛЮС
 
0015
00150015
0015JIuc
 
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...
Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...FMTeam
 
Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor StudioGleb Zakhodiakin
 
Фофанов Илья - Лучшие практики проектирования и реализации API на C#
Фофанов Илья - Лучшие практики проектирования и реализации API на C#Фофанов Илья - Лучшие практики проектирования и реализации API на C#
Фофанов Илья - Лучшие практики проектирования и реализации API на C#Elias Fofanov
 
управление контактами
управление контактамиуправление контактами
управление контактамиMax Zhurko
 
Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...
Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...
Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...Yandex
 
лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)djbelyakk
 

Similar to CityCamp & Hack 2014: Использование Open Refine для очистки и преобразования данных (20)

Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данных
 
паттерны проектирования источников данных
паттерны проектирования источников данныхпаттерны проектирования источников данных
паттерны проектирования источников данных
 
11 ms acces_приемы работыt
11 ms acces_приемы работыt11 ms acces_приемы работыt
11 ms acces_приемы работыt
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 класс
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 класс
 
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
 
Ruby on Rails. Работа с моделями
Ruby on Rails. Работа  с моделямиRuby on Rails. Работа  с моделями
Ruby on Rails. Работа с моделями
 
Spreadsheets - что нужно знать QA-менеджеру
Spreadsheets -  что нужно знать QA-менеджеруSpreadsheets -  что нужно знать QA-менеджеру
Spreadsheets - что нужно знать QA-менеджеру
 
лабораторная работа №4
лабораторная работа №4лабораторная работа №4
лабораторная работа №4
 
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»Семинар 24-25 апреля 2014 г.  «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
Семинар 24-25 апреля 2014 г. «R + TABLEAU. ПРОГНОЗИRОВАНИЕ И BIG DATA АНАЛИЗ»
 
0015
00150015
0015
 
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...
Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...
 
Vba 07
Vba 07Vba 07
Vba 07
 
Трансформация данных в Deductor Studio
Трансформация данных в Deductor StudioТрансформация данных в Deductor Studio
Трансформация данных в Deductor Studio
 
лекция 1
лекция 1лекция 1
лекция 1
 
Фофанов Илья - Лучшие практики проектирования и реализации API на C#
Фофанов Илья - Лучшие практики проектирования и реализации API на C#Фофанов Илья - Лучшие практики проектирования и реализации API на C#
Фофанов Илья - Лучшие практики проектирования и реализации API на C#
 
управление контактами
управление контактамиуправление контактами
управление контактами
 
Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...
Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...
Использование шаблонов и RTTI для конфигурации симулятора флеш-накопителя - Г...
 
лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)
 
1
11
1
 

More from Open City Foundation

"Декларилла" - Хакатон против Коррупции 2016
"Декларилла" - Хакатон против Коррупции 2016"Декларилла" - Хакатон против Коррупции 2016
"Декларилла" - Хакатон против Коррупции 2016Open City Foundation
 
Мониторинг муниципалитетов - Хакатон против Коррупции 2016
Мониторинг муниципалитетов - Хакатон против Коррупции 2016Мониторинг муниципалитетов - Хакатон против Коррупции 2016
Мониторинг муниципалитетов - Хакатон против Коррупции 2016Open City Foundation
 
Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)
Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)
Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)Open City Foundation
 
"Время деклараций" - Хакатон против коррупции 2016 Петербург
"Время деклараций" - Хакатон против коррупции 2016 Петербург"Время деклараций" - Хакатон против коррупции 2016 Петербург
"Время деклараций" - Хакатон против коррупции 2016 ПетербургOpen City Foundation
 
CityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализ
CityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализCityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализ
CityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализOpen City Foundation
 
CityCamp & Hack 2014 - Открытый бюджет в России
CityCamp & Hack 2014 - Открытый бюджет в РоссииCityCamp & Hack 2014 - Открытый бюджет в России
CityCamp & Hack 2014 - Открытый бюджет в РоссииOpen City Foundation
 
CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"
CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"
CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"Open City Foundation
 
CityCamp & Hack 2014 - Открытие баркемпа
CityCamp & Hack 2014 - Открытие баркемпаCityCamp & Hack 2014 - Открытие баркемпа
CityCamp & Hack 2014 - Открытие баркемпаOpen City Foundation
 
CityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данных
CityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данныхCityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данных
CityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данныхOpen City Foundation
 
CityCamp & Hack 2014 - Школа открытого государственного управления в Воронеже
CityCamp & Hack 2014 - Школа открытого государственного управления в ВоронежеCityCamp & Hack 2014 - Школа открытого государственного управления в Воронеже
CityCamp & Hack 2014 - Школа открытого государственного управления в ВоронежеOpen City Foundation
 
CityCamp & Hack 2014 - Зачем кому и как рассказывать data-истории
CityCamp & Hack 2014 - Зачем кому и как рассказывать data-историиCityCamp & Hack 2014 - Зачем кому и как рассказывать data-истории
CityCamp & Hack 2014 - Зачем кому и как рассказывать data-историиOpen City Foundation
 
CityCamp & Hack 2014 - Cайт 112 го муниципалитета
CityCamp & Hack 2014 - Cайт 112 го муниципалитетаCityCamp & Hack 2014 - Cайт 112 го муниципалитета
CityCamp & Hack 2014 - Cайт 112 го муниципалитетаOpen City Foundation
 
CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...
CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...
CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...Open City Foundation
 
CityCamp & Hack 2014 - Преподавание искусства у детей как социальный опыт
CityCamp & Hack 2014 - Преподавание искусства у детей как социальный опытCityCamp & Hack 2014 - Преподавание искусства у детей как социальный опыт
CityCamp & Hack 2014 - Преподавание искусства у детей как социальный опытOpen City Foundation
 
CityCamp & Hack 2014 - Антропология замысла
CityCamp & Hack 2014 - Антропология замыслаCityCamp & Hack 2014 - Антропология замысла
CityCamp & Hack 2014 - Антропология замыслаOpen City Foundation
 
CityCamp & Hack 2014 - Образовательные проекты в сфере Open data
CityCamp & Hack 2014 - Образовательные проекты в сфере Open dataCityCamp & Hack 2014 - Образовательные проекты в сфере Open data
CityCamp & Hack 2014 - Образовательные проекты в сфере Open dataOpen City Foundation
 
CityCamp & Hack 2014 - Благород - система управления благоустройством города
CityCamp & Hack 2014 - Благород - система управления благоустройством городаCityCamp & Hack 2014 - Благород - система управления благоустройством города
CityCamp & Hack 2014 - Благород - система управления благоустройством городаOpen City Foundation
 
CityCamp & Hack 2014 - Альтернативная гражданская служба
CityCamp & Hack 2014 - Альтернативная гражданская службаCityCamp & Hack 2014 - Альтернативная гражданская служба
CityCamp & Hack 2014 - Альтернативная гражданская службаOpen City Foundation
 
CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)
CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)
CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)Open City Foundation
 

More from Open City Foundation (20)

"Декларилла" - Хакатон против Коррупции 2016
"Декларилла" - Хакатон против Коррупции 2016"Декларилла" - Хакатон против Коррупции 2016
"Декларилла" - Хакатон против Коррупции 2016
 
Мониторинг муниципалитетов - Хакатон против Коррупции 2016
Мониторинг муниципалитетов - Хакатон против Коррупции 2016Мониторинг муниципалитетов - Хакатон против Коррупции 2016
Мониторинг муниципалитетов - Хакатон против Коррупции 2016
 
Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)
Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)
Chinovnikbot - Хакатон против коррупции 2016 (бот для Telegram)
 
"Время деклараций" - Хакатон против коррупции 2016 Петербург
"Время деклараций" - Хакатон против коррупции 2016 Петербург"Время деклараций" - Хакатон против коррупции 2016 Петербург
"Время деклараций" - Хакатон против коррупции 2016 Петербург
 
CityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализ
CityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализCityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализ
CityCamp & Hack 2014: Аудит региональных открытых данных: сравнительный анализ
 
CityCamp & Hack 2014 - Открытый бюджет в России
CityCamp & Hack 2014 - Открытый бюджет в РоссииCityCamp & Hack 2014 - Открытый бюджет в России
CityCamp & Hack 2014 - Открытый бюджет в России
 
CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"
CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"
CityCamp & Hack 2014 - Благотворительная организация помощи бездомным "Ночлежка"
 
CityCamp & Hack 2014 - Открытие баркемпа
CityCamp & Hack 2014 - Открытие баркемпаCityCamp & Hack 2014 - Открытие баркемпа
CityCamp & Hack 2014 - Открытие баркемпа
 
CityCamp & Hack 2014 - Open311
CityCamp & Hack 2014 - Open311CityCamp & Hack 2014 - Open311
CityCamp & Hack 2014 - Open311
 
CityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данных
CityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данныхCityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данных
CityCamp & Hack 2014 - Блеск и нищета проектов на основе открытых данных
 
CityCamp & Hack 2014 - Школа открытого государственного управления в Воронеже
CityCamp & Hack 2014 - Школа открытого государственного управления в ВоронежеCityCamp & Hack 2014 - Школа открытого государственного управления в Воронеже
CityCamp & Hack 2014 - Школа открытого государственного управления в Воронеже
 
CityCamp & Hack 2014 - Зачем кому и как рассказывать data-истории
CityCamp & Hack 2014 - Зачем кому и как рассказывать data-историиCityCamp & Hack 2014 - Зачем кому и как рассказывать data-истории
CityCamp & Hack 2014 - Зачем кому и как рассказывать data-истории
 
CityCamp & Hack 2014 - Cайт 112 го муниципалитета
CityCamp & Hack 2014 - Cайт 112 го муниципалитетаCityCamp & Hack 2014 - Cайт 112 го муниципалитета
CityCamp & Hack 2014 - Cайт 112 го муниципалитета
 
CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...
CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...
CityCamp & Hack 2014 - Международная волонтерская программа "Старшие братья с...
 
CityCamp & Hack 2014 - Преподавание искусства у детей как социальный опыт
CityCamp & Hack 2014 - Преподавание искусства у детей как социальный опытCityCamp & Hack 2014 - Преподавание искусства у детей как социальный опыт
CityCamp & Hack 2014 - Преподавание искусства у детей как социальный опыт
 
CityCamp & Hack 2014 - Антропология замысла
CityCamp & Hack 2014 - Антропология замыслаCityCamp & Hack 2014 - Антропология замысла
CityCamp & Hack 2014 - Антропология замысла
 
CityCamp & Hack 2014 - Образовательные проекты в сфере Open data
CityCamp & Hack 2014 - Образовательные проекты в сфере Open dataCityCamp & Hack 2014 - Образовательные проекты в сфере Open data
CityCamp & Hack 2014 - Образовательные проекты в сфере Open data
 
CityCamp & Hack 2014 - Благород - система управления благоустройством города
CityCamp & Hack 2014 - Благород - система управления благоустройством городаCityCamp & Hack 2014 - Благород - система управления благоустройством города
CityCamp & Hack 2014 - Благород - система управления благоустройством города
 
CityCamp & Hack 2014 - Альтернативная гражданская служба
CityCamp & Hack 2014 - Альтернативная гражданская службаCityCamp & Hack 2014 - Альтернативная гражданская служба
CityCamp & Hack 2014 - Альтернативная гражданская служба
 
CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)
CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)
CityCamp & Hack 2014 - Пешеходное движение (на примере Новосибирска)
 

CityCamp & Hack 2014: Использование Open Refine для очистки и преобразования данных

  • 1. Clean  Up  Your  Dirty  Data  Using  
  • 2. 2   OpenRefine  –  сервис  для  обработки  и  очистки  данных   •  Получение   представления  о   больших   массивах  данных;   •  Нахождение   ошибок  и   опечаток   •  Переработка   данных  в  нужные   форматы.   hGp://openrefine.org/  
  • 3. 3   Кейс  1.  Общее  представление  о  массиве  данных   Количество  строк   Названия  столбцов   Импорт,  экспорт  проектов   Гос.  контракты  Ленинградской  области  за  март  и  май  2014  года  
  • 4. 4   Построение  фасетов   Значения,  встречающиеся  в  столбце   Построение  фасетов   Сортировка  по  количеству  
  • 5. 5   Изменение  наименований  и  удаление  столбцов   Изменение  наименования  столбца   Удаление  столбца  
  • 6. 6   Работа  с  датами   Преобразование  текстовых  значений  в  даты   Исследование  дат   Пример:  даты  публикации  контрактов   Выходные   Время   публикации   Март   Май  
  • 7. 7   Работа  с  персональными  данными   Исходные  столбцы   Пример:  Ф.И.О.  генеральных  директоров   Ошибки  в  заполнении  данных   Построение  фасетов   Объединение  столбцов   value  +  "  "  +  cells["First  Name"].value  +  "  "  +  cells["Middle  Name"].value   (Объединяем  столбцы  с  фамилией,  именем  и  отчеством  в  один  столбец)   Количество   вариантов  
  • 8. 8   Работа  с  персональными  данными.  Исправляем  ошибки   Массовое  редактирование  ячеек   Кластеризация  данных  
  • 9. 9   Работа  с  номерами  телефонов   Фасеты  и  кластеризация  (fingerprint)   2206  вариантов   Кластеризация  (ngram-­‐fingerprint)   2170  вариантов  
  • 10. 10   Кейс  2.  Преобразовываем  текстовые  данные  в  таблицу   Пример  данных:   Шаг  1.  Создаем  новый  проект   Шаг  2.  Делим  данные  на  несколько  столбцов   В  качестве  разделителя  используем:  ‘  (‘  
  • 11. 11   Кейс  2.  Преобразовываем  текстовые  данные  в  таблицу   Шаг  3.  Удаляем  лишние  символы   Делим  вторую  колонку  на  две,   используя  в  качестве  разделителя:  ‘)  ’   Выбираем  меню  столбца,  содержащего   лишние  символы   Вводим  нужную  функцию   replace(value,  /d+(.  )/,  "")   С  помощью  функции  replace   мы  заменяем  выражение  “/ d+(.  )”  на  выражение:  “”   Выражение  “/d+(.  )”  означает   последовательность  символов:   «любая  цифра  с  точкой  и   пробелом»,  например  «1.  »  или   «2.  ».   Выражение  “”  означает   отсутствие  символов.   Результат:  из  требуемого   столбца  удаляются  все  цифры  с   точками  и  пробелами   Для  составления  выражений  читаем   раздел  Help,  синтаксис  языка  GREL  и   регулярные  выражения.  
  • 12. 12   Кейс  2.  Преобразовываем  текстовые  данные  в  таблицу   Шаг  4.  Переименовываем  столбцы   Меню  колонки:     Edit  column  >  Rename  column   replace(value,  "    ",  "  ")   Шаг  5.  Удаляем  двойные  пробелы  (при  необходимости)   Меню  колонки:     Edit  cells  >  Transform   Шаг  6.  Добавляем  порядковые  номера   строк  и  меняем  порядок  столбцов   Меню  колонки:     Edit  column  >  Add  column  based  on  this  column   row.index+1   Меню  колонки:     Edit  column  >  Move  column  to  beginning   Шаг  7.  Экспортируем   результат  
  • 13. 13   Кейс  3.  Преобразовываем  данные  бюджета   •  Большое  количество   строк,  не  содержащих   новой  информации;   •  Формат  данных  не  удобен   как  для  изучения   пользователями,  так  и  для   автоматизированной   обработки   Исходные  данные:  
  • 14. 14   Кейс  3.  Преобразовываем  данные  бюджета   Результат:   •  Массив  данных  не  содержит  лишней  и  дублирующейся  информации;   •  Формат  данных  совместим  с  форматом  сервиса  OpenSpending;   •  Данные  могут  быть  подвергнуты  автоматизированной  обработке;   •  Данные  могут  быть  изучены  (самостоятельно  пользователем  или  с   помощью  сервисов  визуализации)  без  предварительной  обработки.  
  • 15. 15   Кейс  3.  Преобразовываем  данные  бюджета   Шаг  1.  Импорт  файла   -­‐  Выбираем  название   проекта;   -­‐  Устанавливаем   количество  верхних   строк,  которые  не   должны  быть   импортированы;   -­‐  Выбираем  строки   для  названия   столбцов.    
  • 16. 16   Кейс  3.  Преобразовываем  данные  бюджета   Шаг  2.  Удаление  лишних  строк,  использование  star  
  • 17. 17   Кейс  3.  Преобразовываем  данные  бюджета   Шаг  3.  Добавляем  столбцы   Шаг  4.  Массовое  изменение  ячеек  
  • 18. Спасибо  за  внимание!   Ольга  Пархимович   olya.parkhimovich@gmail.com   @OpenDataRu,  @k0shk