Использование Open refine для работы с открытыми бюджетами и гос. контрактами

Clean Up Your Dirty Data Using

2
OpenRefine – сервис для обработки и очистки данных
• Получение
представления о
больших
массивах данных;
• Нахождение
ошибок и
опечаток
• Переработка
данных в нужные
форматы.
http://openrefine.org/

3
План презентации
1. Общее представление о массиве данных и очистка данных
2. Создаем машиночитаемые данные из текста
3. Преобразовываем формат данных

4
Кейс 1. Общее представление о массиве данных
Количество строк Названия столбцов
Импорт, экспорт проектов
Гос. контракты Ленинградской области за март и май 2014 года

5
Построение фасетов
Значения, встречающиеся в столбце
Сортировка по количеству

6
Изменение наименований и удаление столбцов
Изменение наименования столбца Удаление столбца

7
Работа с датами
Преобразование текстовых значений в даты Исследование дат
Пример: даты публикации контрактов
Выходные Время
публикации
Март Май

8
Работа с персональными данными
Исходные столбцы
Пример: Ф.И.О. генеральных директоров
Ошибки в заполнении данных
Объединение столбцов
value + " " + cells["First Name"].value + " " + cells["Middle Name"].value
(Объединяем столбцы с фамилией, именем и отчеством в один столбец)
Количество
вариантов

9
Работа с персональными данными. Исправляем ошибки
Массовое редактирование ячеек
Кластеризация данных

10
Работа с номерами телефонов
Фасеты и кластеризация (fingerprint)
2206 вариантов
Кластеризация (ngram-fingerprint)
2170 вариантов

11
Кластеризация данных (находим дубликаты)
Фасеты и кластеризация (fingerprint) 604 -> 483 варианта

12
Фасеты и кластеризация (ngram-fingerprint) 483 -> 468 варианта

13
Фасеты и кластеризация (fingerprint) 2737 -> 2676 варианта

14
Фасеты и кластеризация (ngram-fingerprint) 2676 -> 2432 варианта

15
Кейс 2. Преобразовываем текстовые данные в таблицу
Пример данных: Шаг 1. Создаем новый проект
Шаг 2. Делим данные на несколько столбцов
В качестве разделителя используем: ‘ (‘

16
Шаг 3. Удаляем лишние символы
Делим вторую колонку на две,
используя в качестве разделителя: ‘) ’
Выбираем меню столбца, содержащего
лишние символы
Вводим нужную функцию
replace(value, /d+(. )/, "")
С помощью функции replace
мы заменяем выражение
“/d+(. )” на выражение: “”
Выражение “/d+(. )” означает
последовательность символов:
«любая цифра с точкой и
пробелом», например «1. » или
«2. ».
Выражение “” означает
отсутствие символов.
Результат: из требуемого
столбца удаляются все цифры с
точками и пробелами
Для составления выражений читаем
раздел Help, синтаксис языка GREL и
регулярные выражения.

17
Шаг 4. Переименовываем столбцы
Меню колонки:
Edit column > Rename column
replace(value, " ", " ")
Шаг 5. Удаляем двойные пробелы (при необходимости)
Edit cells > Transform
Шаг 6. Добавляем порядковые номера
строк и меняем порядок столбцов
Edit column > Add column based on this column row.index+1
Edit column > Move column to beginning
Шаг 7. Экспортируем
результат

18
Кейс 3. Преобразовываем данные бюджета
• Большое количество
строк, не содержащих
новой информации;
• Формат данных не удобен
как для изучения
пользователями, так и для
автоматизированной
обработки
Исходные данные:

19
Результат:
• Массив данных не содержит лишней и дублирующейся информации;
• Формат данных совместим с форматом сервиса OpenSpending;
• Данные могут быть подвергнуты автоматизированной обработке;
• Данные могут быть изучены (самостоятельно пользователем или с
помощью сервисов визуализации) без предварительной обработки.

20
Шаг 1. Импорт файла
- Выбираем название
проекта;
- Устанавливаем
количество верхних
строк, которые не
должны быть
импортированы;
- Выбираем строки
для названия
столбцов.

21
Шаг 2. Удаление лишних строк, использование star

22
Шаг 3. Добавляем столбцы
Шаг 4. Массовое изменение ячеек

Спасибо за внимание!
Ольга Пархимович
olya.parkhimovich@gmail.com
@OpenDataRu, @k0shk

Использование Open refine для работы с открытыми бюджетами и гос. контрактами

More Related Content

What's hot

Viewers also liked

Similar to Использование Open refine для работы с открытыми бюджетами и гос. контрактами

More from Olya Parkhimovich

Использование Open refine для работы с открытыми бюджетами и гос. контрактами