Таблицы Google как наиболее
удобный инструмент для
начинающих дата-журналистов
Мастер-класс
19 сентября 2013 г.
Таблицы:
• Google (бесплатное ПО)
• Open/Libre Office (бесплатное ПО)
• MS Excel (платное ПО)
Чтобы работать с Google таблицами,
необходимо завести аккаунт Google
Google документы:
Допускают совместную работу над
таблицей онлайн.
Если вдруг оборвалась связь с
интернетом, то работать с документом
невозможно.
Можно включить возможность
автономной работы.
Источник данных:
http://www.oecd.org/statistics/
Форматы, с которыми можно
работать в таблицах:
Импорт файла в Google таблицу
Импорт файла в Google таблицу
Готово
Примечание: Если таблица отказывается импортировать файл .xls, ссылаясь на
то, что это неизвестный ей формат, можно попробовать открыть этот файл в
таблице Excel или Open/Libre Calc и сохранить его, например, в версии 97-2003.
Важно: До начала обработки данных обязательно
нужно сделать копию документа, чтобы исходный
вариант на всякий случай тоже сохранился.
Как правило, данные в таблице бывают отформатированы.
Удобства ради уберем форматирование, чтобы видеть
таблицу в чистом виде.
Готово
Теперь смотрим на данные
Продолжаем смотреть на данные
Что делать?
Что делать с отсутствующими
данными?
• Это всегда зависит от конкретной ситуации.
• Отсутствие данных может быть поводом
провести расследование именно по этому
вопросу.
• Можно попробовать обратиться в ведомства,
отвечающие за публикацию этих данных, и
запросить недостающую информацию.
• Можно попробовать поискать наборы данных
по той же теме в других источниках.
Что делать с отсутствующими
данными?
• В ряде случаев, когда речь идет об общих
тенденциях и соотношениях, отсутствием
данных можно пренебречь: например,
вообще не рассматривать данные за
определенный период, а исследовать тот
период, для которого все данные есть.
• Аналитики в применении к некоторым
случаям могут сопоставлять просто последние
имеющиеся данные для каждого случая.
Важно: все допущения в работе с
данными желательно фиксировать в
таблице – например, в форме
комментария.
В нашем случае данных за 2010 и 2011 гг. существенно
меньше, чем за прочие годы. Попробуем посмотреть тот
период, за который у нас больше данных.
Выделяем нужную область, копируем её (Ctrl+C),
создаем новую вкладку в таблице и вставляем туда
то, что скопировали (Ctrl+V)
Подсчёты
Сортировка
В нашем случае рассортируем страны по признаку общей
численности самоубийств от максимальных показателей к
минимальным.
Теперь у нас есть рассортированные данные,
и мы можем сосредоточиться на странах с
максимальными и минимальными
значениями.
К примеру, можно сопоставить эти
показатели с другими индикаторами
благополучия/неблагополучия. Например,
ВВП, продолжительность жизни, уровень
безработицы и т.д.
Забегая вперед, скажу, что во многих случаях из тех, с
которыми мы хотим сопоставить наши данные, отсутствуют
значения за 2004 г. Также по ряду стран некоторые данные
представлены очень неполно. Набор стран, с которыми мы в
дальнейшем будем работать, обусловлен и этими
факторами.
За 2005 год отсутствуют данные по Италии. В порядке
допущения внесем в ячейку тот же показатель, что в 2006 г.
(необходимо это указать).
Теперь попробуем соотнести это с
другими показателями, как-то:
• Продолжительность жизни
• ВВП
• Уровень безработицы
• Бюджет на социальные нужды
• Бюджет на пособия по безработице
Проблема:
Как представить несколько измерений в
одной таблице, а в дальнейшем – и в виде
двухмерной визуализации?
Одно из возможных решений – представить
данные в виде интерактивной динамической
схемы
https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2Q
WpsNUtpbDhmN0U3cXJ0MXc#gid=0
Динамическую схему (motion
chart) разработал Ханс
Рослинг (Hans Rosling),
шведский врач и статистик.
Выступления Рослинга (в том числе презентация
динамической схемы) на конференции TED:
http://www.ted.com/speakers/hans_rosling.html
В свою очередь, сводная таблица
должна выглядеть примерно так:
Задача: преобразовать нашу
таблицу в таблицу такого вида
Data Wrangler
Это можно легко сделать при помощи бесплатной
программы Data Wrangler, которая работает
онлайн.
http://vis.stanford.edu/wrangler/
Data Wrangler
1. Для удобства в дальнейшем вернем сортировку
стран по алфавиту. После чего копируем таблицу.
2. Включаем Data Wrangler:
Data Wrangler
3.Вставляем скопированное в открывшееся окно и
нажимаем “Wrangle”.
Data Wrangler
Data Wrangler
4. Фиксируем заглавную строку
Data Wrangler
5. Перераспределяем данные
Data Wrangler
6. Экспортируем (для вставки в таблицу – лучше
всего в виде Tab-Separated Values)
Data Wrangler
7. Вставляем результат в таблицу
Data Wrangler
Дальнейшие шаги
• Аналогичным образом обрабатываем
нужные нам данные из других таблиц.
• Всё нужное собираем в единую сводную
таблицу.
Визуализация
Выделяем таблицу и вызываем диалог построения
диаграмм.
Выбираем динамическую схему и нажимаем
«Вставить»
Если щелкнуть по белому полю диаграммы, то в
правом верхнем углу появится треугольник,
щелкнув по которому можно вызвать меню.
В частности, можно получить код для публикации
схемы на html-странице
Можно также переместить диаграмму на отдельный
лист
Ссылки:
• Таблица, которая была создана в итоге:
https://docs.google.com/spreadsheet/ccc?key=0Aof
hFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0M
Xc#gid=0
• Google Диск: https://drive.google.com
• Data Wrangler: http://vis.stanford.edu/wrangler/

Работа с данными в Google таблицах

  • 1.
    Таблицы Google какнаиболее удобный инструмент для начинающих дата-журналистов Мастер-класс 19 сентября 2013 г.
  • 2.
    Таблицы: • Google (бесплатноеПО) • Open/Libre Office (бесплатное ПО) • MS Excel (платное ПО)
  • 3.
    Чтобы работать сGoogle таблицами, необходимо завести аккаунт Google
  • 4.
    Google документы: Допускают совместнуюработу над таблицей онлайн. Если вдруг оборвалась связь с интернетом, то работать с документом невозможно. Можно включить возможность автономной работы.
  • 6.
  • 8.
    Форматы, с которымиможно работать в таблицах:
  • 9.
    Импорт файла вGoogle таблицу
  • 10.
    Импорт файла вGoogle таблицу
  • 11.
    Готово Примечание: Если таблицаотказывается импортировать файл .xls, ссылаясь на то, что это неизвестный ей формат, можно попробовать открыть этот файл в таблице Excel или Open/Libre Calc и сохранить его, например, в версии 97-2003.
  • 12.
    Важно: До началаобработки данных обязательно нужно сделать копию документа, чтобы исходный вариант на всякий случай тоже сохранился.
  • 13.
    Как правило, данныев таблице бывают отформатированы. Удобства ради уберем форматирование, чтобы видеть таблицу в чистом виде.
  • 15.
  • 16.
  • 17.
    Продолжаем смотреть наданные Что делать?
  • 18.
    Что делать сотсутствующими данными? • Это всегда зависит от конкретной ситуации. • Отсутствие данных может быть поводом провести расследование именно по этому вопросу. • Можно попробовать обратиться в ведомства, отвечающие за публикацию этих данных, и запросить недостающую информацию. • Можно попробовать поискать наборы данных по той же теме в других источниках.
  • 19.
    Что делать сотсутствующими данными? • В ряде случаев, когда речь идет об общих тенденциях и соотношениях, отсутствием данных можно пренебречь: например, вообще не рассматривать данные за определенный период, а исследовать тот период, для которого все данные есть. • Аналитики в применении к некоторым случаям могут сопоставлять просто последние имеющиеся данные для каждого случая.
  • 20.
    Важно: все допущенияв работе с данными желательно фиксировать в таблице – например, в форме комментария.
  • 21.
    В нашем случаеданных за 2010 и 2011 гг. существенно меньше, чем за прочие годы. Попробуем посмотреть тот период, за который у нас больше данных.
  • 22.
    Выделяем нужную область,копируем её (Ctrl+C), создаем новую вкладку в таблице и вставляем туда то, что скопировали (Ctrl+V)
  • 23.
  • 24.
  • 25.
    В нашем случаерассортируем страны по признаку общей численности самоубийств от максимальных показателей к минимальным.
  • 27.
    Теперь у насесть рассортированные данные, и мы можем сосредоточиться на странах с максимальными и минимальными значениями. К примеру, можно сопоставить эти показатели с другими индикаторами благополучия/неблагополучия. Например, ВВП, продолжительность жизни, уровень безработицы и т.д.
  • 28.
    Забегая вперед, скажу,что во многих случаях из тех, с которыми мы хотим сопоставить наши данные, отсутствуют значения за 2004 г. Также по ряду стран некоторые данные представлены очень неполно. Набор стран, с которыми мы в дальнейшем будем работать, обусловлен и этими факторами.
  • 29.
    За 2005 годотсутствуют данные по Италии. В порядке допущения внесем в ячейку тот же показатель, что в 2006 г. (необходимо это указать).
  • 30.
    Теперь попробуем соотнестиэто с другими показателями, как-то: • Продолжительность жизни • ВВП • Уровень безработицы • Бюджет на социальные нужды • Бюджет на пособия по безработице
  • 31.
    Проблема: Как представить несколькоизмерений в одной таблице, а в дальнейшем – и в виде двухмерной визуализации?
  • 32.
    Одно из возможныхрешений – представить данные в виде интерактивной динамической схемы https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2Q WpsNUtpbDhmN0U3cXJ0MXc#gid=0
  • 33.
    Динамическую схему (motion chart)разработал Ханс Рослинг (Hans Rosling), шведский врач и статистик. Выступления Рослинга (в том числе презентация динамической схемы) на конференции TED: http://www.ted.com/speakers/hans_rosling.html
  • 34.
    В свою очередь,сводная таблица должна выглядеть примерно так:
  • 35.
  • 36.
    Data Wrangler Это можнолегко сделать при помощи бесплатной программы Data Wrangler, которая работает онлайн. http://vis.stanford.edu/wrangler/
  • 37.
    Data Wrangler 1. Дляудобства в дальнейшем вернем сортировку стран по алфавиту. После чего копируем таблицу. 2. Включаем Data Wrangler:
  • 38.
    Data Wrangler 3.Вставляем скопированноев открывшееся окно и нажимаем “Wrangle”.
  • 39.
  • 40.
    Data Wrangler 4. Фиксируемзаглавную строку
  • 41.
  • 42.
    Data Wrangler 6. Экспортируем(для вставки в таблицу – лучше всего в виде Tab-Separated Values)
  • 43.
  • 44.
    7. Вставляем результатв таблицу Data Wrangler
  • 45.
    Дальнейшие шаги • Аналогичнымобразом обрабатываем нужные нам данные из других таблиц. • Всё нужное собираем в единую сводную таблицу.
  • 46.
    Визуализация Выделяем таблицу ивызываем диалог построения диаграмм.
  • 47.
    Выбираем динамическую схемуи нажимаем «Вставить»
  • 48.
    Если щелкнуть побелому полю диаграммы, то в правом верхнем углу появится треугольник, щелкнув по которому можно вызвать меню.
  • 49.
    В частности, можнополучить код для публикации схемы на html-странице
  • 50.
    Можно также переместитьдиаграмму на отдельный лист
  • 51.
    Ссылки: • Таблица, котораябыла создана в итоге: https://docs.google.com/spreadsheet/ccc?key=0Aof hFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0M Xc#gid=0 • Google Диск: https://drive.google.com • Data Wrangler: http://vis.stanford.edu/wrangler/