Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Работа с данными в Google таблицах

8,937 views

Published on

Пошаговое прохождение

  • Be the first to comment

Работа с данными в Google таблицах

  1. 1. Таблицы Google как наиболее удобный инструмент для начинающих дата-журналистов Мастер-класс 19 сентября 2013 г.
  2. 2. Таблицы: • Google (бесплатное ПО) • Open/Libre Office (бесплатное ПО) • MS Excel (платное ПО)
  3. 3. Чтобы работать с Google таблицами, необходимо завести аккаунт Google
  4. 4. Google документы: Допускают совместную работу над таблицей онлайн. Если вдруг оборвалась связь с интернетом, то работать с документом невозможно. Можно включить возможность автономной работы.
  5. 5. Источник данных: http://www.oecd.org/statistics/
  6. 6. Форматы, с которыми можно работать в таблицах:
  7. 7. Импорт файла в Google таблицу
  8. 8. Импорт файла в Google таблицу
  9. 9. Готово Примечание: Если таблица отказывается импортировать файл .xls, ссылаясь на то, что это неизвестный ей формат, можно попробовать открыть этот файл в таблице Excel или Open/Libre Calc и сохранить его, например, в версии 97-2003.
  10. 10. Важно: До начала обработки данных обязательно нужно сделать копию документа, чтобы исходный вариант на всякий случай тоже сохранился.
  11. 11. Как правило, данные в таблице бывают отформатированы. Удобства ради уберем форматирование, чтобы видеть таблицу в чистом виде.
  12. 12. Готово
  13. 13. Теперь смотрим на данные
  14. 14. Продолжаем смотреть на данные Что делать?
  15. 15. Что делать с отсутствующими данными? • Это всегда зависит от конкретной ситуации. • Отсутствие данных может быть поводом провести расследование именно по этому вопросу. • Можно попробовать обратиться в ведомства, отвечающие за публикацию этих данных, и запросить недостающую информацию. • Можно попробовать поискать наборы данных по той же теме в других источниках.
  16. 16. Что делать с отсутствующими данными? • В ряде случаев, когда речь идет об общих тенденциях и соотношениях, отсутствием данных можно пренебречь: например, вообще не рассматривать данные за определенный период, а исследовать тот период, для которого все данные есть. • Аналитики в применении к некоторым случаям могут сопоставлять просто последние имеющиеся данные для каждого случая.
  17. 17. Важно: все допущения в работе с данными желательно фиксировать в таблице – например, в форме комментария.
  18. 18. В нашем случае данных за 2010 и 2011 гг. существенно меньше, чем за прочие годы. Попробуем посмотреть тот период, за который у нас больше данных.
  19. 19. Выделяем нужную область, копируем её (Ctrl+C), создаем новую вкладку в таблице и вставляем туда то, что скопировали (Ctrl+V)
  20. 20. Подсчёты
  21. 21. Сортировка
  22. 22. В нашем случае рассортируем страны по признаку общей численности самоубийств от максимальных показателей к минимальным.
  23. 23. Теперь у нас есть рассортированные данные, и мы можем сосредоточиться на странах с максимальными и минимальными значениями. К примеру, можно сопоставить эти показатели с другими индикаторами благополучия/неблагополучия. Например, ВВП, продолжительность жизни, уровень безработицы и т.д.
  24. 24. Забегая вперед, скажу, что во многих случаях из тех, с которыми мы хотим сопоставить наши данные, отсутствуют значения за 2004 г. Также по ряду стран некоторые данные представлены очень неполно. Набор стран, с которыми мы в дальнейшем будем работать, обусловлен и этими факторами.
  25. 25. За 2005 год отсутствуют данные по Италии. В порядке допущения внесем в ячейку тот же показатель, что в 2006 г. (необходимо это указать).
  26. 26. Теперь попробуем соотнести это с другими показателями, как-то: • Продолжительность жизни • ВВП • Уровень безработицы • Бюджет на социальные нужды • Бюджет на пособия по безработице
  27. 27. Проблема: Как представить несколько измерений в одной таблице, а в дальнейшем – и в виде двухмерной визуализации?
  28. 28. Одно из возможных решений – представить данные в виде интерактивной динамической схемы https://docs.google.com/spreadsheet/ccc?key=0AofhFA7uQyz0dEwxMGE2Q WpsNUtpbDhmN0U3cXJ0MXc#gid=0
  29. 29. Динамическую схему (motion chart) разработал Ханс Рослинг (Hans Rosling), шведский врач и статистик. Выступления Рослинга (в том числе презентация динамической схемы) на конференции TED: http://www.ted.com/speakers/hans_rosling.html
  30. 30. В свою очередь, сводная таблица должна выглядеть примерно так:
  31. 31. Задача: преобразовать нашу таблицу в таблицу такого вида
  32. 32. Data Wrangler Это можно легко сделать при помощи бесплатной программы Data Wrangler, которая работает онлайн. http://vis.stanford.edu/wrangler/
  33. 33. Data Wrangler 1. Для удобства в дальнейшем вернем сортировку стран по алфавиту. После чего копируем таблицу. 2. Включаем Data Wrangler:
  34. 34. Data Wrangler 3.Вставляем скопированное в открывшееся окно и нажимаем “Wrangle”.
  35. 35. Data Wrangler
  36. 36. Data Wrangler 4. Фиксируем заглавную строку
  37. 37. Data Wrangler 5. Перераспределяем данные
  38. 38. Data Wrangler 6. Экспортируем (для вставки в таблицу – лучше всего в виде Tab-Separated Values)
  39. 39. Data Wrangler
  40. 40. 7. Вставляем результат в таблицу Data Wrangler
  41. 41. Дальнейшие шаги • Аналогичным образом обрабатываем нужные нам данные из других таблиц. • Всё нужное собираем в единую сводную таблицу.
  42. 42. Визуализация Выделяем таблицу и вызываем диалог построения диаграмм.
  43. 43. Выбираем динамическую схему и нажимаем «Вставить»
  44. 44. Если щелкнуть по белому полю диаграммы, то в правом верхнем углу появится треугольник, щелкнув по которому можно вызвать меню.
  45. 45. В частности, можно получить код для публикации схемы на html-странице
  46. 46. Можно также переместить диаграмму на отдельный лист
  47. 47. Ссылки: • Таблица, которая была создана в итоге: https://docs.google.com/spreadsheet/ccc?key=0Aof hFA7uQyz0dEwxMGE2QWpsNUtpbDhmN0U3cXJ0M Xc#gid=0 • Google Диск: https://drive.google.com • Data Wrangler: http://vis.stanford.edu/wrangler/

×