Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Представлення статистичної інформації за допомогою графічного методу

1,184 views

Published on

Теорія та практика представлення статистичної інформації за допомогою статистичних графіків

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Представлення статистичної інформації за допомогою графічного методу

  1. 1. Представлення статистичної інформації за допомогою графічного методу Pic by Bratislav Milenkovic Марець О.Р., Вільчинська О.М.
  2. 2. Питання, які викликають дискусії
  3. 3. Стовпчикова чи лінійна? When Are 100% Stacked Bar Graphs Useful? http://www.perceptualedge.com/blog/?p=2239
  4. 4. Чому вони кажуть Die, pie chart, die? The Worst Chart In The World http://www.businessinsider.com/pie-charts-are-the-worst-2013-6 Life with Pie (charts) http://www.pivotdesigngroup.com/2011/05/pie-charts/ No Humble Pie: The Origins and Usage of a Statistical Chart http://www.psych.utoronto.ca/users/spence/Spence%202005.pdf
  5. 5. Як (не) ввести користувача в оману? The most misleading charts of 2015, fixed http://qz.com/580859/the-most-misleading-charts-of-2015-fixed/ Junk Charts http://junkcharts.typepad.com/ WTF Visualizations http://viz.wtf/
  6. 6. Та багато інших… Скільки ліній зображати одночасно на одній діаграмі? Що краще: секторна чи стовпчикова діаграма? Яка максимальна кількість секторів для секторної діаграми? Як підписувати дані? Скільки знаків після коми доречно давати? Яка оптимальна відстань між стовпцями стовпчикової діаграми? …
  7. 7. Структура презентації 1. Вступ 1. Термінологія 2. Переваги 3. Приклади 2. Теорія: 1. Тафті (основні принципи графічного представлення даних) 2. Клівленд, МакГілл (теорія сприйняття різних образів) 3. Желязни (класифікація графіків) 3. Основні діаграми 1. Секторна 2. Стовпчикова 3. Точкова
  8. 8. Візуалізація— одержання видимого зображення яких-небудь предметів, явищ, процесів, недоступних для безпосереднього спостереження Великий тлумачний словник української мови, С. х, х, 225, 196 Інфографіка— графічне візуальне подання інформації, даних або знань, призначених для швидкого та чіткого відображення комплексної інформації Діаграма— графічне зображення, що наочно у вигляді певних геометричних фігур показує співвідношення між різними величинами, які порівнюються = статистичний графік Графік— зображення різних моментів якогось процесу за допомогою ліній Термінологія
  9. 9. Переваги використання графічного методу • Аналіз великого набору даних • Акцентування уваги на різних аспектах даних • Зменшення інформаційного перевантаження людини • Виділення взаємозв’язків та закономірностей • Утримання уваги • Однозначність і ясність • Естетична привабливість
  10. 10. Люди запам’ятовують 10 % почутого, 20 % прочитаного та 80 % побаченого або зробленого http://neomam.com/interactive/13reasons/
  11. 11. Квартет Анскомбе • Anscombe, FJ (1973). "Graphs in Statistical Analysis". American Statistician 27 (1): 17–21 • 4 набори даних з однаковими статистичними показниками • придумав у 1973 році математик Ф. Дж. Анскомбе I II III IV x y x y x y x y 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47 14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04 6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50 12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56 7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91 5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
  12. 12. Показник Значення Середнє значення змінної x 9.0 Дисперсія змінної x 10.0 Середнє значення змінної y 7.5 Дисперсія змінної y 3.75 Кореляція між змінними x та y 0.816 Пряма лінійної регресії y = 0,5 x + 3 • показує важливість використання графіків для статистичного аналізу та • вплив нетипових значень на властивості набору даних
  13. 13. 20 країн, 100 показників Номінальний ВВП 20-ти країн світу
  14. 14. Отже, важливість використання графічного методу безсумнівна проте стандарти побудови статистичних графіків дуже відрізняються між собою, а у вітчизняній науці практично відсутні. Крім того, опрацювання різних вітчизняних наукових публікацій та публікацій Державної служби статистики загострило увагу на практичній відсутності культури подання інформації графічним способом
  15. 15. http://ukrstat.gov.ua/
  16. 16. http://www.me.gov.ua/?lang=uk-UA
  17. 17. Едвард Тафті • (народ. в 1942 році) — американський статистик, професор статистики, політології і комп’ютерних наук Єльського університету, відомий своїми працями з інформаційного дизайну
  18. 18. Праці Тафті • The Visual Display of Quantitative Information (2001) [1983] • Envisioning Information (2001b) [1990] • Visual Explanations: Images and Quantities, Evidence and Narrative (1997) • Beautiful Evidence (2006)
  19. 19. Принципи візуалізації Тафті Досконалий статистичний графік представляє собою сукупність думок, донесених ясно, точно і результативно. Графічне представлення інформації повинне: • дати користувачу найбільшу кількість ідей, в найкоротший час, з найменшою кількістю чорнила на найменшому просторі • казати правду про дані
  20. 20. Терміни Тафті • Співвідношення дані-чорнило (Data ink ratio) • Індекс брехні (Lie factor) • Графічне сміття (Chartjunk) • Щільність даних (Data density) • Іскрографік (Sparkline) • Мультиграфіки (Small multiples) • Графік-нахил (slopegraph)
  21. 21. Співвідношення дані-чорнило = чорнило, яке на графіку показує дані / все чорнило = частка чорнила, яке на графіку показує дані = 1 – частина графіка, яку можна стерти і суть не зміниться
  22. 22. Індекс брехні (Lie factor) http://www.infovis-wiki.net/index.php/Lie_Factor
  23. 23. Графічне сміття (Chartjunk) • Візуальні елементи, які не належать до набору засобів, необхідних для представлення інформації доступно та зрозуміло • Це: необов'язковий текст або складні шрифти, орнаменти на осях, ефекти тіні та об'єму, занадто “шумний” фон Edward Tufte, The Visual Display of Quantitative Information (1983)
  24. 24. Цитата з: Edward Tufte, The Visual Display of Quantitative Information (1983) Гляньте-но на цю перенасичену стереотипами і вульгарним гумором сумнівну картинку. Це жертва візуальної чутливості, де графік-ніжка в сітчастій панчосі натякає на сітку графіка, вважається творчим задумом. За цим графічним сміттям ховається презирство і неповага як до даних, так і до глядача. Виробники цього мотлоху вважають, що числа і деталі нудні і їх просто необхідно оживити орнаментом. Але прикрашання нерідко шкодять змісту і ніколи не замінять його. А якщо числа нудні, значить, це просто не ті числа. Достовірність губиться в горах візуального сміття - ну хто буде серйозно сприймати графік, подібний на відео-гру? Графічне сміття За мотивами: • S.Bateman, R.L.Mandryk, C.Gutwin, A.Genest, D.McDine, C.Brooks, Useful Junk? The Effects of Visual Embellishment on Comprehension and Memorability of Charts (2010) • Few S.The Chartjunk Debate. A Close Examination of Recent Findings (2011) Проти За Вдало підібрані графічні прикраси можуть: посилити ефективність візуалізації через зацікавлення та залучення уваги користувача, • змусити його розглядати та читати візуалізацію. Вдало підібрана графічна метафора може стати мнемонічним інструментом та змусить запам’ятати інформацію значно краще, ніж це зробить проста діаграма. Йдеться про розумно підібраний та якісний допоміжний графічний матеріал.
  25. 25.  візерунок скаче перед очима  це графічне сміття  Тафті радить переходити на відтінки сірого Штрихування на графіках
  26. 26. Сприйняття графічних образів • У 1984 році Вільям С. Клівленд та Роберт МакГілл, працівники AT&T Bell Labs опублікували у виданні Journal of the American Statistical Association статтю, яка називалась “Сприйняття графіки: теорія, експерименти та застосування до розробки графічних методів” • Запропонували базові рекомендації з вибору найліпшої форми візуалізації • Результатом експериментів є рейтинг, де методи візуалізації перелічені за легкістю сприйняття інформації та здійснення порівнянь
  27. 27. Від найкращого до найгіршого: 1. Позиція об'єктів відносно спільної системи координат 2. Позиція об'єктів відносно різних систем координат 3. Довжина 4. Нахил Кут 5. Площа Інтенсивність кольору 6. Об'єм 7. Відтінок кольору
  28. 28. У книзі “Говори мовою діаграм” (Say it With Charts) Джин Желязни (директор візуальних комунікацій у McKinsey & Company) виділяє п'ять основних типів порівнянь, якими можна виразити дані. А саме:  компонентне  позиційне  часове  частотне  кореляційне
  29. 29. Типи порівнянь з керівництва про візуалізацію WSJ НОМІНАЛЬНЕ Просте порівняння кількісних значень підкатегорій ЧАСОВЕ Зміни у значеннях за послідовні часові періоди КОРЕЛЯЦІЙНЕ Залежність між змінними (2 і більше) РАНЖУВАННЯ Від найбільшого до найменшого ВІДХИЛЕННЯ Відхилення точок від певного середнього значення РОЗПОДІЛ Кількість об’єктів в певних інтервалах ЧАСТИНА-ДО-ЦІЛОГО Відношення частини явища до явища загалом DATA VISUALIZATION 101: HOW TO DESIGN CHARTS AND GRAPHS
  30. 30. Секторна діаграма • Традиційна, проста для розуміння • Сектори в крузі якнайкраще відображають частку від цілого Проте цю діаграму критикують найбільше Вона: АБ В Г • Не дає можливості робити точні порівняння • При великій кількості структурних частин втрачає інформативність • Займає багато місця http://annkemery.com/pie-chart-guidelines/ http://www.psych.utoronto.ca/users/spence/Spence%202005.pdf http://www.businessinsider.com/pie-charts-are-the-worst-2013-6 http://www.pivotdesigngroup.com/2011/05/pie-charts/
  31. 31. Порівняйте обсяги структурних частин 1-5
  32. 32. Як ще можна показати структуру http://annkemery.com/essentials/
  33. 33. Множинні кільцеві діаграми  застосування цього типу графіка дає хороші результати, коли точні порівняння не потрібні, та структурних частин не багато
  34. 34. Діаграма Вороного • Георгій Вороний (1868 — 1908) — видатний український математик. Член-кореспондент Російської Академії наук з 01.12.1907, професор Варшавського університету. • Термін « Діаграма_Вороного » був введений в теоретичну комп'ютерну науку в середині 1970-х років. Це особливий вид розбиття метричного простору, що визначається відстанями до заданої дискретної множини ізольованих точок цього простору. • Їх використовують в різноманітних дослідженнях від молекулярної біології до космосу, у комп'ютерній графіці, у проблемах розпізнавання образів, штучного інтелекту, екології, в радіаційній фізиці, космології, хімічній технології, фізичній хімії та ін. науках, а також в моделюванні рельєфу, в аналізі руху і плануванні, у виявленні зіткнень, навігації та обходу перешкод, в аналізі мережі, тощо. • Michael Balzer Oliver Deussen 2005 Voronoi Treemaps • The Graphics Department of the NY Times, including Amanda Cox, Shan Carter 2008 All of inflation's little parts (Interactive news graphics) • http://www.datavis.ca/gallery/excellence.php
  35. 35. http://www.nytimes.com/interactive/2008/05/03/busin ess/20080403_SPENDING_GRAPHIC.html?_r=0 Маленькі частки інфляції • інтерактивний графік від 3 травня 2008 р. показує зміну цін порівняно з попереднім роком • за різними компонентами споживчого кошика • круг розбитий на 8 частин, величина кожної пропорційна відсотку споживання частини споживчого кошика • кожна така частина розбита на під-категорії • кольором показано зміну цін (за допомогою біполярної кольорової шкали): відтінки бордового – збільшення, синього - зменшення
  36. 36. http://atlas.cid.harvard.edu/ Структура експорту України у 2014 р.
  37. 37. Некоректно:  кільцеву діаграму використовують щоб показати зміну частки в динаміці
  38. 38. Стовпчикова діаграма • Функції: порівняння, ряди розподілу, ряди динаміки • Особливість: оскільки висота прямокутника показує обсяг явища, шкала має починатися з 0 • Використовуються для дискретних даних • Варіанти:  0 1 2 3 4 5 А Б В Г
  39. 39. http://annkemery.com/essentials/
  40. 40. Немає сенсу тут вводити різні кольори Використан ня кольору
  41. 41. Лінійна (точкова) діаграма • Функції: порівняння, ряди розподілу, ряди динаміки • Призначена для візуалізації безперервного ряду даних • Перевага: економний • Особливість: деколи поєднання точок лініями не має змісту (псевдокриві) • Варіанти: 
  42. 42. Варіанти лінійної діаграми http://annkemery.com/one-dataset-five-line-charts/
  43. 43. • Що показує: порівняння • Складність в Excel:  Гантельки
  44. 44. Графік-нахил • Що показує: порівняння, взаємозв’язки • Складність в Excel: 
  45. 45. Діаграма розсіювання до 3-х чинників Смертність у ДТП у Африці утричі більша ніж в Європі, при меншій кількості автомобілів в 10 разів.
  46. 46. Бульбашкова діаграма до 4х чинників
  47. 47. Приклад 1 • тип графіка не доречний для відображення структури • текст розташований вертикально • числові значення категорій то збільшуються то зменшуються • для розрізнення категорій тут використовується колір, маркери дублюють інформацію • використання кольорів не продумане • рамки легенди та самої діаграми зайві http://ukrstat.gov.ua/
  48. 48. • тип графіка: показує не структуру, а порівняння • текст розташований вертикально • числові значення категорій то збільшуються то зменшуються; • для розрізнення категорій тут використовується колір, маркери зайві • використання кольорів не продумане • рамки легенди та самої діаграми зайві Побудовано за даними http://ukrstat.gov.ua/
  49. 49. • показує тільки структуру • при низькій інформативності займає багато місця • легко вводить в оману – недосвідчені користувачі порівнюють обсяги, а тут показана структура Побудовано за даними http://ukrstat.gov.ua/
  50. 50. • показує тільки структуру • при низькій інформативності займає багато місця • можливо легко порівняти лише довжини тих прямокутників, які мають спільну базу Побудовано за даними http://ukrstat.gov.ua/
  51. 51. Побудовано за даними http://ukrstat.gov.ua/
  52. 52. Структура - секторна діаграмаПриклад 2 • позначення тільки одної частки, щоб не забивати простір; • щоб зробити порівняння треба щоб очі побігали; • місця займає багато; • це тільки структура, суть явища подана однобоко; • проте традиційно Побудовано за даними http://ukrstat.gov.ua/
  53. 53. Структура - кільцева діаграма • така форма діаграми дозволяє розмістити в дірці текст, а, отже, економія; • щоб зробити порівняння треба щоб очі побігали; • місця займає багато • це тільки структура, суть явища подана однобоко; • проте традиційно Побудовано за даними http://ukrstat.gov.ua/
  54. 54. Структура - графік-нахил • порівнювати просто, нахил показує що і як; • місця і пікселів займає мало; • це тільки структура, суть явища подана однобоко; • не надто традиційно • щоб показати явище повніше вважаємо варто залучити абсолютні величини Побудовано за даними http://ukrstat.gov.ua/
  55. 55. Побудовано за даними http://ukrstat.gov.ua/
  56. 56. Висновок Необхідними є чіткі та однозначні вказівки та рекомендації щодо побудови та оформлення статистичних діаграм, а також їх розповсюдження, впровадження та популяризація.
  57. 57. Ми сформулювали наступні вказівки (рекомендації) щодо оформлення статистичних графіків 1. Загальне 2. Текст 3. Розташування 4. Колір 5. Лінії
  58. 58. 1. Загальне 1.1. Графік містить основну ідею, практичне значення. 1.2. Тип графіка доречний до особливостей вихідної інформації. 1.3. Дані подані у контексті чи порівнянні. 1.4. Всі елементи графіка вказують на основну ідею.
  59. 59. 2. Текст 2.1. Назва складається із 6-12 слів, чітко відображає суть даних (назву показника), включає в себе рік та місце, до яких відносяться дані. 2.2. Розмір тексту читабельний і відповідає ієрархії (назва графіка – найбільшим шрифтом, а назви категорій – найменшим). 2.3. Текст максимально лаконічний. 2.4. Числова інформація: кількість знаків після коми відсутня або мінімальна. 2.5. Текст грамотний. 2.6. Текст розташований горизонтально. 2.7. Позначення інтегровані, розміщені поряд з графічними символами. 2.8. Посилання (під графіком) на джерело даних.
  60. 60. 3. Розташування 3.1. Пропорції відповідні вихідним даним. 3.2. Дані відсортовані для зручності користувача. 3.3. Інтервали рівновіддалені. 3.4. Графік двовимірний. 3.5. Маркери з гострими кутами відсутні. 3.6. Прикраси відсутні. Проте можна використовувати прості графічні символи щоб спростити сприйняття тексту.
  61. 61. 4. Колір 4.1. Кольори використані раціонально. 4.2. Кольором можна зробити акцент на певному значенні (максимальному, мінімальному, нетиповому). 4.3. Суть кольорових позначень не втрачається при переході на чорно-білу палітру. 4.4. Візерунки: дуже помірковано (при цьому чергувати темні та світлі чи строкаті візерунки для полегшення сприйняття); 4.5. Контраст: 1) текст контрастний відносно тла; 2) кольори контрастні одне відносно іншого.
  62. 62. 5. Лінії 5.1. Лінії сітки, якщо присутні, подані приглушеними кольорами, тонші за головні осі. 5.2. Рамки відсутні. 5.3. Графік має одну горизонтальну і одну вертикальну вісь (навіть якщо вона схована). Використання другої вертикальної осі ускладнює сприйняття інформації.
  63. 63. 6. Секторна діаграма 6.1. Не більше 6 секторів. 6.2. Найголовніший сегмент розташовують на лінії 12 год. 6.3. Сектори розташовують за спаданням обсягу частки (один з варіантів). 6.4. Кольором виділений найважливіший сегмент. 6.5. Для порівняння декількох структур – краще взяти стовпчикова кумулятивна або нормована на 100 % діаграма. 6.6. Разом там 100 %.
  64. 64. 7. Стовпчикова діаграма 7.1. Вісь починається з 0. 7.2. Проміжок між стовпчиками = ½ ширини стовпчика. 7.3. Одна категорія – один колір.
  65. 65. 8. Лінійна (точкова) діаграма 8.1. Не більше 4 (?) ліній на одному графіку. 8.2. Тільки суцільні лінії.

×