SlideShare a Scribd company logo
ВЕБИНАР ШКОЛЫ БОЛЬШИХ ДАННЫХ
ВСПОМОГАТЕЛЬНАЯ ИНФОРМАЦИЯ ДЛЯ РАБОТЫ НАД ПРОЕКТАМИ
31 МАЯ 2018 Г.
РАДЧЕНКО ИРИНА
IRADCHE@GMAIL.COM
КРАТКОЕ ПОВТОРЕНИЕ ПРОЙДЕННОГО
• Опорная гуглотаблица, в которой собраны результаты работ
по первой сессии:
https://docs.google.com/spreadsheets/d/1m5iDsXpRxECP6f0EBtvaQlKDoI
To85oVrUe5LK5rLuY/edit#gid=0
КРАТКОЕ ПОВТОРЕНИЕ ПРОЙДЕННОГО
• Материалы Ирины Радченко:
https://github.com/iradche/ANRI-workshop
КРАТКО ОБ АНАЛИЗЕ ДАННЫХ
• Очень легко сделать математические ошибки.
• Пример ошибок в статье:
http://inosmi.ru/social/20140905/222814116.html
ВЫЧИСЛЕНИЕ ПРОЦЕНТОВ
X нов – X стар
__________
X стар
Пример:
ДТП в этом году 60, а в прошлом – 40. Увеличилось количество ДТП на 20/40 = ½
ДТП в этом году 40, а в прошлом – 60. Уменьшилось количество ДТП на -20/60=-1/3
НОРМИРОВКА (ДЛЯ СРАВНИВАНИЯ)
Значение (событие)
___________________ x Количество населения
Население
Пример:
60 ДТП 40 ДТП
_________ x 1 000 = 60 ДТП на 1 000 людей _________ x 1 000 = 80 ДТП на 1 000 людей
1 000 500
ТЕОРИЯ ЧЕТЫРЕХ РОССИЙ
• «Согласно центро-периферийной теории, любое заселенное людьми пространство иерархично. Оно
делится на центр, полупериферию и периферию. Центр в масштабах страны — крупные и крупнейшие
города (Россия-1). Полупериферию, второй иерархический уровень, образуют менее крупные и
средние города (Россия-2). Наконец, есть периферия — самая обширная часть пространства, сельские
поселения и малые города (Россия-3). Эти три типа пространства, которые соединены на территории
страны и присутствуют в каждом регионе, имеют разный социум и разные ресурсы развития. Как
следствие, различается их скорость модернизации.
• А Россия-4 — это Северный Кавказ. Там модернизационные процессы начались позже, и центро-
периферийная модель пока не очень работает. Но лет через 50 на Северном Кавказе будет, как
сегодня в России».
• Источник: https://www.novayagazeta.ru/articles/2013/11/18/57242-171-chetyre-rossii-187-na-odnoy-territorii
(Из интервью с Натальей Васильевной Зубаревич), а также см.
https://www.vedomosti.ru/opinion/articles/2011/12/30/chetyre_rossii?
СРЕДНЕЕ, МЕДИАНА, МОДА И ВЫБРОС
• Медиана – число выборки: ровно половина из элементов выборки больше него,
а другая половина меньше него.
• Среднее арифметическое – сумма всех чисел, разделенная на их количество.
• Мода – значение, которое встречается наиболее часто.
• Выброс – результат измерения, выделяющийся из общей выборки.
АВТОМАТИЧЕСКАЯ ОПИСАТЕЛЬНАЯ СТАТИСТИКА
В LIBREOFFICE
АВТОМАТИЧЕСКАЯ ОПИСАТЕЛЬНАЯ СТАТИСТИКА
В LIBREOFFICE
КОРРЕЛЯЦИЯ
• Корреля́ция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная
зависимость — статистическая взаимосвязь двух или более случайных величин (либо
величин, которые можно с некоторой допустимой степенью точности считать таковыми).
При этом изменения значений одной или нескольких из этих величин сопутствуют
систематическому изменению значений другой или других величин.
• Источник: https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D1%80
%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F
Общая теория статистики: Учебник / Под ред. Р. А. Шмойловой. — 3-е издание,
переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8.
КОРРЕЛЯЦИЯ
• Понятие коэффициента корреляции в статистическом анализе является единицей
измерения того, насколько хорошо спрогнозированное значение соотносится с реальными
данными. Оно дает нам понимание, насколько хорошо прогностика продемонстрировала
свою "пригодность" при работе с реальными данными.
• Коэффициент корреляции это число между 0 и 1. Если соотношений между
спрогнозированными значениями и реальными данными не обнаружено, коэффициент
корреляции будет равен 0 или очень близко к этому. Чем выше соотношение между
спрогнозированными значениями и реальными данными, тем лучше и коэффициент
корреляции. Абсолютно приемлемый результат дает коэффициент 1.0.
Таким образом, чем выше коэффициент корреляции, тем лучше.
• Источник: http://www.timingsolution.ru/WebHelp/scr/ts_r.htm
КОРРЕЛЯЦИЯ
Отождествление корреляции и причинности — ошибка, состоящая
в убеждении, что наличие корреляции означает причинно-следственную
связь.
Список логических ошибок:
https://ru.rationalwiki.org/wiki/%D0%9B%D0%BE%D0%B3%D0%B8%D1%87%D0%
B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BE%D1%88%D0%B8%D0%B1%D0%
BA%D0%B0
ВЫЧИСЛЕНИЕ КОРРЕЛЯЦИИ В LIBREOFFICE
ВЫЧИСЛЕНИЕ КОРРЕЛЯЦИИ В LIBREOFFICE
ПОЛЕЗНОЕ.
ЗАКРЕПЛЕНИЕ СТРОК/СТОЛБЦОВ
ПОЛЕЗНОЕ.
ФОРМАТИРОВАНИЕ ЯЧЕЕК С ЧИСЛАМИ
ПОЛЕЗНОЕ. СОРТИРОВКА

More Related Content

More from Irina Radchenko

Анализ 
и визуализация данных
Анализ 
и визуализация данныхАнализ 
и визуализация данных
Анализ 
и визуализация данных
Irina Radchenko
 
Data management syllabus
Data management syllabusData management syllabus
Data management syllabus
Irina Radchenko
 
Data journalist
Data journalistData journalist
Data journalist
Irina Radchenko
 
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Irina Radchenko
 
FREYA project
FREYA projectFREYA project
FREYA project
Irina Radchenko
 
How to become a Data Scientist
How to become a Data Scientist How to become a Data Scientist
How to become a Data Scientist
Irina Radchenko
 
Программа CATT
Программа CATTПрограмма CATT
Программа CATT
Irina Radchenko
 
Open Data aspects
Open Data aspectsOpen Data aspects
Open Data aspects
Irina Radchenko
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
Irina Radchenko
 
Introduction to Open Data
Introduction to Open DataIntroduction to Open Data
Introduction to Open Data
Irina Radchenko
 
Open Data hackathons in Russia
Open Data hackathons in RussiaOpen Data hackathons in Russia
Open Data hackathons in Russia
Irina Radchenko
 
Working with Open Data
Working with Open DataWorking with Open Data
Working with Open Data
Irina Radchenko
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
Irina Radchenko
 
Open science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economyOpen science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economy
Irina Radchenko
 
THOR: Technical and Human infrastructure for Open Research
THOR: Technical and Human infrastructure for Open ResearchTHOR: Technical and Human infrastructure for Open Research
THOR: Technical and Human infrastructure for Open Research
Irina Radchenko
 
Open world and its enemies
Open world and its enemies Open world and its enemies
Open world and its enemies
Irina Radchenko
 
Webinar3. Data analysis
Webinar3. Data analysisWebinar3. Data analysis
Webinar3. Data analysis
Irina Radchenko
 
Webinar1. Data search
Webinar1. Data searchWebinar1. Data search
Webinar1. Data search
Irina Radchenko
 
Open Data for Internet of Things
Open Data for Internet of ThingsOpen Data for Internet of Things
Open Data for Internet of Things
Irina Radchenko
 
Международный проект THOR: использование постоянных идентификаторов в научной...
Международный проект THOR: использование постоянных идентификаторов в научной...Международный проект THOR: использование постоянных идентификаторов в научной...
Международный проект THOR: использование постоянных идентификаторов в научной...
Irina Radchenko
 

More from Irina Radchenko (20)

Анализ 
и визуализация данных
Анализ 
и визуализация данныхАнализ 
и визуализация данных
Анализ 
и визуализация данных
 
Data management syllabus
Data management syllabusData management syllabus
Data management syllabus
 
Data journalist
Data journalistData journalist
Data journalist
 
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
Solving Data Integration Problems in Medical Imaging System: A Case Study in ...
 
FREYA project
FREYA projectFREYA project
FREYA project
 
How to become a Data Scientist
How to become a Data Scientist How to become a Data Scientist
How to become a Data Scientist
 
Программа CATT
Программа CATTПрограмма CATT
Программа CATT
 
Open Data aspects
Open Data aspectsOpen Data aspects
Open Data aspects
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
 
Introduction to Open Data
Introduction to Open DataIntroduction to Open Data
Introduction to Open Data
 
Open Data hackathons in Russia
Open Data hackathons in RussiaOpen Data hackathons in Russia
Open Data hackathons in Russia
 
Working with Open Data
Working with Open DataWorking with Open Data
Working with Open Data
 
Introduction to Data Journalism
Introduction to Data JournalismIntroduction to Data Journalism
Introduction to Data Journalism
 
Open science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economyOpen science as a cultural basis in Digital economy
Open science as a cultural basis in Digital economy
 
THOR: Technical and Human infrastructure for Open Research
THOR: Technical and Human infrastructure for Open ResearchTHOR: Technical and Human infrastructure for Open Research
THOR: Technical and Human infrastructure for Open Research
 
Open world and its enemies
Open world and its enemies Open world and its enemies
Open world and its enemies
 
Webinar3. Data analysis
Webinar3. Data analysisWebinar3. Data analysis
Webinar3. Data analysis
 
Webinar1. Data search
Webinar1. Data searchWebinar1. Data search
Webinar1. Data search
 
Open Data for Internet of Things
Open Data for Internet of ThingsOpen Data for Internet of Things
Open Data for Internet of Things
 
Международный проект THOR: использование постоянных идентификаторов в научной...
Международный проект THOR: использование постоянных идентификаторов в научной...Международный проект THOR: использование постоянных идентификаторов в научной...
Международный проект THOR: использование постоянных идентификаторов в научной...
 

Вебинар по статистике

  • 1. ВЕБИНАР ШКОЛЫ БОЛЬШИХ ДАННЫХ ВСПОМОГАТЕЛЬНАЯ ИНФОРМАЦИЯ ДЛЯ РАБОТЫ НАД ПРОЕКТАМИ 31 МАЯ 2018 Г. РАДЧЕНКО ИРИНА IRADCHE@GMAIL.COM
  • 2. КРАТКОЕ ПОВТОРЕНИЕ ПРОЙДЕННОГО • Опорная гуглотаблица, в которой собраны результаты работ по первой сессии: https://docs.google.com/spreadsheets/d/1m5iDsXpRxECP6f0EBtvaQlKDoI To85oVrUe5LK5rLuY/edit#gid=0
  • 3. КРАТКОЕ ПОВТОРЕНИЕ ПРОЙДЕННОГО • Материалы Ирины Радченко: https://github.com/iradche/ANRI-workshop
  • 4. КРАТКО ОБ АНАЛИЗЕ ДАННЫХ • Очень легко сделать математические ошибки. • Пример ошибок в статье: http://inosmi.ru/social/20140905/222814116.html
  • 5. ВЫЧИСЛЕНИЕ ПРОЦЕНТОВ X нов – X стар __________ X стар Пример: ДТП в этом году 60, а в прошлом – 40. Увеличилось количество ДТП на 20/40 = ½ ДТП в этом году 40, а в прошлом – 60. Уменьшилось количество ДТП на -20/60=-1/3
  • 6. НОРМИРОВКА (ДЛЯ СРАВНИВАНИЯ) Значение (событие) ___________________ x Количество населения Население Пример: 60 ДТП 40 ДТП _________ x 1 000 = 60 ДТП на 1 000 людей _________ x 1 000 = 80 ДТП на 1 000 людей 1 000 500
  • 7. ТЕОРИЯ ЧЕТЫРЕХ РОССИЙ • «Согласно центро-периферийной теории, любое заселенное людьми пространство иерархично. Оно делится на центр, полупериферию и периферию. Центр в масштабах страны — крупные и крупнейшие города (Россия-1). Полупериферию, второй иерархический уровень, образуют менее крупные и средние города (Россия-2). Наконец, есть периферия — самая обширная часть пространства, сельские поселения и малые города (Россия-3). Эти три типа пространства, которые соединены на территории страны и присутствуют в каждом регионе, имеют разный социум и разные ресурсы развития. Как следствие, различается их скорость модернизации. • А Россия-4 — это Северный Кавказ. Там модернизационные процессы начались позже, и центро- периферийная модель пока не очень работает. Но лет через 50 на Северном Кавказе будет, как сегодня в России». • Источник: https://www.novayagazeta.ru/articles/2013/11/18/57242-171-chetyre-rossii-187-na-odnoy-territorii (Из интервью с Натальей Васильевной Зубаревич), а также см. https://www.vedomosti.ru/opinion/articles/2011/12/30/chetyre_rossii?
  • 8. СРЕДНЕЕ, МЕДИАНА, МОДА И ВЫБРОС • Медиана – число выборки: ровно половина из элементов выборки больше него, а другая половина меньше него. • Среднее арифметическое – сумма всех чисел, разделенная на их количество. • Мода – значение, которое встречается наиболее часто. • Выброс – результат измерения, выделяющийся из общей выборки.
  • 11. КОРРЕЛЯЦИЯ • Корреля́ция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. • Источник: https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D1%80 %D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F Общая теория статистики: Учебник / Под ред. Р. А. Шмойловой. — 3-е издание, переработанное. — Москва: Финансы и Статистика, 2002. — 560 с. — ISBN 5-279-01951-8.
  • 12. КОРРЕЛЯЦИЯ • Понятие коэффициента корреляции в статистическом анализе является единицей измерения того, насколько хорошо спрогнозированное значение соотносится с реальными данными. Оно дает нам понимание, насколько хорошо прогностика продемонстрировала свою "пригодность" при работе с реальными данными. • Коэффициент корреляции это число между 0 и 1. Если соотношений между спрогнозированными значениями и реальными данными не обнаружено, коэффициент корреляции будет равен 0 или очень близко к этому. Чем выше соотношение между спрогнозированными значениями и реальными данными, тем лучше и коэффициент корреляции. Абсолютно приемлемый результат дает коэффициент 1.0. Таким образом, чем выше коэффициент корреляции, тем лучше. • Источник: http://www.timingsolution.ru/WebHelp/scr/ts_r.htm
  • 13. КОРРЕЛЯЦИЯ Отождествление корреляции и причинности — ошибка, состоящая в убеждении, что наличие корреляции означает причинно-следственную связь. Список логических ошибок: https://ru.rationalwiki.org/wiki/%D0%9B%D0%BE%D0%B3%D0%B8%D1%87%D0% B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BE%D1%88%D0%B8%D0%B1%D0% BA%D0%B0