SlideShare a Scribd company logo
1 of 21
Data are never good but they are good enough:
або пробуємо прогнозувати непрогнозоване
Ярослав Притула, керівник CS@UCU
Про що будем говорити
 Економічне/бізнес прогнозування та його різновиди
 Проект побудови довготермінових демографічних та
економічних прогнозів в США:
 Задача
 Рішення
 Проект надбудови над існуючим проектом:
 Задача
 Рішення
 Висновки
Прогнозиста образити може кожен
 Рим, 357 д.н.е. : Імператор Константіус заборонив
консультуватись з віщунами, математиками та
прогнозистами….. щоб цікавість передбачень
замовкла назавжди.
 В наші дні роль Константіуса виконують юристи, є
кейси судових розглядів (і засуджень!) через погані
передбаченя погоди, землетрусів, ураганів, паводків,
засух, снігопадів.
 Економічні прогнози
 Тенденція до усереднення
 The Economist: I never forecast a recession. If I’m right, no-one
will thank me; if I’m wrong, I’ll be fired
Прогнозиста образити може кожен
 Короткострокові v.s. довгострокові прогнози
Прогнозиста образити може кожен
Гібрид І типу
Гібрид ІІ типу
Рівень теоретичної
обґрунтованості
Рівень емпіричної обґрунтованості
DSGE
IDSGE
VAR
Класифікація Пагана макроекономічних моделей за ступенем
теоретичної та емпіричної обґрунтованості.
Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of
England. Bank of England Quarterly Bulletin (Spring), 1-29.
Різниця між Projection та Forecasting
 Projections – це прогноз зроблений на основі
заявленої моделі та заявлених припущень. Він вірний
настільки, наскільки вірна модель прогнозування та
зроблені припущення.
 Forecasting не вимагає оприлюднення детальної
моделі, на основі якої робиться прогноз.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Коротко про економічну географію США
 Країна США – одна
 9 Multi-State Regions,
 51 States (including DC),
 179 Multi-County U.S. Economic Areas,
 361 Multi-County Metropolitan Statistical Areas
 29 Multi-County Metropolitan Divisions, and
 3099 (or 3142) Counties or County Equivalents.
 Разом 3729 географічних одиниць.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Задача проекту
 Побудувати прогнози для 3729 географічних одиниць
 На 2005-2030 роки
 По 54 економічній та 51 демографічній змінній
 Іншими словами
 На основі понад 21 млн одиниць інформації
 Видати близько 2.5 млн одиниць інформації
 З яких понад 1 млн - прогнози
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Кому це потрібно
 Державні контрактори
 Рітейл
 Будівельні компанії
 Бібліотеки/університети
 Власне використання для побудови інших прогнозів
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Коротко про статистичну інформацію в США:
problems & opportunities
 Розподіл сфер та відповідальностей – Census, BEA,
Department of Justice, OFHEO, Office of the President….
 Різні терміни виходу нових даних
 Різні географічні поділи у різних агентствах
 Доступні стандартизовані дані з 1969 року, але
 Різні географічні поділи і класифікації
 Різні означення галузей: SIC vs NAICS
 Згрупована (схована) частина даних, через законодавство
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Етапи прогнозу: макрорівень
Макро прогноз базового року, як правило базується на даних від
Chief Economic Advisor to the President
Будуємо економічний прогноз до 2030 року виходячи з припущень
(прогнозів) зростання продуктивності –
Productivity isn't everything, but in the long run it is almost
everything @Paul Krugman
Прогноз демографічний залежить від коефіцієнтів народжуваності,
смертності та чистої імміграції, що в свою чергу залежить від
економічних чинників, на які впливає продуктивність і демографія.
Отже маємо систему одночасних рівнянь, яка дає нам
макропрогноз, до якого можна буде підтасовувати все інше.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Етапи прогнозу: мікрорівень – ми любимо проблеми!
 Згідно законодавства США, не можна розголошувати дані по
тих галузях, де є менше рівно трьох компаній – Gap-filling
algorithm
 Gap-filling algorithm - the iterative proportion fitting (IPF)
algorithm (a.k.a. RAS algorithm), застосовується для контролю
сумування даних, як по галузі, так і по географічній одиниці.
Робимо це на рівні штатів, потім на рівні county.
 Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative
Study of Algorithms for Matrix Balancing,” Operations Research,
38: 439-455.
 Проблеми/покращення: IPFRAS алгоритм передбачає внесення
початкових даних, що суттєво впливає на час та точність
кінцевого результату. Експериментування з різними
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Етапи прогнозу: мікрорівень – ми любимо проблеми!
 Зміни з галузевій класифікації, уніфікація географічних одиниць на
рівні county. Переводимо всі грошові дані в сталі долари
 Прогнозуємо основні економічні змінні (дохід та кількість
працюючих) виходячи з (і) темпів зростання County, (іі) темпів
зростання Economic Area, (iii) національного зростання.
Прогнозуємо та балансуємо дохід та кількість працюючих по
галузях.
 Демографія залежить від економіки, народжуваності/ смертності
та внутрішньої міграції. Частина counties мають специфічний
прогноз (військові бази, великі тюрми, тощо)
 Далі округлюються дані по людях – Rounding algorithm.
 Агрегуємо до бажаного рівня.
Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
 Який output очікує клієнт (+/- 2005 рік)?
 Дані на сайті?
 Диск з даними?
 Дані надіслані емейлом?
 Дані надіслані факсом?
 Дані надіслані друкованим листом?
 Надрукована книжка з прогнозами?
 Графіки та візуалізації даних?
Використання базових прогнозів для
творення більш специфічних продуктів
 Construction Economics projections:
 Number of new housing units authorized by permits
 Number of new single-family units
 Average cost of construction of new housing unit
 Median Prices of Houses projections
 Projections of Building Permit Activity by Category of
Construction
 Специфічні прогнози для індивідуального замовника
Median Prices of Houses projections
 Початок проекту – 2004 рік, початок housing boom.
 Пошук даних
 Чи добрі дані?
 Case–Shiller Home Price Indices для порівняння
 Пошук замовників
Median Prices of Houses projections
Median Prices of Houses projections
Панельна регресія з фіксованими ефектами
HPRICEP = Ci
+ 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew)
- 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year
+ 270 899.30 Pop/Density, R2 = .95, DW =.60
YHH – income per household
MGRATE – monthly mortgage rate per single family unit
Surplus 5 year - surplus of new houses cumulated over the past five years
(comes as a difference between actual and estimates number of new
housing units available)
Pop/Density - indicator of limitations of building land availability.
Як вимірювати якість прогнозу при
мільйоні зроблених прогнозів?
 Якщо вибрана методика залежить від
побажань/преференцій споживача, то точність
прогнозу не варто вимірювати звичними методами.
 Окрім того, як виміряти якість прогнозу на 2020 чи
2030 рік?
Пропозиція 1: якщо клієнт задоволений і прийшов
знову (за наявності конкурентів), то якість є
задовільною.
Пропозиція 2: якщо ви можете переконати
муніципального регулятора зменшити ваш податок
виходячи з ваших оцінок (прогнозів), то якість є
задовільною.
Висновки
 Data are never good but they are good enough
 Бажаю всім працювати в information rich environment
 Data Science є (чи має бути) настільки Science в
прикладних дослідженнях, наскільки замовники
цього бажають
 Якщо ви працюєте з економічними даними, то важко
переносити методику прогнозу з однієї країни на
іншу, оскільки інститути, соціум та культура сильно
впливають як на економіку, так і на самі дані. Є
приємні виключення.
?Питання !Відповіді
11 червня 2016 – День відкритих дверей,
Львів, вул. Козельницька 2а, 13.00.
csds.ucu.edu.ua, cs.ucu.edu.ua

More Related Content

More from GeeksLab Odessa

DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...GeeksLab Odessa
 
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...GeeksLab Odessa
 
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко GeeksLab Odessa
 
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...GeeksLab Odessa
 
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...GeeksLab Odessa
 
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...GeeksLab Odessa
 
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...GeeksLab Odessa
 
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...GeeksLab Odessa
 
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...GeeksLab Odessa
 
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот GeeksLab Odessa
 
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...GeeksLab Odessa
 
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js GeeksLab Odessa
 
JS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
JS Lab2017_Redux: время двигаться дальше?_Екатерина ЛизогубоваJS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
JS Lab2017_Redux: время двигаться дальше?_Екатерина ЛизогубоваGeeksLab Odessa
 
JS Lab2017_Lightning Talks_React Perfomance
JS Lab2017_Lightning Talks_React Perfomance JS Lab2017_Lightning Talks_React Perfomance
JS Lab2017_Lightning Talks_React Perfomance GeeksLab Odessa
 
JS Lab2017_Lightning Talks_Рекрутинг.js
JS Lab2017_Lightning Talks_Рекрутинг.js JS Lab2017_Lightning Talks_Рекрутинг.js
JS Lab2017_Lightning Talks_Рекрутинг.js GeeksLab Odessa
 
JS Lab2017_Lightning Talks_PostCSS - there is a plugin for that
JS Lab2017_Lightning Talks_PostCSS - there is a plugin for thatJS Lab2017_Lightning Talks_PostCSS - there is a plugin for that
JS Lab2017_Lightning Talks_PostCSS - there is a plugin for thatGeeksLab Odessa
 
JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...
JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...
JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...GeeksLab Odessa
 
JS Lab2017_Алексей Заславский_React Fiber
JS Lab2017_Алексей Заславский_React Fiber JS Lab2017_Алексей Заславский_React Fiber
JS Lab2017_Алексей Заславский_React Fiber GeeksLab Odessa
 
JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...
JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...
JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...GeeksLab Odessa
 
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js GeeksLab Odessa
 

More from GeeksLab Odessa (20)

DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
 
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
 
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
 
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
 
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
 
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
 
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
 
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
 
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
 
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
 
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
 
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
 
JS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
JS Lab2017_Redux: время двигаться дальше?_Екатерина ЛизогубоваJS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
JS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова
 
JS Lab2017_Lightning Talks_React Perfomance
JS Lab2017_Lightning Talks_React Perfomance JS Lab2017_Lightning Talks_React Perfomance
JS Lab2017_Lightning Talks_React Perfomance
 
JS Lab2017_Lightning Talks_Рекрутинг.js
JS Lab2017_Lightning Talks_Рекрутинг.js JS Lab2017_Lightning Talks_Рекрутинг.js
JS Lab2017_Lightning Talks_Рекрутинг.js
 
JS Lab2017_Lightning Talks_PostCSS - there is a plugin for that
JS Lab2017_Lightning Talks_PostCSS - there is a plugin for thatJS Lab2017_Lightning Talks_PostCSS - there is a plugin for that
JS Lab2017_Lightning Talks_PostCSS - there is a plugin for that
 
JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...
JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...
JS Lab2017_Андрей Кучеренко _Разработка мультипакетных приложения: причины, с...
 
JS Lab2017_Алексей Заславский_React Fiber
JS Lab2017_Алексей Заславский_React Fiber JS Lab2017_Алексей Заславский_React Fiber
JS Lab2017_Алексей Заславский_React Fiber
 
JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...
JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...
JS Lab2017_Евгений Сафронов_Тестирование Javascript кода. Инструменты, практи...
 
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js
 

AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое.

  • 1. Data are never good but they are good enough: або пробуємо прогнозувати непрогнозоване Ярослав Притула, керівник CS@UCU
  • 2. Про що будем говорити  Економічне/бізнес прогнозування та його різновиди  Проект побудови довготермінових демографічних та економічних прогнозів в США:  Задача  Рішення  Проект надбудови над існуючим проектом:  Задача  Рішення  Висновки
  • 3. Прогнозиста образити може кожен  Рим, 357 д.н.е. : Імператор Константіус заборонив консультуватись з віщунами, математиками та прогнозистами….. щоб цікавість передбачень замовкла назавжди.  В наші дні роль Константіуса виконують юристи, є кейси судових розглядів (і засуджень!) через погані передбаченя погоди, землетрусів, ураганів, паводків, засух, снігопадів.  Економічні прогнози  Тенденція до усереднення  The Economist: I never forecast a recession. If I’m right, no-one will thank me; if I’m wrong, I’ll be fired
  • 4. Прогнозиста образити може кожен  Короткострокові v.s. довгострокові прогнози
  • 5. Прогнозиста образити може кожен Гібрид І типу Гібрид ІІ типу Рівень теоретичної обґрунтованості Рівень емпіричної обґрунтованості DSGE IDSGE VAR Класифікація Пагана макроекономічних моделей за ступенем теоретичної та емпіричної обґрунтованості. Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of England. Bank of England Quarterly Bulletin (Spring), 1-29.
  • 6. Різниця між Projection та Forecasting  Projections – це прогноз зроблений на основі заявленої моделі та заявлених припущень. Він вірний настільки, наскільки вірна модель прогнозування та зроблені припущення.  Forecasting не вимагає оприлюднення детальної моделі, на основі якої робиться прогноз.
  • 7. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Коротко про економічну географію США  Країна США – одна  9 Multi-State Regions,  51 States (including DC),  179 Multi-County U.S. Economic Areas,  361 Multi-County Metropolitan Statistical Areas  29 Multi-County Metropolitan Divisions, and  3099 (or 3142) Counties or County Equivalents.  Разом 3729 географічних одиниць.
  • 8. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Задача проекту  Побудувати прогнози для 3729 географічних одиниць  На 2005-2030 роки  По 54 економічній та 51 демографічній змінній  Іншими словами  На основі понад 21 млн одиниць інформації  Видати близько 2.5 млн одиниць інформації  З яких понад 1 млн - прогнози
  • 9. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Кому це потрібно  Державні контрактори  Рітейл  Будівельні компанії  Бібліотеки/університети  Власне використання для побудови інших прогнозів
  • 10. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Коротко про статистичну інформацію в США: problems & opportunities  Розподіл сфер та відповідальностей – Census, BEA, Department of Justice, OFHEO, Office of the President….  Різні терміни виходу нових даних  Різні географічні поділи у різних агентствах  Доступні стандартизовані дані з 1969 року, але  Різні географічні поділи і класифікації  Різні означення галузей: SIC vs NAICS  Згрупована (схована) частина даних, через законодавство
  • 11. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Етапи прогнозу: макрорівень Макро прогноз базового року, як правило базується на даних від Chief Economic Advisor to the President Будуємо економічний прогноз до 2030 року виходячи з припущень (прогнозів) зростання продуктивності – Productivity isn't everything, but in the long run it is almost everything @Paul Krugman Прогноз демографічний залежить від коефіцієнтів народжуваності, смертності та чистої імміграції, що в свою чергу залежить від економічних чинників, на які впливає продуктивність і демографія. Отже маємо систему одночасних рівнянь, яка дає нам макропрогноз, до якого можна буде підтасовувати все інше.
  • 12. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Етапи прогнозу: мікрорівень – ми любимо проблеми!  Згідно законодавства США, не можна розголошувати дані по тих галузях, де є менше рівно трьох компаній – Gap-filling algorithm  Gap-filling algorithm - the iterative proportion fitting (IPF) algorithm (a.k.a. RAS algorithm), застосовується для контролю сумування даних, як по галузі, так і по географічній одиниці. Робимо це на рівні штатів, потім на рівні county.  Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative Study of Algorithms for Matrix Balancing,” Operations Research, 38: 439-455.  Проблеми/покращення: IPFRAS алгоритм передбачає внесення початкових даних, що суттєво впливає на час та точність кінцевого результату. Експериментування з різними
  • 13. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Етапи прогнозу: мікрорівень – ми любимо проблеми!  Зміни з галузевій класифікації, уніфікація географічних одиниць на рівні county. Переводимо всі грошові дані в сталі долари  Прогнозуємо основні економічні змінні (дохід та кількість працюючих) виходячи з (і) темпів зростання County, (іі) темпів зростання Economic Area, (iii) національного зростання. Прогнозуємо та балансуємо дохід та кількість працюючих по галузях.  Демографія залежить від економіки, народжуваності/ смертності та внутрішньої міграції. Частина counties мають специфічний прогноз (військові бази, великі тюрми, тощо)  Далі округлюються дані по людях – Rounding algorithm.  Агрегуємо до бажаного рівня.
  • 14. Проект: Projection of Economic, Household and Demographic data for US Counties, 2005-2030  Який output очікує клієнт (+/- 2005 рік)?  Дані на сайті?  Диск з даними?  Дані надіслані емейлом?  Дані надіслані факсом?  Дані надіслані друкованим листом?  Надрукована книжка з прогнозами?  Графіки та візуалізації даних?
  • 15. Використання базових прогнозів для творення більш специфічних продуктів  Construction Economics projections:  Number of new housing units authorized by permits  Number of new single-family units  Average cost of construction of new housing unit  Median Prices of Houses projections  Projections of Building Permit Activity by Category of Construction  Специфічні прогнози для індивідуального замовника
  • 16. Median Prices of Houses projections  Початок проекту – 2004 рік, початок housing boom.  Пошук даних  Чи добрі дані?  Case–Shiller Home Price Indices для порівняння  Пошук замовників
  • 17. Median Prices of Houses projections
  • 18. Median Prices of Houses projections Панельна регресія з фіксованими ефектами HPRICEP = Ci + 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew) - 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year + 270 899.30 Pop/Density, R2 = .95, DW =.60 YHH – income per household MGRATE – monthly mortgage rate per single family unit Surplus 5 year - surplus of new houses cumulated over the past five years (comes as a difference between actual and estimates number of new housing units available) Pop/Density - indicator of limitations of building land availability.
  • 19. Як вимірювати якість прогнозу при мільйоні зроблених прогнозів?  Якщо вибрана методика залежить від побажань/преференцій споживача, то точність прогнозу не варто вимірювати звичними методами.  Окрім того, як виміряти якість прогнозу на 2020 чи 2030 рік? Пропозиція 1: якщо клієнт задоволений і прийшов знову (за наявності конкурентів), то якість є задовільною. Пропозиція 2: якщо ви можете переконати муніципального регулятора зменшити ваш податок виходячи з ваших оцінок (прогнозів), то якість є задовільною.
  • 20. Висновки  Data are never good but they are good enough  Бажаю всім працювати в information rich environment  Data Science є (чи має бути) настільки Science в прикладних дослідженнях, наскільки замовники цього бажають  Якщо ви працюєте з економічними даними, то важко переносити методику прогнозу з однієї країни на іншу, оскільки інститути, соціум та культура сильно впливають як на економіку, так і на самі дані. Є приємні виключення.
  • 21. ?Питання !Відповіді 11 червня 2016 – День відкритих дверей, Львів, вул. Козельницька 2а, 13.00. csds.ucu.edu.ua, cs.ucu.edu.ua