4.6.16 AI&BigData Lab
Upcoming events: goo.gl/I2gJ4H
Доклад посвящен описанию разработки Data Science проекта - созданию экономических и демографических региональных долгосрочных прогнозов по США и их дальнейшего использования для прогнозирования динамики рынка недвижимости. Поговорим об ограничениях, которые накладываются в таких проектах данным, регулированием и заказчиками. Почему много времени стоит уделять не только нахождению, изучению и анализу необходимых данных, но и нахождению и изучению своего клиента. Поговорим о разнице между forecasting и projections и как измерять точность прогнозов в денежной форме.
JS Lab2017_Виталий Лебедев_Практические сложности при разработке на node.js
AI&BigData Lab 2016. Ярослав Притула: Data are never good but they are good enough, или пробуем прогнозировать не прогнозируемое.
1. Data are never good but they are good enough:
або пробуємо прогнозувати непрогнозоване
Ярослав Притула, керівник CS@UCU
2. Про що будем говорити
Економічне/бізнес прогнозування та його різновиди
Проект побудови довготермінових демографічних та
економічних прогнозів в США:
Задача
Рішення
Проект надбудови над існуючим проектом:
Задача
Рішення
Висновки
3. Прогнозиста образити може кожен
Рим, 357 д.н.е. : Імператор Константіус заборонив
консультуватись з віщунами, математиками та
прогнозистами….. щоб цікавість передбачень
замовкла назавжди.
В наші дні роль Константіуса виконують юристи, є
кейси судових розглядів (і засуджень!) через погані
передбаченя погоди, землетрусів, ураганів, паводків,
засух, снігопадів.
Економічні прогнози
Тенденція до усереднення
The Economist: I never forecast a recession. If I’m right, no-one
will thank me; if I’m wrong, I’ll be fired
5. Прогнозиста образити може кожен
Гібрид І типу
Гібрид ІІ типу
Рівень теоретичної
обґрунтованості
Рівень емпіричної обґрунтованості
DSGE
IDSGE
VAR
Класифікація Пагана макроекономічних моделей за ступенем
теоретичної та емпіричної обґрунтованості.
Джерело: Pagan, A. (2003). Report on Modelling and Forecasting at the Bank of
England. Bank of England Quarterly Bulletin (Spring), 1-29.
6. Різниця між Projection та Forecasting
Projections – це прогноз зроблений на основі
заявленої моделі та заявлених припущень. Він вірний
настільки, наскільки вірна модель прогнозування та
зроблені припущення.
Forecasting не вимагає оприлюднення детальної
моделі, на основі якої робиться прогноз.
7. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Коротко про економічну географію США
Країна США – одна
9 Multi-State Regions,
51 States (including DC),
179 Multi-County U.S. Economic Areas,
361 Multi-County Metropolitan Statistical Areas
29 Multi-County Metropolitan Divisions, and
3099 (or 3142) Counties or County Equivalents.
Разом 3729 географічних одиниць.
8. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Задача проекту
Побудувати прогнози для 3729 географічних одиниць
На 2005-2030 роки
По 54 економічній та 51 демографічній змінній
Іншими словами
На основі понад 21 млн одиниць інформації
Видати близько 2.5 млн одиниць інформації
З яких понад 1 млн - прогнози
9. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Кому це потрібно
Державні контрактори
Рітейл
Будівельні компанії
Бібліотеки/університети
Власне використання для побудови інших прогнозів
10. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Коротко про статистичну інформацію в США:
problems & opportunities
Розподіл сфер та відповідальностей – Census, BEA,
Department of Justice, OFHEO, Office of the President….
Різні терміни виходу нових даних
Різні географічні поділи у різних агентствах
Доступні стандартизовані дані з 1969 року, але
Різні географічні поділи і класифікації
Різні означення галузей: SIC vs NAICS
Згрупована (схована) частина даних, через законодавство
11. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Етапи прогнозу: макрорівень
Макро прогноз базового року, як правило базується на даних від
Chief Economic Advisor to the President
Будуємо економічний прогноз до 2030 року виходячи з припущень
(прогнозів) зростання продуктивності –
Productivity isn't everything, but in the long run it is almost
everything @Paul Krugman
Прогноз демографічний залежить від коефіцієнтів народжуваності,
смертності та чистої імміграції, що в свою чергу залежить від
економічних чинників, на які впливає продуктивність і демографія.
Отже маємо систему одночасних рівнянь, яка дає нам
макропрогноз, до якого можна буде підтасовувати все інше.
12. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Етапи прогнозу: мікрорівень – ми любимо проблеми!
Згідно законодавства США, не можна розголошувати дані по
тих галузях, де є менше рівно трьох компаній – Gap-filling
algorithm
Gap-filling algorithm - the iterative proportion fitting (IPF)
algorithm (a.k.a. RAS algorithm), застосовується для контролю
сумування даних, як по галузі, так і по географічній одиниці.
Робимо це на рівні штатів, потім на рівні county.
Деталі тут: M.H. Schneider and S.A. Zenios (1990), “A Comparative
Study of Algorithms for Matrix Balancing,” Operations Research,
38: 439-455.
Проблеми/покращення: IPFRAS алгоритм передбачає внесення
початкових даних, що суттєво впливає на час та точність
кінцевого результату. Експериментування з різними
13. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Етапи прогнозу: мікрорівень – ми любимо проблеми!
Зміни з галузевій класифікації, уніфікація географічних одиниць на
рівні county. Переводимо всі грошові дані в сталі долари
Прогнозуємо основні економічні змінні (дохід та кількість
працюючих) виходячи з (і) темпів зростання County, (іі) темпів
зростання Economic Area, (iii) національного зростання.
Прогнозуємо та балансуємо дохід та кількість працюючих по
галузях.
Демографія залежить від економіки, народжуваності/ смертності
та внутрішньої міграції. Частина counties мають специфічний
прогноз (військові бази, великі тюрми, тощо)
Далі округлюються дані по людях – Rounding algorithm.
Агрегуємо до бажаного рівня.
14. Проект: Projection of Economic, Household and
Demographic data for US Counties, 2005-2030
Який output очікує клієнт (+/- 2005 рік)?
Дані на сайті?
Диск з даними?
Дані надіслані емейлом?
Дані надіслані факсом?
Дані надіслані друкованим листом?
Надрукована книжка з прогнозами?
Графіки та візуалізації даних?
15. Використання базових прогнозів для
творення більш специфічних продуктів
Construction Economics projections:
Number of new housing units authorized by permits
Number of new single-family units
Average cost of construction of new housing unit
Median Prices of Houses projections
Projections of Building Permit Activity by Category of
Construction
Специфічні прогнози для індивідуального замовника
16. Median Prices of Houses projections
Початок проекту – 2004 рік, початок housing boom.
Пошук даних
Чи добрі дані?
Case–Shiller Home Price Indices для порівняння
Пошук замовників
18. Median Prices of Houses projections
Панельна регресія з фіксованими ефектами
HPRICEP = Ci
+ 3.69 YHH (high skew) + 1.55 YHH (medium skew) + 1.40 YHH (low skew)
- 3.42 MGRATE * valueSF/UnitsSF - 0.24 surplus 5 year
+ 270 899.30 Pop/Density, R2 = .95, DW =.60
YHH – income per household
MGRATE – monthly mortgage rate per single family unit
Surplus 5 year - surplus of new houses cumulated over the past five years
(comes as a difference between actual and estimates number of new
housing units available)
Pop/Density - indicator of limitations of building land availability.
19. Як вимірювати якість прогнозу при
мільйоні зроблених прогнозів?
Якщо вибрана методика залежить від
побажань/преференцій споживача, то точність
прогнозу не варто вимірювати звичними методами.
Окрім того, як виміряти якість прогнозу на 2020 чи
2030 рік?
Пропозиція 1: якщо клієнт задоволений і прийшов
знову (за наявності конкурентів), то якість є
задовільною.
Пропозиція 2: якщо ви можете переконати
муніципального регулятора зменшити ваш податок
виходячи з ваших оцінок (прогнозів), то якість є
задовільною.
20. Висновки
Data are never good but they are good enough
Бажаю всім працювати в information rich environment
Data Science є (чи має бути) настільки Science в
прикладних дослідженнях, наскільки замовники
цього бажають
Якщо ви працюєте з економічними даними, то важко
переносити методику прогнозу з однієї країни на
іншу, оскільки інститути, соціум та культура сильно
впливають як на економіку, так і на самі дані. Є
приємні виключення.
21. ?Питання !Відповіді
11 червня 2016 – День відкритих дверей,
Львів, вул. Козельницька 2а, 13.00.
csds.ucu.edu.ua, cs.ucu.edu.ua