Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

3,484 views

Published on

Курс "Компьютерная поддержка прогнозирования"
Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

Published in: Business
  • Sex in your area is here: ❶❶❶ http://bit.ly/2u6xbL5 ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ❤❤❤ http://bit.ly/2u6xbL5 ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Прогнозирование - Лекция 6. Использование инструментов подготовки данных и прогнозирования SPSS

  1. 1. Курс «КомпьютернаяКурс «Компьютерная поддержкаподдержка прогнозирования»прогнозирования» Заходякин Глеб Викторович, кафедра Информационных систем и технологий в логистике e-mail: postlogist@gmail.com
  2. 2. 2 Инструменты прогнозирования вИнструменты прогнозирования в SPSSSPSS o Подготовка данных для моделирования o Эксперт построения моделей – Модели экспоненциального сглаживания – Модели ARIMA и ARIMAX o Применение моделей к набору данных (скоринг) o Усреднение прогнозов o Меры ошибки прогноза
  3. 3. 3 Подготовка данных для моделированияПодготовка данных для моделирования o Замена пропущенных значений o Определение дат и сезонной периодичности o Группировка в периоды прогнозирования – периоды одинаковой длительности – нет пропусков o Добавление факторов – Создание переменной времени – Создание фиктивных переменных
  4. 4. 4 Замена пропущенных значенийЗамена пропущенных значений o Пропущенные значения не мешают построению регрессионных моделей, но препятствуют использованию процедур прогнозирования по временным рядам (expert modeler) o Возможные варианты устранения пропущенных значений: – замена на среднее/медиану ряда – замена на среднее/медиану соседних наблюдений – интерполяция по тренду o Transform > Replace Missing Values
  5. 5. 5 Определение дат и сезонной периодичностиОпределение дат и сезонной периодичности o Задание переменных даты и периодичности необходимо для правильной работы процедур прогнозирования и расчета сезонных разностей o Даты можно задать при помощи процедуры Data>Define Dates o Команда синтаксиса DATE позволяет задавать произвольную периодичность данных и любую структуру: DATE keyword starting_value periodicity keyword2 starting_value2 periodicity2 BY increment.
  6. 6. 6 Агрегирование данныхАгрегирование данных o Агрегирование производится с использованием группирующих переменных o Для каждого значения группирующей переменной рассчитывается одна из статистических функций для каждой переменной в наборе o Агрегированные данные лучше сохранять в новый набор данных o Data>Aggregate…
  7. 7. 7 Добавление факторовДобавление факторов o Переменную времени можно вычислить из номера наблюдения или взять в качестве фактора времени переменную YEAR_ o Фиктивные переменные для моделирования сезонности при большом числе сезонов можно вычислить через синтаксис Примечание. Скрипт рассчитан на сезонность в 12 периодов. В наборе должны быть заданы даты и присутствовать переменная month_
  8. 8. 8 Ошибка прогнозаОшибка прогноза o Остаток (ошибка прогноза) – разность между фактическим значением и прогнозом по модели Период Факт Прогноз Остаток |Остаток| 2009-01 60 85 -25 25 2009-02 85 60 25 25 2009-03 80 85 -5 5 2009-04 95 80 15 15 2009-05 90 95 -5 5 2009-06 80 90 -10 10 2009-07 85 80 5 5 2009-08 90 85 5 5 2009-09 100 90 10 10 2009-10 110 100 10 10 2009-11 130 110 20 20 2009-12 170 130 40 40 2010-01 80 170 -90 90 2010-02 105 80 25 25 2010-03 120 105 15 15 2010-04 110 120 -10 10 2010-05 130 110 20 20 2010-06 120 130 -10 10 2010-07 105 120 -15 15 2010-08 115 105 10 10 2010-09 130 115 15 15 Сумма: 45 385 ˆ i i ie Y Y= −
  9. 9. 9 Меры ошибки прогнозаМеры ошибки прогноза o Меры ошибки прогноза – различные статистические функции от остатков, их модулей или относительных остатков: – среднее – максимум – дисперсия – стандартное отклонение Период Факт Прогноз Остаток |Остаток| |Остаток/ Факт| 2009-01 60 85 -25 25 41.7% 2009-02 85 60 25 25 29.4% 2009-03 80 85 -5 5 6.3% 2009-04 95 80 15 15 15.8% 2009-05 90 95 -5 5 5.6% 2009-06 80 90 -10 10 12.5% 2009-07 85 80 5 5 5.9% 2009-08 90 85 5 5 5.6% 2009-09 100 90 10 10 10.0% 2009-10 110 100 10 10 9.1% 2009-11 130 110 20 20 15.4% 2009-12 170 130 40 40 23.5% 2010-01 80 170 -90 90 112.5% 2010-02 105 80 25 25 23.8% 2010-03 120 105 15 15 12.5% 2010-04 110 120 -10 10 9.1% 2010-05 130 110 20 20 15.4% 2010-06 120 130 -10 10 8.3% 2010-07 105 120 -15 15 14.3% 2010-08 115 105 10 10 8.7% 2010-09 130 115 15 15 11.5% Сумма: 45 385 Средняя абсолютная ошибка: 18.3 MAE Средняя ошибка: 2.1 ME Макс. абсолютная ошибка: 90 MaxAE Дисперсия ошибки: 665.5 MSE Стандартная ошибка: 25.8 RMSE Ср. абс. ошибка в процентах: 18.9% MAPE Макс. абс. ошибка в процентах: 112.5% MaxAPE
  10. 10. 10 Формулы для расчета мер ошибки прогнозаФормулы для расчета мер ошибки прогноза o Меры абсолютной ошибки: o Меры относительной ошибки: o Дисперсия и стандартное отклонение ошибки ˆ i i ie Y Y= − 1 iMAE e n = ∑ 1 iME e n = ∑ ( )max iMaxAE e= 1 100%i i e MAPE n Y = ×∑ max 100%i i e MaxAPE Y = × 21 iMSE e n = ∑ 21 iRMSE e n = ∑ Стандартная ошибкаСредний квадрат ошибки
  11. 11. 11 Коэффициент детерминацииКоэффициент детерминации RR22 o Коэффициент детерминации R2 характеризует полезность модели для прогнозирования – уменьшение неопределенности прогноза 2 1 S ST R SE S = − ( ) 2 SST Y Y= −∑ ( ) 2 ˆSSE Y Y= −∑ ( ) ( ) 2 2 2 ˆ 1 1 Y YSSE R SST Y Y − = − = − − ∑ ∑ Полная сумма квадратов: Остаточная (необъясненная) сумма квадратов: R2 – доля объясненной моделью дисперсии прогнозируемой величины
  12. 12. 12 Исправленный коэффициент детерминацииИсправленный коэффициент детерминации o Коэффициент детерминации R2 , рассчитанный по формуле: возрастает с увеличением числа факторов в модели, при этом не обязательно модель с большим числом факторов будет лучше работать на новых данных o Чтобы исключить влияние числа факторов на величину R2 , используют исправленный коэффициент детерминации (R-squared adjusted), в котором вводится штраф за увеличение числа переменных: o Только полезные факторы, снижающие дисперсию ошибок, улучшают этот показатель, поэтому он наиболее полезен на стадии отбора факторов для построения модели o Если модель строится по генеральной совокупности, то обычный R2 – более предпочтительный показатель 2 1 SSE R SST = − ( ) 2 2 1 1 1 1 1 1 1 1 SST SSE SSE df SSE n R SST df SST n k n R n k − = − × = − × = − − − = − − × − −
  13. 13. 13 13 Методы сглаживания временных рядовМетоды сглаживания временных рядов o Единственным фактором в модели является время t o Будущие значения зависят только от прошлых значений o Периоды должны следовать равномерно, без пропусков: tk+1 - tk = const o Модель часто задается не в явном виде, а в виде рекуррентной формулы o Цель сглаживания – устранить, по возможности, случайные колебания ( ),Y f t ε=
  14. 14. 14 14 Модель временного рядаМодель временного ряда Временной ряд (time series) — упорядоченная во времени последовательность наблюдений, производимых строго через определенные интервалы времени, которые называются периодами прогнозирования (периодами временного ряда) Модель временного ряда включает несколько составляющих: • Тенденция (тренд) • Сезонность • Циклы • Нерегулярные изменения • Случайная составляющая
  15. 15. 15 15 Аддитивные и мультипликативныеАддитивные и мультипликативные модели временного рядамодели временного ряда 0 10 20 30 40 50 20 40 60 80 Аддитивная модель ряда Мультипликативная модель ряда Тренд ( ) ( ) ( )y t T t S t ε= + + ( ) ( ) ( )y t T t S t ε= × +
  16. 16. 16 16 «Наивный прогноз»«Наивный прогноз» o В качестве прогноза на следующий период выбирается последнее значение временного ряда: a) Yt = Yt-1 b) Yt = Yt-12 c) Yt = Yt-12* Yt-11 / Yt-13 – …Спрос на будущей неделе будет таким же, как и на прошлой… – … Спрос в этом октябре будет таким же, как и в прошлом… – … Взять уровень прошлого года и учесть тенденцию … Период Факт Прог ноз1 Прог- ноз2 Прог- ноз3 2009-01 60       2009-02 85 60     2009-03 80 85     2009-04 95 80     2009-05 90 95     2009-06 80 90     2009-07 85 80     2009-08 90 85     2009-09 100 90     2009-10 110 100     2009-11 130 110     2009-12 170 130     2010-01 80 170 60   2010-02 105 80 85 113 2010-03 120 105 80 99 2010-04 110 120 95 143 2010-05 130 110 90 104 2010-06 120 130 80 116 2010-07 105 120 85 128 2010-08 115 105 90 111 2010-09 130 115 100 128 2010-10   130 110 143
  17. 17. 17 17 Метод экспоненциального сглаживанияМетод экспоненциального сглаживания ( )1 1t t ty y yα α−= × + × − ) ) ( )1 1 1t t ty y yα α− −= × + × − ) ) [ ]0;1α ∈ Рекуррентные формулы: (для сглаживания) (для прогнозирования) (параметр) Метод экспоненциального сглаживания 0 50 000 100 000 150 000 200 000 250 000 300 000 350 000 0 5 10 15 20 25 30 Период Продажи Продажи (Напитки) Экспоненциальное сглаживание Экспоненциальное сглаживание (прогноз) Метод экспоненциального сглаживания 0 50 000 100 000 150 000 200 000 250 000 300 000 350 000 0 5 10 15 20 25 30 Период Продажи Продажи (Напитки) Экспоненциальное сглаживание Экспоненциальное сглаживание (прогноз) α=0.7 α=0.3 Начальное значение прогноза: 1 1y y= ) 1 1 1 k t t y y k = = ∑ ) t k ty y+ = ) ) Прогноз:
  18. 18. 18 18 Весовые коэффициенты значений временного ряда 0.00 0.05 0.10 0.15 0.20 0.25 i i-1 i-2 i-3 i-4 i-5 i-6 i-7 i-8 i-9 i-10 i-11 i-12 i-13 i-14 i-15 i-16 i-17 i-18 i-19 i-20 i-21 i-22 период (текущий = i) k Действие коэффициента затуханияДействие коэффициента затухания ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 2 2 1 2 2 3 1 2 3 ˆ ˆ ˆ1 1 1 ˆ1 1 ˆ1 1 1 ... t t t t t t t t t t t t t y y y y y y y y y y y y y α α α α α α α α α α α α α α α α − − − − − − − − = × + × − = × + × + × − × − = = × + × × − + × − = = × + × × − + × × − + × − = ( )1 , , 1, 2... i t tk t i i iα α − = × − = − −
  19. 19. 19 19 Метод скользящего среднегоМетод скользящего среднего o Прогнозируемое значение определяется путем усреднения нескольких отсчетов временного ряда (усреднение по «окну») o Применяются две модификации: для простого сглаживания ряда и для построения прогноза Положение окна относительно текущего Положение окна относительно текущего периода при сглаживании периода при прогнозировании yi-k yn-w+1 … yi => y`i=СРЗНАЧ(по окну) yn-1 yn => y`n=СРЗНАЧ(по окну) yi+k Прогноз: y`n+1=yn k - количество периодов в прошлом (или в будущем), которые учитываются при усреднении вместе с текущим i-м значением w - общая ширина окна сглаживания При использовании "центрированного" скользящего среднего w всегда нечетная, в модификации для прогнозирования можно брать любую w Получение сглаженного значения по исходному ряду в методе скользящего среднего При сглаживании: При прогнозировании: k = 1 w = 2k+1 = 3 w = 4 Период Исходный Сглаженный Период Исходный Сглаженный 1 y1 #Н/Д 1 y1 #Н/Д 2 y2 y`2=(y1+y2+y3)/3 2 y2 #Н/Д 3 y3 y`3=(y2+y3+y4)/3 3 y3 #Н/Д … … … 4 y4 y`4=(y1+y2+y3+y4)/4 n-2 y[n-2] … 5 y5 y`5=(y2+y3+y4+y5)/4 n-1 y[n-1] … … … … Последнее: n y[n] #Н/Д <окно выходит n-3 y[n-3] … за пределы ряда n-2 y[n-2] … n-1 y[n-1] … Последнее фактическое значение: n y[n] … Прогноз: n+1 y[n+1] =y[n]
  20. 20. 20© Заходякин Г.В., 2008 20 Особенности метода скользящего среднегоОсобенности метода скользящего среднего o Увеличение ширины окна: – увеличивает степень сглаживания – уменьшает длину ряда – увеличивает запаздывание o Метод плохо работает при наличии тенденции или резких изменений o Метод чувствителен к случайным выбросам Метод скользящего среднего 0 50 000 100 000 150 000 200 000 250 000 300 000 350 000 0 5 10 15 20 25 30 Период Продажи Продажи (Напитки) Скользящее среднее (центрированное) Скользящее среднее (прогноз) Метод скользящего среднего 0 50 000 100 000 150 000 200 000 250 000 300 000 350 000 0 5 10 15 20 25 30 Период Продажи Продажи (Напитки) Скользящее среднее (центрированное) Скользящее среднее (прогноз) w=3 w=7
  21. 21. 21 МедианаМедиана o Медиана – серединное значение вариационного ряда: – значение, находящееся в середине упорядоченного по возрастанию ряда – квантиль уровня 0.5 функции распределения o В отличие от среднего, не подвержена влиянию выбросов – точек, сильно удаленных от центра ряда Время в интернет, час/неделя     Среднее 32.2 Стандартная ошибка 4.7 Медиана 25 Мода 50 Стандартное отклонение 26.4 Дисперсия выборки 699.4 Эксцесс 0.3 Асимметричность 1.1 Интервал 98 Минимум 2 Максимум 100 Сумма 998 Счет 31 № Время в  интернет Время,  упоряд. F 1 85 2 3.2% 2 15 5 6.5% 3 25 5 9.7% 4 50 7 12.9% 5 70 8 16.1% 6 30 10 19.4% 7 8 10 22.6% 8 35 10 25.8% 9 5 13 29.0% 10 28 14 32.3% 11 10 15 35.5% 12 10 15 38.7% 13 36 20 41.9% 14 20 20 45.2% 15 20 20 48.4% 16 2 25 51.6% 17 100 28 54.8% 18 45 30 58.1% 19 15 30 61.3% 20 75 35 64.5% 21 14 35 67.7% 22 35 36 71.0% 23 7 45 74.2% 24 30 50 77.4% 25 50 50 80.6% 26 50 50 83.9% 27 13 70 87.1% 28 5 75 90.3% 29 10 80 93.5% 30 80 85 96.8% 31 20 100 100% Histogramof time 26% 23% 13% 10% 13% 3% 6% 3% 3% 10 20 30 40 50 60 70 80 90 time 0 1 2 3 4 5 6 7 8 9 Noofobs 26% 23% 13% 10% 13% 3% 6% 3% 3% time : N=31;Mean=32.1935;StdDv=26.4467;Max=100;Min=2
  22. 22. 22© Заходякин Г.В., 2008 22 Метод скользящей медианыМетод скользящей медианы o Вместо среднего по окну этот метод использует другую статистику – медиану o В Excel можно использовать функцию МЕДИАНА() o Метод менее чувствителен к резким выбросам, чем среднее Метод скользящего среднего 0 50 000 100 000 150 000 200 000 250 000 300 000 350 000 0 5 10 15 20 25 30 Период Продажи Продажи (Напитки) Скользящее среднее (центрированное) Скользящее среднее (прогноз) Метод скользящей медианы 0 50 000 100 000 150 000 200 000 250 000 300 000 350 000 0 5 10 15 20 25 Период Продажи Продажи (Напитки) Скользящая медиана (центрированная) Скользящая медиана (прогноз) w=3 w=3
  23. 23. 23 23 Метод ХолтаМетод Холта o Применяется для временных рядов с тенденцией o Сглаживание применяется дважды: к исходному ряду и к ряду из приращений, который отслеживает тенденцию ( ) ( )1 1 ˆ ˆ1t t t ty y y Tα α − −= × + − × + ( ) ( )1 1 ˆ ˆ 1t t t tT y y Tβ β− −= × − + − × - сглаженный ряд - тенденция ˆ ˆt k t ty y k T+ = + × - прогноз для k-го периода в будущем -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Фактический спрос Метод Холта Экспоненциальное сглаживание ( ) ( )2 1 3 2 1 2 y y y y T − + − =
  24. 24. 24 24 Метод ВинтерсаМетод Винтерса o Применяется для временных рядов с тенденцией и сезонностью o Сглаживание применяется трижды: к исходному ряду, ряду из приращений, который отслеживает тенденцию, сезонным поправкам ( ) ( )1 1 ˆ ˆ1t t t t t s y y y T S α α − − − = × + − × + ( ) ( )1 1 ˆ ˆ 1t t t tT y y Tβ β− −= × − + − × - сглаженный ряд без сезонной компоненты - тенденция ( )ˆ ˆt k t t t k sy y k T S+ + −= + × × - прогноз для k-го периода в будущем ( )1 ˆ t t t s t y S S y γ γ −   = × + − × ÷   - сезонный коэффициент s – период сезонных колебаний Начальные условия: (a) (б) 1 1 ˆy y= 1 0T = 1 1sS S =K 1 1 1 ˆ s t t y y s = = ∑ 1 , 1 ˆ i i y S i s y = = K250 270 290 310 330 350 370 0 2 4 6 8 10 12 14 16 Продажи Винтер (с поправкой)
  25. 25. 25 Оптимальный выбор параметров сглаживанияОптимальный выбор параметров сглаживания o Использование стандартной ошибки (RMSE) в качестве критерия оптимизации параметров приводит к совпадению исходного и сглаженного ряда (RMSE=0) o В качестве критерия оптимизации можно использовать величину: – сумма считается по тем периодам, когда возможно посчитать остаток (есть прогноз и есть факт) o - прогноз на 1 период вперед, вычисленный на шаге t-1 – для простого экспоненциального сглаживания: – для метода Холта: – для метода Винтерса: ( )( ) 2 1 1 ˆ 1 mint tSSE y y −= − →∑ ( )( ) 2 1 1 ˆ 1 mint tSSE y y −= − →∑ ( )1 ˆ 1ty − ( )1 1 ˆ ˆ1t ty y− −= ( )1 1 1 ˆ ˆ1t t ty y T− − −= + ( ) ( )1 1 1 ˆ ˆ1t t t t sy y T S− − − −= + ×
  26. 26. 26 26 Стандартная декомпозиция рядаСтандартная декомпозиция ряда Аддитивная модель: Мультипликативная модель: ( ) ( ) ( )ˆy t T t S t= + ( ) ( ) ( )ˆy t T t S t= × ( ) ( ) ( )S t y t T t= − ( ) ( ) / ( )S t y t T t= ( ) 0S t =∑ ( )S t s=∏ y = 1.9231x + 306.67 R 2 = 0.1739 270 280 290 300 310 320 330 340 350 360 370 0 5 10 15 20 Продажи Прогноз (аддит. модель) Прогноз (мульт. модель) Линейный (Продажи)

×