4. непараметрическое моделирование

Непараметрическое моделирование
Финансовая эконометрика

Содержание
• гистограммы
• ядерные оценки в одномерном случае
• ядерные оценки в многомерном случае

Параметры гистограммы
Длина интервалов влияет на детализацию гистограммы
Histogram of data Histogram of data
2.0

2.0
1.5

1.5
Density

Density
1.0

1.0
0.5

0.5
0.0

0.0

-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6

y y

Параметры гистограммы
Область определения может повлиять на форму
Histogram of data Histogram of data
2.0

2.0
1.5

1.5
Density

Density
1.0

1.0
0.5

0.5
0.0

0.0

-0.5 0.0 0.5 -0.5 0.0 0.5

y y

Оценка плотности распределения
•

Одномерный случай

Простая непараметрическая оценка
•

Small h Large h
3.5
3.0

2.5
2.5

2.0
2.0
Density

Density

1.5
1.5

1.0
1.0

0.5
0.5
0.0

0.0

-1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0

y y

Ядерная оценка
•

Ядерные функции
•

Kernel function Kernel function

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4

-3
-3

-2
-2

-1
-1

0
0

x
x
Gaussian kernel

Triangular kernel

1
1

2
2

3
3

Kernel function Kernel function
Ядерные функции

0.0 0.1 0.2 0.3 0.4 0.5 0.00 0.05 0.10 0.15 0.20 0.25 0.30

-3
-3

-2
-2

-1
-1

0
0

x
x

Uniform kernel

1
1
Epanechnikov kernel

2
2

3
3

Влияние ширины интервала
Тогда как выбор ядра оказывает незначительное влияние на
оценку плотности, выбор ширины интервала имеет
решающее значение

Under-smoothed estimate Over-smoothed estimate
2.5

2.5
2.0

2.0
1.5

1.5
Density

Density
1.0

1.0
0.5

0.5
0.0

0.0

-1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0

y y

Выбор ширины интервала
Существует два основных подхода к определению величины
сглаживающего множителя (ширины интервала):
1. Фиксированная ширина интервала на всей выборке. В
рамках этого подхода выделяют:
• правило подстановки (rule of thumb);
• метод перекрёстной проверки (cross-validation)

2. Ширина интервала меняется в зависимости от
локальной концентрации наблюдений. Методы:
• обобщённый метод ближайших соседей (generalized nearest
neighbors);
• адаптивный метод (adaptive nearest neighbors)

Фиксированная ширина интервала

ОДНОМЕРНЫЙ СЛУЧАЙ

Среднеквадратичная ошибка
•

Дисперсия и смещение оценки
•

Интегральная среднеквадратичная ошибка
•

1 Далее вместо определённого интеграла по всей числовой оси будет использоваться неопределённый

Оптимальная ширина интервала
•

Методы оценки оптимальной ширины интервала
•

Правило подстановки
•

Модифицированное правило подстановки
•

Метод перекрёстной проверки
•

Меняющаяся ширина интервала
(адаптивные методы)

ОДНОМЕРНЫЙ СЛУЧАЙ

Адаптивные методы
Распределение данных может иметь различную
концентрацию в центре и на хвостах, поэтому логично
использовать широкий интервал h там, где они
расположены редко (на хвостах), и меньший — в зонах
высоких концентраций (в центре)
Ядерные оценки с постоянной шириной интервала в случае
гетерогенной концентрации данных пересглаживают
распределение в центре и недосглаживают на хвостах:
Fixed bandwidth
2.5
2.0
1.5
Density

1.0
0.5
0.0

-1.0 -0.5 0.0 0.5 1.0

y

Метод ближайших соседей
•

Оценка плотности
•

Достоинства и недостатки метода
•

Адаптивный метод ближайших соседей
•

Сравнение адаптивных методов
Generalized NN Adaptive NN
2.5

2.5
2.0

2.0
Density

1.5

Density

1.5
1.0

1.0
0.5

0.5
0.0

0.0
-1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0
Adaptive (lambda)
y y
2.5
2.0
Density

1.5
1.0
0.5
0.0

-1.0 -0.5 0.0 0.5 1.0

y

Практическая часть

Построение непараметрических оценок плотности
в программной среде «R»
cran.r-project.org

Пример 1. Острова
Histogram of y
library(datasets)
y <- log(islands)

0.4
Построение гистограммы

0.3
hist(y,nclass=12,probability=TRUE)

Density
• nclass определяет количество

0.2
интервалов

0.1
• probability преобразует количество
наблюдений в интервале в плотность

0.0
2 4 6 8 10
распределения y

С помощью дополнительного параметра breaks=c(y1,…,yk)
задаётся разбиение на интервалы

Простая непараметрическая оценка плотности
L <- 10^4; N <- length(y)
h <- 2 # ширина интервала
# в точках х будет оцениваться плотность
x <- seq(0,12,length=L) # последовательность 0 – 12 длиной L
f.naive <- numeric() # нулевой (пока) вектор оценок
# считаем количество элементов в интервалах xi ± h/2
for (i in 1:L) f.naive[i] <- sum(1*((y>x[i]-h/2)&(y<x[i]+h/2)))
f.naive <- f.naive/(N*h) # нормируем оценку

График простой оценки
plot(x,f.naive,type="l",main="Naive estimate",
xlab="y",ylab="Density")
rug(y,col=3)
• type определяет вид графика
Naive estimate
"l" — линии, "p" — точки, …

0.35
• main — заголовок

0.30
• xlab — подпись на оси х

0.25
• ylab — подпись на оси у
0.20
Density

0.15
0.10
0.05
0.00

0 2 4 6 8 10 12

y

Ядерные оценки
library(np)
f.fix <- npudens(tdat=y,edat=x,
ckertype="gaussian",bwtype="fixed")
• tdat — обучающая выборка
• edat — точки, в которых рассчитывается оценка
• ckertype — вид ядерной функции
"gaussian", "epanechnikov", "uniform"
• bwtype определяет метод расчёта интервала h
"fixed", "generalized_nn", "adaptive_nn"
• f$dens — искомые значения оценок
Пусть f.fix, f.gen и f.ada — оценки плотности с фиксированным
интервалом, по обобщённому методу ближайших соседей и по
адаптивному методу ближайших соседей

•

plot(x,f.fix$dens,type="l",
main="Gaussian kernel, fixed bandwidth",

Gaussian kernel, fixed bandwidth

0.35
0.30
0.25
0.20
Density

0.15
0.10
0.05
0.00

0 2 4 6 8 10 12

y

plot(x,f.gen$dens,type="l",
main="Gaussian kernel, generalized nn",

Gaussian kernel, generalized nn

3
Density

2
1
0

0 2 4 6 8 10 12

y

plot(x,f.ada$dens,type="l",
main="Gaussian kernel, adaptive nn",

Gaussian kernel, adaptive nn

0.065
0.060
0.055
0.050
Density

0.045
0.040
0.035
0.030

0 2 4 6 8 10 12

y

Сравнение адаптивной и фиксированной оценок
plot(x,f.fix$dens,type="l",lty="dashed",ylim=c(0,0.4),
main="Fixed and adaptive estimates",

lines(x,f) Fixed and adaptive estimates

0.4
• lty — тип линии
"solid", "dashed", "dotted",

0.3
"dotdash", "longdash", …
• ylim — границы по оси
Density

0.2

ординат
• lines — добавление кривых
0.1

на существующий график
0.0

0 2 4 6 8 10 12

y

•

llh.fix -81.17
llh.ada -81.29

•

q.fix 10.00
q.ada 10.49

Генератор случайных чисел
# фиксированный интервал
M <- 10^6
y.fix.sim <- sample(x,prob=f.fix$dens,size=M,replace=TRUE)
q.fix <- sort(y.fix.sim)[alpha*M]

# для адаптивного варианта
y.ada.sim <- sample(x,prob=f,size=M,replace=TRUE)
q.ada <- sort(y.ada.sim)[alpha*M]

q.fix 10.01
q.ada 10.46

Домашнее задание
• рассчитать оценки риска для биржевого индекса по всей
совокупности наблюдений

Исходные данные — «EuStockMarkets»

Бонусные задания (необязательные):
• сравнить оценки риска с результатами, полученными с
помощью обобщённого гиперболического распределения,
GARCH-моделей и теории экстремальных значений
• построить кривую VaR и проверить качество оценок риска

Многомерный случай

Оценки плотности
•

Двумерные ядерные функции
•

Двумерное гауссовское ядро

Bivariate gaussian kernel, 3D plot Bivariate gaussian kernel, contour plot

3
2
0.02

0.04
Weight

0.06

1
0.1

0.14

x2

0
0.12

-1
0.08
x2

-2

x1
-3

-3 -2 -1 0 1 2 3

x1

Двумерное ядро Епанечникова

Bivariate Epanechnikov kernel, 3D plot Bivariate Epanechnikov kernel, contour plot

3
2
1
0.1
Weight

0.3
0.4

x2

0
0.6

0.5

0.2

-1
x2

-2

x1
-3

-3 -2 -1 0 1 2 3

x1

Двумерные ядерные функции

Bivariate Epanechnikov kernel Product of two univariate Epanechnikov kernels
2

2
0.04

0.08
1

1
0.2
0.1
0.4
x2

x2
0

0
0.6

0.5

0.3

0.1
-1

-1 0.06
-2

-2

0.02

-2 -1 0 1 2 -2 -1 0 1 2

x1 x1

Различные сглаживающие параметры
•

2D Epanechnikov kernel, two separate smooth. par.
1.0
0.5

0.1

0.3

0.5
0.0
x2

0.6

0.4

0.2
-0.5
-1.0

-1.0 -0.5 0.0 0.5 1.0

x1

Сглаживающая матрица
•

Bivariate Epanechnikov kernel, matrix-smoothing par.

0.1
1.0

0.2

0.3

0.4
0.5

0.5

0.6
0.0
x2

-0.5
-1.0

-1.0 -0.5 0.0 0.5 1.0

x1

Обобщённый метод ближайших соседей
•

Пример 2. Старый служака
y <- faithful; N <- nrow(y)

# сетка для расчёта оценок плотности
L <- 50; u <- seq(0,7,length=L); v <- seq(30,110,length=L)
uv <- expand.grid(u,v)

# оценка плотности
f.fix <- npudens(tdat=y,edat=uv,ckertype="gaussian",bwtype="fixed")

# графики оценки
w <- f.fix$dens; dim(w) <- c(L,L)

persp(u,v,w,theta=30,main="Bivariate kernel estimate, 3D plot",
xlab="Eruption time",ylab="Waiting time",zlab="Density")

contour(u,v,w,nlevel=7,
main="Bivariate kernel estimate, contour plot",
xlab="Eruption time",ylab="Waiting time")


Bivariate kernel estimate, 3D plot Bivariate kernel estimate, contour plot

100
0.005

0.015

02
0.

0.
03
80
Density

Waiting time
5
0.02

0.01

0.01

60
0.02

0.025
e
tim

5
0.01
g
itin

0.005
Eru
40
Wa

ptio
n tim
e

0 1 2 3 4 5 6 7

Eruption time

•


Adaptive bivariate kernel estimate, 3D plot Adaptive bivariate kernel estimate, contour plot

100
0.02

80

0.04
Waiting time
0.03
Density

0.01

0.01

60

0.03
e

0.0
tim

2
g
itin

Eru
40
Wa

ptio
n tim
e

0 1 2 3 4 5 6 7

Eruption time

Значения логарифмической функции правдоподобия
# оценки плотности в точках yi
f.fix.llh <- npudens(tdat=y,ckertype="gaussian",bwtype="fixed")
llh.fix <- sum(log(f.fix.llh$dens))

# для адаптивного метода
f.llh <- rep(0,times=N)
for (i in 1:N) {
for (j in 1:N) f.llh[i] <- f.llh[i]+kern((y[i,]-
y[j,])/(h*lmbd[j]))/lmbd[j]^2
f.llh[i] <- f.llh[i]/(N*h[1]*h[2])
}
llh.ada <- sum(log(f.llh))

llh.fix -1106
llh.ada -1114

Расчёт функций распределения

# фиксированный метод
F.fix <- npudist(tdat=y,edat=uv,ckertype="gaussian",bwtype="fixed")

# адаптивный метод CDF estimate, 3D plot
du <- u[2]-u[1]; dv <- v[2]-v[1]
w <- f; dim(w) <- c(L,L)
F <- rep(0,times=L^2)
for (i in 1:L) {
for (j in 1:L) F[j+(i-1)*L] <-
sum(w[1:j,1:i])*du*dv
CDF
}

e
tim
g
itin
Eru

Wa
ptio
n tim
e

Генератор случайных чисел
# для адаптивного метода
alpha <- 0.99
M <- 5000
smpl.ind <- sample(1:(L^2),prob=f,size=M,replace=TRUE)
y.ada.sim <- uv[smpl.ind,]
plot(y.ada.sim,xlab="Eruption",ylab="Waiting time")

100
80
Waiting time

60
40

1 2 3 4 5 6

Eruption

Рисование графиков с перекрывающими друг друга точками
plot(y.ada.sim,col=rgb(0,0,1,alpha=0.2))
smoothScatter(y.ada.sim)

Домашнее задание
• рассчитать оценки риска для портфеля из двух биржевых
индексов

Исходные данные — «EuStockMarkets»

Бонусное задание (необязательное):
• построить кривую VaR для портфеля и проверить качество
оценок

4. непараметрическое моделирование

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (8)

4. непараметрическое моделирование